KOBICian’s Story

- 작성자 정해영 (KOBIC 센터장/책임연구원)
- 작성일2024-06-27 16:05:51
- 조회수370
- 댓글수0
과거보다 ‘데이터’라는 낱말을 쓰는 일이 훨씬 많아졌습니다. 데이터 사이언티스트, 데이터 센터, 데이터 통합, 데이터 플랫폼, 데이터 스테이션… 특히 요즘 들어서 더욱 인기를 끌고 있는 인공지능 기술의 개발과 활용에 데이터가 매우 중요하게 쓰이면서 이 낱말을 더욱 자주 접하게 됩니다. 국가바이오데이터스테이션을 구축하여 운영하는 KOBICian들에게는 더욱 친숙하게 느껴질 것입니다.
데이터의 사전적 의미를 한번 알아보겠습니다. 라틴어 datum에서 유래한 data는 참고나 분석을 위해서 수집한 사실(facts)와 통계(statistics)라는 뜻을 지니고 있습니다. 그렇다면 데이터와 정보(information)는 어떻게 다를까요? 데이터는 단순히 사실이나 관측치를 담은 자료라면, 정보는 그 데이터를 분석하고 해석하여 유용한 지식이나 의미 있는 결과물을 도출한 것으로서 의사결정의 근거가 될 수 있는 것이라고 합니다. 정보가 더욱 체계화되어서 즉시 활용할 수 있고 농축된 상태라면, 비로소 지식(knowledge)의 위치에 오르게 될 것입니다. 물론 시대가 빠르게 변하면서 지식의 유효기간도 예전만큼 길지는 않습니다. 여담입니다만 지식과 더불어 ‘지혜’의 가치 또한 가볍게 여겨서는 안 될 것입니다.
국가바이오데이터스테이션(Korea BioData Station, K-BDS)이라는 용어처럼 우리는 바이오데이터(biodata)라는 말을 생물학적 데이터(biological data)의 줄임말이라는 의미로 매우 자주 사용하고 있습니다. 구글에서 바이오데이터의 뜻을 검색해 보면, 최근 추가된 AI 기반 Search Lab의 풀이인 ‘건강정보와 유전정보 등을 포함한 생명과학 데이터’가 가장 위에 나옵니다. 그러나 이러한 자동생성 뜻풀이는 실은 K-BDS 웹사이트에서 소개한 정의를 가져다 보여주는 것이라서 바이오데이터의 원래 뜻을 잘 나타내고 있다고는 보기 어렵습니다.
영단어 biodata의 원래 의미는 한 개인의 생애, 이력, 직업, 업적 등에 관한 자료입니다. 즉 biographical data의 줄임말로 보는 것이 더욱 타당합니다. 이 의미는 더욱 확장되어 어떤 개인의 미래 행동 등을 예측할 수 있는 데이터라는 뜻으로도 쓰인다고 합니다. 어떤 문화권에서는 바이오데이터가 이력서나 자기 소개서 정도의 의미로도 쓰입니다. 이러한 이유 때문에 KOBIC에서 바이오데이터 스테이션이라는 사업명을 구체화하기 시작하였을 때, 저는 이것이 적절치 않은 낱말 선택이라는 의견을 몇 번 낸 일이 있었던 것으로 기억합니다. 우리가 나름대로 뜻을 부여하여 신조어를 창출했다면 아무런 문제가 없지만, 이미 영어권 국가에서 다른 뜻으로 쓰이는 단어를 ‘생명과학 데이터’라고 재정의한다면 보편적으로 받아들여지기 어려울 것이 자명하기 때문입니다. 어쩌면 우리가 선택한 ‘바이오데이터’라는 용어보다 조금 길더라도 ‘바이오 연구 데이터’라고 풀어서 쓰는 것이 우리의 의도를 가장 정확히 반영하는 길이 될지도 모르겠습니다. 더욱 구체적으로는 세금을 재원으로 하여 수행한 연구로 한정하였음을 강조해야 합니다. 왜냐하면 ‘연구’의 본래 의미는 지식에 대한 탐구를 기반으로 하는 인간의 활동을 전부 아우르는 것이기 때문입니다.
하지만 언어는 생물과 같아서 늘 변합니다. 원래 길이 없는 곳이라 해도 사람들이 많이 다녀서 더 이상 수풀이 자라지 않고 흙이 잘 다져졌다면 길이 되는 것이고, 필요하다면 여기에 반듯한 돌이나 아스팔트를 깔게 될 것입니다. 당장의 어법에 맞지 않는 새로운 말이라 해도 시간이 흘러 많은 대중이 선택하면 표준어로 자리를 잡는 것을 우리는 늘 보아왔습니다. 마찬가지로 KOBIC이 더욱 노력하여 K-BDS의 위상이 더욱 공고해지고 모든 바이오 연구자가 즐겨 사용하는 필수 서비스로 자리를 잡는다면, 우리가 내린 바이오데이터의 정의에 대해서 과거의 저와 같이 이의를 제기하는 사람은 더 이상 나타나지 않을 것입니다.
지금까지 데이터는 연구자들에게나 필요한 것이라고 생각되었지만, AI 시대가 되면서 산업과 사회 전반의 데이터 의존도가 더욱 높아지고 있습니다. 이에 따라서 대량의 데이터를 사고 파는 것은 전혀 새로운 일이 아니며, 점점 많은 개인이나 단체가 데이터를 유용한 자산으로 인식하게 되었습니다. 데이터는 과연 누구의 것일까요? 국민을 대표하여 연구비를 댄 정부와 연구자의 창의성 및 노력 중에 어느 것에 더 큰 비중을 두어야 할까요? 공공에게 이익이 된다는 이유로 국가가 데이터를 모으는 것은 타당할까요? 이에 대해 분명한 대답을 내리기는 여전히 어렵습니다. 특히 헬스데이터의 경우 국가의 재원이 투입되지 않은 상태로 개인이 자기 부담으로 건강관리 차원에서 생성하는 경우도 적지 않으며, 사생활과 관련한 많은 민감한 정보를 담고 있기 때문입니다.
그러나 국가연구개발사업, 즉 국민이 납부한 소중한 세금을 투입하여 생성된 연구의 결과로 도출된 데이터라면 이를 다시 수집하여 재활용하는 체계를 만들어서 새로운 가치를 만들 길을 열어 주는 것은 공공의 이익을 위하여 충분히 타당한 일이라고 보아야 할 것입니다. 물론 그 과정에서 데이터 제공 주체의 사생활을 침해한다거나 옳지 못한 목적으로 데이터가 쓰이는 일이 발생하지 않도록 모든 노력을 다해야 하며, 중앙 집중적인 데이터 관리체계의 한계점을 극복할 수 있는 대안(예: federated network)에 대해서도 관심을 가질 때입니다.
다른 KOBICian’s Story 보기

만족도 조사는 현대 사회의 수많은 서비스와 정책 속에서 사용자의 목소리를 담아내는 중요한 도구입니다. 이는 서비스 제공자와 수요자 간의 간극을 좁히고, 실질적인 변화를 이끌어냅니다. 정책, 제도, 서비스는 운영자 입장에서 설계되지만, 실제 효과는 사용자만이 판단할 수 있으며, 만족도 조사는 사용자의 경험을 수치와 언어로 표현하여 보이지 않던 불편을 드러나게 합니다. 이러한 피드백은 개선 전략 수립, 자원 재분배, 서비스 방향 전환의 핵심 자료로 활용됩니다.
예를 들어, 공공기관 복지 서비스의 만족도 조사는 단순히 예산 집행률이나 이용자 수로는 알 수 없는 담당자의 응대 태도, 접근성, 이용 절차의 간편성 등을 밝혀냅니다. 이를 통해 기관은 서비스 질을 정량 및 정성적으로 점검하고 성과를 평가할 수 있습니다. 만족도 조사는 또한 성과 중심 행정 및 경영 체계를 강화하는 데 기여하며, 조직은 내부 지표만으로는 파악하기 어려운 외부 반응을 이용자 평가를 통해 점검하게 됩니다. 높은 만족도는 올바른 방향성을, 낮은 만족도는 변화의 필요성을 시사하며 이는 공공부문뿐 아니라 기업, 교육기관, 의료기관 등 다양한 조직에 보편적으로 적용됩니다.
만족도 조사는 조직 내부 구성원에게도 의미 있는 영향을 미칩니다. 높은 만족도는 서비스 제공자에게 자긍심과 동기를 부여하고, 낮은 만족도는 개선의 필요성을 자각하게 합니다. 이는 단순한 질책이 아닌 데이터 기반의 객관적인 피드백이므로 더욱 설득력 있고 수용되기 쉬우며 결과적으로 조직 전체의 학습과 성장을 돕습니다.
무엇보다 중요한 것은 만족도 조사가 '경청의 문화'를 정착시키는 데 기여한다는 점입니다. 사용자의 의견을 경청하는 조직은 신뢰를 얻고, 신뢰는 참여로 이어져 더 나은 정책과 제도를 만듭니다. 특히 공공기관은 이용자의 참여와 신뢰 없이는 지속 가능한 발전을 기대하기 어렵고, 만족도 조사는 이러한 사회적 신뢰를 형성하는 데 중요한 역할을 합니다.
물론 만족도 조사는 응답자의 일시적인 감정에 따른 왜곡된 평가나 낮은 응답률로 인한 대표성 부족 등의 한계를 가질 수 있습니다. 그러나 이러한 한계는 조사 설계의 정교함과 후속 조치의 진정성으로 극복 가능하며, 조사 결과를 형식적인 통계로 끝내지 않고 실제 변화로 연결하려는 의지가 중요합니다. 결국 만족도 조사는 단순한 설문이 아니라 소통, 변화, 그리고 더 나은 사회를 위한 집단적 성장의 도구입니다. 우리는 질문하고 더 잘 들어야 하며, 그 안에 우리가 바라는 미래가 숨어 있습니다.
KOBIC 역시 매년 바이오 분야의 정보시스템 이용자를 대상으로 만족도 조사를 실시하고 있습니다. 만족도 조사가 형식적인 절차로 끝나지 않도록 조사 결과를 적극적으로 분석하고 개선하며, 이를 위해 전담 인력을 배치하고 정책 반영에 적극적으로 활동하고 있습니다. 이처럼 이용자들의 평가와 의견이 완성도 높은 시스템을 만드는 데 기여합니다. 상대방의 의견에 귀 기울이고 적극적으로 해결하려는 노력은 바이오 정보 분야에서 KOBIC의 성장을 이끌 것입니다.
결론적으로, 만족도 조사는 단순한 피드백 수집을 넘어, 기관의 운영 및 성과 개선, 고객과 직원의 만족도를 동시에 높이는 선순환 구조를 구축하는 핵심 도구입니다. 앞으로도 더 나은 서비스를 제공하기 위해 만족도 조사에 참여하는 이용자들의 냉정한 평가와 진심 어린 조언을 당부드립니다.
- 작성자전용진
- 작성일2025-08-04
- 조회수13
- 댓글수0

데이터의 바다에서 보물을 찾는 항해를 상상해 보십시오. 넘실거리는 데이터의 파도 속에서 필요한 정보를 찾아내는 일은 마치 광활한 대양에서 보석을 건져 올리는 것처럼 쉽지 않은 도전입니다. 오늘날 생명과학 분야에서는 실로 방대한 양의 바이오 데이터가 생산되고 있습니다. 이 귀중한 데이터들은 곳곳에 흩어져 있어, 연구자나 기업이 자신에게 필요한 '보물'을 찾기 위해서는 많은 시간과 노력이 필요합니다.
이러한 문제를 해결하기 위해 탄생한 것이 바로 국가 바이오 데이터 스테이션(K-BDS)입니다. K-BDS는 국가연구개발사업을 통해 생산된 바이오 연구 데이터를 한데 모아 보관하고, 이를 연구자들에게 공유하기 위해 구축된 거대한 플랫폼입니다. 즉, K-BDS는 우리나라 바이오 연구자들에게는 일종의 광활한 데이터 바다와 같습니다. 그러나 아무리 바다가 넓고 보물이 많아도, 필요한 것을 제때 찾아내지 못하면 소용이 없습니다. 실제로 K-BDS에 방대한 데이터가 축적되어 있음에도 불구하고, 원하는 정보를 빠르게 찾아 활용하는 데에는 여전히 어려움이 있습니다. 이는 마치 지도가 없는 채로 바다에서 보물을 찾는 항해와도 같습니다.
그렇다면 어떻게 해야 거대한 데이터 바다 속에서 효율적으로 보물을 찾아낼 수 있을까요? K-BDS의 데이터 활용도를 높이기 위해 두 가지 전략을 제안합니다. 첫째, 데이터를 연구 목적별로 카테고리화하여 체계적으로 분류하는 것입니다. 둘째, 인공지능(AI) 기반 자연어 검색 기능을 도입하여 사용자가 일상 언어나 전문 용어로 질문해도 원하는 데이터를 찾아줄 수 있도록 하는 것입니다.
우선, 목적별 데이터 카테고리화에 대해 살펴보겠습니다. 현재 K-BDS에는 유전체, 대사물질, 광학영상 등 다양한 종류의 바이오 데이터가 담겨 있습니다. 그러나 이 데이터들은 주로 데이터 유형별로 정리되어 있을 뿐, 특정 샘플이나 연구 주제별로 쉽게 묶여 있지 않습니다. 예를 들어 어떤 연구자가 폐암과 관련된 유전체 데이터를 찾으려 할 때, '유전체 데이터' 항목에 가서 일일이 폐암과 관련된 항목을 찾아내야 할지도 모릅니다. 데이터가 너무 많다 보니 원하는 정보를 발견하는 데 시간이 걸리고, 경우에 따라서는 해당 데이터의 존재조차 알지 못한 채 지나칠 수도 있습니다. 만약 폐암, 알츠하이머, 감염병 등 주요 질환별로 데이터가 카테고리화되어 제공된다면 어떨까요? 연구자는 관심 질환 카테고리를 클릭하는 것만으로 관련된 데이터 목록을 한눈에 살펴볼 수 있을 것입니다. 또한 연구 목적에 따라 신약 개발, 진단 기술, 유전 연구 등으로 분류가 이루어진다면, 사용자는 자신의 프로젝트 목적에 부합하는 자료들을 더욱 손쉽게 탐색할 수 있습니다. 이러한 분류 체계는 거대한 데이터 바다에 지도를 그려주는 셈이며, 연구자들이 자신의 여정에서 목표 지점까지 효율적으로 도달할 수 있게 도와줄 것입니다. 이렇게 되면 연구자들이 일일이 방대한 자료를 뒤지느라 허비하는 시간을 줄이고, 그만큼 본연의 연구에 더 집중할 수 있게 됩니다.
다음으로, AI 기반 자연어 검색 기능의 도입입니다. 방대한 데이터 속에서 원하는 정보를 찾는 또 다른 핵심 도구는 바로 검색 기능입니다. 기존의 검색은 주로 정확한 키워드나 일치하는 용어에 의존하기 때문에, 사용자가 어떤 표현을 써야 할지 모르면 원하는 결과를 얻기 어려울 때가 있습니다. 그러나 인공지능 기술을 접목한 자연어 검색은 사용자의 질문을 사람이 대화하듯이 이해하고, 그 의도에 맞는 데이터를 찾아줄 수 있습니다. 예를 들어 연구자가 "국내 알츠하이머 환자의 유전체 돌연변이 데이터를 찾아줘"라고 자연스럽게 질문한다면, AI 검색 엔진은 이 문장을 이해하고 K-BDS에 저장된 알츠하이머 환자 관련 프로젝트들의 유전체 원시데이터(fastq) 와 돌연변이 분석기법들을, 또는 이미 분석된 데이터(vcf) 결과파일을 찾아 보여줄 수 있을 것입니다. 별도로 전문 용어나 복잡한 검색 조건을 몰라도, 연구자가 질문만 던지면 AI가 맥락을 파악해 방대한 데이터 속에서 알맞은 정보를 주는 것입니다. 이는 마치 항해자의 나침반과 별자리가 되어 목적지를 찾아가는 것과 같습니다.
이 두 가지 전략이 도입된다면, K-BDS는 거대한 바이오 데이터의 바다이자 진정한 보물 찾기의 항해를 지원하는 든든한 동반자가 될 것입니다. 체계적인 데이터 카테고리화는 정돈된 지도가 되고, 자연어 검색은 탐험에 나선 연구자들이 방향을 잃지 않도록 이끌어 줄 것입니다. 그 결과 더 많은 연구자들이 K-BDS를 적극 활용하여 귀중한 데이터를 빠르게 찾아내고, 새로운 과학적 발견이나 혁신적인 생명공학 성과를 이루어낼 수 있을 것입니다. 방대한 데이터의 바다에 뛰어든 항해자들이 안전하고 효율적으로 보물을 발견하도록 돕는 것, 그것이 바로 K-BDS가 나아가야 할 방향입니다. 우리 모두 이 항해를 통해 얻은 보물로 대한민국 바이오 연구의 지평을 한층 넓혀 나가길 기대합니다. 또한 오랜 시간과 비용을 들여 확보한 소중한 연구 데이터들이 사장되지 않고 활발히 활용됨으로써, 국가 연구개발 투자에 대한 가치도 더욱 높아질 것입니다.
(출처: ChatGPT로 생성)
※다음 글에서는 생성형 AI가 구현하는 자동 분석 파이프라인, 연구 가이드, 실시간 Q&A 챗봇 등 K-BDS의 한층 스마트해진 모습을 소개할 예정입니다. 많은 기대 부탁드립니다!
- 작성자장기원
- 작성일2025-07-28
- 조회수98
- 댓글수0

웹 주소, 즉 URL(Uniform Resource Locator)은 웹 공간을 오가는 핵심 통로로서 본래 영문 알파벳과 숫자, 일부 특수문자로 구성되어야 하며 전 세계에서 동일한 방식으로 해석되어야 하는 국제 표준입니다. 그만큼 단순하고 기억하기 쉬울수록 사용자로서는 반가운 일입니다. 그래서 편리성을 이유로 한글이나 비영문 문자를 웹 주소에 사용하여 정보 접근성을 높이는 경우가 많아지고 있습니다(예: https://example.com/공지사항). 하지만 이러한 편리함 뒤에는 기술적 오류와 보안 위협이라는 보이지 않는 위험이 함께 도사리고 있습니다. 기술적으로 웹 주소는 영어 알파벳, 숫자, 일부 특수문자만을 표준으로 인식합니다. 따라서 한글이 포함된 URL은 반드시 내부적으로 퍼센트 인코딩(percent encoding) 과정을 거쳐야 합니다.
구분 | 웹 주소 예시 |
한글 기반 웹 주소 | https://example.com/공지사항/2025년-업데이트 |
퍼센트 인코딩 | https://example.com/%EA%B3%B5%EC%A7%80%EC%82%AC%ED%95%AD/2025%EB%85%84-%EC%97%85%EB%8D%B0%EC%9D%B4%ED%8A%B8 |
한글이 포함된 URL은 브라우저와 서버 간의 인코딩 해석이 달라질 경우, 주소가 깨지거나 404 오류가 발생하는 일이 종종 있습니다. 특히 경로를 복사해 다른 브라우저에서 열거나, 로그 상의 한글이 제대로 처리되지 않으면 장애 분석과 트래픽 모니터링에도 지장을 줄 수 있습니다. 이러한 기술적인 문제 외에도 보안 문제가 발생할 수 있습니다.
예를 들어, 사용자는 주소창에 kakao.com을 입력했다고 생각하지만, 실제로는 러시아어 소문자 'а'(U+0430)가 포함된 kаkао.com이라는 가짜 도메인일 수 있습니다. 이 가짜 도메인은 영어 알파벳 'a'나 'o'와 모양이 거의 구분되지 않는 러시아어 문자 'а', 'о'를 교묘하게 섞어 만든 것으로, 육안으로는 정상 도메인과 똑같아 보입니다. 그러나 브라우저가 인식하는 것은 전혀 다른 도메인입니다. 즉, 주소창에는 'kakao.com'로 나타나지만, 실제로는 완전히 다른 주소이며 피싱 사이트로 연결될 수 있습니다. 이를 악용하는 것이 바로 '호모그래프(Homograph)' 피싱 공격입니다.
이러한 현상은 한글뿐 아니라, 비ASCII 문자 기반 국제 도메인(IDN) 전반에서 나타날 수 있습니다. 이때 사용되는 국제화 도메인(IDN)은 브라우저 내부에서 ‘Punycode’로 변환되어 처리됩니다. 이는 유니코드 문자를 ASCII 문자로 바꿔 도메인 시스템이 인식할 수 있도록 하는 표준 인코딩 방식으로, 예를 들어 러시아어 문자가 섞인 kаkао.com은 실제로 xn--kkxo30a.com으로 표시됩니다.
보기에는 같은 주소 | 실제 구성 | 브라우저 내부 처리 |
kakao.com | 영어 알파벳만 사용 | kakao.com |
kakao.com | 러시아어 'а', 'о' 포함 | xn--kkxo30a.com |
브라우저에 따라 이를 탐지하면 xn--으로 시작하는 경고 형태로 표시되지만, 일부 모바일 환경에서는 이런 구분이 제대로 적용되지 않아 주의가 필요합니다. 이러한 공격은 사용자가 주소를 제대로 인식하지 못하도록 유도해 정보를 탈취하는 방식으로 설계됩니다. 따라서 웹사이트에 접속할 때는 도메인이 정확한 영문 알파벳으로 구성되어 있는지 확인해야 하며, xn--으로 시작하는 경우에는 반드시 경계해야 합니다. 가능하면 북마크나 공식 앱을 통해 접근하고, 문자나 이메일의 링크는 클릭 전에 전체 주소를 확인하는 습관이 필요합니다. 특히 한글 경로나 외국어 문자가 포함된 URL이 적절히 필터링되지 않는 환경에서는 이러한 공격이 더욱 쉽게 성공할 수 있습니다. 문자가 인코딩되지 않거나, 서버가 이를 제대로 해석하지 못하면 의도하지 않은 실행 경로로 이어질 수 있기 때문입니다.
이처럼 한글 URL은 활용에 주의가 필요한 요소지만, 신중한 설계와 운용이 전제된다면 사용될 수 있습다. 다만 웹 주소는 단순한 텍스트가 아니라, 시스템 내부에서 경로나 명령어로 해석될 수 있는 실행 단위이기 때문에, 이를 안전하게 처리하려면 인코딩과 디코딩 절차, 그리고 철저한 입력 검증이 반드시 따라야 합니다. 그러나 실제 운영 환경에서는 이론적인 처리와 달리, 여전히 한글 URL이 다양한 시스템과의 호환성 문제를 일으키고 있습니다. 글로벌 웹 환경에서는 특히 한글 주소가 예외 처리 대상이 되기 쉽고, 웹 크롤러나 API 클라이언트, 보안 스캐너 등 자동화 도구들이 이를 정확히 해석하지 못해 접근 오류나 보안 사각지대를 유발할 수 있습니다. 따라서 실무에서는 한글보다는 의미 있는 영문 슬러그(slug)를 사용하는 것이 바람직합니다.
슬러그는 URL의 일부로 쓰이는 짧고 명확한 식별자를 말합니다. 일반적으로 띄어쓰기를 하이픈(-)으로 연결한 형태로 구성되며, 예를 들어 ‘https://example.com/공지사항’ 대신 ‘https://example.com/notice-update-2025’처럼 표현되는 방식입니다. 슬러그는 다국어 환경에서도 높은 호환성을 가지며, 브라우저와 서버 간 인코딩 충돌 없이 안정적으로 처리됩니다. 또한 가독성과 일관성 측면에서 보안뿐 아니라 SEO(검색 엔진 최적화) 측면에서도 중요한 역할을 합니다.
이처럼 웹 주소의 구성은 단순한 표현이 아니라, 사용자 경험은 물론 시스템의 안정성과 보안까지 영향을 미치는 요소입니다. 결국 사용자 중심의 편리함도 견고한 기술과 보안 위에서만 지속될 수 있습니다. 아무리 직관적이고 친숙한 한글 웹 주소라도, 그 이면의 시스템 구조와 보안 위협을 간과한다면 전체 서비스의 신뢰성과 안정성이 무너질 수 있습니다. 웹 주소는 단순한 표현이 아니라 시스템의 일부이며, 기술자와 기획자, 콘텐츠 관리자 모두가 이를 인식하고 올바른 설계 원칙을 함께 마련해야 합니다.
- 작성자고건환
- 작성일2025-07-21
- 조회수104
- 댓글수2