메뉴 바로가기 본문 바로가기 하단 바로가기

KOBICian’s Story

프로필사진
[23호] 유전체 정보의 유지보수는 언제까지?
  • 작성자 정해영 (KOBIC 센터장/책임연구원)
  • 작성일2024-08-16 14:09:50
  • 조회수421
  • 댓글수0

최근까지 약 한 달 반의 시간을 들여서 세 건의 바이오프로젝트와 이에 따르는 데이터를 K-BDS에 등록하였습니다. 이는 2004년에 착수하여 2009년 논문 발표로 마무리되었던 두 종류의 대장균 B 균주, 즉 REL606과 BL21(DE3)의 유전체 해독 프로젝트와 관련한 것입니다. BL21(DE3)는 T7 RNA 중합효소의 유전자를 갖도록 만들어진 균주로서 재조합 단백질의 대량 생산에 매우 널리 쓰이고 있습니다. 이 균주를 개발하여 1986년 논문으로 발표했던 F. William Studier 박사(1936년~)는 2024년에 머킨 생의학상(Merkin Prize in Biomedical Technology)을 수상하여 40만 달러의 상금을 받기도 했습니다. 이 상은 인류의 건강에 기여한 개인 연구자에게 수여하는 상입니다. 실험용 대장균과 인류 건강이 도대체 무슨 상관이 있을까요? 바로 그가 개발한 ‘산업용 균주’ 덕분에 각종 치료제와 COVID-19 예방용 mRNA 백신 생산이 가능해졌기 때문입니다.

 

산업용 균주의 특성은 유전체 정보를 통해서 더욱 폭넓게 이해할 수 있습니다. 특히 대장균 B 균주는 몇 가지의 단백질 분해효소가 없어서 재조합 단백질의 발현에 더욱 유리한데, 그 이유는 바로 전이성 인자, 즉 insertion sequence(IS)가 해당 유전자에 삽입되어 이를 망가뜨린 때문임을 알게 되었을 때 저는 정말 신선한 충격을 느꼈습니다. IS는 DNA의 안정성을 해치는 인자로 인식되고 있기에, 더 나은 숙주세포를 만들고자 대장균으로부터 모든 IS를 제거하려는 시도까지 벌어지는 상황이었으니까요. 이 연구를 통해서 사용 목적이나 맥락에 따라서 IS의 존재가 사람에게는 이로울 수도 있으며, 세상에 절대 선이나 악은 없다는 철학을 갖게 되었습니다.

 

대장균 B 균주는 K-12와 더불어 분자생물학과 분자유전학의 역사를 창조해 낸 주역으로서 훌륭한 모델 생명체 역할을 하였습니다. K-12 MG1655의 완전 유전체 염기서열은 1997년에 처음 공개되었으며 그 이후로도 몇 차례의 개정을 거쳤습니다. NCBI에서는 GenBank에 등록된 유전체 정보 중 대표성이 있는 양질의 것을 골라서 RefSeq 데이터베이스로 옮기게 됩니다. 특히 유명한 모델 생명체와 같이 서열 정확도가 높고 연구 커뮤니티에서 고품질의 주석화 정보를 등록한 경우 RefSeq의 우선 대상이 됩니다. 대장균 K-12 MG1655 역시 ASAP라는 커뮤니티를 통해 주석화 정보를 계속 확충해 왔습니다.

 

요즘은 NGS가 대중화되었기 때문에 전 세계적으로 매일같이 엄청난 분량의 미생물 유전체 해독 정보가 쏟아지고 있지만, 개인 연구자의 여력으로는 일단 리포지토리에 등록한 특정 균주의 유전체 정보를 지속적으로 ‘유지보수’하는 일, 즉 염기서열의 오류를 수정하고 새로운 유전자를 발견하거나 이미 알려진 유전자의 새로운 기능을 찾아 등록하는 일은 잘 하지 않게 되는 것 같습니다. 최신 유전체 해독 기술을 사용하여 참조 서열의 연속성(contiguity)을 높이거나, 여러 개체를 해독하여 그 다양성을 확인하고 범유전체(pangenome)를 구성하는 등 이미 등록된 데이터에 대한 지속적인 개선과 고도화를 추구하는 인간 유전체와는 그 목적과 입장이 매우 다르다고 여겨집니다.

 

대장균 B 균주의 최초 유전체 주석화에는 가까운 친적에 해당하는 대장균 K-12 MG1655의 것을 많이 참조하였었고, 특히 BL21(DE3)는 2015년에 재주석화를 실시한 일이 있습니다. 이번에 K-BDS에 등록한 자료는 GenBank에는 제출하기 어려운 사료(史料)성 자료, 즉 Sanger chromatogram을 이용한 조립체와 부속 파일, genome finishing 과정, 심지어 spotted microarray 설계와 관련한 풍부한 정보를 담고 있으며, 손으로 기록한 연구노트를 뒤져 가면서 총 16쪽 분량의 설명 파일(‘README’ 파일)을 만드느라 정말 많은 공을 들였습니다. 사실 그 과정 자체가 연구 못지않은 재창조 작업이라 해도 과언이 아니었습니다.

 

K-12 MG1655의 유전체 정보를 제대로 들추어 본 것은 2009년이 마지막이라서 그 후에 어떤 변경이 있었는지 궁금했습니다. 확인해 보니 현재의 유전체 염기서열 버전은 2013년 11년 3일에 최종 확정된 U00096.3으로서 이전 버전에 비해서 무려 2 kb 가까이 늘어난 상태였습니다. 이런 변화는 흔히 일어나듯 염기서열 오류를 수정한 때문이 아니었습니다. 최초의 유전체 해독 결과는 다양한 클론 및 서브클론을 대상으로한 것이라서 특정 분리균주와 잘 일치하지 않는 곳이 발견되었고, 연구자들은 많은 논의 끝에 시퀀싱된 균주로서 기탁된 ATCC 700926과 CGSC 7740의 유전체로 업데이트하기로 합의했다고 합니다.

 

20년 전 시작한 연구 데이터를 K-BDS에 등록하기 위해 자료를 정리하다가 지금까지 이어지는 이렇게 많은 이야깃거리를 찾게 될 줄은 몰랐습니다. K-12 MG1655의 유전체 프로젝트를 완수하고 여전히 정확한 염기서열을 추구하면서 ‘유지보수’를 실시하는 위스콘신 대학교 그룹의 노력, 그리고 EcoCyc 데이터베이스를 통한 주석화 정보의 지속적인 업데이트에 경의를 표합니다. 우리도 이에 버금가는 책임의식을 가질 수 있다면 정말 좋겠습니다.

 

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

KOBICian's Story Thumbnail

만족도 조사는 현대 사회의 수많은 서비스와 정책 속에서 사용자의 목소리를 담아내는 중요한 도구입니다. 이는 서비스 제공자와 수요자 간의 간극을 좁히고, 실질적인 변화를 이끌어냅니다. 정책, 제도, 서비스는 운영자 입장에서 설계되지만, 실제 효과는 사용자만이 판단할 수 있으며, 만족도 조사는 사용자의 경험을 수치와 언어로 표현하여 보이지 않던 불편을 드러나게 합니다. 이러한 피드백은 개선 전략 수립, 자원 재분배, 서비스 방향 전환의 핵심 자료로 활용됩니다.

예를 들어, 공공기관 복지 서비스의 만족도 조사는 단순히 예산 집행률이나 이용자 수로는 알 수 없는 담당자의 응대 태도, 접근성, 이용 절차의 간편성 등을 밝혀냅니다. 이를 통해 기관은 서비스 질을 정량 및 정성적으로 점검하고 성과를 평가할 수 있습니다. 만족도 조사는 또한 성과 중심 행정 및 경영 체계를 강화하는 데 기여하며, 조직은 내부 지표만으로는 파악하기 어려운 외부 반응을 이용자 평가를 통해 점검하게 됩니다. 높은 만족도는 올바른 방향성을, 낮은 만족도는 변화의 필요성을 시사하며 이는 공공부문뿐 아니라 기업, 교육기관, 의료기관 등 다양한 조직에 보편적으로 적용됩니다.

만족도 조사는 조직 내부 구성원에게도 의미 있는 영향을 미칩니다. 높은 만족도는 서비스 제공자에게 자긍심과 동기를 부여하고, 낮은 만족도는 개선의 필요성을 자각하게 합니다. 이는 단순한 질책이 아닌 데이터 기반의 객관적인 피드백이므로 더욱 설득력 있고 수용되기 쉬우며 결과적으로 조직 전체의 학습과 성장을 돕습니다.

무엇보다 중요한 것은 만족도 조사가 '경청의 문화'를 정착시키는 데 기여한다는 점입니다. 사용자의 의견을 경청하는 조직은 신뢰를 얻고, 신뢰는 참여로 이어져 더 나은 정책과 제도를 만듭니다. 특히 공공기관은 이용자의 참여와 신뢰 없이는 지속 가능한 발전을 기대하기 어렵고, 만족도 조사는 이러한 사회적 신뢰를 형성하는 데 중요한 역할을 합니다.

물론 만족도 조사는 응답자의 일시적인 감정에 따른 왜곡된 평가나 낮은 응답률로 인한 대표성 부족 등의 한계를 가질 수 있습니다. 그러나 이러한 한계는 조사 설계의 정교함과 후속 조치의 진정성으로 극복 가능하며, 조사 결과를 형식적인 통계로 끝내지 않고 실제 변화로 연결하려는 의지가 중요합니다. 결국 만족도 조사는 단순한 설문이 아니라 소통, 변화, 그리고 더 나은 사회를 위한 집단적 성장의 도구입니다. 우리는 질문하고 더 잘 들어야 하며, 그 안에 우리가 바라는 미래가 숨어 있습니다.

KOBIC 역시 매년 바이오 분야의 정보시스템 이용자를 대상으로 만족도 조사를 실시하고 있습니다. 만족도 조사가 형식적인 절차로 끝나지 않도록 조사 결과를 적극적으로 분석하고 개선하며, 이를 위해 전담 인력을 배치하고 정책 반영에 적극적으로 활동하고 있습니다. 이처럼 이용자들의 평가와 의견이 완성도 높은 시스템을 만드는 데 기여합니다. 상대방의 의견에 귀 기울이고 적극적으로 해결하려는 노력은 바이오 정보 분야에서 KOBIC의 성장을 이끌 것입니다.

결론적으로, 만족도 조사는 단순한 피드백 수집을 넘어, 기관의 운영 및 성과 개선, 고객과 직원의 만족도를 동시에 높이는 선순환 구조를 구축하는 핵심 도구입니다. 앞으로도 더 나은 서비스를 제공하기 위해 만족도 조사에 참여하는 이용자들의 냉정한 평가와 진심 어린 조언을 당부드립니다. 

 

  • 작성자전용진
  • 작성일2025-08-04
  • 조회수13
  • 댓글수0
KOBICian's Story Thumbnail

데이터의 바다에서 보물을 찾는 항해를 상상해 보십시오. 넘실거리는 데이터의 파도 속에서 필요한 정보를 찾아내는 일은 마치 광활한 대양에서 보석을 건져 올리는 것처럼 쉽지 않은 도전입니다. 오늘날 생명과학 분야에서는 실로 방대한 양의 바이오 데이터가 생산되고 있습니다. 이 귀중한 데이터들은 곳곳에 흩어져 있어, 연구자나 기업이 자신에게 필요한 '보물'을 찾기 위해서는 많은 시간과 노력이 필요합니다.

 

이러한 문제를 해결하기 위해 탄생한 것이 바로 국가 바이오 데이터 스테이션(K-BDS)입니다. K-BDS는 국가연구개발사업을 통해 생산된 바이오 연구 데이터를 한데 모아 보관하고, 이를 연구자들에게 공유하기 위해 구축된 거대한 플랫폼입니다. 즉, K-BDS는 우리나라 바이오 연구자들에게는 일종의 광활한 데이터 바다와 같습니다. 그러나 아무리 바다가 넓고 보물이 많아도, 필요한 것을 제때 찾아내지 못하면 소용이 없습니다. 실제로 K-BDS에 방대한 데이터가 축적되어 있음에도 불구하고, 원하는 정보를 빠르게 찾아 활용하는 데에는 여전히 어려움이 있습니다. 이는 마치 지도가 없는 채로 바다에서 보물을 찾는 항해와도 같습니다.

 

그렇다면 어떻게 해야 거대한 데이터 바다 속에서 효율적으로 보물을 찾아낼 수 있을까요? K-BDS의 데이터 활용도를 높이기 위해 두 가지 전략을 제안합니다. 첫째, 데이터를 연구 목적별로 카테고리화하여 체계적으로 분류하는 것입니다. 둘째, 인공지능(AI) 기반 자연어 검색 기능을 도입하여 사용자가 일상 언어나 전문 용어로 질문해도 원하는 데이터를 찾아줄 수 있도록 하는 것입니다.

 

우선, 목적별 데이터 카테고리화에 대해 살펴보겠습니다. 현재 K-BDS에는 유전체, 대사물질, 광학영상 등 다양한 종류의 바이오 데이터가 담겨 있습니다. 그러나 이 데이터들은 주로 데이터 유형별로 정리되어 있을 뿐, 특정 샘플이나 연구 주제별로 쉽게 묶여 있지 않습니다. 예를 들어 어떤 연구자가 폐암과 관련된 유전체 데이터를 찾으려 할 때, '유전체 데이터' 항목에 가서 일일이 폐암과 관련된 항목을 찾아내야 할지도 모릅니다. 데이터가 너무 많다 보니 원하는 정보를 발견하는 데 시간이 걸리고, 경우에 따라서는 해당 데이터의 존재조차 알지 못한 채 지나칠 수도 있습니다. 만약 폐암, 알츠하이머, 감염병 등 주요 질환별로 데이터가 카테고리화되어 제공된다면 어떨까요? 연구자는 관심 질환 카테고리를 클릭하는 것만으로 관련된 데이터 목록을 한눈에 살펴볼 수 있을 것입니다. 또한 연구 목적에 따라 신약 개발, 진단 기술, 유전 연구 등으로 분류가 이루어진다면, 사용자는 자신의 프로젝트 목적에 부합하는 자료들을 더욱 손쉽게 탐색할 수 있습니다. 이러한 분류 체계는 거대한 데이터 바다에 지도를 그려주는 셈이며, 연구자들이 자신의 여정에서 목표 지점까지 효율적으로 도달할 수 있게 도와줄 것입니다. 이렇게 되면 연구자들이 일일이 방대한 자료를 뒤지느라 허비하는 시간을 줄이고, 그만큼 본연의 연구에 더 집중할 수 있게 됩니다.

 

다음으로, AI 기반 자연어 검색 기능의 도입입니다. 방대한 데이터 속에서 원하는 정보를 찾는 또 다른 핵심 도구는 바로 검색 기능입니다. 기존의 검색은 주로 정확한 키워드나 일치하는 용어에 의존하기 때문에, 사용자가 어떤 표현을 써야 할지 모르면 원하는 결과를 얻기 어려울 때가 있습니다. 그러나 인공지능 기술을 접목한 자연어 검색은 사용자의 질문을 사람이 대화하듯이 이해하고, 그 의도에 맞는 데이터를 찾아줄 수 있습니다. 예를 들어 연구자가 "국내 알츠하이머 환자의 유전체 돌연변이 데이터를 찾아줘"라고 자연스럽게 질문한다면, AI 검색 엔진은 이 문장을 이해하고 K-BDS에 저장된 알츠하이머 환자 관련 프로젝트들의 유전체 원시데이터(fastq) 와 돌연변이 분석기법들을, 또는 이미 분석된 데이터(vcf) 결과파일을 찾아 보여줄 수 있을 것입니다. 별도로 전문 용어나 복잡한 검색 조건을 몰라도, 연구자가 질문만 던지면 AI가 맥락을 파악해 방대한 데이터 속에서 알맞은 정보를 주는 것입니다. 이는 마치 항해자의 나침반과 별자리가 되어 목적지를 찾아가는 것과 같습니다.

 

이 두 가지 전략이 도입된다면, K-BDS는 거대한 바이오 데이터의 바다이자 진정한 보물 찾기의 항해를 지원하는 든든한 동반자가 될 것입니다. 체계적인 데이터 카테고리화는 정돈된 지도가 되고, 자연어 검색은 탐험에 나선 연구자들이 방향을 잃지 않도록 이끌어 줄 것입니다. 그 결과 더 많은 연구자들이 K-BDS를 적극 활용하여 귀중한 데이터를 빠르게 찾아내고, 새로운 과학적 발견이나 혁신적인 생명공학 성과를 이루어낼 수 있을 것입니다. 방대한 데이터의 바다에 뛰어든 항해자들이 안전하고 효율적으로 보물을 발견하도록 돕는 것, 그것이 바로 K-BDS가 나아가야 할 방향입니다. 우리 모두 이 항해를 통해 얻은 보물로 대한민국 바이오 연구의 지평을 한층 넓혀 나가길 기대합니다. 또한 오랜 시간과 비용을 들여 확보한 소중한 연구 데이터들이 사장되지 않고 활발히 활용됨으로써, 국가 연구개발 투자에 대한 가치도 더욱 높아질 것입니다.

 

(출처: ChatGPT로 생성)

 

※다음 글에서는 생성형 AI가 구현하는 자동 분석 파이프라인, 연구 가이드, 실시간 Q&A 챗봇 등 K-BDS의 한층 스마트해진 모습을 소개할 예정입니다. 많은 기대 부탁드립니다!

 

 

 

  • 작성자장기원
  • 작성일2025-07-28
  • 조회수98
  • 댓글수0
KOBICian's Story Thumbnail

웹 주소, 즉 URL(Uniform Resource Locator)은 웹 공간을 오가는 핵심 통로로서 본래 영문 알파벳과 숫자, 일부 특수문자로 구성되어야 하며 전 세계에서 동일한 방식으로 해석되어야 하는 국제 표준입니다. 그만큼 단순하고 기억하기 쉬울수록 사용자로서는 반가운 일입니다. 그래서 편리성을 이유로 한글이나 비영문 문자를 웹 주소에 사용하여 정보 접근성을 높이는 경우가 많아지고 있습니다(예: https://example.com/공지사항). 하지만 이러한 편리함 뒤에는 기술적 오류와 보안 위협이라는 보이지 않는 위험이 함께 도사리고 있습니다. 기술적으로 웹 주소는 영어 알파벳, 숫자, 일부 특수문자만을 표준으로 인식합니다. 따라서 한글이 포함된 URL은 반드시 내부적으로 퍼센트 인코딩(percent encoding) 과정을 거쳐야 합니다.

 

구분

웹 주소 예시

한글 기반 웹 주소

https://example.com/공지사항/2025년-업데이트

퍼센트 인코딩

https://example.com/%EA%B3%B5%EC%A7%80%EC%82%AC%ED%95%AD/2025%EB%85%84-%EC%97%85%EB%8D%B0%EC%9D%B4%ED%8A%B8

 

한글이 포함된 URL은 브라우저와 서버 간의 인코딩 해석이 달라질 경우, 주소가 깨지거나 404 오류가 발생하는 일이 종종 있습니다. 특히 경로를 복사해 다른 브라우저에서 열거나, 로그 상의 한글이 제대로 처리되지 않으면 장애 분석과 트래픽 모니터링에도 지장을 줄 수 있습니다. 이러한 기술적인 문제 외에도 보안 문제가 발생할 수 있습니다.


예를 들어, 사용자는 주소창에 kakao.com을 입력했다고 생각하지만, 실제로는 러시아어 소문자 'а'(U+0430)가 포함된 kаkао.com이라는 가짜 도메인일 수 있습니다. 이 가짜 도메인은 영어 알파벳 'a'나 'o'와 모양이 거의 구분되지 않는 러시아어 문자 'а', 'о'를 교묘하게 섞어 만든 것으로, 육안으로는 정상 도메인과 똑같아 보입니다. 그러나 브라우저가 인식하는 것은 전혀 다른 도메인입니다. 즉, 주소창에는 'kakao.com'로 나타나지만, 실제로는 완전히 다른 주소이며 피싱 사이트로 연결될 수 있습니다. 이를 악용하는 것이 바로 '호모그래프(Homograph)' 피싱 공격입니다.

 

이러한 현상은 한글뿐 아니라, 비ASCII 문자 기반 국제 도메인(IDN) 전반에서 나타날 수 있습니다. 이때 사용되는 국제화 도메인(IDN)은 브라우저 내부에서 ‘Punycode’로 변환되어 처리됩니다. 이는 유니코드 문자를 ASCII 문자로 바꿔 도메인 시스템이 인식할 수 있도록 하는 표준 인코딩 방식으로, 예를 들어 러시아어 문자가 섞인 kаkао.com은 실제로 xn--kkxo30a.com으로 표시됩니다.

 

보기에는 같은 주소

실제 구성

브라우저 내부 처리

kakao.com

영어 알파벳만 사용

kakao.com

kakao.com

러시아어 'а', 'о' 포함

xn--kkxo30a.com

 

브라우저에 따라 이를 탐지하면 xn--으로 시작하는 경고 형태로 표시되지만, 일부 모바일 환경에서는 이런 구분이 제대로 적용되지 않아 주의가 필요합니다. 이러한 공격은 사용자가 주소를 제대로 인식하지 못하도록 유도해 정보를 탈취하는 방식으로 설계됩니다. 따라서 웹사이트에 접속할 때는 도메인이 정확한 영문 알파벳으로 구성되어 있는지 확인해야 하며, xn--으로 시작하는 경우에는 반드시 경계해야 합니다. 가능하면 북마크나 공식 앱을 통해 접근하고, 문자나 이메일의 링크는 클릭 전에 전체 주소를 확인하는 습관이 필요합니다. 특히 한글 경로나 외국어 문자가 포함된 URL이 적절히 필터링되지 않는 환경에서는 이러한 공격이 더욱 쉽게 성공할 수 있습니다. 문자가 인코딩되지 않거나, 서버가 이를 제대로 해석하지 못하면 의도하지 않은 실행 경로로 이어질 수 있기 때문입니다.

 

이처럼 한글 URL은 활용에 주의가 필요한 요소지만, 신중한 설계와 운용이 전제된다면 사용될 수 있습다. 다만 웹 주소는 단순한 텍스트가 아니라, 시스템 내부에서 경로나 명령어로 해석될 수 있는 실행 단위이기 때문에, 이를 안전하게 처리하려면 인코딩과 디코딩 절차, 그리고 철저한 입력 검증이 반드시 따라야 합니다. 그러나 실제 운영 환경에서는 이론적인 처리와 달리, 여전히 한글 URL이 다양한 시스템과의 호환성 문제를 일으키고 있습니다. 글로벌 웹 환경에서는 특히 한글 주소가 예외 처리 대상이 되기 쉽고, 웹 크롤러나 API 클라이언트, 보안 스캐너 등 자동화 도구들이 이를 정확히 해석하지 못해 접근 오류나 보안 사각지대를 유발할 수 있습니다. 따라서 실무에서는 한글보다는 의미 있는 영문 슬러그(slug)를 사용하는 것이 바람직합니다. 


슬러그는 URL의 일부로 쓰이는 짧고 명확한 식별자를 말합니다. 일반적으로 띄어쓰기를 하이픈(-)으로 연결한 형태로 구성되며, 예를 들어 ‘https://example.com/공지사항’ 대신 ‘https://example.com/notice-update-2025’처럼 표현되는 방식입니다. 슬러그는 다국어 환경에서도 높은 호환성을 가지며, 브라우저와 서버 간 인코딩 충돌 없이 안정적으로 처리됩니다. 또한 가독성과 일관성 측면에서 보안뿐 아니라 SEO(검색 엔진 최적화) 측면에서도 중요한 역할을 합니다.

 

이처럼 웹 주소의 구성은 단순한 표현이 아니라, 사용자 경험은 물론 시스템의 안정성과 보안까지 영향을 미치는 요소입니다. 결국 사용자 중심의 편리함도 견고한 기술과 보안 위에서만 지속될 수 있습니다. 아무리 직관적이고 친숙한 한글 웹 주소라도, 그 이면의 시스템 구조와 보안 위협을 간과한다면 전체 서비스의 신뢰성과 안정성이 무너질 수 있습니다. 웹 주소는 단순한 표현이 아니라 시스템의 일부이며, 기술자와 기획자, 콘텐츠 관리자 모두가 이를 인식하고 올바른 설계 원칙을 함께 마련해야 합니다.

 

  • 작성자고건환
  • 작성일2025-07-21
  • 조회수104
  • 댓글수2
TOP