KoNA

KoNA (Korean Nucleotide Archive) 개요

KoNA는 KOBIC이 운영하는 차세대염기서열분석법(Next Generation Sequencing; NGS) 데이터의 등록 시스템입니다.

현재(2021년 1월 기준) KoNA에서는 포스트게놈 다부처유전체 사업을 포함한 다양한 정부·민간 연구개발 사업으로부터 280 TB 이상의 NGS 원데이터를 수집하여 제공하고 있습니다.

구축 배경

NGS 기술 발전에 힘입어 생명과학 분야 전반에 걸쳐 유전체 기술이 폭넓게 적용되고 있습니다.

이에 해외 주요국에서는 SRA(미국 NCBI), ENA(유럽 EBI), DRA(일본 DDBJ), GSA(중국 NGDC) 등의 데이터베이스를 구축·운영하여, NGS 원데이터(raw data)를 저장하고 연구자들에게 제공할 수 있는 체계적인 기반을 마련하였습니다.

한편 주요 저널들에서는 논문의 재현성 검증 및 데이터 재사용을 위해 외부 접근이 가능한 데이터베이스에 NGS 원데이터 등록을 의무화하거나 권장하고 있으며, 이에 국내의 많은 연구자들은 불가피하게 기존의 해외 데이터베이스를 이용하여 데이터를 등록하고 있었습니다.

그러나 최근 대용량 유전체 데이터의 보편화에 따른 전송속도 문제 및 국내 주요 법률·정책(생명연구자원법 · 생명윤리법 · 개인정보보호법) 상의 제한 등에 따라 해외 데이터베이스 등록에 많은 어려움이 발생하고 있습니다.

또한 소수의 선진국 연합(예: INSDC) 주도의 바이오 데이터 패권주의가 심화되고 있고, 데이터 관리 비용 증가 및 데이터 가치 상승으로 데이터 공개 제한 움직임을 보이는 등 위기상황이 대두되고 있습니다.

이러한 문제를 극복하기 위해 2020년 하반기부터 KOBIC은 국내 연구자들이 생산한 다양한 NGS 원데이터의 저장·제공을 위한 Korean Nucleotide Archive(KoNA)를 운영함으로써, 해외 저널에서 인용 가능한 데이터 등록번호(Accession ID) 및 대용량 NGS 원데이터의 신속한 업로드·다운로드를 제공하고자 합니다.

특장점

사용자 친화적인 검색·열람시스템과 지속적인 품질관리를 통해 데이터 활용성을 극대화하고자 합니다.

또한 고속전송솔루션(GBox) 기반 온라인 등록 및 외장하드를 이용한 데이터 등록이 가능하여, 연구자들이 편리하게 데이터를 등록·열람·다운로드할 수 있는 체계를 마련하였습니다.

데이터 활용을 희망하는 연구자는 GBox를 이용하여 연구자 별로 할당된 디렉토리에 해당 데이터를 다운받을 수 있으며, 다운로드한 데이터는 유전체 분석 파이프라인 54종 및 분석 프로그램 170종을 탑재한 대용량 유전체 분석용 클라우드 시스템(Bio-Express)과 연동하여 분석을 수행할 수 있습니다.

KoNA 등록 완료 후 발급받은 등록번호(Accession ID)는 현재 Nature 본지 등 해외 유수 저널에서 사용되고 있으며, 비공개 데이터의 경우 리뷰어 및 저널 에디터 한정으로 열람 가능한 서비스 등을 제공하여, 해외 저널의 데이터 오픈 사이언스 관련 요구 사항을 모두 충족하고 있습니다.

인체유래 데이터의 경우 생명윤리법 등의 관련 법률·정책 등을 준용함으로써, 국내 실정에 부합하는 등록·열람 시스템을 구현하였습니다.