메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
2025년 6월 영국 캠브리지에서 개최된 제38회 국제 염기서열 데이터베이스 연합체(International Nucleotide Seqeucne Database Collaboration, INSDC) 연례회의에 KOBIC이 참석하여 한국의 유전체 데이터 관리와 공유 전담 기관으로서의 역할과 책임을 재확인하는 중요한 기회를 가졌습니다. INSDC는 미국 국립보건원(NIH) 산하 국립의학도서관(NLM)의 NCBI, 유럽분자생물학연구소(EMBL) 산하 EBI, 그리고 일본 국립유전학연구소(NIG) 산하 DDBJ로 구성된 연합체로 지난 38년간 전 세계 유전체 데이터의 표준화와 공유에 핵심적 역할을 해 왔습니다. 현재 유전체 연구에 종사하는 대부분의 연구자들은 INSDC 데이터베이스를 통해 필요한 유전체 정보를 검색하고 활용한 경험이 있습니다. 특히 학술 논문 출판 과정에서 원시 데이터나 분석 결과를 INSDC 산하 리포지토리에 등록하고 해당 accession number를 Data Availability 섹션에 명시하는 것은 이미 국제적 표준으로 자리 잡았습니다. 주요 국제 학술지들은 INSDC 관리 데이터베이스를 신뢰할 수 있는 데이터 공유 리포지토리로 인정하고 저자들에게 이를 통한 데이터 공개를 적극 권장하고 있습니다. 이러한 국제적 동향 속에서 KOBIC이 운영하는 국가 바이오 데이터 스테이션(K-BDS) 역시 글로벌 수준의 공신력과 표준화 달성을 목표로 하고 있습니다. INSDC의 멤버십 확장 계획이 발표된 이후, KOBIC은 정식 멤버가 되기 위한 지속적인 노력을 기울여왔습니다. 이번 회의에서 가장 흥미로웠던 주제는 바로 AI 기술의 도입 가능성과 그 실질적 한계에 대한 논의였습니다. 각 INSDC 멤버 기관들은 이미 AI를 시범적으로 적용하고 있거나, 이를 위한 인프라 구축을 적극적으로 추진하고 있었습니다. EMBL-EBI의 ENA(European Nucleotide Archive)는 사용자 지원 서비스의 개선을 위해 챗봇 시스템을 개발 중이라 밝혔습니다. ENA 문서와 가이드라인을 학습한 이 챗봇은 사용자들의 반복적인 문의사항에 자동으로 대응함으로써 HelpDesk 운영 부담을 크게 줄일 것으로 기대됩니다. 다만 아직 핵심적인 데이터 처리 과정에는 AI를 적용하지 않고 있으며, “현재의 AI 도입은 글로벌 AI붐에 발맞춰 가는 수준”이라는 신중한 평가를 내놓았습니다. NCBI는 세 기관 중 가장 적극적인 AI 도입 전략을 선보였습니다. 현재 전체 SRA(Sequence Read Archive) 데이터의 90% 이상을 자동화된 규칙 기반 시스템으로 처리하고 있으며, AI 기술을 접목하여 샘플 자동 분류, 작업 스케줄링 최적화, 임상 요약 생성 등 효율화를 도모하고 있습니다. 흥미롭게도 NCBI 관계자는 “AI가 반복적인 업무를 줄여줄 수는 있지만, 그만큼 해석, 검증, 관리 등 새로운 방식의 고차원적 과업과 이에 따른 책임이 뒤따른다”는 솔직한 견해를 표명하며, 최종 품질관리는 여전히 전문 인력이 직접 수행해야 한다는 점을 강조했습니다. DDBJ는 미래 지향적 인프라 투자에 집중하고 있었습니다. NVIDIA A100 GPU 기반의 AI 전용 클러스터 구축과 3차원 데이터 분석이 가능한 고성능 시스템 도입을 통해 향후 AI 응용 연구를 위한 견고한 기반을 마련했다고 발표했습니다. 회의를 통해 도출된 공통 결론은 “AI는 단순한 자동화 도구가 아닌 생명정보학 데이터 관리 패러다임을 근본적으로 전환할 혁신 기술이며, 신중하고 단계적인 접근이 필수적”이라는 인식이었습니다. 이 외 INSDC 전반에 걸쳐 데이터 교환 관련 표준화와 정책에 대한 심도 있는 논의가 이루어졌습니다. 데이터 표준화와 자동화가 최우선 과제로 부각되었으며, GFF3(General Feature Format 3), modBAM(modified Binary Alignment Map) 등 새로운 데이터 포맷으로의 전환과 이에 따른 검증 프로세스의 자동화가 시급한 현안으로 논의되었습니다. 메타데이터의 품질관리 강화도 중요한 화두로 단순 제공하는 것을 넘어 정확성 확보와 최소 요건 준수를 강화하는 방향으로 정책이 전환되고 있습니다. 또한 최근 국제 규범 준수와 접근 및 이익 공유(ABS) 대응이 새로운 과제로 등장했습니다. 생물다양성협약(CBD), 세계보건기구(WHO) 펜데믹 조약(PAD), 국가관할권 이원 지역의 해양생물다양성 보전 및 지속가능한 이용에 관한 협약(BBNJ) 등 다양한 국제 규범이 강화되면서, 유전자원의 접근과 이익 공유에 대한 체계적 관리와 필수가 되었습니다. 이러한 국제 협약의 변화가 INSDC의 공개 데이터 정책에 미치는 영향에 대해 논의하였으며, INSDC는 샘플 출처 정보를 메타데이터에 필수적으로 포함하도록 하고 사용자 가이드라인에 CARE 원칙(Collective Benefit, Authority to Control, Responsibility, Ethics)을 명시하는 등의 개선 방안들을 공유했습니다. 이번 회의를 통해 KOBIC은 INSDC 정식 멤버 가입을 위한 로드맵을 더욱 구체화할 수 있었습니다. 지난 1년간 BioProject, BioSample, SRA 데이터에 대해 XML 템플릿을 개선하고, 기술적 연계 체계를 강화한 것이 국제적으로 주목받는 진전으로 평가받았습니다. INSDC 연례회의는 단순한 정보 교환의 장을 넘어, 미래 생명정보 흐름의 규칙을 함께 만들어가는 글로벌 포럼이자 AI 시대를 맞이한 생명과학 커뮤니티의 책임과 균형을 재확인하는 자리였습니다. KOBIC은 이러한 흐름 속에서 AI 기반 메타데이터 추천 시스템과 데이터 제출 오류 감지 시스템 개발에 관심을 기울이고, 국제 표준에 부합하는 데이터 품질관리 시스템을 지속적으로 강화하며, 연구자 친화적인 데이터 제출 및 검색 서비스를 개선해 나가겠습니다. 궁극적으로 신뢰할 수 있고 지속 가능한 생명정보 공유의 중심으로 성장하여 글로벌 생명과학 발전에 기여하겠습니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,216

사용자

1,092

워크스페이스

89,827

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,119

    바이오프로젝트
  • 109,028

    바이오샘플
  • 2,369,748

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP