메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
최근 저는 국가과학기술인력개발원(KIRD)에서 주관한 출연(연) 대상 AI 통합 교육과정에 강사로 참여하여, 전사체 및 유전체 데이터 분석에 대하여 강의하였습니다. 이 과정에서 우리 센터가 수행하고 있는 국가통합바이오빅데이터 구축 사업과 유전체 데이터 생산 및 분석 업무에 대해서도 소개하는 시간을 가졌습니다. 강의가 끝난 후 진행된 질의응답 시간에는 유전체 분석 기술에 대한 일반적인 관심뿐만 아니라, 개인의 건강 문제와 관련된 현실적인 질문들도 많았습니다. 한 수강생은 할아버지와 아버지 모두 대장암 진단을 받은 가족력이 있다고 했고, 자녀를 둔 입장에서 자신도 유전적 위험이 있는지를 알고 싶어 교육에 참여했다고 밝혔습니다. 곧 은퇴를 앞둔 나이가 지긋한 어떤 수강생은 가족 중 다수가 심혈관 질환을 앓거나 이로 인해 사망한 이력이 있어, 본인도 유전적 소인이 있는지 확인하고자 교육에 참석했다고 했습니다. 이와 같은 질문들은 제가 지인이나 가족에게 유전체 분석 업무를 설명할 때 자주 듣는 내용들과도 유사합니다. “나도 유전체 검사를 받을 수 있나요?”, “검사를 받으면 어떤 정보를 얻을 수 있나요?”, “내가 어떤 질병에 취약한지 알 수 있나요?” 같은 관심과 질문들이 반복적으로 나타납니다. 최신 전장유전체 분석 기술(Whole Genome Sequencing, WGS)을 활용하면 개인 간 유전체 염기서열의 차이를 정밀하게 분석할 수 있습니다. 사람의 유전체는 약 30억 개의 염기쌍으로 이루어져 있는데, 임의의 두 사람을 비교하면 평균적으로 전체의 약 0.1%, 즉 약 300만 개의 염기쌍이 서로 다르다는 사실이 알려져 있습니다. 이러한 차이는 대부분 질병과 무관한 자연스러운 유전적 다양성이지만, 일부는 질병의 위험성과 직접적인 연관이 있을 수 있습니다. 그러나 이 많은 변이 중 어떤 것이 실제로 질병 발생에 영향을 주는지를 식별하는 것은 아래와 같은 문제로 매우 복잡한 문제이며, 여전히 많은 연구가 진행 중입니다.ⓐ 여러 유전 변이가 하나의 표현형에 영향을 미치는 다인자성 질환이 존재함ⓑ 동일한 질환이라도 개인마다 원인을 제공한 유전자가 다름ⓒ 모든 질환을 DNA 염기 서열 변화 수준에서만 원인을 파악할 수 없음ⓓ 정확한 분석을 위한 대규모 임상정보-유전체 데이터 통합 DB가 필요함 특히 유전체 기반 예측은 단일 유전자 변이로 발현되는 질환에서는 비교적 명확한 결론을 내릴 수 있지만, 고혈압, 당뇨병, 심혈관 질환처럼 다양한 요인이 작용하는 복합질환에서는 예측 정확도가 낮을 수밖에 없습니다. 따라서 개인의 유전 정보를 바탕으로 질환 발생 가능성을 평가하거나 의료적 결정을 내리기 위해서는 여전히 전문가의 해석과 신중한 접근이 필요합니다. 현재 국내에서 진행되고 있는 유전체 분석 서비스는 크게 두 가지로 나눌 수 있습니다.1. DTC(Direct-To-Consumer) 유전자 검사: 소비자가 의료기관을 통하지 않고 직접 유전자 검사를 의뢰할 수 있는 서비스입니다. 국내에서는 개인의 특성이나 건강에 관련된 웰니스(wellness) 항목에 대해서만 DTC 유전자 검사가 허용되어 있으며, 예를 들어 카페인 대사, 영양소 흡수, 피부 특성, 체질 등과 관련된 정보를 제공받을 수 있습니다. 단, 질병의 진단, 예후, 치료와 같은 의료적 목적의 유전자 검사는 의료기관을 통해서만 가능하며, DTC 검사로는 제공되지 않습니다.2. 의료기관 기반 유전 진단 검사 : 질환 진단을 목적으로 하며, 반드시 전문가의 판단과 해석이 필요합니다. 임상 진단에서는 비용과 해석 효율성을 고려하여 특정 유전자나 유전자 패널에 집중하는 타겟 시퀀싱이 주로 사용됩니다. 희귀질환 진단이나 연구 목적에 적합한 폭넓은 유전 정보를 제공하기 위해서는 상대적으로 비용이 높은 전장유전체 분석(WGS)이나 전장엑솜 분석(WES)을 수행하기도 합니다.기술의 발전과 분석 비용 절감, 국가 단위의 바이오 빅데이터 구축이 병행됨에 따라, 향후에는 국가 또는 공공 시스템 차원에서 유전체 정보가 구조적으로 축적되고 활용되는 기반이 마련될 수 있을 것입니다. 유전체 기술은 의료·보건 분야뿐 아니라 교육과 사회복지 영역에서도 실질적인 파급 효과를 가질 수 있습니다. 제 배우자는 초등학교 특수교사로 재직 중인데, 다양한 발달장애 및 희귀 유전 질환을 가진 학생들을 지도하고 있습니다. 질환을 앓고 있는 학생의 삶은 직접적으로 나타나는 다양한 어려움으로 체감되며, 이를 곁에서 지켜보는 보호자에게는 오랜 시간 지속되는 심리적·신체적 부담이 따릅니다. 저는 조기 유전 진단 기술의 보편화와 정밀화가 사회적으로 매우 중요하며, 만약 중증 유전질환을 태아기 단계에서 진단할 수 있다면, 일부 사례에서는 가족이 적절한 결정을 내릴 수 있는 선택권을 가질 수도 있을 것으로 생각합니다. 이번에 참석한 유럽 인간유전학회(ESHG 2025, ‘25.5.24~27, 이탈리아 밀라노)에서는 유전체 기반 진단과 관련된 최신 연구 동향이 활발히 공유되었습니다. 특히 특정 질환의 원인이 되는 causal variant(원인 변이)를 규명하고 이를 진단하는 발표에서, 의료 전문가와 생물정보학자 간의 협업이 매우 중요하다는 발표 내용이 인상 깊었습니다. 정밀한 유전 질환 진단을 위해서는 기술뿐 아니라 다양한 분야 간 긴밀한 협력이 필수적임을 다시 한번 확인할 수 있었습니다. 최근 여러 경험을 통해 저는 유전체 분석 기술에 대한 사회적 관심과 수요가 점점 더 현실적으로 커지고 있음을 실감하게 되었습니다. 앞으로 기술이 더 발전하고 활용 사례가 축적된다면, 더 많은 사람들이 자신의 유전 정보를 바탕으로 건강을 관리하고 예방 중심의 의료 체계로 나아갈 수 있는 기반이 마련될 것이라 기대합니다. 제 자신도 앞으로 정밀의료 기반 유전체 분석 기술의 개발과 데이터 통합 플랫폼 구축을 통해 국민 건강에 기여할 수 있도록 최선을 다하겠습니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,240

사용자

1,099

워크스페이스

89,966

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,134

    바이오프로젝트
  • 109,842

    바이오샘플
  • 2,370,131

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP