메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
대사증후군이란 혈압·혈당·중성지방·HDL·허리둘레 중 다섯 항목 가운데 세 가지 이상이 기준을 넘는 상태로서 심뇌혈관질환 및 당뇨병의 위험을 높이는 신고가 되며, 유전적 소인과 환경적 인자가 더해져 발생하는 복합적인 질환이기도 합니다. 여기서 지질은 두 가지로 나뉘는데, 하나는 중성지방(TG: triglycerides)이고 다른 하나는 고밀도지단백 콜레스테롤(HDL: high-density lipoprotein)입니다. · 허리둘레: 남 ≥ 90 cm, 여 ≥ 85 cm · 혈압: ≥ 130/85 mmHg 또는 약 복용 · 공복혈당: ≥ 100 mg/dL 또는 약 복용 · 중성지방(TG): ≥ 150 mg/dL · HDL: 남 < 40 mg/dL, 여 < 50 mg/dL 필자는 한국표준과학연구원에서 포닥으로 근무하던 시절 국민건강영양조사 1만3,978명 자료 중 정제된 데이터(40대 이상, 남성 6,234명, 여성 7,744명)를 분석해 전통적인 식별 방식(체형 지표·혈액검사 등)과 간이 폐기능검사를 함께 보았을 때 대사증후군의 조기 식별력이 높아지는지를 살폈습니다. 결론은 분명했습니다. 중성지방이 남녀 공통의 핵심 경보 요인이었고, 체형 지표에서는 남성은 허리둘레–키 비율(WHtR: 허리둘레 ÷ 키, 0.5 전후가 경고선), 여성은 허리둘레가 상대적으로 식별력이 높았습니다. 여기에 폐기능 지표를 겹쳐 보면 놓치던 신호를 더 잘 포착할 수 있었습니다. 폐기능은 두 수치를 함께 보시면 이해가 쉽습니다. FEV1(forced expired volume in one second)은 “최대한 들숨 후 1초 동안 강하게 내쉰 공기량(1초간 강제호기량)”으로 짧은 시간의 기류와 기도 상태를 보여 줍니다. FVC(forced vital capacity)는 “최대한 들숨 후 끝까지 내쉰 총 공기량(강제폐활량)”으로 폐 용적과 호기 지속 능력을 나타냅니다. 두 값이 낮으면 활동량 저하·근육 감소·복부비만이 얽힌 대사–호흡의 악순환을 의심할 수 있습니다. 40대 이상이거나 비만·운동 부족군이라면 연 1회 FEV1·FVC 검사를 권장합니다. 지질은 특히 중요합니다. 대사증후군 맥락의 지질 이상은 중성지방 상승과 HDL 저하를 가리키며, 혈관 염증과 지방 축적 위험을 키웁니다. 상담의 초점을 LDL 중심 → TG·공복혈당(GLU) 중심으로 재배치하면 생활 처방이 더 분명해집니다. 야식·정제 탄수화물·단 음료·과음은 중성지방을 급등시키는 대표 요인이므로 최우선적으로 피해야 합니다. 집에서 바로 측정하는 3가지1. 허리둘레 + 한 줄 계산: 배꼽 높이에서 편히 숨 내쉰 뒤 재고, WHtR(허리(cm) ÷ 키(cm))를 적어 두십시오. 0.5 안팎이면 경고선입니다.2. 검진표 첫 체크: 중성지방과 공복혈당입니다. 중성지방은 생활 패턴을 가장 빨리 반영합니다.3. 숨 한 번: 정기 검진에 FEV1·FVC를 포함해 추이를 보십시오. 낮게 나오면 활동·근력·체중·수면을 함께 점검합니다. 건강을 되돌리기 위한 2주 리셋 루틴(쉽고 확실하게)1. 식사: 저녁 탄수화물 절반, 단 음료 0잔.2. 술: 주 2회 이하, 잔 수 상한(표준잔(standard drink) 기준(술 1잔 ≈ 순알코올 10 g)으로 남 ≤ 4잔, 여 ≤ 2잔). 물 → 안주 → 술 순으로 드십시오.3. 운동: 하루 30분 빠르게 걷기 + 주 2–3회 맨몸 근력 운동(스쿼트, 팔굽혀펴기).4. 수면: 취침 2시간 전 금식, 기상·취침 시각 고정.5. 기록: 아침 공복에 체중·허리둘레를 적고, 2주 후 중성지방·혈당을 확인합니다.근거 한 줄: 2주만으로도 식사 시간 앞당김과 탄수화물 감량에 따라 공복혈당·중성지방이 개선되는 경향이 관찰됩니다. 식후 10~30분 걷기는 당일 식후 혈당 곡선을 낮추고, 오래 앉아 있지 않는 습관(30분 마다 2~3분 서기·걷기·간단 스트레칭)은 다음 날까지 식후 중성지방 반응을 줄이는 데 도움이 됩니다. “짧지만 확실한 변화”로 동력을 얻는 기간으로 보시면 됩니다. 왜 이 조합일까요?중성지방은 생활 습관의 현재형 신호라서 체중 변화가 크지 않아도 야식·음주·수면 부족만으로 쉽게 출렁합니다. WHtR·허리둘레는 내장지방을 간편하게 비추는 지표라 단순 체중보다 예민합니다. FEV1이 낮으면 1초 내 기류/기도 상태에 제한이 있음을, FVC가 낮으면 폐 용적과 호기 지속 능력에 한계가 있음을 시사합니다. 이 세 축을 함께 보면 ‘지금 무엇을 바꿔야 하는지’를 구체적으로 알 수 있습니다. 한 줄 안내(공단 프로그램)건강검진에서 대사증후군 위험요인 1개 이상이면, The건강보험 앱 → 건강프로그램 → ‘대사증후군 건강관리’에서 약 6개월(24주) 단계별 안내·상담·문자 알림을 받을 수 있습니다. 실천을 붙잡는 데 도움이 됩니다.대사증후군이 심혈관 및 대사질환에 미치는 분자생물학적 기전 [사진=분당서울대학교병원]출처: [BRIC Bio통신원] 네이처 리뷰에 ‘대사증후군’ 최신 지견 집대성한 종설 논문 발표, https://www.ibric.org/s.do?dvXQOzwSSS ※ 본 글은 제가 수행한 연구 결과를 바탕으로 쉽게 풀어 쓴 안내문입니다. 변화 계획과 해석은 반드시 의료진과 상의해 주십시오.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,454

사용자

1,129

워크스페이스

91,339

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,194

    바이오프로젝트
  • 112,216

    바이오샘플
  • 2,374,918

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP