TINC
TINC(Tumor-in-Normal Contamination)는 Giulio Caravagna 연구팀에서 개발한 첨단 종양 오염도 분석 플랫폼으로, 암 유전체학 연구에서 가장 까다로운 문제 중 하나인 교차 샘플 오염(cross-sample contamination)을 정밀하게 정량화하는 혁신적인 도구입니다. 이 툴은 매칭된 종양-정상 쌍(tumor-normal paired) 시료에서 TIN(Tumor-in-Normal)과 TIT(Tumor-in-Tumour) 점수를 동시에 추정하여, 샘플 채취, 처리, 시퀀싱 과정에서 발생할 수 있는 다양한 형태의 오염을 체계적으로 감지하고 정량화합니다. 특히 TINC의 핵심 강점은 단순한 오염도 측정을 넘어서, 복잡한 베이지안 통계학적 모델링을 통해 종양의 클론 구조(clonal architecture)와 서브클론 진화(subclonal evolution) 패턴을 동시에 분석한다는 점입니다. 이 도구는 MOBSTER(변이 대립유전자 빈도 클러스터링), BMix(정상 시료 베이지안 혼합 모델), VIBER(변분 베이지안 추론) 등의 고급 알고리즘을 통합적으로 활용하여, 전통적인 방법으로는 구별하기 어려운 미세한 오염 신호까지도 신뢰성 있게 검출할 수 있습니다. 또한 복제수 변이(CNA) 정보를 선택적으로 활용하여 분석의 정확도를 한층 더 향상시킬 수 있습니다. TINC는 특히 액체 생검(liquid biopsy), 최소 잔존 질환(MRD) 모니터링, 종양 이질성 연구, 그리고 임상 시료의 품질 관리에서 필수적인 역할을 담당합니다. 종양 순도가 낮은 시료나 정상 조직에 미세한 종양 세포 침윤이 의심되는 경우, TINC의 정밀한 오염도 분석 결과는 후속 체세포 변이 분석의 신뢰성을 크게 향상시키고, 위양성 및 위음성 결과를 최소화하여 개인 맞춤형 치료 전략 수립에 핵심적인 정보를 제공합니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
GATK Mutect2
GATK Mutect2는 Broad Institute에서 개발한 체세포 변이 검출 플랫폼으로, 암 유전체학 연구와 정밀 의학 분야에서 금본위제(gold standard)로 인정받고 있는 핵심 도구입니다. 이 도구는 GATK Best Practices 워크플로우의 핵심 구성 요소로서, 종양과 정상 조직 간의 미세한 유전적 차이를 베이지안 통계학적 프레임워크를 통해 정교하게 분석하여 진정한 체세포 변이만을 선별적으로 검출하는 데 특화되어 있습니다. 특히 Mutect2의 가장 큰 강점은 매우 엄격한 통계적 검정과 다층적 품질 관리 시스템을 통해 위양성(false positive) 결과를 최소화하면서도 임상적으로 중요한 저빈도 변이들을 놓치지 않는 균형잡힌 성능을 제공한다는 점입니다. 이 도구는 단일 염기 변이(SNVs)와 짧은 삽입/결손 변이(indels)를 동시에 검출할 수 있으며, 종양-정상 쌍(tumor-normal paired) 분석 모드뿐만 아니라 종양 단독(tumor-only) 분석 모드도 지원하여 다양한 연구 환경과 임상 상황에 유연하게 적용할 수 있습니다. Mutect2의 핵심 혁신은 정교한 베이지안 체세포 유전형 모델(Bayesian somatic genotyping model)과 함께 Panel of Normals(PoN) 기반의 체계적 아티팩트 제거, 실시간 오염도 추정(contamination estimation), 그리고 방향성 편향 보정(orientation bias correction) 등의 고급 기능들을 통합한 포괄적 분석 파이프라인을 제공한다는 것입니다. 이러한 다면적 접근법을 통해 시퀀싱 과정에서 발생할 수 있는 다양한 기술적 노이즈와 생물학적 혼재 요인들을 지능적으로 구별하고 필터링하여, 암의 진단, 예후 예측, 치료 반응 모니터링, 그리고 신약 개발 연구에 필수적인 고품질의 체세포 변이 정보를 제공합니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
Strelka2
Strelka2는 Illumina에서 개발한 체세포 변이 검출 솔루션입니다. 이 도구는 암 유전체학 연구와 임상 진단 분야에서 핵심적인 역할을 담당하며, 종양과 정상 조직의 쌍 시퀀싱 데이터를 정교하게 비교 분석하여 암 특이적인 유전적 변화를 발굴하는 데 특화되어 있습니다. 특히 Strelka2는 단일 염기 변이(Single Nucleotide Variants, SNVs)와 작은 규모의 삽입/결손 변이(Insertions and Deletions, Indels)를 동시에 검출할 수 있는 통합 플랫폼으로 설계되었습니다. 이러한 변이들은 암의 발생, 진행, 전이 과정에서 핵심적인 역할을 하는 드라이버 변이(driver mutations)부터 치료 저항성과 관련된 변이까지 포괄하여, 개인 맞춤형 암 치료 전략 수립에 필수적인 정보를 제공합니다. 도구의 가장 큰 강점은 높은 민감도와 정확도를 동시에 확보한 베이지안 확률론적 접근법을 채택했다는 점입니다. 기존의 단순한 통계적 검정 방식을 넘어서, 시퀀싱 오류, PCR 증폭 오류, 정렬 아티팩트 등 다양한 기술적 노이즈를 지능적으로 구별하고 필터링하여 진정한 체세포 변이만을 선별해낼 수 있습니다. 또한 매우 낮은 변이 대립유전자 빈도(Variant Allele Frequency, VAF)를 가진 변이들도 신뢰성 있게 검출할 수 있어, 종양 내 이질성(intratumor heterogeneity)이나 순환 종양 DNA(circulating tumor DNA) 분석과 같은 고도의 정밀도가 요구되는 연구 영역에서도 활용 가능합니다.
- 카테고리Variant > Variant Calling
- 수정일2025-09-17
Manta Tumor-Normal
Manta는 Illumina에서 개발한 종양-정상 쌍(Tumor-Normal pair) 시퀀싱 데이터 전용 구조 변이(Structural Variants, SVs) 검출 도구로, 체세포 구조 변이를 정확하고 민감하게 찾아내는 데 특화되어 있습니다. 이 도구는 split-read 분석, discordant read-pair 분석, 그리고 local assembly를 결합한 정교한 알고리즘을 사용하여 결손(deletion), 삽입(insertion), 역위(inversion), 전좌(translocation), 중복(duplication) 등 다양한 종류의 대규모 유전체 구조 변화를 검출합니다. Manta의 Tumor-Normal 모드는 종양 샘플과 정상 샘플을 동시에 분석하여 체세포 특이적인 구조 변이만을 선별적으로 검출합니다. 정상 샘플에서는 생식세포 구조 변이(germline SVs)를 식별하고, 종양 샘플에서는 체세포 구조 변이(somatic SVs)를 검출하여 이들을 구분합니다. 이 과정에서 높은 민감도와 특이도를 유지하면서도 위양성을 효과적으로 제거합니다. 도구는 multi-threading을 지원하여 대용량 전장 유전체 시퀀싱 데이터도 효율적으로 처리할 수 있으며, BAM과 CRAM 파일 형식을 모두 지원합니다. Paired-end와 single-end 시퀀싱 데이터를 처리할 수 있고, 다중 샘플 분석도 가능합니다. 특히 암 연구에서 중요한 종양 특이적 구조 변이를 정확하게 식별하여 암의 진행, 전이, 치료 저항성과 관련된 유전체 불안정성을 분석하는 데 필수적인 도구입니다.
- 카테고리Variant > Structural Variant Calling
- 수정일2025-09-17
Conpair
Conpair는 인간 종양-정상(Tumor-Normal) 쌍 연구를 위해 특별히 설계된 빠르고 견고한 방법론으로, concordance 검증(동일 개체 유래 확인)과 교차 개체 오염 수준 추정을 전장 유전체 및 엑솜 시퀀싱 실험에서 수행합니다. 이 도구의 가장 중요한 특징은 종양 샘플의 오염 추정 방법이 복제수 변화(copy number changes)에 영향받지 않으며, 0.1%라는 매우 낮은 오염 수준까지 검출할 수 있다는 점입니다. Conpair는 New York Genome Center에서 개발된 도구로, 미리 선택된 유전체 위치의 집합을 기반으로 작동합니다. 이 마커들은 1000 Genomes Project Phase 3 데이터에서 선별된 것으로, MAF(Minor Allele Frequency) ≥ 0.4, LD(Linkage Disequilibrium) ≤ 0.8 기준을 충족하는 고품질 SNV들입니다. 두 단계 프로세스를 통해 작동하는데, 먼저 GATK를 사용하여 각 샘플에 대해 미리 정의된 마커 위치에서 pileup을 생성하고, 그 다음 이 pileup 데이터를 분석하여 concordance와 contamination을 계산합니다. 특히 임상 응용에서 중요한 점은 종양 샘플에서 0.5%라는 매우 낮은 오염 수준도 체세포 변이 호출(somatic mutation calling)에 심각한 영향을 미쳐 특이도를 크게 감소시킨다는 것입니다. 반면 정상 샘플의 교차 개체 오염은 체세포 변이 호출에 상대적으로 경미한 영향을 미칩니다.
- 카테고리Quality Control > BAM/SAM QC
- 수정일2025-09-17
Manta Single-Diploid
Manta Single-Diploid는 개체 시퀀싱 데이터에서 생식세포 구조 변이(germline structural variants)를 검출하는 도구입니다. 결손(deletion), 삽입(insertion), 역위(inversion), 전좌(translocation), 중복(duplication) 등 50bp 이상의 큰 규모 유전체 구조 변화를 찾아냅니다. 이 도구는 split-read 분석을 통해 구조 변이 경계를 정확히 매핑하고, discordant read-pair 분석으로 비정상적 insert size를 가진 구조 변이를 감지합니다. 복잡한 구조 변이 영역에서는 local assembly 기법을 사용하여 정확한 재구성을 수행하며, multi-threading을 지원하여 병렬 처리를 통한 빠른 분석 속도를 제공합니다. 특히 낮은 coverage 환경에서도 높은 민감도로 구조 변이를 검출할 수 있어 다양한 시퀀싱 프로젝트에 적용 가능합니다. Manta는 BWA, Bowtie2 등으로 정렬된 BAM 파일과 압축된 CRAM 파일을 모두 지원하며, paired-end와 single-end 데이터 형식 모두에서 작동합니다. 또한 단일 샘플 분석뿐만 아니라 동시에 여러 샘플을 분석할 수 있는 기능을 제공하여 대규모 코호트 연구에도 효율적으로 활용할 수 있습니다.
- 카테고리Variant > Structural Variant Calling
- 수정일2025-09-17
BCFtools CountVariants
BCFtools stats는 samtools 프로젝트의 핵심 구성 요소로, VCF/BCF 파일에서 포괄적인 변이 통계를 계산하는 강력한 도구입니다. 이 도구는 생식세포 변이 분석에서 품질 관리와 결과 검증을 위한 필수적인 단계로, GATK HaplotypeCaller에서 생성된 GVCF 파일의 변이 특성을 다각도로 분석하여 시퀀싱 품질과 변이 호출 정확도를 평가합니다. BCFtools stats는 단순한 변이 개수 계산을 넘어서, 유전체학 연구에서 중요한 다양한 지표들을 제공합니다. 이형접합성 비율(heterozygosity ratio), 전이/전환 비율(Ti/Tv ratio), 삽입/결손 분포, 품질 점수 분포, 대립유전자 빈도 스펙트럼 등을 종합적으로 분석하여 샘플의 유전적 특성과 시퀀싱 데이터의 신뢰성을 평가할 수 있습니다. 또한 다중 샘플 분석 시에는 샘플 간 변이 패턴 비교를 통해 배치 효과(batch effect)나 기술적 아티팩트를 감지하는 데도 활용됩니다. 이 도구는 임상 유전체학 분야에서 특히 중요한데, 변이 호출 결과의 품질을 객관적으로 평가하여 후속 해석 과정의 신뢰성을 보장하는 역할을 합니다. 예를 들어, 예상 범위를 벗어나는 Ti/Tv 비율이나 비정상적인 이형접합성 패턴은 샘플 오염, 시퀀싱 오류, 또는 분석 파이프라인의 문제를 시사할 수 있어 이러한 지표들을 통한 체계적인 품질 관리가 필수적입니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
Mosdepth
Mosdepth는 전장 유전체 시퀀싱(WGS), 엑솜 시퀀싱, 표적 시퀀싱을 위한 고속 BAM/CRAM 커버리지 계산 도구입니다. Nim 언어로 개발되어 기존 도구들보다 월등히 빠른 성능을 제공하며, 메모리 효율적인 알고리즘을 통해 대용량 시퀀싱 데이터의 커버리지 분석을 신속하게 수행합니다. 이 도구는 독특한 염색체별 배열 기반 알고리즘을 사용합니다. 각 염색체에 대해 배열을 생성하고, 리드의 시작 위치에서는 값을 증가시키고 끝 위치에서는 감소시킨 후, 누적합을 계산하여 각 위치의 커버리지를 구합니다. 이 방법은 CIGAR 연산을 정확히 추적하여 리드의 정렬된 모든 부분을 포함하며, 겹치는 mate-pair를 이중 계산하지 않는 정교한 커버리지 측정을 제공합니다. Mosdepth는 단순한 커버리지 계산을 넘어서 다양한 고급 기능을 제공합니다. 윈도우 기반 분석, BED 파일 기반 영역별 분석, 임계값 기반 커버리지 통계, 그리고 quantize 기능을 통한 커버리지 구간 분할 등이 가능합니다. 특히 분포 계산은 런타임 증가 없이 자동으로 수행되며, 다중 스레드를 활용한 압축 해제 최적화로 대규모 데이터셋에서도 뛰어난 성능을 발휘합니다.
- 카테고리Quality Control > BAM/SAM QC
- 수정일2025-09-17
VerifyBamID
VerifyBamID2는 시퀀싱 데이터(BAM/CRAM 파일)에서 DNA 오염도(contamination)를 정확하게 추정하기 위한 차세대 품질 관리 도구입니다. 혈통에 무관한(ancestry-agnostic) 방법을 사용하여 다양한 인종 배경의 샘플에서도 일관되고 신뢰할 수 있는 오염도 측정을 제공합니다. 이 도구는 주성분 분석(Principal Component Analysis, PCA)과 특이값 분해(Singular Value Decomposition, SVD) 기법을 활용하여 의도된 샘플(intended sample)과 오염 소스(contaminating sample)의 유전적 특성을 각각 추정합니다. VerifyBamID2는 베이지안 최적화 알고리즘을 통해 두 소스의 주성분 좌표(PC coordinates)를 동시에 추정하고, 최대우도법(Maximum Likelihood Estimation)을 사용하여 오염 수준(Alpha)을 정량화합니다. VerifyBamID2의 핵심 혁신은 집단 구조(population structure)에 의존하지 않는 분석 방법입니다. 기존 도구들이 특정 인종 집단의 참조 패널에 의존했던 것과 달리, 이 도구는 SVD 기반의 차원 축소를 통해 샘플의 유전적 배경을 자동으로 추론하고 보정합니다. 이를 통해 혼혈 샘플이나 희귀 집단에서도 정확한 오염도 측정이 가능하며, 대규모 다인종 코호트 연구에서 특히 유용합니다. 특히 종양-정상 쌍 분석에서 VerifyBamID2는 정상 샘플에 종양 세포가 혼입되었는지, 또는 종양 샘플에 정상 세포가 과도하게 포함되었는지를 정량적으로 평가할 수 있습니다. 또한 샘플 라벨링 오류, 교차 오염(cross-contamination), 그리고 액체 생검(liquid biopsy)에서의 순환 종양 DNA(ctDNA) 비율 추정에도 활용됩니다.
- 카테고리Quality Control > BAM/SAM QC
- 수정일2025-09-17
Somalier
Somalier는 유전체 데이터의 샘플 간 관련성을 분석하고 확인하는 분석 도구입니다. 주로 샘플의 신원을 확인하고 유전체 데이터에서 샘플 간의 혼합이나 오류를 탐지하는 데 사용됩니다. BAM, CRAM, VCF 파일에서 정보 추출을 수행하며, 샘플 간의 유사도 매트릭스를 계산하여 시각화할 수 있습니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 Somalier는 입력(input) 데이터로 BAM 파일, Reference sequence FASTA 파일과 추출할 variant의 sites인 VCF 파일을 사용합니다. 출력(output) 데이터로는 추출된 샘플 정보가 포함된 JSON 형식의 .somalier 파일입니다.
- 카테고리Quality Control > BAM/SAM QC
- 수정일2025-09-17
GATK HaplotypeCaller
GATK의 HaplotypeClaller는 고품질의 변이 검출을 위해 설계되었습니다. 리드에서 발생할 수 있는 시퀀싱 오류를 감지하고 교정하기 위해, 리드의 서브셋을 클러스터링하여 재정렬합니다. 이 과정에서 halpotype을 식별하며, 이는 동일한 DNA 조각에서 유래된 리드의 집합을 의미합니다. 이후, 이 haplotype을 참조 서열과 비교하여 변이를 식별합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 HaplotypeCaller는 입력(input) 데이터로 BAM 파일, Reference sequence FASTA 파일과 Genomic Intervals list 파일을 사용합니다. 출력(output) 데이터로는 비변이 영역에 대한 정보를 포함한 gVCF 파일입니다. GVCF(Genomic VCF) 모드로 실행되어 변이가 없는 위치에 대한 정보도 함께 제공하여 후속 joint genotyping에 활용할 수 있습니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
GATK ApplyBQSR
GATK의 ApplyBQSR은 GATK에서 중요한 역할을 하는 도구로, 시퀀싱 데이터의 염기 품질 점수를 재조정하여 변이 탐지의 정확성을 향상시키는 기능을 수행합니다. 이 도구는 “BaseRecalibrator”에서 생성된 재조정 테이블에 포함된 여러 공변량을 사용하여 BAM 파일의 각 염기에 대한 품질 점수를 정밀하게 재조정합니다. 기본 공변량에는 리드 그룹, 초기 품질 점수, 시퀀싱 사이클, 뉴클레오타이드 컨텍스트 등이 포함됩니다. 각 공변량을 통해 특정 염기에서 발생할 수 있는 오류 확률을 계산하고, 이를 바탕으로 새로운 품질 점수를 할당합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 ApplyBQSR은 입력(input) 데이터로 정렬된 BAM 파일, “BaseRecalibrator”를 통해 생성된 재조정 테이블 파일과 참조 유전체 서열을 포함하는 FASTA 파일을 사용합니다. 출력(output) 데이터로는 재조정된 품질 점수를 반영한 새로운 BAM 파일입니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
GATK BaseRecalibrator
GATK의 BaseRecalibrator는 리드의 염기 품질 점수와 오류 패턴을 모델링하기 위한 데이터를 수집합니다. 이 단계에서는 BAM 파일과 신뢰할 수 있는 변이 목록을 입력으로 받아, 리드의 품질 점수를 재조정하는 데 필요한 정보를 수집합니다. BaseRecalibrator는 다양한 공변랑을 기반으로 테이블을 생성합니다. 탐색은 알려진 변이 사이트 VCF 파일에 있는 위치에만 작동합니다. 모든 참조 불일치를 오류로 간주하고, 이를 통해 낮은 베이스 품질을 나타낸다고 가정합니다. 충분한 데이터를 통해 특정 공변량이 관찰된 사이트에서 경험적 오류 확률을 계산할 수 있습니다. 오류 확률은 불일치 횟수를 관찰 횟수로 나누어 계산됩니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 BaseRecalibrator는 입력(input) 데이터로 BAM 파일, 참조 유전체 서열을 포함하는 FASTA 파일과 신뢰할 수 있는 변이 정보를 포함하는 VCF 파일입니다. 출력(output) 데이터로는 여러 공변량 값, 관찰 횟수, 불일치 횟수 그리고 경험적 품질 점수를 포함하는 table 파일입니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
SAMtools_flagstat
SAMtools flagstat는 BAM, SAM, CRAM 파일의 FLAG 정보를 기반으로 정렬 통계를 계산하고 요약 보고서를 제공하는 품질 관리 도구입니다. 이 도구는 입력 파일을 한 번 완전히 통과하면서 FLAG 필드의 비트 플래그를 기준으로 13개 카테고리의 통계를 산출하여 표준 출력으로 결과를 제공합니다. FLAG 정보는 SAM 형식 사양서에 정의된 비트 플래그로, 각 리드의 정렬 상태와 특성을 나타내는 중요한 메타데이터입니다. flagstat는 전체 서열 수, 매핑된 서열 수, 쌍으로 매핑된(properly paired) 서열 수, 중복(duplicates) 리드 수, 주 정렬(primary), 보조 정렬(secondary), 보완 정렬(supplementary) 등의 세부 통계를 제공합니다. 각 카테고리는 QC 통과(QC-passed)와 QC 실패(QC-failed) 리드로 구분되어 "#PASS + #FAIL" 형태로 출력되며, 매핑 비율, 적절한 페어링 비율 등의 백분율 정보도 함께 제공됩니다. 또한 기본 형식 외에도 TSV(탭으로 구분된 값)와 JSON 형식으로 출력할 수 있어 스프레드시트 소프트웨어나 다른 분석 도구에서 쉽게 활용할 수 있습니다. 이러한 통계 정보는 시퀀싱 실험의 품질을 평가하고, 정렬 과정의 성공률을 확인하며, 데이터의 전반적인 특성을 파악하는 데 필수적인 지표로 활용됩니다. 특히 매핑률이 낮거나 적절하게 페어링되지 않은 리드의 비율이 높은 경우, 실험 조건이나 분석 파라미터를 재검토할 필요가 있음을 시사합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 SAMtools flagstat는 입력(input) 데이터로 BAM 파일을 사용하며, 출력(output) 데이터로는 정렬 통계가 포함된 텍스트 형태의 요약 보고서를 생성합니다.
- 카테고리Utility > Genomic Data Utility
- 수정일2025-09-17
GATK CountBases
GATK의 CountBases는 BAM 또는 SAM 파일에서 각 염기(A, C, G, T)와 기타 염기 외 문자(N 등)의 출현 빈도를 계수하는 분석 도구입니다. 시퀀싱 데이터의 품질을 평가하거나 유전자 발현 수준, 변이 분석 등 다양한 분석 과정에서 유용하게 사용됩니다. CountBases의 출력은 초기 데이터 탐색 단계에서 데이터의 일관성과 정확성을 평가하는 데 중요한 지표를 제공하며, 이를 기반으로 추가적인 실험 설계나 분석 전략을 결정할 수 있습니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 CountBases는 입력(input) 데이터로 BAM 파일을, 출력(output) 데이터로는 BAM 파일 전체 bases 수가 출력된 count 파일이 생성됩니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
GATK MarkDuplicates
GATK의 MarkDuplicates는 BAM 또는 SAM 파일에서 중복 리드를 식별하고 태그하는 분석 도구입니다. BAM/SAM 파일에서 리드와 리드 페어의 5' 위치의 시퀀스를 비교하여 중복을 식별합니다. 중복된 리드를 모은 후에는 리드의 베이스 품질 점수의 합을 기준으로 주 리드와 중복 리드를 구별하는 알고리즘을 사용하여 표시합니다. 이러한 중복 서열은 변이 검출 시 위양성(false positive)을 유발할 수 있으므로, 제거하거나 통계 분석에서 제외하는 것이 중요합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 MarkDuplicates의 입력(input) 데이터로는 BAM 파일이며, 중복이 식별된 리드가 표시된 새로운 BAM 파일과 중복된 리드의 수와 관련된 다양한 통계를 담은 메트릭스 파일을 출력(output) 데이터로 합니다.
- 카테고리Variant > Variant Data Utility
- 수정일2025-09-17
SAMtools_sort
SAMtools는 고처리량 시퀀싱 데이터를 조작하고 분석하기 위해 설계된 다목적 도구 모음으로, 특히 SAM, BAM, CRAM 형식의 정렬 데이터를 처리하는 데 사용됩니다. 이 도구는 변이 호출, 정렬 데이터 확인, 품질 관리 등 다양한 작업에 널리 활용됩니다. SAMtools는 인덱싱, 정렬, 병합, 필터링 등 정렬 파일 처리에 필요한 다양한 기능을 지원하며, 유전체 분석 파이프라인에서 필수적인 도구입니다. SAMtools sort 명령은 SAM, BAM, CRAM 파일을 지정된 기준에 따라 정렬합니다. 기본적으로 좌표(coordinate) 기준으로 정렬하며, -n 옵션을 사용하면 쿼리 이름(query name) 기준으로 정렬합니다. 정렬 순서는 SAM 파일 헤더의 @HD 태그 내 SO 필드에 표시됩니다. 좌표 정렬은 @HD SO:coordinate, 쿼리 이름 정렬은 @HD SO:queryname으로 헤더에 기록됩니다. 좌표 정렬 (Coordinate Sorting)의 경우, 읽기는 다음과 같은 순서로 정렬됩니다: 1. 참조 시퀀스 이름(RNAME): @SQ 태그에 정의된 참조 시퀀스 사전의 순서를 따릅니다. 2. 가장 왼쪽 매핑 위치(POS): 동일한 RNAME 내에서 읽기의 시작 위치를 기준으로 정렬됩니다. 3. REVERSE 플래그: POS가 동일한 경우, 순방향 가닥(forward strand, REVERSE 플래그 0)이 역방향 가닥(reverse strand, REVERSE 플래그 1)보다 먼저 옵니다. 이후 추가적인 동점이 있는 경우, 정렬 순서는 입력 데이터의 순서를 유지할 수 있습니다. 쿼리 이름 정렬 (Query Name Sorting)의 경우, -n 옵션을 사용하며 읽기는 다음과 같은 순서로 정렬됩니다: 1. 쿼리 이름(QNAME): 자연스러운 순서(natural order)로 정렬되며, 문자열 내 숫자 부분은 수치적으로 비교됩니다 (예: "read9"는 "read10"보다 먼저). 2. READ1/READ2 플래그: 동일한 QNAME을 가진 읽기는 첫 번째 읽기(READ1, 플래그 0x40)가 두 번째 읽기(READ2, 플래그 0x80)보다 먼저 옵니다. 3. 정렬 유형: READ1/READ2가 동일한 경우, 주 정렬(primary alignment)이 먼저 오고, 그 다음 보조 정렬(supplementary alignment), 2차 정렬(secondary alignment) 순으로 정렬됩니다. 남은 동점은 입력 데이터의 원래 순서를 따릅니다. 따라서 SAMtools는 유전체 데이터를 효율적으로 처리하고 분석하는 데 중요한 역할을 하며, 특히 정렬 작업에서 sort 도구가 유용하게 사용됩니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 SAMtools sort는 SAM파일을 입력 데이터로 사용하여 BAM 파일을 출력합니다.
- 카테고리Utility > Genomic Data Utility
- 수정일2025-09-17
BWA-MEM
BWA는 대용량 시퀀싱 데이터를 참조 유전체와 정렬하는 데 사용되는 고속, 고정밀 분석 도구입니다. BWA는 짧은 리드(30bp~1Mbp)와 긴 리드(>100bp)에 모두 적합하며, 주로 Illumina 시퀀싱 데이터를 정렬하는 데 사용됩니다. BWA의 주요 기능은 효율적인 시퀀스 정렬도, Burrows-Wheeler 변환과 FM 인덱스를 사용하여 시퀀싱 리드를 참조 유전체에 빠르고 정확하게 정렬합니다. BWA-bactrack, BWA-sw 및 BWA-mem의 세 가지 알고리즘으로 구성됩니다. BWA-mem은 긴 리드(>70bp)에 최적화되어 있습니다. 시드-확장 접근 방식을 사용하여 정확하고 효율적인 정렬을 수행하며, 특히 긴 리드에서 높은 성능을 보입니다. 또한 BWA-mem은 RNS-seq 데이터에서 인트론과 엑손 간의 정확한 정렬을 지원하며, 높은 민감도와 정확도를 가지고 있어 변이 탐지에 유리합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 BWA-mem의 입력(input) 데이터로는 fastq 타입의 파일이 가능하며, 출력 데이터로는 align이 완료된 sam 파일이 생성됩니다.
- 카테고리Mapping > Short-Read Alignment
- 수정일2025-09-17
Homer_makeucscfiles
Homer makeUCSCfile은 University of California San Diego(UCSD)의 Homer 생태계 내에서 ChIP-seq 데이터 시각화 분야의 혁신적 솔루션으로 개발된 고성능 데이터 변환 엔진으로, UCSC Genome Browser, Ensembl, IGV 등 주요 게놈 브라우저와의 완벽한 호환성을 제공하는 표준 시각화 파이프라인입니다. 이 도구는 단순한 파일 형식 변환을 넘어서 정교한 신호 정규화 알고리즘과 다중 해상도 시각화 최적화 기술을 통합하여, 거대한 ChIP-seq 데이터셋을 실시간 브라우징이 가능한 효율적인 형태로 변환하면서도 생물학적 신호의 정량적 정확성을 완벽하게 보존합니다. Homer makeUCSCfile의 핵심 혁신은 태그 디렉토리 기반 데이터 구조화 시스템에 있습니다. 이 도구는 원시 정렬 파일(SAM/BAM)을 염색체별로 분할된 효율적인 태그 디렉토리 구조로 재구성하여 메모리 사용량을 최소화하면서도 빠른 랜덤 액세스를 가능하게 하고, 다양한 정규화 방법(RPM, RPKM, TPM 등)을 적용하여 샘플 간 비교 가능한 표준화된 신호 강도를 생성합니다. 특히 fragment length 보정 알고리즘을 통해 ChIP-seq 실험의 단편 크기 분포를 정확하게 반영하고, strand-specific signal processing으로 방향성 있는 단백질 결합 패턴을 정밀하게 시각화합니다. Homer makeUCSCfile은 bedGraph와 bigWig 포맷의 이중 지원을 통해 사용자의 다양한 분석 요구를 충족시키며, 컨트롤 샘플 기반 배경 제거 기능으로 IP-specific 신호만을 선별적으로 강조하고, multi-scale visualization optimization을 통해 전체 게놈 뷰에서 단일 염기 해상도까지의 모든 줌 레벨에서 최적화된 시각적 표현을 제공합니다. 이러한 포괄적 시각화 솔루션을 통해 연구자들은 복잡한 ChIP-seq 데이터를 직관적이고 정확한 게놈 브라우저 트랙으로 변환하여 가설 생성, 패턴 발견, 결과 검증, 그리고 연구 결과 발표에 필수적인 고품질 시각적 증거를 생성할 수 있습니다. 입력 데이터는 Bowtie2가 완료된 aligned.sam 파일이며, ChIP-Seq 데이터의 전처리 결과인 각 분석 샘플의 염색체별 tags.tsv 파일, 기본 태그 정보와 시퀀싱 실행에 관한 내용이 적혀 있는 tagInfo.txt 파일, read mapping 결과를 UCSC Genome Browser 및 IGV에서 시각화할 수 있는 BedGraph 및 BigWig 형식의 파일 등으로 구성된 출력물이 생성됩니다.
- 카테고리Omics Data Analysis > ChIP-seq Analysis
- 수정일2025-09-17
Homer_annotatePeaks
Homer annotatePeaks는 University of California San Diego(UCSD)의 Christopher Benner가 개발한 포괄적 게놈 주석 분석 플랫폼의 핵심 모듈로, 전 세계 ChIP-seq 연구 커뮤니티에서 피크 기능 주석 분야의 표준 도구로 인정받고 있는 강력한 생물학적 해석 엔진입니다. 이 도구는 단순한 거리 기반 주석을 넘어서 계층적 게놈 기능 분류 체계와 다차원 주석 통합 알고리즘을 구현하여, 식별된 ChIP-seq 피크들을 생물학적으로 의미 있는 기능적 카테고리로 체계적으로 분류하고 각 피크의 조절적 역할과 타겟 유전자와의 관계를 정밀하게 규명합니다. Homer annotatePeaks의 가장 큰 혁신은 다중 스케일 주석 시스템(multi-scale annotation system)에 있습니다. 이 도구는 전사 시작점(TSS), 전사 종료점(TTS), 엑손-인트론 경계, 5'/3' UTR 등의 세밀한 유전자 구조 요소들을 동시에 고려하여 각 피크의 위치를 프로모터, 인핸서, 사일렌서, 인슐레이터 등의 기능적 범주로 분류합니다. 특히 거리 가중 주석 알고리즘을 통해 가장 가까운 유전자뿐만 아니라 기능적으로 연관될 가능성이 높은 원거리 유전자까지 포함하는 포괄적인 타겟 유전자 예측을 수행하며, 조직 특이적 유전자 발현 데이터와의 통합을 통해 생물학적 맥락을 고려한 정교한 기능 추론을 제공합니다. Homer annotatePeaks는 GENCODE, RefSeq, Ensembl 등 다양한 유전자 주석 데이터베이스와의 완벽한 호환성을 제공하며, CpG 섬, 반복 서열, 보존된 비코딩 요소, 알려진 전사인자 결합 모티브 등의 다층적 게놈 특성 정보를 통합하여 각 피크의 조절적 잠재력과 진화적 보존성을 종합적으로 평가합니다. 이러한 통합적 주석 접근법을 통해 연구자들은 ChIP-seq 실험에서 발견된 단백질 결합 부위들의 생물학적 의미와 기능적 중요성을 체계적으로 이해하고, 유전자 조절 네트워크와 질병 연관성에 대한 심층적인 인사이트를 얻을 수 있는 필수불가결한 해석 도구입니다. 입력(input) 데이터로는 MACS2가 완료된 summits.bed 파일로 하며, 주석이 달린 peaks의 정보를 포함한 txt file을 출력(output) 데이터로 합니다.
- 카테고리Omics Data Analysis > ChIP-seq Analysis
- 수정일2025-09-17
Bowtie2
Bowtie2는 Johns Hopkins University의 Ben Langmead와 Steven Salzberg가 개발한 플랫폼으로, 전 세계 주요 게놈 센터와 바이오인포매틱스 분야에서 서열 정렬 분야의 표준 참조로 인정받고 있는 핵심 도구입니다. 이 도구는 기존 정렬 도구들의 한계를 극복하기 위해 FM-index(Full-text Minute-space index) 기술과 BWT(Burrows-Wheeler Transform) 알고리즘을 결합한 획기적인 색인 구조를 구현하여, 인간 전체 게놈과 같은 거대한 참조 서열에서도 메모리 효율성과 검색 속도를 동시에 최적화한 혁신적 솔루션을 제공합니다. Bowtie2의 가장 큰 기술적 혁신은 갭을 허용하는 정렬(gapped alignment)과 지역 정렬(local alignment) 기능을 완벽하게 지원한다는 점입니다. 이는 ChIP-seq 분석에서 핵심적으로 중요한데, 크로마틴 면역침전 과정에서 발생할 수 있는 DNA 단편화나 시퀀싱 오류를 지능적으로 처리하면서도 multi-mapping 리드의 정확한 분류를 통해 반복 서열 영역에서의 false positive 신호를 효과적으로 차단합니다. 특히 MAPQ(Mapping Quality) 점수 계산 시스템을 통해 각 정렬의 신뢰도를 정량적으로 평가하여, 후속 MACS2 피크 호출에서 고유하게 매핑된 고신뢰도 리드만을 선별적으로 활용할 수 있게 합니다.
- 카테고리Mapping > Short-Read Alignment
- 수정일2025-09-16
FastQC
FastQC는 고속 염기서열 분석(high throughput sequence) 데이터의 품질 관리를 위한 분석도구입니다. 이 프로그램은 FASTQ 형식의 서열 데이터를 읽어들여 여러 품질 관리(Qaulity Control) 검사를 수행하고 결과는 HTML 기반의 보고서로 출력합니다. FastQC는 전반적인 품질 문제에 대한 개요 정보를 제공하며, 쉽게 확인할 수 있는 요약된 그래프와 테이블을 포함합니다. FastQC는 FASTQ 형식의 파일이 입력 파일로 사용되며, 출력 결과는 리포트 html 파일과 zip 형식의 압축 파일이 생성됩니다.
- 카테고리Quality Control > Raw Data QC
- 수정일2025-09-16
topGO_GOanalysis
TopGO는 특정 유전자 목록을 기반으로 Gene Ontology(GO) 용어의 풍부도를 분석하는 R 패키지입니다. 이를 통해 차이가 있거나 관심 있는 유전자들이 GO의 어떤 기능 범주(Biological Process, Molecular Function, Cellular Component)에 과도하게 포함되어 있는지를 통계적으로 평가할 수 있습니다. GO의 계층 구조를 고려하여 부모-자식 노드 간 의존성을 반영한 보다 정확한 enrichment 분석이 가능하며, Fisher’s exact test, Kolmogorov-Smirnov test, weighted scoring 등 다양한 통계적 방법을 지원합니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_plotCellTypeProportion
scanpy_plotCellTypeProportion 함수는 AnnData 객체 내 두 개의 범주형 변수(예: 클러스터와 세포 유형)를 기반으로 교차 빈도표(contingency table)를 생성합니다. 이를 통해 첫 번째 그룹의 각 카테고리(예: 세포유형)에 속한 세포들이 두 번째 그룹(예: 클러스터)의 각 카테고리에 얼마나 포함되는지 계산할 수 있습니다. 계산된 값은 절대 빈도(absolute counts)와 상대 점유율(relative proportions)로 제공되며, 이를 막대그래프로 시각화하여 각 클러스터에서 어떤 세포 유형이 어느 정도 분포하는지 직관적으로 확인할 수 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_plotGeneExpr
scanpy_plotGeneExprs 함수는 사용자가 지정한 유전자 발현을 scatter plot, dot plot, violin plot, 혹은 heatmap 형태로 시각화하는 기능을 제공합니다. 이 함수는 DEG(차등 발현 유전자)를 계산하지 않으며, 사용자가 직접 지정한 유전자 목록이나 사전에 수행된 DEG 분석 결과를 기반으로 발현 양상을 시각화합니다. 출력된 그래프는 자동으로 파일로 저장되며, 연구자는 이를 통해 각 세포 집단 간 발현 패턴을 직관적으로 비교하고 해석할 수 있습니다. 이러한 시각화는 후속 분석이나 결과 보고에 매우 유용하게 활용됩니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_findDEG
분석에 사용되는 AnnData 객체를 기반으로, 각 클러스터(그룹) 내 세포와 나머지 세포 간, 혹은 사용자가 지정한 두 클러스터(그룹) 간의 차별 발현 유전자(Differentially Expressed Gene, DEG)를 선별합니다. 이는 두 세포 집단의 유전자 발현량 차이를 Scanpy의 scanpy.tl.rank_genes_groups() 함수에 내장된 t-test, Wilcoxon rank sum test 등의 통계 기법으로 비교하여 수행됩니다. 결과 파일에서는 두 집단 간 발현 차이를 보이는 유전자 목록을 확인할 수 있으며, 이를 시각화하여 활용할 수 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_runCellTypist
CellTypist는 단일세포 전사체 데이터에서 세포 유형을 자동으로 예측하고 주석을 달아주는 Python 기반 패키지입니다. 미리 학습된 reference 모델(예: Immune_All_Low, Immune_All_High, Lung_Immune, Brain_NonImmune, PBMC 등)을 활용하여 각 세포의 발현 패턴을 비교·분류합니다. 사용자는 AnnData 객체를 입력해 간단히 실행할 수 있으며, 결과는 각 세포별 세포 유형 정보로 추가됩니다. 직관적이고 빠른 분류가 가능해 대규모 단일세포 데이터 분석에 유용하며, 연구자의 해석을 보완하는 도구로 널리 활용됩니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_annotateClusters
Scanpy에서는 연구자가 특정 마커 유전자의 발현 패턴을 기준으로 직접 클러스터에 세포 유형을 부여할 수 있습니다. 예를 들어 T세포 마커(CD3D, CD3E), B세포 마커(MS4A1), 대식세포 마커(LYZ) 등의 발현을 확인하여 해당 클러스터가 어떤 세포 집단인지 판단합니다. 이후 클러스터 번호(예: 0, 1, 2…)에 연구자가 정의한 세포 유형 라벨을 매핑해 adata.obs['celltype'] 같은 새로운 열에 저장할 수 있습니다. 이 방법은 자동 주석 도구 대비 해석자의 전문 지식을 반영할 수 있어, 데이터 특성에 맞는 맞춤형 주석 작업이 가능하다는 장점이 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_BBKNNbatchCorrection
scRNA-seq 데이터는 기술적 요인(technical factors)의 영향을 받아 샘플 간 실제 생물학적 변이를 가릴 수 있으며, 이로 인해 연구 결과에 부정적인 영향을 미칠 수 있습니다. 대표적인 기술적 요인 중 하나인 batch effect는 샘플이 서로 다른 그룹이나 배치에서 처리될 때 발생할 수 있습니다. 이러한 영향을 최소화하기 위해 샘플을 동일한 날짜에 처리하고, 동일한 프로토콜과 장비를 사용하는 방법이 권장됩니다. 또한 batch effect correction을 위한 다양한 기법과 패키지(Harmony, MNN, ComBat 등)가 개발되어 있으며, Bio-Express에서는 Scanpy에 탑재된 BBKNN을 활용하여 batch effect correction 기능을 제공합니다. Batch correction 이후 scanpy_findNeighbors부터 scanpy_scatterPlot까지의 과정을 다시 수행해야 하며, 이를 통해 보정된 데이터 기반의 군집화 및 시각화 결과를 확인할 수 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_scatterPlot
앞서 계산된 UMAP, t-SNE, 혹은 PCA 임베딩 결과를 활용하여 모든 세포에 대한 산점도를 시각화합니다. 이때 각 점은 하나의 세포를 나타내며, 샘플 정보나 findClusters 단계에서 얻은 클러스터 번호에 따라 색상 또는 모양으로 구분할 수 있습니다. 이러한 산점도는 군집 구조 확인을 넘어, 개별 세포 수준에서 특정 유전자의 발현 패턴을 탐색하는 데도 유용합니다. 예를 들어, raw count, log-normalized, scaled 등 다양한 데이터 변환 방식에 따른 발현 강도를 색상으로 표시하면 특정 유전자가 집단 특이적으로 발현되는지, 혹은 전반적으로 균일하게 분포하는지를 효과적으로 파악할 수 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_findClusters
scanpy_findClusters 단계는 앞서 계산된 scRNA-seq 데이터의 neighbor graph(FindNeighbors 단계 결과)를 기반으로, 각 세포를 유사한 발현 패턴을 가진 그룹으로 묶는 클러스터링 과정을 수행합니다. 이때 Leiden 또는 Louvain 알고리즘을 사용하여 세포 집단을 자동으로 식별하며, 알고리즘은 세포 간 연결 강도와 구조를 고려하여 최적의 군집을 형성합니다. 클러스터 번호는 세포 수가 많은 그룹부터 0, 1, 2… 순으로 할당되며, 결과는 AnnData 객체의 obs에 저장되어 추후 시각화, 차원 축소(UMAP/t-SNE), 또는 집단 간 차이 분석에 활용할 수 있습니다. 이 과정은 scRNA-seq 데이터에서 세포 유형 및 상태를 탐색하는 핵심 단계입니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_runUMAP
runUMAP은 앞서 계산한 scRNA-seq 데이터의 neighborhood graph를 기반으로, 비선형 차원 축소 기법인 UMAP(Uniform Manifold Approximation and Projection)을 수행합니다. 이 과정은 고차원 유전자 발현 데이터를 저차원 공간으로 변환하면서, 데이터의 전반적인 구조와 세포 간 관계를 최대한 유지하도록 설계되었습니다. UMAP을 통해 얻은 임베딩은 각 세포의 위치 정보를 2차원 또는 3차원 공간에 나타낼 수 있으며, 이를 바탕으로 클러스터링, 시각화, 군집 간 관계 분석 등에 활용할 수 있습니다. 경우에 따라, UMAP 대신 scanpy_runTSNE 단계를 사용하여 국지적 구조를 강조한 비선형 임베딩을 수행할 수도 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_runTSNE
scanpy_runTSNE는 scRNA-seq 데이터에 대해, UMAP 등장 이전에 사용하던 비선형적 차원 축소 방식인 t-stochastic neighbor embedding(t-SNE)를 수행합니다. t-SNE는 고차원 공간에서 각 점과 그 이웃 간의 거리를 보존하는 저차원 공간을 찾습니다. 이를 통해 데이터의 국지적인 구조를 유지함으로써, 복잡한 집단에서 많은 서로 다른 클러스터를 2차원상에서 분리되도록 embedding합니다. 때에 따라 scanpy_runUMAP 단계로 대체할 수 있습니다. (UMAP은 전반적인 데이터의 구조를 유지하지만, t-SNE는 국지 구조만을 유지한다는 단점을 가집니다.)
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_findNeighbors
findNeighbors는 scRNA-seq 발현량 데이터를 기반으로 세포 간 유사성을 평가하여 neighbor graph를 구축하는 과정입니다. 각 세포는 유전자 발현 패턴이 비슷한 이웃 세포들과 연결되며, edge에는 발현 패턴의 유사도에 따라 가중치가 부여됩니다. 이를 통해 각 세포에 대해 유사도가 높은 세포들을 효율적으로 선별할 수 있으며, 생성된 neighbor graph는 후속 군집 분석(clustering), 차원 축소(UMAP, t-SNE) 및 다양한 downstream 분석에서 세포 간 구조를 반영하는 기초 자료로 활용됩니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_runPCA
scanpy_runPCA는 고차원 유전자 발현 데이터를 저차원으로 축소해 주요 패턴을 추출하는 과정입니다. scRNA-seq 데이터는 차원이 높고 노이즈가 많기 때문에, PCA(Principal Component Analysis, 주성분 분석)를 통해 변동성이 큰 방향을 찾아 요약합니다. 주로 HVG(Highly Variable Genes)를 기반으로 수행하여 생물학적으로 의미 있는 변동성을 반영합니다. 이렇게 얻은 주성분은 데이터의 구조를 유지하면서 계산 효율성을 높이고, 이후 클러스터링이나 시각화(UMAP, t-SNE) 같은 분석의 기초로 활용됩니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_scaleData
Log-normalization을 마친 AnnData 객체의 발현량을 바탕으로, 전체 세포 집단에서 각 유전자의 발현량을 Z-score 방식으로 표준화(z-scaling)합니다. 이 과정을 통해 유전자 간 발현량의 차이를 정규화하여, 특정 유전자가 PCA, UMAP, 클러스터링과 같은 downstream 분석에서 지나치게 큰 영향을 미치는 것을 방지합니다. 또한, 모든 유전자의 발현값이 동일한 척도로 변환됨으로써 분석 결과가 보다 공정하고 안정적으로 산출되며, 데이터의 변동성이 높은 유전자가 과도하게 결과에 영향을 주는 것을 막아 차원 축소 및 클러스터링 결과의 신뢰도를 높이는 데 기여합니다. 이 표준화된 데이터는 이후 분석에 최적화된 형태로 활용됩니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_findHVGs
단일 세포 발현 매트릭스는 수많은 세포와 유전자를 포함하기 때문에 매우 높은 차원을 가지며, 직접적인 분석은 계산량이 크고 해석이 어려울 수 있습니다. 이를 완화하기 위해, 전체 세포 집단에서 세포 간 발현 차이를 잘 설명할 수 있는 highly variable gene (HVG)를 선별하여 데이터 차원을 감소시키는 것이 일반적입니다. scanpy_findHVG는 log-normalized expression matrix를 기반으로, 각 유전자의 평균 발현량 대비 분산이 높은 유전자들을 HVG로 선정합니다. 선정된 HVG는 downstream 분석에서 주로 사용되며, 결과물로는 HVG가 포함된 AnnData 객체, HVG 리스트, 그리고 mean-dispersion plot이 제공됩니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_normalize
세포의 유형이나 크기에 따라 세포당 총 RNA 수는 크게 달라질 수 있으며, 이러한 차이는 scRNA-seq 데이터 분석에서 발현량 편향이나 downstream 분석 오류를 유발할 수 있습니다. 이러한 문제를 보정하기 위해 Bio-Express에서는 Scanpy에서 제공하는 count depth scaling 방법을 사용하여 각 세포의 총 UMI 수를 기준으로 발현량을 조정합니다. 모든 발현량 조정이 끝난 후에는 각 값에 1을 더하고 자연로그(log1p)를 취하여 발현량 분포의 왜도(skewness)를 완화하고, 극단값에 의한 영향을 줄입니다. 변환된 데이터는 AnnData 객체의 기본 위치(X) 또는 사용자가 지정한 layer에 저장되며, 이후 normalization이 필요한 분석 단계에서 그대로 활용할 수 있습니다. 이를 통해 서로 다른 세포 간의 발현량 비교를 보다 정확하게 수행할 수 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
scanpy_applyQCthresholds
Scanpy applyQCthreshold는 QC 지표가 계산된 AnnData object(.h5ad 파일)를 불러와 사용자가 지정한 QC 범위에 따라 세포를 필터링합니다. 이 과정에서는 총 UMI 수, 세포별 발현 유전자 수, 미토콘드리아 유전자 비율 등을 기준으로 낮은 품질의 세포를 제거할 수 있습니다. 필터링된 세포는 샘플별 개별 AnnData로 저장하거나 모든 샘플을 통합한 AnnData로 저장할 수 있습니다. 임계값 적용 이후 각 샘플의 QC 지표(n_genes_by_counts, total_counts, pct_counts_mt) 분포는 히스토그램과 산점도 플롯으로 시각화되며, 이를 통해 사용자는 지정한 QC 기준이 적절하게 low-quality 세포를 제거하고, 고품질 세포를 유지했는지 직관적으로 검토할 수 있어 이후 분석의 신뢰성을 높일 수 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17
dropletUtils_filterCells
DropletUtils의 filterCells는 sample_info.csv 파일을 불러온 뒤, 해당 파일에 기재된 각 샘플에 대해 비어 있는 droplet을 제거합니다. 구체적으로는 다음 절차를 거쳐 수행됩니다. 먼저, cellranger count의 산출물 중 filtering되지 않은 feature-barcode count matrix를 불러오고, 이 과정에서 각 droplet에 sample_info.csv에서 얻은 샘플 정보를 매핑하여 저장합니다. 이후 각 droplet의 총 UMI 수를 계산하여 기본값으로 100 이하인 경우를 비어 있는 droplet으로 간주합니다. 이러한 기준을 바탕으로 전체 droplet 중 실제로 empty droplet일 것으로 추정되는 경우를 선별하고, 반대로 비어 있지 않은 droplet은 실제 세포로 판단합니다. 실제 세포로 구분된 droplet의 count matrix는 추후 분석에 활용할 수 있도록 입력과 동일한 .mtx 형식으로 저장합니다. 또한 filtering되지 않은 전체 droplet을 대상으로 barcode rank plot을 작성하여 제거된 droplet의 UMI 분포와 rank 정보를 시각적으로 확인할 수 있습니다.
- 카테고리in-house script > scRNA-seq
- 수정일2025-09-17