메뉴 바로가기 본문 바로가기 하단 바로가기

Bio-Express

하나의 엔터프라이즈급 서버 플랫폼을 기반으로 유전체 빅데이터를 분석하기 위한
직관적이고 개방적인 통합 분석 시스템
  • 1188CPU(cores)
  • 12.4Memory(TB)
  • 2000Storage(TB)
  • 6288누적 사용자수
  • 91452누적 분석건수
  • 134분석 도구
  • 20분석 파이프라인

공개 파이프라인

Transcriptomics
RNA-seq-transcriptomics RNA-seq Analysis Pipeline
b bio-workflow
${pipeline.pipelineName} + ' 썸네일'
Transcriptomics
RNA-seq Analysis Pipeline

RNA-seq Analysis Pipeline은 RNA-Seq 데이터를 처리하고 유전자 발현에 대한 통계적 분석을 수행하는 것을 목표로 합니다. 이 파이프라인은 유전자의 발현 수준을 이해하고 해석하기 위해 실험 데이터의 품질을 평가하고 정제하며, 정렬, 발현 수준 계산, 통계적 분석, 결과 시각화로 구성되어 있습니다.파이프라인의 초기 단계에서는 실험 데이터의 품질 평가와 정제가 이루어집니다. FastQC를 사용하여 실험 데이터의 품질을 검사하고 평가하며, Cutadapt를 활용하여 시퀀싱 어댑터 및 낮은 품질의 리드를 효과적으로 정제합니다.다음으로, STAR 2를 이용하여 리드를 정확하게 유전체에 정렬하고, 각 유전자의 발현 위치를 정밀하게 파악합니다. 그 후, Rsubread 라이브러리의 FeatureCounts를 활용하여 정렬된 리드를 각 유전자에 할당하여 발현 수준을 정량화하고 Count Matrix를 생성합니다.이어지는 단계에서는 R 기반의 edgeR과 limma를 사용하여 발현 수준의 통계적 차이를 식별하고 각 유전자의 발현 변동을 분석합니다. 이 과정에서 control과 test 샘플에는 각각 최소 두 개 이상의 생물학적 복제 샘플이 포함되어야 통계적 분석이 가능하다는 점에 유의해야 합니다. 복제가 없는 경우 잔차 유도가 0이 되어 분석이 실패하거나 결과가 신뢰성을 잃을 수 있습니다. 또한, R 기반의 fgsea를 활용하여 gene set 간의 풍부도를 평가하고, 다양한 시각화 도구를 활용하여 효과적으로 표현합니다. 마지막으로, fgsea의 결과 파일을 이용하여 여러 R 패키지를 통해 데이터 시각화, 그래픽 생성 등 실험 결과를 자세히 분석하고 시각화합니다.전체적으로, 최상위 입력 데이터인 fastq 형식의 RNA-seq raw data로부터 시작하여 품질 보고서인 fastqc.report.html을 생성하고, MA plot, correlation plot, network, volcano plot, heatmap 등의 다양한 시각화 자료를 통해 유전자 발현 및 풍부도를 시각적으로 확인할 수 있습니다. Bio-Express RNA-seq Alternative-splicing Pipeline (이하 AS)은 유전자 발현의 전사체 수준에서 크게 5가지 type의 splicing 양상을 확인할 수 있다.Alternative splicing은 하나의 유전자를 구성하는 복수의 exon (coding region)간의 조합에 따라 여러 transcripts (isoforms)가 생성되며, 이에 따라 하나의 유전자라도 서로 다른 구조를 갖는 단백질이 만들어짐에 따라 기능이 다른 유전자로써 역할을 하게된다. 이러한 메커니즘을 통해 단백질의 폭넓은 capacity 를 확보할 수 있으며, 다양한 분자적 역할이 가능하다. (출처: From Wikipedia, the free encyclopedia) 기본적인 5가지 형태의 이벤트는 아래와 같다. 1. SE (Exon skipping cassette exon) 2. MXE (Mutually exclusive exons) 3. A5SS (Alternative donor site) 4. A3SS (Alternative acceptor site) 5. RI (Intron retention) AS 분석 파이프라인은 아래와 같은 흐름으로 진행됨. 1. Quality Control, 시퀀싱 품질 관리 (by FastQC) 2. Trimming, 아답터 및 low quality 제거 (by Cutadapt, Trimmomatic) 3. Mapping, 레퍼런스 alignment (by STAR, HISAT2) 4. AS detection, 선택적 스플라이싱 탐색 (by rMATs) 5. Visualization, AS 결과 시각화 (by ggsashimi)

버전1.0
실행 횟수 0회
Genomics
Variant-analysis Whole Genome Sequencing Somatic Variant Analysis Pipeline
b bio-workflow
${pipeline.pipelineName} + ' 썸네일'
Genomics
Whole Genome Sequencing Somatic Variant Analysis Pipeline

Bio-Express Somatic WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 체세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력 데이터로 사용하고, 종양-정상 쌍 분석을 기반으로 하는 포괄적인 체세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read에 대한 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, SNPmatch를 활용한 변이-SNP마커 통합 분석을 통한 샘플 정체성 확인, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 종양-정상 쌍 분석 단계로 진입하며, Conpair를 통한 Normal-Tumor 페어 적합성 검증과 교차 개체 오염 수준 추정을 수행합니다. 그 다음 Strelka2와 Mutect2를 통한 단일 염기 변이 및 삽입/결손 변이 검출을 병행하여 체세포 변이의 민감도와 특이도를 극대화합니다. 마지막으로 TINC를 통한 종양 순도 분석과 Manta를 사용한 구조 변이 호출, Canvas를 이용한 복제수 변이 분석으로 포괄적인 체세포 유전체 변화를 정량화하여 암 유전체학 연구와 정밀 의학에 필수적인 정보를 제공합니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 종양 조직 샘플: FASTQ 파일명에 "_T" 포함 필수 - 정상 조직 샘플: FASTQ 파일명에 "_N" 포함 필수 (예시) patient001_T_R1.fastq.gz # 종양 샘플, Read 1 patient001_T_R2.fastq.gz # 종양 샘플, Read 2 patient001_N_R1.fastq.gz # 정상 샘플, Read 1 patient001_N_R2.fastq.gz # 정상 샘플, Read 2

버전1.0
실행 횟수 0회
Genomics
Variant-analysis Whole Genome Sequencing Germline Variant Analysis Pipeline
b bio-workflow
${pipeline.pipelineName} + ' 썸네일'
Genomics
Whole Genome Sequencing Germline Variant Analysis Pipeline

Bio-Express Germline WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 생식세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 개체 유전체 분석을 기반으로 허눈 포괄적인 생식세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 GATK HaplotypeCaller를 이용한 GVCF 파일 생성 및 GenotypeGVCFs를 활용한 표준 VCF 형태의 생식세포 SNV/Indel 변이 탐지를 실행합니다. 후속적으로 BCFtools를 적용한 종합적인 변이 통계 해석을 진행하며, Manta 도구를 통해 구조적 변이를 검출합니다. > 기본 참조 게놈: hg38

버전1.0
실행 횟수 0회
Epigenomics
DNA-binding-protein-based-analysis ChIP-seq Analysis Pipeline
b bio-workflow
${pipeline.pipelineName} + ' 썸네일'
Epigenomics
ChIP-seq Analysis Pipeline

Bio-Express ChIP-seq Analysis Pipeline은 크로마틴 면역침전 시퀀싱(Chromatin Immunoprecipitation Sequencing) 데이터로부터 단백질-DNA 결합 부위를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 전사인자 결합 사이트, 히스톤 변형 영역, 크로마틴 구조 분석을 기반으로 하는 포괄적인 후성유전학적 결합 부위 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, FASTX-Toolkit을 사용하여 저품질 염기 필터링을 진행하고, Bowtie2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 SAM 형식의 정렬 파일을 생성합니다. 이후 전처리가 완료된 정렬 파일을 활용하여 후성유전학적 신호 분석 단계로 진입합니다. MACS2(Model-based Analysis of ChIP-Seq)를 통한 통계적으로 유의한 피크 호출을 수행하여 단백질-DNA 결합 부위를 정확히 식별하고, narrowPeak 형식으로 고해상도 결합 영역을 제공합니다. 최종적으로 Homer를 활용한 포괄적인 후속 분석 단계를 수행합니다. annotatePeaks 기능을 통해 검출된 피크의 게놈 위치 주석과 주변 유전자 정보를 제공하고, makeUCSCfile을 사용하여 UCSC 게놈 브라우저와 호환되는 bedGraph 형식의 시각화 파일을 생성하여 크로마틴 면역침전 신호의 게놈 전체 분포 패턴을 직관적으로 확인할 수 있습니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 컨트롤 파일: "CONTROL_"로 시작 필수 (자동 식별을 위한 필수 접두사) - 처리/ChIP 파일: 특별한 파일명 규칙 없음 (예시) CONTROL_input_R1.fastq.gz # 유효한 컨트롤, Read 1 CONTROL_input_R2.fastq.gz # 유효한 컨트롤, Read 2 ChIP_H3K4me3_R1.fastq.gz # 유효한 처리군, Read 1 ChIP_H3K4me3_R2.fastq.gz # 유효한 처리군, Read 2

버전1.0
실행 횟수 0회