Command Palette
Search for a command to run...
Gatk_benchmark 基因组分析示例数据集
*该数据集支持在线使用,点击此处跳转。
GATK(Genome Analysis Toolkit)是由美国麻省理工学院与哈佛大学联合设立的 Broad Institute(博德研究所)开发的开源生物信息学工具包。
该项目的目标是为高通量测序(NGS, Next Generation Sequencing)数据提供一套标准化的分析流程,主要用于:
- DNA / RNA 测序数据的质量控制(QC);
- 序列比对(Alignment)与比对后校准(Recalibration);
- 突变检测(Variant Calling),识别 SNP 和 InDel 等变异;
- 群体水平的联合基因分型(Joint Genotyping)。
GATK 是目前基因组学领域最常用的分析框架之一,被广泛应用于人类全基因组测序、癌症基因组研究和精准医疗中。
相关论文成果为「The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data」,由哈佛大学与麻省理工学院博德研究所联合麻省总医院人类遗传学研究中心于 2010 年发布。
示例数据集介绍
GATK 的分析流程以未比对 BAM 文件(uBAM)作为统一起点,而测序仪通常输出 FASTQ 文件,或已有已比对 BAM 文件。为确保分析流程一致与可重复,需将不同来源的数据统一转换为 uBAM 格式。
本项目提供两个典型示例,分别展示:
- 从 FASTQ 到未比对 BAM 的转换流程(FastqToSam);
- 从已比对 BAM 到未比对 BAM 的还原流程(RevertSam)。
tutorial6484FastqToSam.tar.gz
该数据集包含 FASTQ 格式文件,是测序仪输出的原始数据格式,记录每条 DNA 读段(reads)的碱基序列与测序质量值,用于演示如何使用 Picard 的 FastqToSam 工具将双端测序的 FASTQ 文件转换为未比对 BAM,生成 .bam 文件,其中包含原始序列、质量值和读组信息,但不含任何比对位置信息。
- 转换命令示例:
bash
java -Xmx8G -jar picard.jar FastqToSam \
FASTQ=6484_snippet_1.fastq \ # 双端测序中的第一个读段文件
FASTQ2=6484_snippet_2.fastq \ # 双端测序中的第二个读段文件
OUTPUT=6484_snippet_fastqtosam.bam \
READ_GROUP_NAME=H0164.2 \ # 必需;读组名称(默认值为 A,此处已修改)
SAMPLE_NAME=NA12878 \ # 必需;样本名称
LIBRARY_NAME=Solexa-272222 \ # 必需;文库名称
PLATFORM_UNIT=H0164ALXX140820.2 \
PLATFORM=illumina \ # 推荐;测序平台类型(如 Illumina)
SEQUENCING_CENTER=BI \
RUN_DATE=2014-08-20T00:00:00-0400 # 测序运行日期与时间
tutorial6484RevertSam.tar.gz
该数据集为 BAM 格式文件,是将 FASTQ 文件中的序列进行标准化或比对后得到的二进制格式文件,能够以更高效的方式存储序列及其在基因组上的位置信息。该示例数据集用于演示如何使用 Picard 的 RevertSam 工具将已比对的 BAM 文件还原为未比对状态,以便重新比对或重新分析。
- 转换命令示例:
bash
java -Xmx8G -jar /path/picard.jar RevertSam \
I=6484_snippet.bam \
O=6484_snippet_revertsam.bam \
SANITIZE=true \
MAX_DISCARD_FRACTION=0.005 \ # 仅用于信息提示,不影响处理过程
ATTRIBUTE_TO_CLEAR=XT \
ATTRIBUTE_TO_CLEAR=XN \
ATTRIBUTE_TO_CLEAR=AS \ # 自 2015 年 9 月的 Picard 版本起,AS 属性默认会被清除
ATTRIBUTE_TO_CLEAR=OC \
ATTRIBUTE_TO_CLEAR=OP \
SORT_ORDER=queryname \ # 默认设置;按查询名排序
RESTORE_ORIGINAL_QUALITIES=true \ # 默认设置;恢复原始质量值
REMOVE_DUPLICATE_INFORMATION=true \ # 默认设置;移除重复信息
REMOVE_ALIGNMENT_INFORMATION=true # 默认设置;移除比对信息