一、安装FastQC
FastQC是一个免费的、开源的软件,可以在官网(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)下载安装。安装非常简单,只需要下载对应版本的二进制文件并解压,即可使用。FastQC是一个Java程序,因此需要确保安装了Java运行时环境。
二、使用FastQC进行测序数据质量控制
FastQC可以用于对Illumina、SOLiD、Ion Torrent和PacBio测序数据进行质量控制。
1. 计算测序数据质量分布
FastQC通过计算测序数据的质量分布,帮助我们了解数据的质量和相关的问题,如低质量碱基、过度的碱基偏差、过度的N碱基等,便于我们优化下游分析。
fastqc -o output_dir fastq_files
其中,-o
选项表示输出结果的目录,fastq_files
为待处理的FASTQ格式的测序数据文件。
FastQC支持同时处理多个文件,在命令行中对文件列表进行逗号分隔即可。例如:
fastqc -o output_dir file1.fastq.gz,file2.fastq.gz,file3.fastq.gz
FastQC会自动识别输入文件的格式,无需手动指定。
2. FastQC结果解释
FastQC处理后生成的报告分为三块。第一部分是该样本的总体质量摘要,包括序列总数、序列长度、质量分布等;第二部分是每个碱基的质量分布柱状图;第三部分是检测到的各种问题的详细说明和解释。
(1)总体质量摘要
总体质量摘要包括多个模块,其中包括基本统计数据、序列长度分布、质量分布和序列GC含量等。这些模块会描述文件中所有序列的总体质量,包括序列长度、质量值和其他统计性质。通过检查这个模块,可以确定数据的总体质量。
(2)每个碱基的质量分布柱状图
相比于总体摘要,这个模块主要关注质量分布问题。
这个模块是FastQC报告中最常引用和最易解释的部分。FastQC会为每个位置绘制一个图表,图表中包括不同的质量分数和其数量。对于每个质量摆动范围内的分数,图表中会有一个垂直的条形区域以及该质量分数对应的条形的面积。因此如果大多数碱基都具有30或更高的质量,那么在图表的左侧将会有一个非常高的条形,而在比30低的质量分数下,相应的条形可以很小(或不存在),这是质量分布良好的示例。
(3)问题和解释
这个模块会识别FastQC发现的数据问题,将它们列出,并提供对每个问题的详细解释。FastQC报告包含的图表、表格和解释,可以用来解释检测到的任何问题。
3. FastQC结果的处理
如果FastQC检测到任何问题,需要评估这些问题对后续分析的影响。以低质量碱基为例,如果序列中有大量低质量碱基,将会影响序列长度和相似性搜索结果的准确性,可能会影响从序列中提取的功能信息。在这种情况下,可以使用低质量过滤器将低质量序列去除,以提高后续分析的准确性。
fastq_quality_filter -q 20 -p 80 -i in_file.fastq -o out_file.fastq
此命令将从in_file.fastq
中删除80%的序列,并将序列写入out_file.fastq
。只有序列中每个碱基的质量分数大于或等于20的序列保留。
三、小结
FastQC提供了一个快速、简便的方法来评估测序数据的质量,对于下游数据分析和工作流的设计都非常有用。除了单个数据集之外,它还支持多个数据集的处理,可以轻松地与其他Ngs分析工具集成。