您的位置:

使用FastQC进行质量控制的详细说明

一、安装FastQC

FastQC是一个免费的、开源的软件,可以在官网(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)下载安装。安装非常简单,只需要下载对应版本的二进制文件并解压,即可使用。FastQC是一个Java程序,因此需要确保安装了Java运行时环境。

二、使用FastQC进行测序数据质量控制

FastQC可以用于对Illumina、SOLiD、Ion Torrent和PacBio测序数据进行质量控制。

1. 计算测序数据质量分布

FastQC通过计算测序数据的质量分布,帮助我们了解数据的质量和相关的问题,如低质量碱基、过度的碱基偏差、过度的N碱基等,便于我们优化下游分析。

fastqc -o output_dir fastq_files

其中,-o选项表示输出结果的目录,fastq_files为待处理的FASTQ格式的测序数据文件。

FastQC支持同时处理多个文件,在命令行中对文件列表进行逗号分隔即可。例如:

fastqc -o output_dir file1.fastq.gz,file2.fastq.gz,file3.fastq.gz

FastQC会自动识别输入文件的格式,无需手动指定。

2. FastQC结果解释

FastQC处理后生成的报告分为三块。第一部分是该样本的总体质量摘要,包括序列总数、序列长度、质量分布等;第二部分是每个碱基的质量分布柱状图;第三部分是检测到的各种问题的详细说明和解释。

(1)总体质量摘要

总体质量摘要包括多个模块,其中包括基本统计数据、序列长度分布、质量分布和序列GC含量等。这些模块会描述文件中所有序列的总体质量,包括序列长度、质量值和其他统计性质。通过检查这个模块,可以确定数据的总体质量。

(2)每个碱基的质量分布柱状图

相比于总体摘要,这个模块主要关注质量分布问题。

这个模块是FastQC报告中最常引用和最易解释的部分。FastQC会为每个位置绘制一个图表,图表中包括不同的质量分数和其数量。对于每个质量摆动范围内的分数,图表中会有一个垂直的条形区域以及该质量分数对应的条形的面积。因此如果大多数碱基都具有30或更高的质量,那么在图表的左侧将会有一个非常高的条形,而在比30低的质量分数下,相应的条形可以很小(或不存在),这是质量分布良好的示例。

(3)问题和解释

这个模块会识别FastQC发现的数据问题,将它们列出,并提供对每个问题的详细解释。FastQC报告包含的图表、表格和解释,可以用来解释检测到的任何问题。

3. FastQC结果的处理

如果FastQC检测到任何问题,需要评估这些问题对后续分析的影响。以低质量碱基为例,如果序列中有大量低质量碱基,将会影响序列长度和相似性搜索结果的准确性,可能会影响从序列中提取的功能信息。在这种情况下,可以使用低质量过滤器将低质量序列去除,以提高后续分析的准确性。

fastq_quality_filter -q 20 -p 80 -i in_file.fastq -o out_file.fastq

此命令将从in_file.fastq中删除80%的序列,并将序列写入out_file.fastq。只有序列中每个碱基的质量分数大于或等于20的序列保留。

三、小结

FastQC提供了一个快速、简便的方法来评估测序数据的质量,对于下游数据分析和工作流的设计都非常有用。除了单个数据集之外,它还支持多个数据集的处理,可以轻松地与其他Ngs分析工具集成。