一、Rmats简介
Rmats是一款基于RNA-seq数据的剪接分析工具,最初由中国科学院上海生命科学研究院计算生物学研究所研发,用于分析转录组水平的差异剪接事件。在实际应用中,Rmats可以用于检测和分析细胞因子、激素调节机制、凋亡、肿瘤等多种生物学过程中的差异剪接事件。
二、Rmats的使用方法
使用Rmats进行剪接分析需要进行以下步骤:
- 使用拼接工具生成样本RNA-seq reads(fasta或fastq文件)
- 使用Bowtie等工具将reads比对到基因组上
- 将比对.sam文件进行转为.bam文件(同时去除duplicated reads)
- 将bam文件进行格式转换成junctions文件
- 使用Rmats分析样本间的差异剪接事件
三、Rmats结果解读
Rmats分析结果会输出许多差异剪接事件,其中最重要的是SS(skipping exon)、RI(retained intron)和MXE(mutually exclusive exon)类型。对于每种事件,Rmats都会输出JCE(junction counts encompassing)、JC(junction counts)、psi值等一些重要的参数。
SS(skipping exon):表示一个外显子被完全跳过的事件,其JCE值为0. JC值表示这个外显子的长度(14nt~100000nt),psi值表示剪接事件发生的差异程度。psi=1表示剪接事件存在但不差异,psi=0表示剪接事件完全缺失,psi=0.5表示等量存在。
## 第一列:IID 阳性对照组ID
## 第二列:SJC_SAMPLE_1 阳性对照组里涉及这个剪接事件的reads数目
## 第三列:IJC_SAMPLE_1 阳性对照组里包含这个外显子的reads数目
## 第四列:SJC_SAMPLE_2 另一组实验组里涉及这个剪接事件的reads数目
## 第五列:IJC_SAMPLE_2 另一组实验组里包含这个外显子的reads数目
## 第六列:IncFormLen 这个外显子本身长度
## 第七列:SkipFormLen 跳过这个外显子后剩下的外显子链长度
## 第八列:PValue P值
## 第九列:FDR FDR值
## 第十列:IncLevel1 阳性对照组中这个外显子的可变剪接水平
## 第十一列:IncLevel2 实验组中这个外显子的可变剪接水平
ID SJC_SAMPLE_1 IJC_SAMPLE_1 SJC_SAMPLE_2 IJC_SAMPLE_2 IncFormLen SkipFormLen PValue FDR IncLevel1 IncLevel2
chr10:101851159-101851512:-@chr10:101850874-101851158:-@chr10:101785744-101785954:- 0 0 91 104 354 12835 4.97202E-5 0.0865156242292304 0 0.944444444444444
chr10:101980228-101980505:+@chr10:101986914-101987124:+@chr10:101988460-101988721:+ 4 7 129 87 278 8654 7.61328E-5 0.111462348129411 0.363636363636364 0.854368932038835
RI(retained intron):表示一个内含子没有被完全剪除的事件,其JCE值为0,JC值表示这个内含子的长度,psi值表示剪接事件发生的差异程度。psi=1表示剪接事件存在但不差异,psi=0表示剪接事件完全缺失,psi=0.5表示等量存在。
## 第一列:IID 阳性对照组ID
## 第二列:SJC_SAMPLE_1 阳性对照组里涉及这个剪接事件的reads数目
## 第三列:IJC_SAMPLE_1 阳性对照组里包含这个内含子的reads数目
## 第四列:SJC_SAMPLE_2 另一组实验组里涉及这个剪接事件的reads数目
## 第五列:IJC_SAMPLE_2 另一组实验组里包含这个内含子的reads数目
## 第六列:IncFormLen 含有内含子的外显子链长度
## 第七列:SkipFormLen 去掉内含子后的外显子链长度
## 第八列:PValue P值
## 第九列:FDR FDR值
## 第十列:IncLevel1 阳性对照组中这个内含子的可变剪接水平
## 第十一列:IncLevel2 实验组中这个内含子的可变剪接水平
ID SJC_SAMPLE_1 IJC_SAMPLE_1 SJC_SAMPLE_2 IJC_SAMPLE_2 IncFormLen SkipFormLen PValue FDR IncLevel1 IncLevel2
chr17:29790607-29790736:+@chr17:29792043-29792276:+ 3 2 95 75 175 4 1442.1 0.25 0.6
MXE(mutually exclusive exon):表示两个外显子互相排斥的事件,其JCE值主要用于表示两个外显子互相排斥情况下的reads数目,JC值则表示两个外显子组成的完整转录本与其他转录本的比较,psi值表示剪接事件发生的差异程度。psi=1表示剪接事件存在但不差异,psi=0表示剪接事件完全缺失,psi=0.5表示等量存在。
## 第一列:IID 阳性对照组ID
## 第二列:SJC_SAMPLE_1 阳性对照组里涉及这个剪接事件的reads数目
## 第三列:IJC_SAMPLE_1 阳性对照组里包含这个内含子的reads数目
## 第四列:SJC_SAMPLE_2 另一组实验组里涉及这个剪接事件的reads数目
## 第五列:IJC_SAMPLE_2 另一组实验组里包含这个内含子的reads数目
## 第六列:IncFormLen 第一个外显子的长度
## 第七列:SkipFormLen 跳过两个外显子后的剩余外显子链长度
## 第八列:PValue P值
## 第九列:FDR FDR值
## 第十列:IncLevel1 阳性对照组中第一个外显子的可变剪接水平
## 第十一列:IncLevel2 实验组中第一个外显子的可变剪接水平
## 第十二列:IncLevelDifference 可变剪接水平之差
ID SJC_SAMPLE_1 IJC_SAMPLE_1 SJC_SAMPLE_2 IJC_SAMPLE_2 IncFormLen SkipFormLen PValue FDR IncLevel1 IncLevel2 IncLevelDifference
chr2:72228224-72229889@chr2:72236144-72238043 245 235939 222 194197 19437 4.87868e-45 1.45760e-40 0.097263685455848 0.838891329101846 0.741627643645
四、热敏艾条分析
热敏艾条是一种用于检测温度变化的精密仪器,在生物学实验中常用于PCR反应和DNA测序等过程中对于温度的精密控制。在RNA剪接分析中,热敏艾条在比对和剪接的过程中都有很重要的作用,可以通过调整温度参数来增强RNA剪接分析结果的准确性。
以下是热敏艾条在Rmats分析中的代码示例:
>> python rMATS.py --b1 bam_file1 --b2 bam_file2 --gtf gtf_file --tstat 0 --libType fr-firststrand --nthread 10 --cstat 0.05 --novelSS 1 --novelAS 1 -o output_folder
其中,--tstat 0参数表示利用T流子(T0、T1、T2)的比例来判断差异剪接,--libType fr-firststrand参数表示数据集的测序方法为fr-fisrtstrand,--cstat 0.05参数表示选用2均值做差异剪接分析时的检验P值阈值,--novelSS 1参数表示使用novel splicing site开关,--novelAS 1表示使用novel alternative splicing分析开关。
五、小结
Rmats是一款基于RNA-seq数据的剪接分析工具,可以分析转录组水平的差异剪接事件。在使用Rmats进行剪接分析时,我们需要进行各个步骤的操作,同时还需要注意对分析结果的准确性评估。此外,在进行RNA剪接分析时,热敏艾条的使用也有很重要的作用,可以通过调整温度参数来增强剪接分析结果的准确性。