StringTie主要是用于 RNA-seq 的转录本组装和定量分析软件,包括下面两个主要功能:转录本组装定量

StringTie还有一个优势是运行速度很快,Stringtie通过使用基因组指导的组装的方法与从头组装的概念结合的方法来改善转录组组装。

现在转录组比较流行的数据分析流程:HISAT2 + StringTie + Ballgown/edgeR/DEseq2

常规流程如下:

如果对一些新的转录本或者一个同工异构体不感兴趣,可以将本流程精简成如下版本:

1)下载安装

2)StringTie使用

StringTie主要参数解释如下:


-o [<path/>]<out.gtf>  # 设置StringTie组装转录本的输出GTF文件的路径和文件名
-p <int>               # 指定组装转录本的线程数(CPU),默认值是1
-G <ref_ann.gff>       # 使用参考注释基因文件指导组装过程,格式GTF/GFF3
-l <label>             # 将<label>设置为输出转录本名称的前缀。默认:STRG
-A <gene_abund.tab>    # 输出基因丰度的文件(制表符分隔格式)
-C <cov_refs.gtf>      # 输出所有转录本对应的reads覆盖度的文件,此处的转录本是指参考注释基因文件中提供的转录本(需要参数 -G).
-B                     # 输出Ballgown输入表文件,则* .ctab文件与输出GTF文件在相同的目录下
-b <path>              # 指定 *.ctab 文件的输出路径, 而非由-o选项指定的目录
-e                     # 限制reads比对的处理,仅估计和输出与用-G选项给出的参考转录本匹配的组装转录本

# 转录本合并模式
--merge                
# 在合并模式下,StringTie将所有样品的GTF/GFF文件列表作为输入,并将这些转录本合并/组装# 成非冗余的转录本集合。在此模式下可以使用以下附加选项:
-G <guide_gff>         # 参考注释基因组文件(GTF/GFF3)
-o <out_gtf>           # 指定输出合并的GTF文件的路径和名称 (默认值:标准输出)
-m <min_len>           # 合并文件中,指定允许最小输入转录本的长度 (默认值: 50)
-c <min_cov>           # 合并文件中,指定允许最低输入转录本的覆盖度(默认值: 0)
-F <min_fpkm>          # 合并文件中,指定允许最低输入转录本的FPKM值 (默认值: 0)
-T <min_tpm>           # 合并文件中,指定允许最低输入转录本的TPM值 (默认值: 0)
-f <min_iso>           # minimum isoform fraction (默认值: 0.01)
-i                     # 合并后,保留含retained introns的转录本 
-l <label>             # 输出转录本的名称前缀 (默认值: MSTRG)

常规单个样本组装:

stringtie -p 8 -G sample.annotation.gtf -o sample.gtf sample.sort.bam

多个样本分析:


# stringtie.sh
for i in A B C D E; do
	stringtie -p 8 -G sample.annotation.gtf -o $i.gtf ${i}_sorted.bam
done

参考资料:

1.http://ccb.jhu.edu/software/stringtie/index.shtml

2.https://github.com/gpertea/stringtie