RNA-seq序列比对工具-STAR

说到转录组数据比对，有很多可选用的软件如：TopHat2、HISAT2、 STAR等软件，其中 TopHat2 已经是比较久远的比对软件了。现在在转录组数据分析上比较流行的比对软件主要是 HISAT2、 STAR 。相对其他比对软件而言，STAR的比对速度极快，有较高的唯一比对率等（但是对内存要求比较高，建立人的Ref索引至少100G内存，比对需要至少30G内存），本文主要针对STAR做简单的应用和介绍。

STAR的主程序有两个：STAR和STARlong。前者用于比对RNA-seq数据，后者是针对于长读长RNA数据。

STAR的使用流程分为两步：

生成基因组索引文件，需要提供基因组序列(FASTA)和注释文件(GTF)
序列比对，需要提供RNA-seq原始数据文件：FASTQ/FAS

1）STAR 安装

下载地址：https://github.com/alexdobin/STAR/releases

其中 bin文件夹下有已经预编译好的 Linux 和 Mac OS X 下的可执行文件


# 下载
wget https://github.com/alexdobin/STAR/archive/2.7.9a.tar.gz
tar -xzf 2.7.9a.tar.gz
cd STAR-2.7.9a

# 编译
cd STAR/source
make STAR

2）建立索引


STAR --runMode genomeGenerate \
     --runThreadN 10 \
     --genomeDir ./ref \
     --genomeFastaFiles ./genome.fa \
     --sjdbGTFfile ./genes.gtf \
     --sjdbOverhang 149

–runMode：运行程序模式，默认是比对，所以第一步这个参数设置很关键
— runThreadN：运行的线程数
— genomeDir：存放生成index的文件路径
— genomeFastaFiles：基因组fasta格式文件
— sjdbGTFfile GTF：注释文件
— sjdbOverhang：这个值为测序read的长度减1 ，默认是100

3）序列比对

基本使用：


STAR \
    --genomeDir ./ref \
     --runThreadN 20 \
    --readFilesIn R1.fq.gz R2.fq.gz \
    --readFilesCommand zcat \
    --outFileNamePrefix sample \
    --outSAMtype BAM SortedByCoordinate \
    --outBAMsortingThreadN 10

–runThreadN：设置线程数
–runMode alignReads：默认就是比对模式，可以不填写
–genomeDir：索引文件夹
–readFilesIn： FASTA/Q文件路径
–readFilesCommand zcat：如果输入格式是gz结尾，需要加上zcat
–outSAMtype：输出文件的格式： SAM 、BAM，是否排序
–outBAMsortingThreadN：SAM排序成BAM时调用线程数

最终输出结果文件如下：

sampleAligned.sortedByCoord.out.bam
sampleLog.final.out
sampleLog.out
sample.progress.out
sampleSJ.out.tab

如果是为了发现更精确的new junction，STAR建议使用2-pass mapping模式：首先用一般参数做一遍mapping，得到检测到的junction信息，然后利用这已经annotated junction来做第二次mapping。

Multi-sample 2-pass mapping：

用–sjdbFileChrStartEnd参数将所有样品的*SJ.out.tab文件作为输入进行第二次建inde


STAR --runThreadN 20 --runMode genomeGenerate 
--genomeDir  ./2-ref \
--genomeFastaFiles ./genome.fa \ 
--sjdbGTFfile ./genes.gtf \
--sjdbFileChrStartEnd sample1SJ.out.tab sample2SJ.out.tab \
--sjdbOverhang 149

然后比对


STAR --runThreadN 20 --genomeDir ./2-ref \
--readFilesIn sample1.fastq sample1.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./sample_2-pass

Per-sample 2-pass mapping：

直接用–twopassMode Basic参数将第两步合并分析


STAR --runThreadN 20 --genomeDir ./2-ref \
--twopassMode Basic \
--readFilesIn sample1.fastq sample1.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./sample_2-pass

更多详细参数参考下面文档。

STAR参考文档下载

参考资料：

1.https://github.com/alexdobin/STAR

2. Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan 1;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 2012 Oct 25. PMID: 23104886; PMCID: PMC3530905.

阅读: 2,060

Omics - Hunter

RNA-seq序列比对工具-HISAT2

可变剪切分析软件-rMATS

2 评论

qinyue

陈浩

回复 qinyue 取消回复