Omics - Hunter

RNA-seq序列比对工具-STAR

说到转录组数据比对,有很多可选用的软件如:TopHat2、HISAT2、 STAR等软件,其中 TopHat2 已经是比较久远的比对软件了。现在在转录组数据分析上比较流行的比对软件主要是 HISAT2、 STAR 。相对其他比对软件而言,STAR的比对速度极快,有较高的唯一比对率等(但是对内存要求比较高,建立人的Ref索引至少100G内存,比对需要至少30G内存),本文主要针对STAR做简单的应用和介绍。

STAR的主程序有两个:STARSTARlong。前者用于比对RNA-seq数据,后者是针对于长读长RNA数据。

STAR的使用流程分为两步:

  • 生成基因组索引文件,需要提供基因组序列(FASTA)和注释文件(GTF)
  • 序列比对,需要提供RNA-seq原始数据文件:FASTQ/FAS

1)STAR 安装

下载地址:https://github.com/alexdobin/STAR/releases

其中 bin文件夹下有已经预编译好的 Linux 和 Mac OS X 下的可执行文件


# 下载
wget https://github.com/alexdobin/STAR/archive/2.7.9a.tar.gz
tar -xzf 2.7.9a.tar.gz
cd STAR-2.7.9a

# 编译
cd STAR/source
make STAR

2)建立索引


STAR --runMode genomeGenerate \
     --runThreadN 10 \
     --genomeDir ./ref \
     --genomeFastaFiles ./genome.fa \
     --sjdbGTFfile ./genes.gtf \
     --sjdbOverhang 149

–runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键
— runThreadN:运行的线程数
— genomeDir:存放生成index的文件路径
— genomeFastaFiles: 基因组fasta格式文件
— sjdbGTFfile GTF:注释文件
— sjdbOverhang:这个值为测序read的长度减1 ,默认是100

3)序列比对

基本使用:


STAR \
    --genomeDir ./ref \
     --runThreadN 20 \
    --readFilesIn R1.fq.gz R2.fq.gz \
    --readFilesCommand zcat \
    --outFileNamePrefix sample \
    --outSAMtype BAM SortedByCoordinate \
    --outBAMsortingThreadN 10

–runThreadN: 设置线程数
–runMode alignReads: 默认就是比对模式,可以不填写
–genomeDir:索引文件夹
–readFilesIn: FASTA/Q文件路径
–readFilesCommand zcat: 如果输入格式是gz结尾,需要加上zcat
–outSAMtype:输出文件的格式: SAM 、BAM,是否排序
–outBAMsortingThreadN:SAM排序成BAM时调用线程数

最终输出结果文件如下:

sampleAligned.sortedByCoord.out.bam
sampleLog.final.out
sampleLog.out
sample.progress.out
sampleSJ.out.tab

如果是为了发现更精确的new junction,STAR建议使用2-pass mapping模式:首先用一般参数做一遍mapping,得到检测到的junction信息,然后利用这已经annotated junction来做第二次mapping。

Multi-sample 2-pass mapping:

用–sjdbFileChrStartEnd参数将所有样品的*SJ.out.tab文件作为输入进行第二次建inde


STAR --runThreadN 20 --runMode genomeGenerate 
--genomeDir  ./2-ref \
--genomeFastaFiles ./genome.fa \ 
--sjdbGTFfile ./genes.gtf \
--sjdbFileChrStartEnd sample1SJ.out.tab sample2SJ.out.tab \
--sjdbOverhang 149

然后比对


STAR --runThreadN 20 --genomeDir ./2-ref \
--readFilesIn sample1.fastq sample1.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./sample_2-pass

Per-sample 2-pass mapping:

直接用–twopassMode Basic参数将第两步合并分析


STAR --runThreadN 20 --genomeDir ./2-ref \
--twopassMode Basic \
--readFilesIn sample1.fastq sample1.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./sample_2-pass

更多详细参数参考下面文档。

参考资料:

1.https://github.com/alexdobin/STAR

2. Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan 1;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 2012 Oct 25. PMID: 23104886; PMCID: PMC3530905.


作者:陈浩


版权:本文版权归作者所有


免责声明:本文中使用的部分图片来自于网络或者参考资料,如有侵权,请联系博主:chenhao__@__evvail.com(发件请删除下划线)进行删除


转载注意:除非特别声明,本站点内容均为作者原创文章,转载须以链接形式标明本文链接


本文链接:https://evvail.com/2021/05/09/2406.html

2 评论

  1. 写的很好,很详细,谢谢大佬分享

回复 qinyue 取消回复

如果你有什么好的建议或者疑问请给我留言,谢谢!

Captcha Code