说到转录组数据比对,有很多可选用的软件如:TopHat2、HISAT2、 STAR等软件,其中 TopHat2 已经是比较久远的比对软件了。现在在转录组数据分析上比较流行的比对软件主要是 HISAT2、 STAR 。相对其他比对软件而言,STAR的比对速度极快,有较高的唯一比对率等(但是对内存要求比较高,建立人的Ref索引至少100G内存,比对需要至少30G内存),本文主要针对STAR做简单的应用和介绍。
STAR的主程序有两个:STAR
和STARlong
。前者用于比对RNA-seq数据,后者是针对于长读长RNA数据。
STAR的使用流程分为两步:
- 生成基因组索引文件,需要提供基因组序列(FASTA)和注释文件(GTF)
- 序列比对,需要提供RNA-seq原始数据文件:FASTQ/FAS
1)STAR 安装
下载地址:https://github.com/alexdobin/STAR/releases
其中 bin文件夹下有已经预编译好的 Linux 和 Mac OS X 下的可执行文件
# 下载
wget https://github.com/alexdobin/STAR/archive/2.7.9a.tar.gz
tar -xzf 2.7.9a.tar.gz
cd STAR-2.7.9a
# 编译
cd STAR/source
make STAR
2)建立索引
STAR --runMode genomeGenerate \
--runThreadN 10 \
--genomeDir ./ref \
--genomeFastaFiles ./genome.fa \
--sjdbGTFfile ./genes.gtf \
--sjdbOverhang 149
–runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键
— runThreadN:运行的线程数
— genomeDir:存放生成index的文件路径
— genomeFastaFiles: 基因组fasta格式文件
— sjdbGTFfile GTF:注释文件
— sjdbOverhang:这个值为测序read的长度减1 ,默认是100
3)序列比对
基本使用:
STAR \
--genomeDir ./ref \
--runThreadN 20 \
--readFilesIn R1.fq.gz R2.fq.gz \
--readFilesCommand zcat \
--outFileNamePrefix sample \
--outSAMtype BAM SortedByCoordinate \
--outBAMsortingThreadN 10
–runThreadN: 设置线程数
–runMode alignReads: 默认就是比对模式,可以不填写
–genomeDir:索引文件夹
–readFilesIn: FASTA/Q文件路径
–readFilesCommand zcat: 如果输入格式是gz结尾,需要加上zcat
–outSAMtype:输出文件的格式: SAM 、BAM,是否排序
–outBAMsortingThreadN:SAM排序成BAM时调用线程数
最终输出结果文件如下:
sampleAligned.sortedByCoord.out.bam
sampleLog.final.out
sampleLog.out
sample.progress.out
sampleSJ.out.tab
如果是为了发现更精确的new junction,STAR建议使用2-pass mapping模式:首先用一般参数做一遍mapping,得到检测到的junction信息,然后利用这已经annotated junction来做第二次mapping。
Multi-sample 2-pass mapping:
用–sjdbFileChrStartEnd参数将所有样品的*SJ.out.tab文件作为输入进行第二次建inde
STAR --runThreadN 20 --runMode genomeGenerate
--genomeDir ./2-ref \
--genomeFastaFiles ./genome.fa \
--sjdbGTFfile ./genes.gtf \
--sjdbFileChrStartEnd sample1SJ.out.tab sample2SJ.out.tab \
--sjdbOverhang 149
然后比对
STAR --runThreadN 20 --genomeDir ./2-ref \
--readFilesIn sample1.fastq sample1.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./sample_2-pass
Per-sample 2-pass mapping:
直接用–twopassMode Basic参数将第两步合并分析
STAR --runThreadN 20 --genomeDir ./2-ref \
--twopassMode Basic \
--readFilesIn sample1.fastq sample1.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./sample_2-pass
更多详细参数参考下面文档。
参考资料:
1.https://github.com/alexdobin/STAR
2. Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan 1;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 2012 Oct 25. PMID: 23104886; PMCID: PMC3530905.
qinyue
写的很好,很详细,谢谢大佬分享
陈浩
感谢光临本站。