我们知道有一些重要的基因的断裂与重组可能对疾病的发生和发展起着重要的作用,目前通过测序的手段来预测可能发生的融合事件,本文就当下广泛使用的软件STAR-Fusion(文章已经发表在Genome Biology)做简单的介绍和使用参考。

下图为STAR-Fusion的简单分析流程展示:

首先我们来安装STAR-Fusion,安装它的问题也比较多主要是集中在STAR的版本和STAR-Fusion的适配上面。下面就官方整理的适配列表(请严格按照给定的适配表进行安装):

STAR-Fusion版本对应的STAR版本CTAT Genome 库
STAR-Fusion v1.10.0STAR v2.7.8aCTAT genome lib StarFv1.10
STAR-Fusion v1.9.0STAR v2.7.2bCTAT genome lib StarFv1.9
STAR-Fusion v1.8.0STAR v2.7.2bCTAT genome lib StarFv1.8
STAR-Fusion v1.7.0STAR v2.7.2aCTAT genome lib StarFv1.7
STAR-Fusion v1.6.0STAR v2.7.0fhttps://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_StarFv1.6/
STAR-Fusion v1.5.0STAR v2.6.1ahttps://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_StarFv1.3/
STAR-Fusion v1.4.0STAR v2.6.0ahttps://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_StarFv1.3/
STAR-Fusion v1.3.2STAR v2.6.0ahttps://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_StarFv1.3/
STAR-Fusion v1.2.0STAR v2.5.3ahttps://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_pre-StarFv1.3/
STAR-Fusion v1.1.0STAR v2.5.3ahttps://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_pre-StarFv1.3/
STAR-Fusion v1.0.0STAR v2.5.2ahttps://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/__genome_libs_pre-StarFv1.3/

建议直接通过conda或者docker来部署(conda安装的STAR-Fusion和STAR版本某些情况下会不一致,请参考上表更换),也可以通过自己手动部署最新版本:

# docker最方便吧
docker pull trinityctat/starfusion
# 进入docker环境
docker run --rm -it -v `pwd`:/data trinityctat/ctatfusion:latest bash


# 下载代码库,注意添加--recursive确保下载完整的代码库
git clone --recursive https://github.com/STAR-Fusion/STAR-Fusion.git

安装必备的软件:

由于STAR-Fusion由大量的perl脚本工具,需要安装如下必要的perl包

perl -MCPAN -e shell
   install DB_File
   install URI::Escape
   install Set::IntervalTree
   install Carp::Assert
   install JSON::XS
   install PerlIO::gzip

下载数据库(https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/):

其中’plug-n-play’是已经建好数据库的可以开箱直接使用,但是文件比较大下载需要时间;另一个是source版本的大约4G左右,下载好后需要自己建索引和必要的库文件,个人推荐用source版本。

# 下载好后需要建立索引数据库*(打包文件主要是STAR的索引很大)
tar xvf CTAT_resource_lib.tar.gz

cd CTAT_resource_lib/

$STAR_FUSION_HOME/ctat-genome-lib-builder/prep_genome_lib.pl \
                         --genome_fa ref_genome.fa \
                         --gtf gencode.*.annotation.gtf \
                         --fusion_annot_lib fusion_lib.*.dat.gz \
                         --annot_filter_rule AnnotFilterRule.pm \
                         --pfam_db current \
                         --dfam_db human \
                         --human_gencode_filter

接下来我们可以直接开始融合分析:

# 开始分析,--left_fq --right_fq 输入双端的cleandata;单端测序,只需要--left_fq参数即可
# 下面代码直接从fq文件开始,双端测序
STAR-Fusion \
       --left_fq rnaseq_1.fastq.gz \
       --right_fq rnaseq_2.fastq.gz \
       --genome_lib_dir ctat_genome_lib_build_dir \
       --output_dir STAR-Fusion_outdir
# 单端测序
STAR-Fusion \
       --left_fq rnaseq.fastq.gz \
       --genome_lib_dir ctat_genome_lib_build_dir \
       --output_dir STAR-Fusion_outdir

# 如果已经跑过STAR并且配置参数产生了 Chimeric.out.junction文件,直接配置-J参数可以执行下面命令更快
STAR-Fusion \
       -J /path/Chimeric.out.junction\
       --genome_lib_dir ctat_genome_lib_build_dir \
       --output_dir STAR-Fusion_outdir

默认会输出到STAR-Fusion_outdir文件夹(对下面两个文件的详细介绍可以到https://github.com/STAR-Fusion/STAR-Fusion/wiki#Outputs查看,此处不在赘述):

star-fusion.fusion_predictions.tsv
star-fusion.fusion_predictions.abridged.tsv

后面我们可以用FusionInspector对融合事件进行检查,验证(使用--FusionInspector参数),也可以对融合进行测试(--examine_coding_effect)或者是使用Trinity (--denovo_reconstruct)重构融合转录本。

# 一键化命令
# 注意,此步骤比较耗时~5小时左右
STAR-Fusion \
     --left_fq rnaseq_1.fastq.gz \
     --right_fq rnaseq_2.fastq.gz \
     --genome_lib_dir ctat_genome_lib_build_dir \
     --FusionInspector validate \
     --denovo_reconstruct \
     --examine_coding_effect

以上关于STAR-Fusion的简单介绍就到此了,更多信息可以查看下方链接。

参考资料:

1.https://github.com/STAR-Fusion/STAR-Fusion

2.https://github.com/STAR-Fusion/STAR-Fusion-Tutorial/wiki