NCBI是我们经常下载基因组、查找基因信息得地方,NCBI的显示方式也一直再改进中。NCBI推出的新工具Datasets更是方便了生信人员,主要内容呈现分以下几个方面:

1)Web访问方面更加的易用,提升搜索下载等体验,NCBI Datasets website

2)支持命令行工具访问,Command-line tools

3)支持API的访问接口,API 

下面我们就命令行方式进行简单的使用介绍:

1.下载安装

其中datasets可以访问NCBI各种资源数据,dataformat可实现结果在各种格式中无缝切换。

SystemArchitectureDownload
LinuxAMD64get_appdatasets
get_appdataformat
macOSUniversalget_appdatasets
get_appdataformat
Windows (64-bit)AMD64get_appdatasets
get_appdataformat
LinuxARM64get_appdatasets
get_appdataformat
LinuxARM (32-bit)get_appdatasets
get_appdataformat

也支持conda的方式:

# 创建ncbi_datasets环境并安装ncbi-datasets-cli
conda create -n ncbi_datasets -c conda-forge ncbi-datasets-cli

2.示例

# 下载基因信息并保存为example_gene_data_package.zip
datasets download gene gene-id 1,2,3,9,10,11,12,13,14,15,16,17 --filename example_gene_data_package.zip
# 解压数据
unzip -Z1 example_gene_data_package.zip
# 文件格式转换为tsv
dataformat tsv gene --fields gene-id,symbol,transcript-name --package example_gene_data_package.zip | head --lines=10

格式转换也支持excel格式等,更多高级用法大家可以下载尝试。

参考资料:

1.https://www.ncbi.nlm.nih.gov/datasets/docs/v1/getting_started/