NCBI是我们经常下载基因组、查找基因信息得地方,NCBI的显示方式也一直再改进中。NCBI推出的新工具Datasets更是方便了生信人员,主要内容呈现分以下几个方面:
1)Web访问方面更加的易用,提升搜索下载等体验,NCBI Datasets website
2)支持命令行工具访问,Command-line tools
3)支持API的访问接口,API
下面我们就命令行方式进行简单的使用介绍:
1.下载安装
其中datasets
可以访问NCBI各种资源数据,dataformat
可实现结果在各种格式中无缝切换。
System | Architecture | Download |
---|---|---|
Linux | AMD64 | get_appdatasets get_appdataformat |
macOS | Universal | get_appdatasets get_appdataformat |
Windows (64-bit) | AMD64 | get_appdatasets get_appdataformat |
Linux | ARM64 | get_appdatasets get_appdataformat |
Linux | ARM (32-bit) | get_appdatasets get_appdataformat |
也支持conda的方式:
# 创建ncbi_datasets环境并安装ncbi-datasets-cli
conda create -n ncbi_datasets -c conda-forge ncbi-datasets-cli
2.示例
# 下载基因信息并保存为example_gene_data_package.zip
datasets download gene gene-id 1,2,3,9,10,11,12,13,14,15,16,17 --filename example_gene_data_package.zip
# 解压数据
unzip -Z1 example_gene_data_package.zip
# 文件格式转换为tsv
dataformat tsv gene --fields gene-id,symbol,transcript-name --package example_gene_data_package.zip | head --lines=10
格式转换也支持excel格式等,更多高级用法大家可以下载尝试。
参考资料:
1.https://www.ncbi.nlm.nih.gov/datasets/docs/v1/getting_started/