蛋白质组数据库目前主要包括质谱原始数据资源和蛋白组序列及注释资源,下面对常用的质谱数据库做一个简单的介绍:
一、蛋白序列、注释及关系数据库
1)UniProt是目前使用最多、资源最广的蛋白质数据库。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。
covid 19专栏:https://covid-19.uniprot.org/
数据库下载:
总库:ftp://ftp.uniprot.org
按照物种:ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/pan_proteomes/
如:人的编号为UP000005640,可以下载相应的fasta来做质谱数据分析
2)Human Protein Atlas(HPA)提供了数万种人类蛋白质的组织和细胞分布信息。在该数据库中,研究人员使用高度特异性的抗体,用免疫检测技术,详细地检测了每一种蛋白在细胞系、人类正常组织和肿瘤组织中的表达情况。
数据库分为Cell、Tissue、Pathology、Brain、blood、metabolic几个版块,分别展示了蛋白在细胞、正常组织、脑、血、代谢、癌组织中的表达情况。
网址:https://www.proteinatlas.org/
数据下载:https://www.proteinatlas.org/about/download
3)String-db数据库是一个搜索已知蛋白质之间和预测蛋白质之间相互作用的数据库,是目前使用最广泛的蛋白关系互作研究数据库。
数据下载:https://string-db.org/cgi/download.pl
4)The Human Proteome Map (HPM)是一个指示蛋白质在各部分组织中的分布表达量的数据库,蛋白质在各个组织中的表达量的数据均基于质谱研究数据。
网址:http://www.humanproteomemap.org/index.php
数据下载:http://www.humanproteomemap.org/download.php
5)InterPro 蛋白质综合数据库,从大量的数据库中整合而成的包括蛋白质结构域、蛋白质家族、功能位点等信息的数据库。
网址:http://www.ebi.ac.uk/interpro/
数据下载:http://www.ebi.ac.uk/interpro/download/
二、质谱原始数据
1)PRIDE是一个proteomics 质谱研究数据库,主要包括蛋白组学相关质谱数据,蛋白多肽鉴定,翻译后修饰等质谱鉴定信息。
网址:https://www.ebi.ac.uk/pride/archive/
2)ProteomeXchange(简称PX)蛋白质学质谱数据共享联盟,包括了PRIDE Archive, MassIVE, PeptideAtlas, and jPOST等平台数据。
网址:http://www.proteomexchange.org/
3)iProX是一家在中国建立的蛋白质组学数据与知识中心,旨在促进蛋白质组学资源在世界范围内的共享。iProX目前由一个蛋白质组数据提交系统和一个蛋白质组数据库组成,其中前者遵照国际蛋白组学共享联盟(ProteomeXchange)的数据共享政策而建立。
网址:https://www.iprox.org/page/HMV006.html
4)MassIVE是由美国国立卫生研究院资助的计算质谱中心开发的一个社区资源,旨在促进质谱数据的全球自由交换。
网址:https://massive.ucsd.edu/ProteoSAFe/static/massive.jsp
今天介绍就到这里了,本文分享了一些常用的蛋白组学研究的数据分享、注释等数据库,还有很多细分领域的数据库大家可以根据需求谷歌搜索。
参考资料:
1.https://www.uniprot.org/help/about
2.https://www.proteinatlas.org/
3.https://string-db.org/cgi/download.pl
4.http://www.humanproteomemap.org/index.php
5.http://www.ebi.ac.uk/interpro/
6.http://www.proteomexchange.org/
7.https://massive.ucsd.edu/ProteoSAFe/static/massive.jsp