㈠ 为什么要做ppi网络
蛋白质互作网络是由单独蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。系统分析大量蛋白在生物系统中的相互作用关系,对于了解生物系统中蛋白质的工作原理,了解疾病等特殊生理状态下生物信号和能量物质代谢的反应机制,以及了解蛋白之间的功能联系都有重要意义。
相关原理:
蛋白质相互作用通常可以分为物理互作和遗传互作。物理互作是指蛋白质间通过空间构象或化学键彼此发生的结合或化学反应,是蛋白质互作的主要研究对象。
而遗传互作则是指在特殊环境下,蛋白质或编码基因收到其他蛋白质或基因的影响,常常表现为表型变化之间的相互关系。蛋白质互作网络包括:蛋白质互作检测技术(免疫共沉淀技术、酵母双杂交技术、串联亲和纯化-质谱分析技术、蛋白质互作预测技术、遗传互作检测技术)蛋白质互作数据库、蛋白质互作网络。
以上内容参考:网络-蛋白质互作网络
㈡ 列举两个蛋白质次级数据库
oracle数据库
mysql数据库
access数据库
DB2
在大学的计算机教科书中,数据库是被这样解释的:数据库是
计算机应用系统
中的一种专门管理数据资源的系统。数据有多种形式,如文字、数码、符号、图形、图像以及声音等。数据是所有
计算机系统
所要处理的对象。人们所熟知的一种处理办法是制作文件,即将处理过程编成程序文件,将所涉及的数据按程序要求组织成
数据文件
,用程序文件来调用。数据文件与程序文件保持着一定的对应关系。在计算机应用迅速发展的情况下,这种文件式方法便显出不足。比如,它使得数据通用性差,不便于移植,在不同文件中存储大量重复信息、浪费存储空间、更新不便等。
数据库系统
便能解决上述问题。数据库系统不从具体的应用程序出发,而是立足于数据本身的管理,它将所有数据保存在数据库中,进行科学的组织,并借助于
数据库管理系统
,以它为中介,与各种应用程序或应用系统接口,使之能方便地使用数据库中的数据。
这段说明介绍的确非常详细,不过你可能看得头晕眼花了,其实简单地说数据库就是一组经过计算机整理后的数据,存储在一个或多个文件中,而管理这个数据库的软件就称之为数据库管理系统。一般一个数据库系统(Database
System)可分为数据库(Database)与数据管理系统(Database
Management
System,DBMS)两个部分。
㈢ 蛋白质序列数据库的数据库分类
PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释; 而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年[Bairoch, 2000],意为“Translation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库NRL-3D[Namboodiri, 1990]。该数据库的序列是从三维结构数据库PDB中提取出来。
㈣ 常用的查询蛋白质结构以及序列的数据库主要有哪些
1. PIR和PSD
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库,可在这里下载。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
3. PROSITE
PROSITE数据库收集了生物学有显着意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。
㈤ 如何根据biogrid预测蛋白相互作用
蛋白质相互作用数据库见下表所示: 数据库名
BIND
DIP
IntAct
InterDom
MINT
STRING
HPRD
HPID
MPPI
蛋白质相互作用的预测方法很非常多,以下作了简单的介绍
1) 系统发生谱
这个方法基于如下假定:功能相关的(functionally related)基因,在一组完全测序的基因组中预期同时存在或不存在,这种存在或不存在的模式(pattern)被称作系统发育谱;如果两个基因,它们的序列没有同源性,但它们的系统发育谱一致或相似.可以推断它们在功能上是相关的。
2
2) 基因邻接
这个方法的依据是,在细菌基因组中,功能相关的基因紧密连锁地存在于一个特定区域,构成一个操纵子,这种基因之间的邻接关系,在物种演化过程种具有保守性,可以作为基因产物之间功能关系的指示。这个方法似乎只能适用于进化早期的结构简单的微生物。所以在人的蛋白质相互作用预测时不采用这个方法。
3) 基因融合事件
这个方法基于如下假定:由于在物种演化过程中发生了基因融合事件,一个物种的两个(或多个)相互作用的蛋白,在另一个物种中融合成为一条多肽链, 因而基因融合事件可以作为蛋白质功能相关或相互作用的指示。
4) 镜像树
这个方法的思想是,功能相关的蛋白质或同一个蛋白的域之间,受功能约束,其进化过程应该保持一致, 即呈现共进化(CO—evolution)特征,通过构建和比较它们的系统发育树,如果发现树的拓扑结构显示相似性,这种相似的树被称作镜像树,那么,可以推测建树基因的功能是相关的。
5) 突变关联
物理上相互接触的蛋白质, 比如处在同一个结构复合物中的蛋白质,其中一个蛋白质在进化过程中累计的残基变化,通过在另一个蛋白质中发生相应的变化予以补偿,这种现象被称作关联突变。
6)
序列信号关联
3
通过检查实验上已经证实的相互作用蛋白质对,发现序列特征信号
(sequence-signatures)在不同对的相互作用蛋白中重复地出现,这一现象被称作序列信号关联。利用序列域信号关联作为相互作用蛋白质的识别指示,可以预测未知功能蛋白与已知蛋白的相互作用,减少直接实验的搜索空间。
7) 保守的蛋白间相互作用
相互作用的蛋白质在物种演化过程中具有保守性,因此,可以通过在一个物种中建立的蛋白质相互作用网络,预测其它物种的蛋白质间相互作用。这是后基因组时代产生的一个分子进化概念,使人们联想到直系同源基因(orthologs)和平行同源基因(paralogs)两个概念。Walhout首先提出了”interologs”这个新概念,后由Matthews等利用酵母双杂交法分析了1195个酿酒酵母相互作用蛋白在线虫(C.elegans)中的保守性,获得了
16%-31%线虫保守相互作用蛋白,它们主要集中在核心代谢过程(core metabolic processes)并预期随着亲缘关系的远近,保守性作相应变化。
8) 同源结构复合物
设想三维结构已知的蛋白质复合物,各自的同家族成员以同样的方式发生相互作用.
9) 进化速率关联
蛋白质的进化速率由这个蛋白质同其它蛋白质发生相互作用的数量决定,并呈负相关,即相互作用的数量越多进化速率越低,而不是通常设想的蛋白质的进化速率由这个蛋白质对机体的重要性决定,这是一个极重要的概念。Fraser等13Ol利用一组实验上证实的酵母相互作用蛋白,量化分析了进化速率、适合度(fitness)和序列共进化(sequence CO—evolution)之间的关系;统计分析显示,在酵母蛋白质相互作用网络中,连接点越多的蛋白质进化速率进化越低,可能的原因是,这些蛋白质需要与更多的相互作用伴体(partner)共进化。
10) 共鸣识别模型MRRM预测蛋白质相互作用
从蛋白质一级结构预测蛋白质相互作用,它假设生物分子(包括蛋白质和DNA)之间的相互作用是通过共鸣能量的传递来实现的,RRM恰当地引入了一些蛋白质的物理参数,并且运用了信号分析方法(Digital Signal Analysis,DSP)使得对于蛋白质和基因的分析脱离了局部性。
11) 通过Domain相互作用来预测蛋白质相互作用
Domain是蛋白质最小的功能单元,它们之间的相互作用一定程度上就决定了蛋白质之间的相互作用。按照这个方法将所有的氨基酸序列进行聚类,如果类与类之间的相互作用的序列对的个数超过了一定阈值,则表示与两个类的代表序列同源的蛋白质之间都可能会发生相互作用。
12) 根据蛋白结构来预测蛋白相互作用
Lappe等人认为,虽然蛋白质之间的相互作用并不能直接用作预测,但是在结构上相似的蛋白质将有可能具有相似的功能,至少会给出一定的功能提示。分类的原则可按照SCOP给出的层次进行,分类方法是将已知序列的蛋白质相互作用对分别与SCOP的典型结构进行匹配,使之对应到每一个类中。预测已知与其他蛋白相互作用关系的蛋白的序列结构可以列出该蛋白结构组成的最大可能情况。
㈥ 蛋白质数据库包括哪四种
PIR:蛋白质信息资源
SWISS-PROT:蛋白质序列和注解
PDB:国家实验室蛋白质数据库
MMDB:蛋白质分子模型数据库
㈦ 国际着名的三大蛋白质数据库
国际着名的三大蛋白质数据库有UniProt数据库、The Human Protein Atlas数据库、PhosphoSitePlus数据库。
1、UniProt数据库
蛋白组学常用数据库UniProt(全称UniProt Protein Resource),建立于1986年,由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白质数据库联合成立的,其信息量丰富、资源广泛,是目前公认的首选免费蛋白质数据库。
2、The Human Protein Atlas数据库
The Human Protein Atlas内含近30000种人类蛋白质的组织和细胞分布信息,并提供免费查询。
瑞典Knut&Alice Wallenberg基金会利用免疫组化技术,检查每一种蛋白质在人类48种正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员校对和标引,保证染色结果具有充分的代表性。
3、PhosphoSitePlus数据库
PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库,总结归纳了海量通过科学研究发现的蛋白修饰位点,包括磷酸化、甲基化、乙酰化、泛素化等,并且包括一些CST公司发现但未发表的蛋白修饰位点。
该数据库是动态的、开放的、高度互动并持续更新的。它有助于研究PTMs在正常和病理细胞/组织中的作用,同时它也是发现新的疾病标志物和药物靶点的有力工具。
性能及历史
蛋白质数据库(HPDB),建于2005年5月,动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。
分子结构特征描述采用汉语,同时提供英文原文以供考证。对于善于使用英文的读者,我们提倡直接访问RCSB PDB,一来可以减少网络拥挤,二来可以减少由于HPDB的翻译不妥带来的不便。
蛋白质数据库(HPDB)对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。这些信息并同蛋白质分子结构数据存储于数据库,因此HPDB支持中文查询。
蛋白质数据库(HPDB)虽然翻译了“分子结构说明”部分,但为了保证数据的可靠性和准确性,HPDB对一级结构序列及大分子结构坐标数据等未做任何改动,数据库保持RCSB PDB核实后的原始实验数据文件,并保持PDB文件格式和蛋白质分子编号。
㈧ 跨膜蛋白结构数据库包含哪些数据内容
蛋白质结构数据库,一般用PDB,还有其他衍生出来的数据库,比如DSSP,HSSP等等。
如果要差序列结构,在NCBI中也可以差,EMBL中也都有,不过建议在PDB中查看,将文件下载下来,用一些常用的软件进行查看,并且可以看到一级,二级等高级结构,或者模拟结构。
㈨ 蛋白质三维结构数据库的介绍
蛋白质结构数据库(Protein Data Bank,简称PDB)是美国纽约Brookhaven国家实验室于1971年创建的。为适应结构基因组和生物信息学研究的需要,1998年10月由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(Research Collaboratory for Structural Bioinformat-ics,简称RCSB)。PDB数据库改由RCSB管理,目前主要成员为拉特格斯大学(Rutgers University)、圣地亚哥超级计算中心(San Diego Supercomputer Cen-ter,简称SDSC)和国家标准化研究所(National Insti-tutes of Standards andTechnology,简称NIST)。和核酸序列数据库一样,可以通过网络直接向PDB数据库提交数据。
㈩ uniprot蛋白质序列数据库由哪几部分组成各有什么特点
将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成,包含3个部分:
(1) UniProt Knowledgebase (UniProtKB) ,这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;
■ (2) UniRef ( UniProt Non-rendant Reference )
数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;
■ (3) UniParc (UniProt Archive),是UniProt存档库 ,
收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。