高血压相关基因和蛋白质数据库的初构_张其鹏(2)
时间:2026-01-20
时间:2026-01-20
张其鹏,等 高血压相关基因和蛋白质数据库的初构
#179#
认识到高血压是一个多基因参与的、环境和遗传因素相互作用引起的综合征或复杂疾病,而且发现了许多与血压调节和高血压发生相关的候选基因和致病基因,但其发病的确切分子生物学机制仍不十分明确。对高血压相关基因和蛋白质的数据亦缺乏系统的整理和分析。虽然Affymetrix公司和CaseWesternReserveUnviersity的Chakravarti实验室构建了HypertensionCandidateGeneSNPs(http:PgenomePcandidatesPsnps.html),但仅对116个高血压相关基因的单核苷酸多态性作了初步总结,缺乏全面、系统的归纳和分析。我们实验室在1999年亦构建了高血压相关基因数据库(http:PchromPdefault.htm),但仅有187个高血压相关基因,且其内容只包括了基因在染色体上的定位、相关的OMIM连接、基因与高血压发病的密切程度及相关文献,远不能反映高血压相关基因和蛋白质现代研究的水平。为进一步分析、总结高血压相关基因和蛋白质的研究成果,促进高血压医学生物信息学的研究,需要建立一个较完整、全面的高血压相关基因和蛋白质的数据库。1 方法与材料1.1 数据来源
高血压相关基因主要从OMIM和PubMed两个数据库中收集。从1995年12月至2001年6月,以/hypertension0为关键词对OMIM进行查询,可以得到257条结果,此中间共有174个与高血压相关的基因。从1985年1月~2001年6月间的PubMed中可收集到9290条与高血压相关基因的文献,其中涉及312个相关基因。此外,还收集了HypertensionCandidateGeneSNPs(http:PgenomePcandidatesPsnps.html)和高血压相关基因数据库(http:PchromPdefault.htm)中的高血压相关基因,总计203个。通过归纳、总结和分析,剔除重复的基因,共收集到431个与高血压相关的基因,并得到相对应的蛋白质379个。同时以美国国立生物技术信息中心(NationalCentreforBiotechnologyInformation,NCBI)、欧洲分子生物信息学实验室(EuropeanBioinformaticsInstitute,EBI)、美国国立图书馆(NationalLibraryofMedicine,NLM)等生物信息组织提供的数据库集群作为基因和蛋白质具体信息数据的来源。
1.2 数据库的构建、管理及Web发布(图1)1.2.1 开发环境
[6]
[7]
[5]
Server。
编程环境:操作系统采用Microsoftwindows2000server版;编程工具使用BolandDelphi5.0,
++
BolandCBuilder。
Web发布开发环境:MacromediaDreamUltra-Dev4.0,MicrosoftInternetInformationServer(IIS)5.0,MacromediaFireworks4.0。1.2.2 数据库构建
数据库总体上是基于关系数据库模式构建,共包括基因(genetable)、蛋白(proteintable)、序列(se-quencetable)、疾病(diseasetable)、动物模型(modelanimals)、单核苷酸多态性信息(singlenucleotidepolymorphismstable,SNPstable)、参考数据库(crossreference)、参考文献(reference)等8个实体表以及9个描述它们之间关系约束的关系表,详见图1。
基因表(genetable)包含了基因的6项属性:标识(Symbol,采用HUGOGeneNomenclatureCom-[8]
mittee制定的标准)、名称(name)、别名(alias)、其他常用标识(alternatesymbols)、染色体定位(loca-tion)、功能描述(functiondescript)、表型(phenotype)等。以GeneID作为主码。
蛋白表(proteintable)包含了蛋白名称(proteinname)、蛋白分类(classification)、蛋白描述信息(pro-teindescript)及2DPage、3Dimage等信息。蛋白分类信息主要包括相关受体、信号传递、相联系的蛋白质、蛋白细胞定位、生理功能、进化中的作用等,此类信息主要由GeneOntology中获得,并以此对蛋白质的功能进行分类。为描述蛋白间相互作用,还定义了interactionPID属性记录与该蛋白发生相互作用的蛋白记录的ID。
序列库(sequence)主要收集了数据库中包含基因的相关序列。对于每一条序列有GI号、所属基因标识(symbol)、序列分类及序列Fasta文件。序列种类分为核酸序列和蛋白序列,两者再各自分为参
[10]
考序列(Ref)、模式序列(mode)和同源序列(re-lated)。
SNPs信息(SNPstable)主要收集了数据库中包含基因的相关的SNPs的信息,包括形式(mode,如A73T)和SNPs出现频率(frequency)属性。由于SNPs对药物易感性、疾病易感性、生物进化、突变等的重要作用,本数据库专门收集了相关基因SNPs
[11]
的资料,包括NCBI的SNPs数据库、高血压相关SNPs数据库和HGBASE数据库的资料[12]
[9]
,其中有
…… 此处隐藏:320字,全部文档内容请下载后查看。喜欢就下载吧 ……上一篇:联想收购IBM资本运营分析终稿