生物信息数据库简介

发布时间:2021-06-06

二级数据库简介

二级数据库的形式:大多以web界面为基础,具有文字 信息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色)

1、基因组信息二级数据库

TransFac(真核生物基因转录调控因子数据库) 德国生物工程研究所开发维护,始建于1988年。 包括顺式调控位点、基因、转录因子、细胞来源、分类和 调控位点核苷酸分布6个子库。TransFac的网址:

2、蛋白质序列二级数据库

Prosite(蛋白质序列功能位点数据库) 始建于 1990 年代初,由瑞典生物信息学研究所 SIB 负责维 护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区 域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件Prosite;说明文件 PrositeDoc。Prosite的网址:/prosite/

3、蛋白质结构二级数据库DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库DSSP的网址:http://www.cmbi.kun.nl/gv/dssp/

FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库FSSP的网址:http://www2.embl-ebi.ac.uk/dall/fssp/

HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库HSSP的网址: http://www.cmbi.kun.nl/gv/hssp/

数据库格式简介

历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 序列

不同数据库的序列格式 在运行序列分析软件中遇到的首要问题就是如何通过不 同的程序使用不同的序列格式。这些格式都是标准 ASCII码文件,但在显示各种信息或序列本身的某些字 符或字有所不同。下面将讨论几种常用的序列格式。1 GenBank中DNA序列格式 2 EMBL序列格式 7 GCG序列格式 8 PIR/CODATA序列格式

3 SwissProt序列格式4 FASTA序列格式 5 NBRF序列格式 6 Intelligenetics序列格式

9 Plain/ASCII.Staden序列格式10 ASN.1序列格式 11 GDE格式

1. GenBank中DNA序列格式 GenBank中数据库(包括NCBI核酸和蛋白质序列数据 库)中条目格式如下:给出描述每一个序列的信息, 包括文献参考、序列的功能信息、mRNA和编码区域 的位置,以及重要突变的位置。这些序列信息以字段 的形式进行组织,每一行最前端都有一个标识符。在 某些条目中,标识符可能缩写成两个字母(例如RF代 表reference),某些字段可能还有次级字段。计算机 程序中的序列条目位于标识符“ORIGIN”和“//”之间。 这些字段提供的信息可以参见网页 www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

LOCUS

name of locus, length and type of sequence, classification of organism, data of entr

y DEFINITION desicription of entry ACCESSION accession number of original source KEYWORDS key words for cross referencing this entry SOURCE source organism of DNA ORGANISM description of organism REFERENCE COMMENT biological function of database information FEATURES information about sequence by base position or range of positions source range of sequence, source organism misc_signal range of sequence, type of function or signal mRNA range of sequence, mRNA CDS range of sequence, protein coding region intron range of sequence, position of intron mutation sequence position, change in sequence for mutation BASE COUNT count of A, C, G, T and other symbols ORIGIN text indicating start of sequence 1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc 51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg // database symbol for end of sequence

Fig 2.6 GenBank中DNA序列条目.

序列每行前面标有数字,以显示片断位置。序列计数或 序列校检求和的值可被计算机程序用来鉴定序列成分, 所以除非程序本身也改变计数,序列计数是不能被改变 的。 GenBank序列格式通常需要改变以适应序列分析软件。ACCESSION Organism no ..123 Escherichia. coli ..124 ..125 ..125 Escherichia Coli Saccharomyces. CEREVISIAE Homo. Sapiens Reference Name Medline1, ...... Medline2, ...... Medline3,. ...... Medline4,. ...... LexA protein UmuD protein GAL4 protein glucoCorticoid receptor Keywords Sequence SOS regulon, ATG.. repressor, transcriptional regulator, .. SOS regulon, .. GTA.. transcriptional regulator, .. transcriptional regulator, .. CAT.. TGT..

Fig 2.7 GenBank数据库的组织. 常被计算机检索程序ENTREZ利用。

2 EMBL序列格式 The European Molecular Biology Laboratory(EMBL)序列 条目与GenBank类似,通过大量信息来描述每个序列。该 信息组织成一个个字段,每个字段有一个标识符。这些标 识符缩写成两个字母,某些字段还有次级字段。每行序列 后面的数字显示片断的位置。 计算机程序可以利用序列计数或校检求和的值来保证序列 的完整性和精确性。正是由于这个原因,除非程序本身也 改变计数,条目的序列片断是不能被改变的。 这种序列格式用于各种序列分析软件时也要进行改变。

ID identification code for sequence in the database AC accession number giving origin of sequence DT dates of entry and modification KW key cross-reference words for lookup up this entry OS, OC source organism RN, RP, RX, RA, RT, RL literature reference or source DR i. d. In other databases CC Description of biological function FH, FT information about sequence by base position or range of positiions source range of sequence, source organism misc_signal range of sequence, type of function or signal mRNA range of sequence, mRNA CDS range of sequence, position of intron mutation sequence position, change in sequence for mutation SQ count of

A, C, G, T and other symbols gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc cttttgctgt 60 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg ttaacggcca 120 . . // symbol to indicate end or sequence

Fig 2.8 EMBL序列格式.

3 SwissProt序列格式 4 FASTA序列格式 5 NBRF序列格式 SwissProt蛋白序列数据库条目的格式和EMBL非常相 似,但它提供了更多的关于蛋白质的物理和生化性质 的信息。 FASTA 序列格式包括三个部分:1.在注释行的第一 列用字符“>”标识,后面是序列的名字和来源;2.标 准的单字符标记的序列;3.可选的“*”表示序列的 结束,它可能出现也可能不出现,但它是许多序列分 析程序正确读取序列所必须的。FASTA格式是序列分 析软件最常用的格式。这种格式提供了从一个窗口到 另一个窗口非常方便的拷贝途径,因为序列中没有数 字或其他非字符。FASTA序列格式和蛋白质信息资源 NBRF格式很相似。

>YCZ2_YEAST protein in EMR 3’ region MKAVVIEDGKAVVKEGVPIPELEEGFV GNPTDWAHIDYKVGPQGSILGCDAAGQ IVKLGPAVDPKDFSIGDYIYGFIHGSS VRFPSNGAFAEYSAISTVVAYKSPNEL KFLGEDVLPAGPVRSLEGAATIPVSLT*

Fig 2.9(上) FASTA序列格式. Fig 2.10(右) NBRF序列格式.

>P1; ILEC lexA REPRESSOR – Escherichia coli MKALTARQQEVFDLIRDHISQTGMPPTRAE IAQRLGFRSPNAAEEHLKALARKGVIEIVS GASRGIRLLQEEEEGLPLVGRVAAGEQLLA QQHIEGHYQVDPSLFKPNADFLLRVSGMSM KDIGIMDGDLLAVHKTQDVRNGQVVVARID DEVTVKRLKKQGNKVELLPENSEFKPIVVD LRQQSFTIEGLAVGVIRNGDWL

NBRF序列格式(或称PIR格式)已经被用于the National Biomedical Research Foundation/Protein Information Resource(NBRF)。网站(www-nbrf.georgetown.edu)中 的PIR数据库中得到并不是这种紧缩格式,而是一种包括 很多信息的扩展格式。Fig 2.10显示了PIR序列格式的一 个例子。第一行包括一个起始的“>”字符,接着是一个双 字符编码,例如P表示完整序列,F表示片断,后面的1或 2显示了序列的类型,接着是一个分号,接着是一个4到6 个字符的条目名称。第二行则显示了序列的全称,连字号, 接着序列来源。

6 Intelligenetics序列格式 Intelligenetics格式由Stanford大学的一个分子遗传学 研究小组发起,后来由Intelligenetics公司继承发展。 IG格式和PIR格式很相似,不同的是将分号置于注释 行之前。第二行也有个标识符。在序列的结束以1表 示序列是线状,以2结束表示序列是环状。; YEAST protein in EMR 3’ region YCZ2 MKAVVIEDGKAVVKEGVPIPELEEGFV GNPTDWAHIDYKVGPQGSILGCDAAGQ IVKLGPAVDPKDFSIGDYIYGFIHGSS VRFPSNGAFAEYSAISTVVAYKSPNEL KFLGEDVLPAGPVRSLEGAATIPVSLT1

Fig 2.11 IG序列格式.

7 GCG序列格式 早期版本的Genetics Computer Group(GCG)程序需要一 个独特的序列格式,它能将其他的序列格式转换为GCG 格式。后来的GCG版本接受了几种序列格式。 一种转换了的GenBank文件见Fig 2.12。首先包括了在

GenBank序列条目中的信息,接着是一行序列信息及校准 求和值。这个值(未显示)是通过累加序列的ASCII值来检 测序列的精确度。如果序列没有改变,这个值就保持相同。 如果由于某种错误,一个或更多的序列字符发生了改变, 因为序列条目校检求和的数值出错,程序在读取序列的过 程中将判定发生了变化。

生物信息数据库简介.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219