当前位置:首页 » 操作系统 » 生物学数据库

生物学数据库

发布时间: 2022-06-06 00:10:07

Ⅰ 什么是生物信息学中的二级数据库

一、生物信息学数据库的种类

分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类:

基因组数据库

核酸和蛋白质一级结构数据库

生物大分子(主要是蛋白质)三维空间结构数据库

由上述3类数据库和文献资料为基础构建的二级数据库

一级数据库(一次数据库) :基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。

二级数据库(二次数据库) :是在一级数据库、实验数据、理论分析的基础上,衍生整理而得。它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库。
一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。

序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。

GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。该中心隶属于美国国家医学图书馆,位于美国家卫生研究院(NIH)内。

EMBL:由欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位于英国剑桥Cambridge和德国汉堡Hamburg。

DDBJ:日本DNA数据库(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。

二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容。

一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色)。

Ⅱ 生物信息学数据库之间的联系方式有

收集,维护,生物信息学数据库可以分为4大类:即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子三维空间结构数据库。

Ⅲ 列举常用的生物信息学数据库及序列对比常用软件及特点

一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:

CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:

位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:

受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:

GC含量:

引物的位点:

Tm值:

产物长度:。

9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:

然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库

数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel

限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)

设计引物扩增实验序列——Genefisher
Primer 3

蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)

多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019

Ⅳ 生物信息数据库分为哪四大类

按大小可以分为1.公共数据库
2. 从公共数据库中取数据做进一步处理的专业数据库,提供更多的分析工具
按功能分可以有
基因库GENEBANK,蛋白库UNIPROT, 结构库PDB, 功能分类 GO库,通路库 KEGG。

不用专注于4这个数字。随着科研的进步还会有更多的数据库出来。

Ⅳ 标题 为什么数据库是生物信息学研究的基础

是因为建立和完善数据_能够促进生物信息学的发展。
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

Ⅵ NCBI有多少数据库,分别有什么作用

在生物医学信息学领域,数据库和服务的定义与计算机领域有很大的不同,如果要问NCBI过去,现在或将来会有多少数据库,恐怕连NCBI自己都说不清楚。要是一个一个数据库讲下来,9999个字肯定不够用。这里有一个列表供您参考http://www.ncbi.nlm.nih.gov/guide/all/。

NCBI的产生和发展是在美国和全球生物学高速发展,高通量数据急速产生,而缺乏有效的数据分析方法的背景下产生,起初它主要任务是数据的存储和查询。只不过其存储的数据大多以高通量数据为主,例如基因测序,基因组,SNP, 基因芯片,小分子化合物和GWAS数据等。这些数据的共享,极大地促进了生物信息学发展。

按照数据->样式->知识->智慧的发展模式,NCBI主要起到了一个为生物学家提供数据的角色。不过,NCBI目前也不断地在调整自己的角色。例如,生物医学文献。NCBI在从NLM继承过来的pubmed的基础,提供以PMC数据库为核心的全文文献服务。PubMed数据库应该是全球生物学家使用频率最高的数据库。NCBI最近对pubmed的改版,虽然没有实质性的改变,但其按照用户体验进行的修改,足见其对该数据库的重视。

另外,NCBI目前不断地在引入高学历生物学人才对其数据库的质量进行控制。以dbSNP为例,其正在通过与领域专家的合作将突变数据与人类表型数据进行关联。

总得来讲,NCBI的发展是与生物学高通量数据产生密切相关,它以经不在局限于提供数据存储与查询,其未来的发展必将发展为一个大型的、综合的知识库。到那时NCBI会不会免费,就要另当别论了。很显然没有人会将自己的手稿拱手让人。如果真有那么一天,不知道从中会产生多少专利和知识产权。

Ⅶ 生物学数据库都有哪些

分子生物学数据库大全:核酸数据库、基因表达数据库、蛋白数据库、糖数据库、专利数据库等国际顶尖数据库列表可以在生物帮那里找到的,我一般找资料,最新资讯都是到那里的,他们比较专业,权威,也比较全面,技术文档,视频,产品都蛮丰富的。年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。

热点内容
领导专车配置物品怎么处理 发布:2025-01-07 06:49:50 浏览:444
ftp字符集 发布:2025-01-07 06:28:21 浏览:344
数据库返回值 发布:2025-01-07 06:17:26 浏览:376
弹簧自动压缩 发布:2025-01-07 06:08:35 浏览:523
传奇荣耀脚本 发布:2025-01-07 05:53:14 浏览:980
为什么安卓手机连接不了苹果耳机 发布:2025-01-07 05:37:49 浏览:76
c语言mfc 发布:2025-01-07 05:33:18 浏览:593
自己搭建邮件服务器ddns 发布:2025-01-07 05:19:29 浏览:206
光驱无法访问指定设备 发布:2025-01-07 05:17:19 浏览:105
如何删除人人网的访问记录 发布:2025-01-07 05:02:47 浏览:281