生物信息学数据库
1. 生物信息学MPSS数据库是什么,有什么作用
生物信息学中kog数据库是什么意思
根据需要从一级数据库中搜集对象的相关数据集合而成的就是二级数据库.
像genebank,EMBL这种都是不加选择的一级数据库,只要是实验获得的,不管什么东西的序列,哪怕是不完整的序列都能上传,而且它们的数据也有可能有重复.如果有某个人专门研究细菌的鉴定,需要用到正式被认可的16srDNA序列,为了研究方便,把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理,重新构建了一个数据库,这就是所谓的二级数据库.如果不构建,直接用一级数据库做blast,就会得出很多未被承认甚至不完整的序列,还要人工一个个看过去,找出公认的标准序列,这样就很麻烦.我举得例子在现实中就是韩国的EzTaxon.
2. 向genbank提交数据的软件有几种,各有什么的特点
两种。
GenBank是由美国国立生物信息中心(NCBI)创建维护的核酸序列数据库,在世界三大生物信息学数据库中数据存储量最大,应用最为广泛.本研究采用文档处理语言Perl,设计开发针对GenBank序列记录检索及处理软件GenScalpel,这一应用对生物学实验室是迫切的.利用正则表达式设计及E-utilities等技术,GenScalpel应用程序对GenBank序列格式(GBF)进行解析,实现的主要功能包括有序列数据在线检索及本地获取,特征序列(集)类归及提取,序列文件批处理等.GenScalpel应用程序具备友好的图形用户界面,并符合Entrez数据检索系统最新接口标准,经测试,能够稳定,高效地为生物学家提供工具应用。
3. 生物信息学实验教学中如何巧用数据库
生物信息学中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明. Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法. 问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA. 综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。
4. 生物信息学角度解释已知有一条未知序列,如何预测它的功能
摘要 1.生物信息数据库:是用于生物信息学研究的原始数据,是生物信息学赖以生存和发展的基础。生物数据库主要是对生物信息的收集、存储和管理的研究,包括国际基本的生物信息库和生物信息传输国际物联网系统的建立,生物信息数据库质量的评估与检测系统的建立,生物数据可视化和专家系统,生物信息工具开发。NCBI是推动基因组、计算生物学和数据分析方面的软件开发,发布生物医学领域的信息,为生物医学和生命科学研究提共了大量分析所需要的数据和工具。
5. 什么是生物信息学中的二级数据库
一、生物信息学数据库的种类
分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类:
基因组数据库
核酸和蛋白质一级结构数据库
生物大分子(主要是蛋白质)三维空间结构数据库
由上述3类数据库和文献资料为基础构建的二级数据库
一级数据库(一次数据库) :基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。
二级数据库(二次数据库) :是在一级数据库、实验数据、理论分析的基础上,衍生整理而得。它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库。
一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。
二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。
序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。
GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。该中心隶属于美国国家医学图书馆,位于美国家卫生研究院(NIH)内。
EMBL:由欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位于英国剑桥Cambridge和德国汉堡Hamburg。
DDBJ:日本DNA数据库(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。
二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容。
一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色)。
6. 生物信息学数据库的主要数据类型
生物信息学数据库的主要数据类型有哪些的呢?
这些数据的类型估计都是一些讲述生物的种类、特性、生长、发育和再生等。