二库数据库
① 什么叫做二次文献数据库
二次文献数据库又称文摘索引数据库。文摘是指对一篇文献(如期刊论文)的内容所做的简略的准确的描述,如论文的目的,主要研究过程,采用的方法,主要结果与重要结论等。前颂它与全文数据库的区别在于,它只提供题录与文摘等而二次信息。
二次文献的简介
二次文献又称二级次文献,是对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行着录,或将其内容压缩成简介、提手滑要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(慧薯郑包括简介式检索刊物)等。
它们都可用作文献检索工具,能比较全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索,是积累、报道和检索文献资料的有效手段。
② 什么是生物信息学中的二级数据库
一、生物信息学数据库的种类
分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类:
基因组数据库
核酸和蛋白质一级结构数据库
生物大分子(主要是蛋白质)三维空间结构数据库
由上述3类数据库和文献资料为基础构建的二级数据库
一级数据库(一次数据库) :基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。
二级数据库(二次数据库) :是在一级数据库、实验数据、理论分析的基础上,衍生整理而得。它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库。
一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。
二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。
序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。
GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。该中心隶属于美国国家医学图书馆,位于美国家卫生研究院(NIH)内。
EMBL:由欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位于英国剑桥Cambridge和德国汉堡Hamburg。
DDBJ:日本DNA数据库(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。
二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容。
一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色)。
③ 二维数据库的概念和模型
概念模式:数据库系统中全局数据逻辑结构的描述,全体用户公共数据视图;
数据模型的概念:是数据特征的抽象,从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表与操作提供一个抽象的框架。描述了数据结构、数据操作及数据约束。
E-R模型的基本概念
(1)实体:现实世界中的事物;
(2)属性:事物的特性;
(3)联系:现实世界中事物间的关系。实体集的关系有一对一、一对多、多对多的联系。
E-R模型三个基本概念之间的联接关系:实体是概念世界中的基本单位,属性有属性域,每个实体可取属性域内的值。一个实体的所有属性值叫元组。
E-R模型的图示法:(1)实体集表示法; (2)属性表法; (3)联系表示法。
层次模型的基本结构是树形结构,具有以下特点:
(1)每棵树有且仅有一个无双亲结点,称为根;
(2)树中除根外所有结点有且仅有一个双亲。
从图论上看,网状模型是一个不加任何条件限制的无向图。
关系模型采用二维表来表示,简称表,由表框架及表的元组组成。一个二维表就是一个关系。
在二维表中凡能唯一标识元组的最小属性称为键或码。从所有侯选健中选取一个作为用户使用的键称主键。表A中的某属性是某表B的键,则称该属性集为A的外键或外码。
关系中的数据约束:
(1)实体完整性约束:约束关系的主键中属性值不能为空值;
(2)参照完全性约束:是关系之间的基本约束;
(3)用户定义的完整性约束:它反映了具体应用中数据的语义要求。
④ 如何实现两个Oracle数据库的数据同步
为方便完成指定数据表的同步操作,可以采用dblink与merge结合的方法完成。
操作环境: 此数据库服务器ip为192.168.196.76,有center与branch两个库,一般需要将center的表数据同步到branch,center为源库,branch为目标库,具体步骤如下:
1.在源库创建到目标库的dblink
create database link branch --输入所要创建dblink的名称,自定义
connect to dbuser identified by “password” --设置连接远程数据库的用户名和密码
using '192.168.196.76/branch'; --指定目标数据库的连接方式,可用tns名称
正常情况下,如果创建dblink成功,可采用该方式访问到远程数据库的表.
3.通过merge语句完成表数据同步
此例中需要将center库中的tb_sys_sqlscripe表同步到branch,简单的语法如下:
merge into tb_sys_sqlscripe@branch b using tb_sys_sqlscripe c on (b.pk=c.pk) --从center将表merge到branch,同步的依据是两个表的pk
when matched then update set b.sqlscripe=c.sqlscripe,b.author=c.author --如果pk值是相同则将指定表的值更新到目标表
when not matched then --如果pk值不一至,则将源表中的数据整条插入到目标表中
insert values (c.pk, c.fk, c.createtime, c.lastmodifytime,c.author,c.mole,c.deleteflag, c.scripttype);
commit; --记得merge后必须commit,否则更改未能提交
4.为方便每次需要同步时自动完成同步工作,可将该语句做成存储过程或脚本来定时执行或按要求手动执行,简单说一下创建脚本的方法:
a.创建merge文件夹
b.先将merge语句写完整后,存到merge.sql文件中
c.新建merge.bat文件,编辑后写入以下内容
sqlplus user/password@serverip/database @"%cd%merge.sql"
⑤ 数据库主要分为哪两种类型
数据库主要分为关系数据库和非关系型数据库(NoSQL)。
1、关系数据库
关系型数据库,存储的格式可以直观地反映实体间的关系。关系型数据库和常见的表格比较相似,关系型数据库中表与表之间是有很多复杂的关联关系的。
常见的关系型数据库有Mysql,SqlServer等。在轻量或者小型的应用中,使用不同的关系型数据库对系统的性能影响不大,但是在构建大型应用时,则需要根据应用的业务需求和性能需求,选择合适的关系型数据库。
2、非关系型数据库(NoSQL)
指分布式的、非关系型的、不保证遵循ACID原则的数据存储系统。NoSQL数据库技术与CAP理论、一致性哈希算法有密切关系。NoSQL数据库适合追求速度和可扩展性、业务多变的应用场景。
(5)二库数据库扩展阅读
关系数据库分为两类:一类是桌面数据库,例如Access、FoxPro和dBase等;另一类是客户/服务器数据库,例如SQL Server、Oracle和Sybase等。桌面数据库用于小型的、单机的应用程序,它不需要网络和服务器,实现起来比较方便,但它只提供数据的存取功能。
客户/服务器数据库主要适用于大型的、多用户的数据库管理系统,应用程序包括两部分:一部分驻留在客户机上,用于向用户显示信息及实现与用户的交互;另一部分驻留在服务器中,主要用来实现对数据库的操作和对数据的计算处理。