数据库宗旨
‘壹’ 为什么万方数据库的论文只有导出项,没有下载项啊
如果万方数据库的某些论文只有导出而没有下载链接的,是因为万方数据库的某些论文没有获得该篇论文的授权。你读者可以到国家科技图书文献中心(NSTL)检索查询,再根据查询的结果请求授权复制。
‘贰’ 中国数字植物标本馆的数据库
1.标本信息
提供成员单位标本馆所完成的数字化标本信息,包括一般标本及模式标本。每份标本信息包括标签信息及图像信息,前者包括标本采集人、采集日期、地点、生境与海拔以及鉴定信息和标本存放地点(标本馆)等。
目前在CVH网上能查询到中科院系统13家标本馆标本,共计二百八十五万份(笔)标本信息及一百五十五万张标本图像,缺乏图像的记录已在首页予以标明。
网上模式标本6500份,仅包括中科院植物所标本馆馆藏的模式标本,包括裸子植物、毛茛科、荨麻科、山茶科、壳斗科等类群。信息均经过核实,还附有发表新种的原始文献(PDF格式)以及高分辨率标本图像。
分布式标本信息检索系统:目前CVH的标本信息是通过集中式实现共享查询的,其主要缺陷是更新周期长,存储压力大。我们正在试验的分布式标本信息查询系统已有5家标本馆(称CVH分馆)参与,共有100多万份标本信息实现实时更新,并由成员单位通过FTP自主管理其分馆,有效地发挥成员单位的积极性。
2.《中国植物志》数据库
包括全套《中国植物志》79卷(除第一卷外)125册图书的PDF文件,可通过科名和植物名称(学名、中名)查询到志书文字及图版。最近完成的检索文件复核补充工作使数据库更全面准确地反映植物志的内容,除正名(accepted name)外,讨论部分的学名也可查到。数据库记录数:45000余条。
3.彩色图库
上传到CVH网站上的植物彩色照片共计五万余张,属于269科5700种,为近年来众多志愿者自野外拍摄所得,范围涉及在全国34个省(区、市)的野生植物。下阶段将逐步建立彩图鉴定专家系统,以提高照片鉴定准确性。
至此,用户输入学名或中名可关联性查询到标本、植物志及彩色图片三大数据库,这也是CVH的主要数据库。
4.其他相关数据库
为方便用户使用标本信息,“中国数字植物标本馆”网站还提供其他大量相关的(植物学)数据库,如标本采集地名与标本馆数据、分类研究人员及其研究论文题录等。这些数据库或源自实际工作经验的总结、或直接转自权威工具书并经过专家审核。
1)《中国高等植物图鉴》数据库
为该书全套五册正编及两册补编共7本书的全文检索。可通过科名和植物名称(学名及中名)查询到书中正文文字及图画。数据库记录数:9057条。
2)地方植物志及其统一查询
提供12套地方志的数字化文挡(PDF文件),可通过统一关联查询任何1-12种植物志信息,包括西藏、秦岭、辽宁、贵州、浙江、海南等省(区/市)及地区植物志。下阶段计划实现《中国植物志》与地方植物志的关联查询。数据库记录数:47112条。
3) “三种主要志书属名数据库”
提供查询中国维管植物属名在《中国植物志》、《中国高等植物图鉴》和FLORA OF CHINA中的位子,包括卷册及页码。这三套志书(图鉴)是目前研究中国植物的主要参考书。该数据库的复核工作已于最近完成,增加了新近出版 FLORA OF CHINA卷册内容,并修改(修订)数百条记录,使数据更准确全面。数据库记录数:3504条。
4)植物名称及分布数据库
通过该库可以快速查询到中国种子植物名称及分布信息(到省级)等简单信息。资料主要来源于《中国植物志》和 已出版的Flora of China,可以认为是《中国植物志》的名录修订。目前数据库记录数:34056条。
5)模式标本名录及其原始文献数据库
该数据库以收集中国原生植物(Native plant)名称模式标本及其发表原始文献资料为宗旨,无论其模式标本采集地及保藏地在国内或国外、该名称何时于何种刊物发表都尽量予以收录。每条记录包括植物名称(学名、中名)、发表刊物,模式标本采集地点和生境、年代及标本采集人和采集号,以及标本存放地点(标本馆)。大部分资料以外文形式出现。数据库资料来源于国内外多种书刊,其中标本馆代码依 Holmgren et al.1990. Index Herbariorum和傅立国等1993《中国植物标本馆索引》(中国科技出版社)。缩写代号HT: Holotype, IT: Isotype, T: Type。目前数据库记录数:30705条
6)植物名称作者(命名人)数据库
据统计,至今为止,中国植物命名作者多达五千余人,其中命名两个及两个以上名称的有近3500人。本数据库就是基于这3500人的资料建立的,每条记录包括作者全名及标准缩写、工作/出生/生卒年代、专长类群等。中国作者(共919条目)还附有中文名及工作单位。本数据库依据国内外多种书刊资料编辑而成,其中人名拼写标准主要依据Brummitt & Powell 1992, Authors of Plant Names。类群代码为:A:藻类;B:苔藓;C:孢子植物;F:化石植物;M:真菌和地衣;P:蕨类;S:种子植物。目前数据库记录数:3481条。
7)中国植物分类学文献要览(1949-1990)
一般地,查询20世纪50年代以前中国植物学文献时可查询E.D.Merrill & E.H.Walker 《东亚植物学文献目录》(1938)及其补编(1960),90年代以后资料的查询则多利用各种网络资源。本数据库填补了50年代至90年代之间的空白,它主要涵盖中国大陆学者1949-1990年间发表的植物系统学文献,内容包括作者姓名、论着题目及发表书刊等。本库资料主要来源于《中国植物系统学文献要览》(陈心启等1993,广东科技出版社)。目前数据库记录数:6879条
8)标本采集地新旧地名对照数据库
在我国,二十世纪初以前标本采集地的名称,现今常有改变而不再使用。在这种情形下,很有必要通过对旧时和现在地图的核对及参考相关采集资料,来制作新旧地名对照表,建立新旧地名数据库,包括旧地名的经纬度数据,以供标本查询及分类学研究之用。我们根据中国植物分类学家研究经验,总结出包括11个省(市)2000多条采集地新旧地名对照记录。每个旧地名尽可能包括其旧外文名、位置(经纬度),并标明该地名在现今县级行政区的名称、国家标准代码和经纬度。目前数据库记录数:2048条
9)中国植物标本馆数据库
本数据库信息基本于《中国植物标本馆索引》(傅立国等,1993)一书,共收录全国300余家标本馆,并于最近对其中几十家主要标本馆信息进行了更新。每家标本馆信息包括标本馆名称和地址、联系人及联系方法,馆藏特色及收藏目标,以及主要研究人员信息等。
5.植物鉴定指南性资料
本部分数据库包括交互式检索表(又称电子检索表)和植物形态术语图说等,目的是为用户提供从植物特征识别和标本鉴定,到上述的标本及图像比对,一直到物种形态特征描述和国内分布等一站式服务。
1)电子检索表
这是一种互动的计算机程序,使用者不断地向这个程序里输入标本或活植物的性状,那些不具有这些性状的分类群将被排除掉,直到只剩下一个分类单元。它是系统植物学、生物编目与保护的一种非常好的鉴定工具。本检索表提供检索中国种子植物270余个科的电子路径。
2)科属词典数据库
该库转接自成员单位网站,其信息来自侯宽昭主编、吴德邻等人修订的《中国种子植物科属词典》(第二版),共收集我国种子植物276科,3109属,重点描述我国种子植物的科、属形态、地理分布、属种统计、主要经济用途等。该书是我国植物学专业书籍销量最大的图书。其电子词典制作的目的是为了方便用户对植物多样性学信息的获取。
3)“植物鉴定和描述形态术语图解”数据库
包括种子植物形态术语1133条,涵盖了植物鉴定和描述所使用的绝大部分术语,涉及根、茎、叶、花、花序、果实等植物器官。每个条目包括中、英文术语及其中英文释义四部分内容。选词标准规范,释义准确、简明扼要,大部分术语还配有一至多幅精美的线描图(共1297幅),图画特征明显,对于读者理解术语的含义大有裨益。本库资料主要来源于Harris & Harris 1994, Plant Identification Terminology :An Illustrated Glossary (王宇飞等人译,2001. 科学出版社)一书。
4)“国家重点保护野生植物名录(第一、二批)”数据库
第一批名录已于一九九九年发布执行,第二批名录经数年讨论仍未正式发布,但已基本拟定,故一并列出,供用户参考。两个名录共计约1900种(其中兰科植物约占2/3)。该库可查询到植物名称(中名、学名)、科名、批次及保护等级、国内分布(到省级)、海拔高度等信息。
6.科普及孢子植物栏目(分馆)
1)苔藓植物分馆和蕨类植物分馆
两者均分列中国植物名录、植物志、名词解释、植物照片、专家介绍及学科通讯等相关资料,利于专门用户查访。
2)科普分馆
主要是基于植物物种多样性开发的科学普及常识。其中 “标本馆常规技术”和“常用药用植物”两个栏目是我们特地为“中国数字植物标本馆”所编写的。前者包括“标本采集和压制”、“标本装订”、“用检索表鉴定植物”和“植物名称知识介绍”等标本馆常用的专业技术;后者则选录了全国范围内常药用植物百余种加于介绍。每种内容包括名称、来源、原植物形态特征及功能主治等。每种植物还配有一幅精美的彩色图画。
此外“中国数字植物标本馆”还辟有“网站建设介绍”、“信息反馈”和“相关网站”等栏目,其宗旨是为用户提供全面而便捷的信息服务。
‘叁’ 数据仓库的发展前期
计算机发展的早期,人们已经提出了建立数据仓库的构想。“数据仓库”一词最早是在1990年,由Bill Inmon先生提出的,其描述如下:数据仓库是为支持企业决策而特别设计和建立的数据集合。
企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。
企业在它们的事务操作收集数据。在企业运作过程中:随着定货、销售记录的进行,这些事务型数据也连续的产生。为了引入数据,我们必须优化事务型数据库。
处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少呢?在某一段时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客户又削减了他们的购买额呢?
事务型数据库可以为这些问题作出解答,但是它所给出的答案往往并不能让人十分满意。在运用有限的计算机资源时常常存在着竞争。在增加新信息的时候我们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。
数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。