印藏数据库
⑴ 超级硬核的:中国古典文献资源导航系统,历史爱好者的宝藏
中国古典文献资源导航系统,作为中国首个古典文献资源导航平台,属于数字人文基础设施。在2019年10月上线,目前,它收集了国内约90%的古籍资源,同时收录了大量国外中华古籍。
该系统提供多种鉴定工具分类,如中国历代职官印藏、复旦明代武举数据库、历代职官历法计算印章知识库、避讳字知识库、古籍刻工名录、中国历代印鉴规范库、中国历代人物传记资料、中国历史地图集、人物印鉴词格校验律诗校验、纪年换算、韩国人物年表、韩国历代人物综合情报系统、两千年中西历转换、清代职官资料、人名权威档、中国历史地名等。
这些资源涉及政治、经济、文化、历史、宗教、哲学、文学、艺术等众多领域,是研究中国古代社会的宝贵资料库。它们不仅记载了古代的政治制度、历史事件和人物言行,还反映了古代的经济活动、商业贸易、物价变动,以及各种哲学思想和宗教信仰。同时,古代文学和艺术作品,如史诗、戏剧、诗歌、小说等,也是不可或缺的一部分,该系统覆盖领域之广泛,收录之庞大,无法一一列举。
历史爱好者通过这个导航系统,可以更高效地研究历史,获取所需信息,事半功倍。无论是研究古代政治、经济、文化,还是探索古代文学、艺术,都能在这里找到丰富的资源。
⑵ 数据库 是什么/
定义1
严格地说,数据库是“按照数据结构来组织、存储和管理数据的仓库”。在经济管理的日常工作中,常常需要把某些相关的数据放进这样的“仓库”,并根据管理的需要进行相应的处理。例如,企业或事业单位的人事部门常常要把本单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、简历等)存放在表中,这张表就可以看成是一个数据库。有了这个"数据仓库"我们就可以根据需要随时查询某职工的基本情况,也可以查询工资在某个范围内的职工人数等等。这些工作如果都能在计算机上自动进行,那我们的人事管理就可以达到极高的水平。此外,在财务管理、仓库管理、生产管理中也需要建立众多的这种"数据库",使其可以利用计算机实现财务、仓库、生产的自动化管理。
J.Martin给数据库下了一个比较完整的定义:数据库是存储在一起的相关数据的集合,这些数据是结构化的,无有害的或不必要的冗余,并为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用的和可控制的方式进行。当某个系统中存在结构上完全分开的若干个数据库时,则该系统包含一个“数据库集合”。
定义2
数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合。这种数据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织的多种应用服务,其数据结构独立于使用它的应用程序,对数据的增、删、改和检索由统一软件进行管理和控制。从发展的历史看,数据库是数据管理的高级阶段,它是由文件管理系统发展起来的。
定义3
(伯尔尼公约议定书专家委员会的观点)
所有的信息(数据率档)的编纂物,不论其是以印刷形式,计算机存储单元形式,还是其它形式存在,都应视为“数据库”。
数字化内容选择的原因有很多,概括起来主要有:
(1)存储空间的原因。数字化的产品是通过网络被广大用户存取利用,而大家都知道数字化产品是存放在磁盘阵列上的,磁盘阵列由服务器来管理,磁盘空间是有限的,服务器的能力也是有限的,不可能无限量地存入数字资源,这就需要我们对文献资源数字化内容进行选择。
(2)解决数字化生产高成本和图书馆经费有限性之间矛盾的需要。几乎没有图书馆有充足的资源来对整个馆藏进行数字化,内容选择不可避免。
(3)数字资源管理的需要。技术的快速发展使数字化项目所生成的数字资源的生命周期越来越短,投入巨资进行数字迁移是延长数字资源生命的1个重要途径,昂贵的维护成本就必须考虑数字化的内容选择。
数据库发展史数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引越来越多的研究者加入。数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。三十多年来,国内外已经开发建设了成千上万个数据库,它已成为企业、部门乃至个人日常工作、生产和生活的基础设施。同时,随着应用的扩展与深入,数据库的数量和规模越来越大,数据库的研究领域也已经大大地拓广和深化了。30年间数据库领域获得了三次计算机图灵奖(C.W. Bachman,E.F.Codd, J.Gray),更加充分地说明了数据库是一个充满活力和创新精神的领域。就让我们沿着历史的轨迹,追溯一下数据库的发展历程。
传统上,为了确保企业持续扩大的IT系统稳定运行,一般用户信息中心往往不仅要不断更新更大容量的IT运维软硬件设备,极大浪费企业资源;更要长期维持一支由数据库维护、服务器维护、机房值班等各种维护人员组成的运维大军,维护成本也随之节节高升。为此,企业IT决策者开始思考:能不能像拧水龙头一样按需调节的使用IT运维服务?而不是不断增加已经价格不菲的运维成本。
定义4
数据库(DataBase,DB)是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。她是一个按数据结构来存储和管理数据的计算机软件系统。数据库的概念实际包括两层意思:
(1)数据库是一个实体,它是能够合理保管数据的“仓库”,用户在该“仓库”中存放要管理的事务数据,“数据”和“库”两个概念结合成为数据库。
(2)数据库是数据管理的新方法和技术,他能更合适的组织数据、更方便的维护数据、更严密的控制数据和更有效的利用数据。
⑶ 数据库的类型
ASP数据库类型DBFDBCMDBExcelSQLServer
数据库是在计算机存储设备上按一定方式,合理组织并存储的相互有关联的数据的集合,是计算机技术和信息检索技术相结合的产物,是电子信息资源的主体,是信息检索系统的核心部分之一。按所提供的信息内容,数据库主要可分为参考数据库和源数据库。
1.参考数据库
主要存储一系列描述性信息内容,指引用户到另一信息源以获得完整的原始信息的一类数据库,主要包括书目数据库和指南数据库。
(1)书目数据库 存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息数据库。如各种图书馆目录数据库、题录数据库和文摘数据库等属于此类,它的作用是为用户指出了获取原始信息的线索。
图书馆目录数据库,又称机读目录,其数据内容详细,除描述标题、作者、出版项等书目信息外,还提供用户索取原始信息的馆藏信息。题录、文摘数据库描述的数据内容与印刷型的题录、文摘相似,它提供了论文信息或专利信息等确定的信息来源,供用户检索。
(2)指南数据库 存储描述关于机构、人物、产品、活动等对象的数据库。与其它数据库相比,指南数据库为用户提供的不仅仅是有关信息,还包括各种类型的实体,多采用名称进行检索。如存储生产与经营活动信息的机构名录数据库、存储人物信息的人物传记数据库、存储产品或商品信息的产品指南数据库、存储基金信息的基金数据库等属于此类,它的作用指引用户从其它有关信息源获取更详细的信息。
2.源数据库
主要存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,用户不必再转查其它信息源的数据库。它主要包括全文数据库和数值数据库。
(1)全文数据库 存储原始信息全文或主要部分的一种源数据库。如期刊全文数据库、专利全文数据库、网络全书全文数据库,用户使用某一词汇或短语,便可直接检索出含有该词汇或短语的原始信息的全文。
(2)数值数据库 存储以数值表示信息为主的一种源数据库,和它类似的有文本-数值数据库。与书目数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。如各种统计数据库、科学技术数据库等。数值数据库除了一般的检索功能外,还具有准确数据运算功能、数据分析功能、图形处理功能及对检索输出的数据进行排序和重新组织等方面的功能。
4.2.2 数据库结构
1.书目数据库的结构
书目数据库是以文档形式组织一系列数据,这些数据被称为记录,一个记录又包含若干字段。
(1)记录与字段 记录是作为一个单位来处理有关数据的集合,是组成文档的基本数据单位。记录中所包含的若干字段,则是组成记录的基本数据单位。在书目数据库中,一个记录相当于一条题录或文摘,因此,一个记录通常由标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等组成。在有些字段中,又包含多个子字段,子字段是字段的下级数据单位。如,主题词字段含有多个主题词。按照字段所代表记录的性质不同,字段通常分为基本字段和辅助字段两类。常见的字段名称及代码见表4-1。
表4-1 字段名称及代码
基本字段
辅助字段
字段名称
字段代码
字段名称
字段代码
标 题
TI
记录号
DN
文 摘
AB
作 者
AU
叙 词
DE
作者单位
CS
标识词
ID
期刊名称
JN
出版年
PY
出版国
CO
语 种
LA
(2)文档 按一定结构组织的相关记录的集合。文档是书目数据库数据组织的基本形式,文档的组织方式与检索系统的硬件和软件功能密切相关。在书目数据库中,文档结构主要分为顺排文档和倒排文档。
1)顺排文档 记录按顺序存放,记录之间的逻辑顺序与物理顺序是一致的,相当于印刷型工具中文摘的排列顺序,是一种线形文档。顺排文档是构成数据库的主体部分,但其主题词等特征的标识呈无序状态,直接检索时,必须以完整的记录作为检索单元,从头至尾查询,检索时间长,实用性较差。
2)倒排文档 将顺排文档中各个记录中含有主题性质的字段(如主题词字段、标题字段、叙词字段等)和非主题性质字段(如作者字段、机构字段、来源字段等)分别提取出来,按某种顺序重新组织得到的一种文档。具有主题性质的倒排档,称基本索引档,非主题性质的倒排档,称辅助索引档。
综上所述,顺排档和倒排档的主要区别是:顺排档以完整的记录为处理和检索单元,是主文档,倒排档以记录中的字段为处理和检索单元,是索引文档。计算机进行检索时,先进入倒排档查找有关信息的存取号,然后再进入顺排档按存取号查找记录。
2.全文数据库的结构
一般的全文数据库结构与书目数据库相似,全文数据库的一个记录就是一个全文文本,记录分成若干字段。其主文档是以顺排形式组织的文本文档,倒排档是对应于记录可检字段的索引文档。
3.数值数据库的结构
数值数据库的结构要综合考虑数据库的内容及检索目的,即,在内容上,数值数据库的主要内容是数值信息,但不排除含有必要的说明性的文本信息,在检索上,便于单项检索和综合检索,还能对数值进行准确数据运算、数据分析、图形处理及对检索输出的数据进行排序和重新组织。数值数据库的数据结构可以是单元式,也可以是表册形式。前者是对原始数据的模拟,后者则是对统计表格的机读模拟。数值数据库通常有多种文档,如顺排挡、倒排挡、索引文档等。顺排挡是由数值数据组成,为主文档,另有相应的索引文档,为便于存取,索引文档采用基本直接存取结构的组织形式。倒排挡也有相应的索引文档,索引文档采取分级组织形式。数值数据库的文档结构,使所有文档都可以用于检索,所有数据都可用来运算,构成了数值数据库的特点。
4.指南数据库的结构
指南数据库的结构兼有书目数据库、全文数据库和数值数据库的特点,有顺排档、倒排档、索引文档和数据字典。一般而言,对涉及主题领域较多,内容综合性较强的大型指南数据库,顺排挡(主文档)可采用多子文档的结构,对单一主题领域和内容较专的,则采用单一主文档和不定长、多字段的记录格式为宜。
⑷ 中国国家图书馆有多少个数据库
国家图书馆网上有一批免费历史学数据库,网址是 http://www.nlc.gov.cn/newgj
中国古籍善本书目导航:把线装书局的排印本《中国古籍善本书目》数字化,总数据量达29万余条。
·甲骨世界:国图珍藏甲骨35651片,此库包括甲骨元数据3764条,影像7532幅。
·碑帖菁华:现有元数据23000余条,影像29000余幅。
·敦煌遗珍:IDP数据库,包括中国国内散藏敦煌文献联合目录和研究论着目录数据等等。
·西夏碎金:收录馆藏西夏古籍书目数据125条,馆藏西夏古籍原件影像近5000拍。
·数字方志:收有1949年前纂修的6868种古旧地方志类图书,跨越明清和民国三个朝代。
·年画撷英:国图收藏4000余幅年画作品,此库现有元数据278条,影像278幅。
·民国专栏:收有民国图书15028种,民国法律8117种,民国期刊4350种,影像全文浏览。
·中华古籍善本国际联合书目系统:收录三十余家海内外图书馆所藏古籍善本,数据有两万多条,配一万四千余幅书影。
·东京大学东洋文化研究所汉籍全文影像数据库:东洋文化研究所将所藏中文古籍4000余种,以数字化方式无偿提供给中国国家图书馆。
⑸ 数据库的类型
数据库是在计算机存储设备上按一定方式,合理组织并存储的相互有关联的数据的集合,是计算机技术和信息检索技术相结合的产物,是电子信息资源的主体,是信息检索系统的核心部分之一。按所提供的信息内容,数据库主要可分为参考数据库和源数据库。 1.参考数据库 主要存储一系列描述性信息内容,指引用户到另一信息源以获得完整的原始信息的一类数据库,主要包括书目数据库和指南数据库。 (1)书目数据库 存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息数据库。如各种图书馆目录数据库、题录数据库和文摘数据库等属于此类,它的作用是为用户指出了获取原始信息的线索。 图书馆目录数据库,又称机读目录,其数据内容详细,除描述标题、作者、出版项等书目信息外,还提供用户索取原始信息的馆藏信息。题录、文摘数据库描述的数据内容与印刷型的题录、文摘相似,它提供了论文信息或专利信息等确定的信息来源,供用户检索。 (2)指南数据库 存储描述关于机构、人物、产品、活动等对象的数据库。与其它数据库相比,指南数据库为用户提供的不仅仅是有关信息,还包括各种类型的实体,多采用名称进行检索。如存储生产与经营活动信息的机构名录数据库、存储人物信息的人物传记数据库、存储产品或商品信息的产品指南数据库、存储基金信息的基金数据库等属于此类,它的作用指引用户从其它有关信息源获取更详细的信息。 2.源数据库 主要存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,用户不必再转查其它信息源的数据库。它主要包括全文数据库和数值数据库。 (1)全文数据库 存储原始信息全文或主要部分的一种源数据库。如期刊全文数据库、专利全文数据库、网络全书全文数据库,用户使用某一词汇或短语,便可直接检索出含有该词汇或短语的原始信息的全文。 (2)数值数据库 存储以数值表示信息为主的一种源数据库,和它类似的有文本-数值数据库。与书目数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。如各种统计数据库、科学技术数据库等。数值数据库除了一般的检索功能外,还具有准确数据运算功能、数据分析功能、图形处理功能及对检索输出的数据进行排序和重新组织等方面的功能。 4.2.2 数据库结构 1.书目数据库的结构 书目数据库是以文档形式组织一系列数据,这些数据被称为记录,一个记录又包含若干字段。 (1)记录与字段 记录是作为一个单位来处理有关数据的集合,是组成文档的基本数据单位。记录中所包含的若干字段,则是组成记录的基本数据单位。在书目数据库中,一个记录相当于一条题录或文摘,因此,一个记录通常由标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等组成。在有些字段中,又包含多个子字段,子字段是字段的下级数据单位。如,主题词字段含有多个主题词。按照字段所代表记录的性质不同,字段通常分为基本字段和辅助字段两类。常见的字段名称及代码见表4-1。 表4-1 字段名称及代码基本字段辅助字段字段名称字段代码字段名称字段代码标题TI记录号DN文摘AB作者AU叙词DE作者单位CS标识词ID期刊名称JN出版年PY出版国CO语种LA(2)文档 按一定结构组织的相关记录的集合。文档是书目数据库数据组织的基本形式,文档的组织方式与检索系统的硬件和软件功能密切相关。在书目数据库中,文档结构主要分为顺排文档和倒排文档。 1)顺排文档 记录按顺序存放,记录之间的逻辑顺序与物理顺序是一致的,相当于印刷型工具中文摘的排列顺序,是一种线形文档。顺排文档是构成数据库的主体部分,但其主题词等特征的标识呈无序状态,直接检索时,必须以完整的记录作为检索单元,从头至尾查询,检索时间长,实用性较差。 2)倒排文档 将顺排文档中各个记录中含有主题性质的字段(如主题词字段、标题字段、叙词字段等)和非主题性质字段(如作者字段、机构字段、来源字段等)分别提取出来,按某种顺序重新组织得到的一种文档。具有主题性质的倒排档,称基本索引档,非主题性质的倒排档,称辅助索引档。 综上所述,顺排档和倒排档的主要区别是:顺排档以完整的记录为处理和检索单元,是主文档,倒排档以记录中的字段为处理和检索单元,是索引文档。计算机进行检索时,先进入倒排档查找有关信息的存取号,然后再进入顺排档按存取号查找记录。 2.全文数据库的结构 一般的全文数据库结构与书目数据库相似,全文数据库的一个记录就是一个全文文本,记录分成若干字段。其主文档是以顺排形式组织的文本文档,倒排档是对应于记录可检字段的索引文档。 3.数值数据库的结构 数值数据库的结构要综合考虑数据库的内容及检索目的,即,在内容上,数值数据库的主要内容是数值信息,但不排除含有必要的说明性的文本信息,在检索上,便于单项检索和综合检索,还能对数值进行准确数据运算、数据分析、图形处理及对检索输出的数据进行排序和重新组织。数值数据库的数据结构可以是单元式,也可以是表册形式。前者是对原始数据的模拟,后者则是对统计表格的机读模拟。数值数据库通常有多种文档,如顺排挡、倒排挡、索引文档等。顺排挡是由数值数据组成,为主文档,另有相应的索引文档,为便于存取,索引文档采用基本直接存取结构的组织形式。倒排挡也有相应的索引文档,索引文档采取分级组织形式。数值数据库的文档结构,使所有文档都可以用于检索,所有数据都可用来运算,构成了数值数据库的特点。 4.指南数据库的结构 指南数据库的结构兼有书目数据库、全文数据库和数值数据库的特点,有顺排档、倒排档、索引文档和数据字典。一般而言,对涉及主题领域较多,内容综合性较强的大型指南数据库,顺排挡(主文档)可采用多子文档的结构,对单一主题领域和内容较专的,则采用单一主文档和不定长、多字段的记录格式为宜。