数据库的模型设计
❶ 系统数据库和模型库设计
(一)系统数据库类型
数据库是整个农用地分等信息系统的基础,是系统开发设计要考虑的重中之重。在数据形式上,系统数据库包括两大块:一是空间数据库,二是属性数据库。目前的空间数据技术已从以MapInfo为代表的混合型数据库(空间数据库+关系型数据库)发展到以ArcInfo的Coverage为代表的拓展型数据库。鉴于农用地分等属性数据量庞大,为减少数据冗余,提高数据检索的速度,本研究采用空间数据和属性数据分开管理的模式,依据关键字段进行绑定,进行科学索引,从而实现空间数据和属性动态链接和高效整合。
1.空间数据库
江苏省农用地分等信息系统空间数据库内容包括以下方面:
(1)土地利用现状图层:全省13个省辖市以1996年土地利用现状图为基础,经变更调绘形成以2000年为基准年的土地利用现状图,以现行的土地分类标准按八大类分类进行信息提取并分层存储,系统分别存储为耕地、林地、水域、未利用地、建设用地等图层。
(2)全省土壤类型图层:以土属为分类单位,比例尺为1:20万。
(3)1996年和2000年全省行政区划图层:在行政区划中精确到乡镇级别,分别提取存储了市名图层、县(区)名图层、乡(镇)名图层、全省行政界线图层、市级行政界线图层、县(区)级行政界线图层、乡(镇)级行政界线图层。
(4)评价单元图层:通过GIS空间叠加功能,利用土地利用现状图、行政区划图和土壤类型图叠加产生的评价单元图层,建立分等评价单元数据库。
2.属性数据库
江苏省农用地分等信息系统属性数据库内容包括以下方面:
(1)土壤属性数据:以全国第二次土壤普查为基础,结合全省土壤监测样点数据,建立土壤质量状况数据库,最小单位为土种,包括pH值、有机质含量、表层土壤质地、耕层厚度、障碍层深度、水土侵蚀程度、盐渍化程度数据。
(2)农田水利环境数据:建立了1996~2000年间各乡镇农田水利环境基础数据库,包括灌溉保证率、排水条件数据。
(3)土地利用现状数据:建立了全省13个省辖市的以1996年土地利用现状图为基础,经变更调绘形成的以2000年为基准年的土地利用现状数据库,区分耕地中的详细用地类型差异,标示水田、旱地、荒草地等纳入本次评价范围的用地内容。
(4)全省地形地貌数据库。
(5)农业区划数据:输入了江苏省农业区划数据,把江苏全省划分为6大区划,以乡镇为最小级别,建立全省乡镇的区划归属数据库。
(6)农业耕作制度数据:建立了全省各市、县、乡镇的农业耕作制度数据库,包括指定作物水稻和小麦的播种空间分布状况数据库。
(7)光温生产潜力数据:建立了全省各市、县指定作物水稻和小麦的光温生产潜力和气候生产潜力数据库。
(8)农业投入-产出数据:全省13个省辖市以乡镇为单位,建立了1996~2000年农业生产投入-产出数据库。
(9)作物产量数据:全省13个省辖市以乡镇为单位,建立了1996~2000年的指定作物水稻和小麦的产量数据库。
(10)土地利用详查分类面积数据:全省13个省辖市以乡镇为单位,建立了2000年土地利用详查分类面积数据库。
从数据格式上分,数据库又可分为:①图件数据库:指空间数据以及绑定在空间数据上的相关属性数据,本次江苏省农用地分等建立了以分等单元为记录的属性数据库,并通过关键字段与空间数据关联;②分类统计数据库:包括全省13个省辖市以乡镇为单位的1996~2000年指定作物产量统计数据和全省13个省辖市以乡镇为单位的2000年土地利用详查分类面积统计数据。
(二)系统数据库管理模式
为减少数据存储冗余,同时提高索引速度,江苏省农用地分等信息系统数据文件采用普遍的目录树形式进行管理,按省-市-县行政体系分别存储相关数据。全省建立13个省辖市分目录,分目录下按照各自所含的县(区)建立子目录。根据目前行政管理体系现状,基础资料大多来源于县级行政单位,因此采用县(区)为基本行政单位较为合理,在保证资料来源的同时,也利于资料的分类归档存储。其相对应的空间图件数据也按精度要求分割到县级行政单位,既能减少系统调用数据的吞吐量,同时也满足了系统的精度需求。空间数据、属性数据、文本数据按照各自所属的行政级别归类存储,同时设立数据文件管理器进行目录文件的索引管理,见图3-86。
图3-86 江苏省农用地分等信息系统数据文件管理模式图
(三)系统数据库结构
数据库的结构设计决定了数据之间的调用及接口关系,清晰的逻辑调用关系和统一的数据接口格式有利于数据的组织、管理、调用。
1.空间数据库
江苏省农用地分等信息系统空间数据库以矢量图件的形式存在,以分图层的方式管理,包括了全省行政界线、土壤类型、按八大类分别提取的土地利用现状、分等单元等图层。其中,分等单元图层作为农用地分等的基础,考虑到图层本身信息量大,可能影响到系统运行效率,因此所在图层的属性表中只保留了ID字段,通过ID字段与外部属性库绑定,实现分等单元与外部属性库一一对应关系。ID字段是本图层的特征代码,表征了单元的唯一性,能体现出单元的图上位置和行政归属。《农用地分等定级规程》(国土资源大调查专用)和《中华人民共和国行政区划代码》(GB/T 2260-1999)为本研究分等单元代码的编码依据;本研究有1996年和2000年两套行政区划工作底图,为此分等单元特征代码共设14位,依次为江苏省代码(2位)-市代码(2位)-2000年县或区代码(2位)-2000年乡镇代码(2位)-1996年县或区代码(2位)-1996年乡镇代码(2位)-分等单元号(2位)。其中,省、市、县(区)的行政代码按国家统一代码,乡镇级代码在县(区)范围内根据划分分等单元的需要依次编码;分等单元编号的原则是不破乡镇界,即单元号是在同一乡镇内部自行编码。示例:32011501210101,指1996年江苏(32)南京(01)市江宁县(21)由于2000年行政调整变更为南京(01)的江宁区(15)。按行政体系分级编码的优点是有利于空间查询和国土资源管理部门根据工作需求按行政级别分类汇总统计数据。
2.属性数据库
江苏省农用地分等信息系统采用关系型数据库来存储数据,优点是结构清晰明了,数据的更新维护方便,通过索引能优化数据库,建立快速的查询浏览(表3-26~表3-30)。
表3-26 行政代码数据结构表
表3-27 土壤属性数据结构表
表3-28 农田水利设施数据结构表
表3.29 指定农作物投入-产出数据结构表
表3-30 农业耕作制度及农业区划表
(四)系统模型库
系统以《农用地分等定级规程》(国土资源大调查专用)中的相关技术方法和计算模型为基础,在模型库中预先内置了分等计算模型。模型库是动态,它允许专家根据情况动态调整计算模型形式及其参数。系统主要模型的数学计算公式如下:
(1)农用地自然质量分值(Clij)计算公式见式(3-11)。
(2)样点土地利用系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Klj´——样点的第j种指定作物土地利用系数;
Yj——样点的第j种指定作物实际单产;
Yj,max——第j种指定作物最大标准粮单产。
(3)等值区土地利用系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Klj——等值区内第j种指定作物土地利用系数;
Klj´——参与计算的同一等值区内合格样点第j种指定作物土地利用系数;
n——排除异常数据后参与计算的样点的个数。
(4)样点土地经济系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Kcj′——样点的第j种指定作物土地经济系数;
Yj——样点第j种指定作物实际单产;
Cj——样点第j种指定作物实际成本;
Aj——第j种指定作物最高“产量-成本”指数。
(5)等值区土地经济系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Kcj——等值区内土地经济系数;
Kcj´——参与计算的同一等值区内合格样点第j种指定作物土地经济系数;
n——排除异常数据后参与计算的样点的个数。
(6)农用地自然质量等指数(Ri)计算公式见式(3-12)和式(3-13)。
(7)农用地利用等指数(Yi)计算公式见式(3-14)和式(3-15)。
(8)农用地经济等指数(Gi)计算公式见式(3-16)和式(3-17)。
❷ 数据库物理模型
数据库物理模型设计的目标是根据选定的Oracle数据库系统特点和航空物探数据管理与服务的业务处理需求,确定航空物探数据库最优的物理环境、存取方法和存储结构。即通过数据库物理设计,以便达到物理数据库结构的优化,使得在数据库上运行的各种事务响应时间少、存储空间利用率高、事务吞吐率大。
一、数据库布局
航空物探信息系统的维护数据(部门、岗位、人员、人员权限、数据入库检查规则及数据字典等)相对比较稳定。入库前数据需经过各种检查校对,确认数据正确后才能归档,存入航空物探资料数据库,所以存入资料库前的数据可能经常需要修改和删除,相对变化较大;而存入资料数据库中的数据一般不允许修改和删除,以免误操作破坏资料库数据造成损失。
图2-12 航空物探数据库逻辑模型
图2-13 航空物探数据库布局与数据采集流程图
据此,我们采用图2-13所示的数据库数据采集流程,并将航空物探数据库分为资料采集数据库、资料数据库、系统维护数据库分别进行存储和管理,实现数据的统一管理和统一使用,便于数据入库和易于维护等。
航空物探资料数据库是航空物探所有数据最终存储的场所。资料采集数据库是数据归档存入资料数据库前的临时“集散地”,在此接收各项检查,在确认数据无误后归档到资料数据库,然后删除资料采集数据库中已归档的数据。此外,资料采集数据库中还保存数据入库、维护、检查日志及归档记录。
系统维护数据库,存储系统维护信息(如系统功能、数据库表清单等)、安全信息(如信息系统用户的角色、权限、授权的系统功能等),数据字典、入库数据检查规则等。将其与航空物探数据分开,有利于系统维护和管理。
二、数据库空间设置
数据库空间设置包括磁盘空间设置、应用系统表空间设置、撤销表空间、临时表空间、日志空间和索引空间设置。
(一)磁盘空间设置
磁盘空间设置的目标:磁盘性能不能阻碍实现数据库性能,数据库磁盘必须专用于数据库文件,否则非数据库将会影响到数据库性能,且磁盘空间必须满足恢复和性能的要求。
航空物探数据库服务器为IBMP620小型机,8块硬盘,每块硬盘36GB空间,每块物理磁盘建立一个文件系统。为了提高磁盘的反应时间和寻道时间,提高I/O的存取效率,除了一块硬盘用于UNIX操作系统外,其余7块磁盘分别存放资料采集数据库、系统维护数据库-日志文件,资料数据库及资料数据库的大字段数据、索引、回滚段和数据日志文件。
(二)应用系统表空间设置
信息系统数据采集过程对数据的事务操作比较频繁,经常进行数据插入(新数据入库)、修改(入库数据有误)和删除操作(数据重新导入或归档入库),因此航空物探资料采集数据库所在的表空间会很活跃。为了不影响其他I/O的竞争,同时也可以提高数据入库的操作效率(50多年的历史数据需要集中入库),分配一个磁盘空间(36GB)为采集库的表空间。由于采集数据归档入资料库后被删除,同时进行数据入库的项目也不是很多,虽仍保留所有的采集日志数据,一个磁盘空间也足够使用。
航空物探资料数据库的二维表和Oracle大字段(BLOB)分别存放在不同的物理磁盘(每个磁盘36GB)上,对同时存在有表格数据和大字段数据的数据库表(如航迹线数据)时,可以提高磁盘I/O效率。随着数据入库的项目越来越多,需要增加相应的物理磁盘或磁盘阵列。
系统维护数据库相对稳定,占用磁盘空间约500M左右。由于系统磁盘有限,把日志文件存放该磁盘中。
(三)撤销表和临时表空间的设置
在Oracle数据库中,撤销的目的是确保事务的回退和恢复。撤销参数有UNDO_MANAGEMENT、UNDO_TABLESPACE和UNDO_RETENTION。
UNDO_MANAGEMENT参数用于数据库中管理撤销数据的方式,航空物探数据库设置为自动模式(auto)。
UNDO_TABLESPACE参数用于指定数据库中保存撤销数据的撤销表空间名称,航空物探数据库撤销表空间名称为UNDO_ARGS_TBSPACE,空间大小设置为20GB,以确保在保留时间内进行恢复。
UNDO_RETENTION参数用于指定已经提交事务的撤销数据在能够覆盖之前应该保留多长时间,本数据库系统设置为60min。
临时表空间是用以存储大量的排序,与撤销表空间存放在一个物理磁盘上,本数据库系统临时表空间设置为500M。
(四)日志空间设置
日志的主要功能是记录对数据库已做过的全部操作。在系统出现故障时,如果不能将修改数据永久地写入数据文件,则可利用日志得到该修改,所以不会丢失已有操作结果。
日志文件主要是保护数据库以防止故障。为了防止日志文件本身的故障,航空物探数据库系统分别在一个独立磁盘和系统维护库磁盘中存放日志文件。若系统出现故障,在下次打开数据库时Oracle数据库系统自动用日志文件中的信息来恢复数据库文件。
根据航空物探数据库信息系统同时登录的用户数及使用的功能,将日志文件大小设置为10GB。
(五)索引表空间设置
为了提高航空物探信息系统的查询和统计速度,把所有索引空间与应用表空间完全分开,从而提高I/O存取效率。航空物探索引表空间大小设置为10GB。
聚集是表的一种存储方法,一般每个基本表是单独组织的,但对逻辑上经常在一起查询的表,在物理上也邻近存放,这样可减少数据的搜索时间,提高性能。
当几个关系(表)以聚集方式组织时,是通过公共属性的值为表聚集的依据。航空物探数据库系统是以项目标识(PROJ_ID)建立聚集的,所有涉及项目标识的数据库表直接引用项目标识聚集。航空物探聚集表空间与索引表空间相同。
三、数据库参数设置
在数据库创建前需要对如下数据库参数进行设置,航空物探参数文件名为Inito-raargs.ora,各种参数设置如下:
DB_block_size=16384
DB_name=oraagrs
DB_domain=oraargs.com
Compatible=9.1.0
Nls_characterset=ZHS16GBK
Open_Cursors=100
DB_files=100
DB_file_mutliblock_read_count=16
Log_checkpoint_interval=256000
Processes=200
四、内存设置
航空物探数据库服务器物理内存为4GB,除部分用于系统开销外,其余全部用于数据库。
Oracle使用共享系统全局区(System Globla Area,SGA)内存来管理内存和文件结构,包含DB_block_Bufers、DB_cache_size、Shared_pool_size、Log_Buffer参数。航空物探数据库系统的全局区内存参数设置如下。
DB_block_Buffers参数为SGA中存储区高速缓存的缓冲区数目,每个缓冲区的大小等于参数DB_block_size的大小,DB_block_Buffers=19200(约300MB)。
Shared_pool_size参数为分配给共享SQL区的字节数,是SGA大小的主要影响者,Shared_pool_size=1228800000(1.2GB)。
DB_cache_size参数是SGA大小和数据库性能的最重要的决定因素。该值较高,可以提高系统的命中率,减少I/O,DB_cache_size=1024000000(1GB)。
Log_Bufer参数为重做日志高速缓存大小,主要进行插入、删除和修改回退操作,Log_buffer=5120000(5MB)。
五、优化设置
由于航空物探信息系统的采集软件和应用软件是采用MS.NETC#进行开发的,应用程序与数据库之间的连接有传统的ODBC和OLEDB两种方式。为了支持ODBC在OLEDB技术上建立了相应的OLEDB到ODBC的调用转换,而使用直接的OLEDB方式则不需转换,从而提高处理速度。
在建立数据库表时,参数Pctfree和Pctused设置不正确可能会导致数据出现行链接和行迁移现象,即同一行的数据被保存在不同的数据块中。在进行数据查询时,为了读出这些数据,磁头必须重新定位,这样势必会大大降低数据库的执行速度。因此,在创建表时应充分估计到将来可能出现的数据变化,正确地设置这两个参数,尽量减少数据库中出现的行链接和行迁移现象。
航空物探资料采集数据库表的插入、修改和删除的频率较高,Pctfree设置为20,Pctused设置为40;系统维护数据库表相对稳定,Pctfree设置为10,Pctused设置为15;资料数据库表除了增加数据外基本不进行修改和删除操作,Pctfree设置为10,Pctused设置为5。
六、扩展性设置
多CPU和并行查询PQO(Parallel Query Option)方式的利用:CPU的快速发展使得Oracle越来越重视对多CPU的并行技术的应用,一个数据库的访问工作可以用多个CPU相互配合来完成。对于多CPU系统尽量采用并行查询选项方式进行数据库操作。航空物探数据库服务器为2个CPU,在程序查询中采用了并行查询的方式。
在航空物探工作量统计、飞行小时统计、测量面积统计和岩石物性统计中,为了加快统计效率,在相应的查询语句中增加了并行查询语句。
随着航空物探高精度测量程度的不断提高,测量数据将越来越大。为了满足航空物探查询效率及发展,将航磁测量数据与校正后航磁测量数据按比例尺分1:20万以下、20万~50万、1:50万以上分别存放3张不同的数据库表。
七、创建数据库
在完成数据库布局、空间设置、内存设置、数据库参数设置、扩展性设置和优化设置后,进行航空物探数据库物理模型设计,即航空物探数据库实体创建。由于航空物探空间数据库逻辑模型是采用ESRI提供的ArcGIS UML构建的Geodatabase模型,因此,使用ESRI公司提供的CaseTools将航空物探数据UML模型图转成空间数据库(Geodatabase)实体(图2-14)。
航空物探属性数据库表(二维表)是采用Power Designer数据库设计平台直接把数据库关系模型生成数据库脚本来创建的。
经过数据库的概念设计、逻辑设计和物理设计,最终生成航空物探数据库。
图2-14 航空物探数据库物理模型实现
八、空间数据的索引机制
对于海量的空间数据库而言,数据库的操作效率是关系到数据库成败的关键问题。为了提高数据的访问、检索和显示速度,数据在加载到数据库时,要素类数据建立了空间索引,栅格数据构建了金字塔结构,对象类数据采用与数据库直接联接的访问机制。
(一)空间索引
为了提高要素类数据的查询性能,在建立航空物探空间数据库时,创建了空间索引机制。常用的空间索引有格网索引、R树索引、四叉树索引等。Geodatabase采用格网索引方式。所谓格网索引是将空间区域划分成适合大小的正方形格网,记录每一个格网内所包含的空间实体(对象)以及每一个实体的封装边界范围,即包围空间实体的左下角和右上角坐标。当用户进行空间查询时,首先计算出用户查询对象所在格网,然后通过格网编号,就可以快速检索到所需的空间实体。
确定适合的格网级数、单元大小是建立空间格网索引的关键。格网太大,在一个格网内有多个空间实体,查询检索的准确度降低。格网太小,则索引数据量成倍增长和冗余,检索的速度和效率较低。数据库的每一数据层采用不同大小、不同级数的空间索引格网单元,但每层最多级数不能超过三级。格网单元的大小不是一个确定性的值,需要根据对象的大小确定。空间索引格网的大小与检索准确度之间的关系如图2-15所示。
选择格网单元的大小遵循下列基本原则:
1)对于简单要素的数据层,尽可能选择单级索引格网。减少RDBMS搜索格网单元索引的级数,缩短空间索引搜索的过程,例如航迹线要素类。
图2-15 索引格网大小与检索准确度的关系
2)如果数据层中的要素封装边界大小变化比较大,应选择2或3级索引格网。Geodata-base最多提供三级格网单元。每一要素封装边界在适合的级内,减少了每一封装边界有多个格网的可能性。在空间索引搜索过程中,RDBMS则必须搜索所有3个格网单元级,这将消耗大量的时间。
3)若用户经常对图层执行相同的查询,最佳格网的大小应是平均查寻空间范围的1.5倍。
4)格网的大小不能小于要素封装边界的平均大小,为了减少每个格网单元有多个要素封装边界的可能性,格网单元的大小应取平均格网单元的3倍。最佳格网单元的大小可能受图层平均查询的影响。
空间域是按照要素数据集定义的,空间索引格网是按照要素类设置的。它们都是在创建Geodatabase数据库时设置,并一经设置,中间不许改变;所以一定要在充分分析数据的情况下确定它们的值。航空物探数据主要是简单要素类,空间跨度为70°。根据上述原则,航空物探数据选择单级索引格网,格网大小为20°。
(二)金字塔结构
金字塔结构的核心是将栅格数据逐级进行抽稀,形成多级分辨率的重采样数据,并将其分割成块,按一定的文件格式(金字塔文件格式)存储成磁盘文件;在以后进行图像显示处理时,只需将要显示的部分所覆盖的块从磁盘文件直接读进内存缓冲区显示即可。从金字塔的所有层中寻找与所要求显示的比例相近或匹配的一层,并将该层的从某一点起的一定范围的图像所覆盖的所有块加载到内存缓冲区,提取所需部分并形成图像。
金字塔算法(图2-16)是通过获取显示时所需要的一定分辨率的数据来提高显示速度。使用金字塔数据格式后,在显示全图时仅需要显示一个较低分辨率的数据,这样既能加快显示速度,又不会影响显示效果。放大图像,尽管显示图像分辨率提高,由于显示区域减小,所以显示速度不会下降。如果没有为栅格数据建立金字塔数据,则每次显示都会读取整个数据,然后进行重采样得到显示所需要的分辨率,明显地降低了显示速度。
图2-16 金字塔压缩示意图
金字塔数据重采样方式有:最近邻法、双线性内插和立方卷积。其中最近邻法适用于离散数据,而双线性内插法和立方卷积法适合于连续数据。
在ArcGISEngine中提供了IRasterPyramid和IRasterPyramid2接口来实现金字塔数据的建立,而建立的数据保存在*.rrd格式的文件中。
(三)空间域定义
空间域是指数据的有效空间范围,即Geodatabase数据库的最大等效坐标的值域范围,其定义主要是指比例系数和MinX、MinY的计算。
因为使用整数比浮点数有更高的压缩率,并且对整数进行二进制搜索比较快,所以多用户Geodatabase以4字节正整数存储坐标,其最大值为32位正整数所能表示的范围是21.4亿(2147483647),整数的范围称为空间域。在创建Geodatabase数据库时需要定义合适的比例系数。大的整数值将消耗大量的计算机物理内存,所以选定的比例系数最好不要大于必须的比例系数。空间域随坐标系的单位变化而变化。
比例系数和空间域之间成反比例关系,比例系数越大(存储单位越小),表达的空间域也越小。为了使目标数据都存储在系统中,需要谨慎地设置比例系数。将目标数据的宽度和高度较适中的数值乘以比例系数,如果结果小于21.4亿,则比例系数是合适的。
航空物探数据模型是为我国的航空物探行业数据建库设计的,它支持的空间数据的坐标范围为我国领土覆盖的海陆空间,最低纬度为赤道。根据概念设计的分析,航空物探数据模型采用的是地理坐标系,坐标系单位是度,基准是Beijing_1954,要求存储的坐标数据精度达到0.01m。在赤道处,赤道圆周长为40075694.6m,则每度弧长=40075694.6×100/360cm=11132137.389cm,即1cm对应8.983000883E-8°。所以,航空物探数据模型的比例系数取为8.98E-8,即存储单位为8.98E-8°,可满足1cm精度要求。
将空间域移动到目标数据范围之前,首先找到空间域在存储单位的中心位置,目的是在必要时向各个方向扩展。4字节正整数可表示的坐标范围:2147483647×8.98E-8=192.84。我国的领土范围是东经70°~140°,北纬0°~60°。所以,选取的比例系数是合适的。把空间域坐标系中心定为90°,然后,计算空间域的MinX、MinY。
MinX=((70+140)÷2)-90=15
MinY=((0+60)÷2)-90=-60
所以坐标的存储数据是:
X_Storage=(X-MinX)/8.98E-8
Y_Storage=(Y-MinY)/8.98E-8
❸ 数据库概念模型
一、航空物探数据库定位
数据库是信息系统的基础和核心,把大量的数据信息按一定的模型组织起来存储在数据库中,提供数据维护、数据检索等功能,使信息系统能方便、及时、准确地从数据库中获得所需的信息。因此,数据库结构设计是信息系统开发的重中之重。
经分析航空物探数据具有空间性、海量性、多源性和多尺度的特点,这说明航空物探数据具有典型神厅的空间数据的特点,可以采用空间数据管理方式进行管理。
ESRI公司的Geodatabase(空间数据库)是采用标准关系数据库技术来表现地理信息的面向对象的高级GIS数据模型,是建立在DBMS之上的统一的、智能化的空间数据模型,是以一组相关联的表来表达地理要素之间关系、有效性规则和值域。对于多源、海量的航空物探数据,Geodatabase能在一个统一的模型框架下很好地解决多源数据一体化存储的问题,和采用标准关系数据库技术来表现海量航空物探数据的地理信息特性。Geoda-tabase引入了地理空间实体的行为、有效性规则和关系,在处理Geodatabase中对象时,对象的基本行为和必须满足的规则无需通过程序编码实现,只需根据需要扩展其有效性规则(Geodatabase面向对象的智能化特性),即可支持航空物探数据模型扩展的需要。
因此,航空物探数据库是空间数据库,在航空物探数据库建模过程中,以空间数据建模为主导,统领属性数据建模。
二、统一空间坐标框架
为了用数学语言描述地球,人们用规则的几何形体来替代地球表面,从地球自然表面、大地水准面、旋转椭球面直到用简单数学函数表达的参考椭球体,以便通过地图投影将三维曲面转化成二维平面。由于地球表面不同地区的地形起伏差异很大,采用单一椭球体势必会造成某地区的误差小而其他地区误差很大的结果。因此,在20世纪初不同国家或地区先后采用了逼近本国或本地区地球表面的椭球体,如中国的克拉索夫斯基椭球体,美国的海福特椭球体、英国的克拉克椭球体等。这又造成了目前世界各国的地理信息空间坐标框架不统一,空间数据信息难以共享被动局面。为此,在实现数字地球计划中,必须规范和统一世界上不同国家和地区的地球参考椭球体。
在小区域表达地球表面时,通常采用平面的方式,即投影坐标系统。如何科学地选择投影坐标,一般要根据具体的地学应用、地理区域和范围、比例尺条件等因素来确定,不同的国家有着不同的规定。
通过对航空物探数据的坐标系统进行分析可知,航空物探图件的坐标框架与国家对基本比例尺制图的规定相一致,即小比例尺编图采用Lambert双标准纬线等角圆锥投影;中比例尺采用Gauss6°带的分带投影;大比例尺采用Gauss3°带的分带投影(表2-1);对于低纬度的海上作业区通常采用Mecator等角圆柱投影。地球椭球体分别采用1954北京坐标系的Krassovsky椭球参数、WGS84椭球参数和未来的国家2000坐标系的椭球参数。
表2-1 航空物探地理坐标数据的投影方式
传统的航空物探数据是按测区管理的,根据测区的测量比例尺来确定相应的坐标框架;因此,勘探目标不同的测区测量比例尺是不一致的,地坐标框架也不同。航空物探数据库要将不同测区、不同比例尺、不同坐标框架的数据集中管理和可视表达,若没有统一的空间坐标框架,就不可能正游世隐确地表达全国航空物探数据。所以,面对如此复杂的多坐标框架的航空物探数据,如何确定科学合理的空间坐标框架,将全国的航空物探数据整合到统一的空间参考框架下,实现数据的统一存储和数据间无缝拼接,是航空物探数据库建设的关键所在,是组织和管理多维、多格式、大跨度、跨平台的航空物探数据和多目标数字制图的数学基础。
统一的空间坐标框架必须支持我国领土覆盖的海域和陆域航空物探数据的存储和表达。我国领土东西跨度达70°,南北达55°,显然采用任何投影坐标系都是不合适的。Gauss6°投影适合6°带内空间数据表达,若全国航物探数据采用6°分带表达,在高纬度地区会造成6°带间数据裂缝问题;Lambert投影可满足数据的无缝表达,但对大比例尺数据变形较大,无法满足数据制图的精度要求;Mecator投影也可满足数据的无缝表达,低纬度地区也能满足大比例尺数据制图的精度要求,但在我国中高纬度区存在着严重变形问题。所以,航空物探数据模型采用地理坐标(无投影,图2-1)格式存放,可根据实际应用的需要将航空物探数据变换到任何方式的投影坐标系统。
航空物探数据库模型返携采用Beijing_1954地理坐标系,相关参数如下:
角度单位:°(0.017453292519943299rad)
零经线:格林尼治(0.000000000000000000)
基准:D_Beijing_1954
椭球:Krasovsky_1940
长轴半径:6378245.000m
短轴半径:6356863.019m
建立统一坐标框架是空间数据库建设的一项基础性工作,采用Beijing_1954地理坐标系作为航空物探数据库统一空间坐标框架具有以下优点。
图2-1 统一空间坐标框架示意图
(一)无缝空间数据存储
统一空间坐标框架解决了复杂的航空物探数据的坐标系统、投影、比例尺等不统一的问题,实现同一性质的物探数据在同一个主题中进行管理。如全国的航磁异常数据可放在一个图层上进行管理。
(二)适合多尺度表达
按测区管理的多尺度、多框架的航空物探数据是处于一个相对坐标系统中,各个测区间相对位置关系会发生错位。采用统一的Beijing_1954地理坐标框架,恢复了各测区间正确的位置关系,实现不同尺度数据的集成和正确表达,易于多源异构空间数据的融合。
(三)大区域数据集成
我国海陆面积近1300×104km2,地域跨度较大。在进行小比例尺的航空物探编图时,需要选用与之相适应的投影坐标;在陆地和海域进行大比例尺制图时,同样需要选用合适投影系统。航空物探制图的实践也证明了这一点。1995年6月由中国、加拿大、美国、爱尔兰和俄罗斯等国科学家共同编制的1:1000万欧亚东北地区磁异常与大地构造图,采用横轴Mercator投影。中心编制的1:500万全国航磁图采用Lambert投影。2008年,由中国和吉尔吉斯斯坦科学家编制的1:100万中吉天山金属矿产成矿规律图,采用Lambert投影,将两个国家不同时期、不同尺度的数据进行了有效的集成,是地质、地球物理等综合应用的典范。
随着航空物探数据应用领域的不断扩展,陆地、海域,甚至于洲际和全球航空物探数据的整体表达都需对坐标投影提出要求。采用统一的地理坐标框架的航空物探数据非常容易变换到指定的投影坐标框架,满足多样化的制图要求。
三、要素类和对象类的划分
Geodatabase空间数据库模型结构(图2-2)分为空间数据库、要素数据集(Feature dataset)、要素类(Feature classes)、要素(Feature)4个层次。为了建立航空物探Geoda-tabase空间数据模型,我们依据Geodatabase模型关于要素类和对象类的划分原则,结合相关的国家标准和地球物理行业标准,制定了《航空物探数据要素类和对象类划分标准》,对航空物探数据进行数据分类。
图2-2 空间数据库模型结构
1)按照航空物探数据的空间特征,将其划分为5个要素数据集,即勘查项目概况要素数据集、基础数据要素数据集、异常要素数据集、解释要素数据集和评价要素数据集。
2)根据航空物探测量方法、数据处理过程以及推断解释方法和过程,进一步把航空物探数据划分为若干要素类和对象类,定义了要素类的主题特征和表达方式,确定子类和属性域;定义对象类的结构和联接字段,建立了关系类。
3)定义要素类的内容、字段名称和存储结构。在航空物探数据采集过程中,不同类型的数据采样率不同,坐标数据采样2次/s,重力场数据采样2次/s,磁场数据采样10次/s,这就造成了场值数据与坐标数据无法一一对应问题。若按场值数据采样率内插坐标数据,将导致数据量成倍增长;若按坐标数据采样率抽稀场值数据,将降低航空物探测量对地质体的分辨能力,影响测量效果。在综合分析航空物探数据应用基础上,提出了采用要素数据与属性数据分置的方式,将测线坐标数据与地球物理场数据分离,分别建立独立共享的航迹线数据要素类模型,磁场、重力场等数据对象类模型(图2-3),很好地解决了航空物探数据的存储问题。
图2-3 要素数据与属性数据分置示意图
采用要素数据与属性数据分置方式,不仅是基于航空物探数据属性数据的多源性、不同采样频率等特点的考虑,还考虑到数据的综合查询和检索的速度,特别是通过ArcSDE访问空间数据库的效率的问题。再者,对于大部分用户来说,需求是属性数据的综合应用,因此在数据库建模过程中,将属性数据采用对象类的方式进行管理,不但提高了空间数据的操作能力,同时在ArcSDE的配置上采用直接访问数据库(对象类)方式,并且加快了数据查询和统计的速度。
四、数据库概念模型
用户需求是数据库建设的约束条件之一。航空物探数据的空间特性决定航空物探数据库必须是空间数据库,采用数据库管理数据,利用GIS技术提供可视化服务,这是各个层次用户的一致要求。因此,我们从现实世界出发,对航空物探数据的多源性、多尺度和不同采样等问题进行了描述,提出了解决方案。此方案是不依赖于任何具体的硬件环境和数据库管理系统(DBMS),建立了客观反映现实世界的航空物探数据库概念模型,把用户需要管理的信息统一到整体概念结构中,表达了用户需要。
在全面分析航空物探业务流程和数据流程,以及航空物探数据特性的基础上,按照《航空物探数据要素类和对象类划分标准》,以及空间实体点、线、面要素特征的基本原则,对航空物探数据库所涉及的实体进行归类,划分成12个主题。根据空间数据分主题表达的特点和航空物探空间数据坐标框架的定义,确定航空物探数据库空间数据概念模型,明确各个主题的用途、数据来源、表达方式、空间参考、比例尺和精度等内容,按照ArcGIS定义空间数据库的数据分层表达方式(图2-4),完成航空物探数据库概念模型设计(图2-5)。
图2-4 航空物探数据库空间数据分层模型
图2-5 航空物探数据库空间数据概念模型
❹ 数据库逻辑模型
数据库关系模型(数据库逻辑模型)是将数据概念模型转换为所使用的数据库管理系统(DBMS)支持的数据库逻辑结构,即将E-R图表示成关系数据库模式。数据库逻辑设计的结果不是唯一的,需利用规范化理论对数据库结构进行优化。
在关系模型中,数据库的逻辑结构是一张二维表。在数据库中,满足下列条件的二维表称为关系模型:
1)每列中的分量是类型相同的数据;
2)列的顺序可以是任意的;
3)行的顺序可以是任意的;
4)表中的分量是不可再分割的最小数据项,即表中不允许有子表;
5)表中的任意两行不能完全相同。
由此可见,有序的航空物探测量剖面数据不满足数据库关系模型条件第3条“行的顺序可以是任意的”,因此,不能简单地直接利用关系数据库(如Oracle,SQL Server,Sybase等)来管理剖面数据,需将数据在数据库中的存储方式改为大字段存储,确保不因数据库数据的增加和删除等操作改变剖面数据有序特性。
一、大字段存储
(一)大字段存储技术
大字段LOB(Large Object)技术是Oracle专门用于存放处理大对象类型数据(如多媒体材料、影像资料、文档资料等)的数据管理技术。LOB包括内部的和外部的两种类型。内部LOB又分CLOB(字符型)、BLOB(二进制型)等3种数据类型,其数据存储在数据库中,并且支持事务操作;外部LOB只有BFILE类型,其数据存储在操作系统中,并且不支持事务操作。LOB存放数据的长度最大可以达到4G字节,并且空值列(没有存放数据)不占空间(图2-6)。
图2-6 大字段存储示意图
由于外部LOB存放在操作系统文件中,其安全性比内部LOB差一些。此外,大字段的存储支持事务操作(批量提交和回滚等),而外部LOB不支持事务操作。所以,航空物探测量剖面数据采用BLOB来存储。对于BLOB类型,如果数据量小于4000字节,数据库通常采用行内存储,而数据量大于4000字节采用行外存储。分析航空物探测量剖面数据,每个场值数据占4个字节(单精度),目前航磁数据采样率为10次/s,4000字节只能存储100 s数据;一般情况下航空物探测量每条测线飞行时间至少在10 min以上,每条测线数据量远远大于4000字节。所以,航空物探测量剖面数据采用行外存储方式,即大字段列指定“Disable Storage In Row”的存储参数。
由于大字段类型长度可变,最大可到4G。假设测线飞行时间为T,场值采样率为n次/s,测线场值数据量为4Tn,所以有4Tn≤4G。单条测线飞行时间T不会超过10 h(36000 s,航空物探测量1架次至少飞行1个往返2条测线),则场值的采样率n≤4G/4T=4×1024×1024×1024/4×36000次/s=29826次/s。采用大字段来存储测量数据,不仅能够减少数据表的记录数,提高查询效率,而且使得采样率的扩展不受限制。
(二)大字段存储技术应用
由于航空物探数据的数据量较大,现有的航磁测量数据按基准点方式(点存储)存储可达几亿个数据记录。若按磁场数据采样点存储方式(简称“场值存储方式”),则记录条数=(磁场数据采样率/坐标采样率)点存储方式的记录数,达几十亿条数据记录,且随着数据采样率的扩展、测点的加密,航空物探测量数据量随着时间的推移呈现快速增长之势。显然,如果采用常规的表结构来存储,势必造成数据的存储、管理、检索、浏览和提取都非常困难。另一方面,从航空物探专业应用需求来说,很少对单个测点的场值数据进行运算、分析等操作,一般至少是对一条测线或以上测线,多数时候是需要对整个测区的场值数据进行化极、上延、正反演拟合等。
因此,在航空物探数据库表结构设计时,改变过去将基准点或场值点数据记录作为数据库最小管理对象的理念,采用了大字段存储技术,将测线作为数据库最小管理对象,将测线上的测量数据,如坐标数据和磁场、重力场数据分别存储在相应大字段中。在航空物探数据库建设中,大量采用数据库的大字段存储技术(详见《航空物探信息系统数据库结构设计》)。
(三)大字段存储效率
以航磁测量数据为例分析大字段存储技术优势。如果以场值存储方式存储测线数据,则每条记录包含架次号、测线号、基准号、地理坐标、投影坐标、磁场数据等,由于坐标数据采样率2次/s,磁场数据采样率10次/s,每5个磁场数据中,只有第1个磁场数据有坐标数据,其他4个坐标数据是内插出来,因此在测线记录中会产生大量冗余的数据坐标数据。采用点存储方式存储的测线数据记录数等于线上基准点数,若采用大字段存储方式,一条测线数据只存储为1条数据记录(图2-7),一般一条测线的测点数近万个,甚至更多,可见采用大字段存储大大减少测线数据存储记录数,提高数据的存取效率。
以某测区的两条航迹线为例,分别采用3种方式测试数据库的数据存储效率。磁场数据的采样率10次/s,坐标数据采样率2次/s,两条测线上共有基准点8801个。以场值方式存储先内插坐标信息,使得每个场值数据都拥有自己的坐标,然后存入数据库,共有数据记录44005条,写入数据库时间为57.22 s,读取时间为1.03 s。第二种方式是以采样点的方式进行存储,共有8801条记录,写入数据库时间为9.47 s,读取需要0.91 s。第三种方式是以大字段的形式存储,只有2条记录,写入数据库1.03 s,读取时间为0.44 s(表2-2)。大字段数据存储记录数最少,存取效率最高。用整个测区数据测试效果更加明显。
表2-2 三种数据存储方法的存取效率比较
图2-7 大字段存储方式示意图
二、联合主键
主外键是关系型数据库建立表间关系的核心。在航空物探空间数据库建设过程中,要素类与要素类之间、要素类与对象类之间,以及对象类与对象类之间的关系的描述有3种形式,即拓扑关系——描述要素类与要素类之间结点、邻接和联通关系;叠加关系——描述要素类与要素类之间的相交、包含与分类关系;隶属关系——描述对象类与对象类之间的派生关系。前两种关系是采用空间数据模型建立的关系,而隶属关系是通过主键建立的对象类与对象类之间的关系。在建立一对一、一对多的表间关系时,需要在整个数据库表中确定具有唯一性的一个字段作为主键(主关键字)。
按照传统的航空物探数据的档案管理模式,每个项目分配一个自然数作为档案号,项目的所有资料均与此档案号相联系。勘查项目和科研项目的档案号是独立编号的,且均从001开始。加之人工管理的原因,存在1个项目2个档案号和2个项目1个档案号的情况,因此现行的档案号与项目之间的对应关系不具备唯一性,不能作为项目的唯一标识,即不能作为数据库表的主键。项目编号也不能作为数据库表的主键,项目编号也只是近十年的事,以前的项目没有项目编号。
综合考虑上述因素和项目具有分级、分类的特点,提出了构造项目唯一标识码(简称“项目标识”)的方法,并以此码作为数据库表的主键。
项目标识(主键):AGS+项目类别(2位)+项目起始年份(4位)+档案号(6位)
标识含义:AGS——航空物探的缩位代码;
项目类别——2位代码,01代表勘查项目、02代表科研项目;
起始年份——4位代码,项目开始年号;
档案号——6位代码,为了与传统的项目管理方式相衔接,后面3~4位是
项目档案管理模式下的档案号,不足部分补零。
以上15位编码是一级项目的项目标识,二级及其以下级别的项目标识是在上一级项目标识基础上扩展2位数字代码,中间用“.”号隔开,数字为该级项目的序号。项目标识定义为30位编码,适用于六级以内的项目。例如:AGS022004000576.08.04.02,表示该项目为2004年开展的档案号为576的航空物探科研项目(一级项目)的第8课题(二级项目)第4子课题(三级项目)的第2专题。由此可见,该项目标识不仅仅是一个建立表间关系的关键字,同时还表达了不同级别项目间的隶属关系。在系统软件开发时,利用此关系生成了项目的分级树形目录,用户对项目的层次关系一目了然,便于项目查询。
数据库的主键一经确定,相应地需要确定联合主键的组成及其表达方式。所谓联合主键就是数据资料的唯一标识,在一个数据库表中选择2个或者2个以上的字段作为主键。由于航空物探数据绝大部分与项目标识有关,加之数据的种类较多,分类复杂,单凭主键确定数据库表中记录的唯一性,势必需要构建极其复杂的主键,这种方法既不利于主键的数据操作,又会造成大量的数据冗余,合理地使用联合主键技术可以很好地解决资料唯一问题。以项目提交资料为例,提交的资料分为文字类资料、图件类资料和媒体类资料,我们对资料进行分类和编号,例如100代表文字资料(110——World文档,120——PDF文档),200代表图件资料(210——基础地理资料、220——基础地质资料,230——航迹线图,240——剖面图,250——等值线图等),300代表媒体资料(310——PPT文档,320——照片等),第1位(百位)表示该资料的类型,第2~3位表示该类资料的序号。
在数据库管理和项目资料查询时,采用项目标识与资料分类编号作为联合主键(图2-8),可以高效地实现复杂数据的查询。在整个数据库系统中多处(项目查询、数据提取等模块)使用联合主键技术。
图2-8 联合主键实例
三、信息标准化
为了实现数据共享,在航空物探数据库建模过程中,参考和引用了近百个国家信息化标准,编制了4个中心信息化标准和1个图件信息化工作指南。
(一)引用的国家信息化标准
1)地质矿产术语分类代码:地球物理勘查,地球化学勘查,大地构造学,工程地质学,结晶学及矿物学,矿床学,水文地质学,岩石学,地质学等。
2)国家基础信息数据分类与代码,国土基础信息数据分类与代码,地球物理勘查技术符号,地面重力测量规范,地面磁勘查技术规程,地面高精度磁测技术规程,大比例尺重力勘查规范,地理信息技术基本术语,地理点位置的纬度、经度和高程的标准表示法,地名分类与类别代码编制规则。
3)地球空间数据交换格式;数学数字地理底图数据交换格式;数字化地质图图层及属性文件格式。
(二)本系统建立的信息化标准
编写了“航空物探空间数据要素类和对象类划分标准”,“航空物探项目管理和资料管理分类代码标准”,“航空物探勘查分类代码标准”,“航空物探信息系统元数据标准”,“航空物探图件信息化工作指南”,以便与其他应用系统进行信息交换,实现数据库资料共享。
航空物探空间数据要素类和对象类划分标准:根据物探方法、数据处理过程以及推断解释方法和过程,把与GIS有关的数据划分为不同类型的要素类-对象类数据,按专业、比例尺、数据内容对要素类和对象类进行统一命名,使空间数据库中的每个要素类和对象类的命名具有唯一性,防止重名出现。规定要素类-对象类数据库表结构及数据项数值类型。
航空物探项目管理和资料管理分类代码标准:规定了航空物探项目管理和资料管理的相关内容,包括航空物探勘查项目和科研项目的项目立项、设计、实施、成果、评审、资料汇交等项目管理的全过程中的内容,以及项目成果资料和收集资料的归档、发送、销毁、借阅等资料管理与服务过程中的内容和数据项代码。
航空物探勘查分类代码标准:在“地质矿产术语分类代码 地球物理勘查”(国家标准GB/T 9649.28—1998)增加了航磁、航重专业方面所涉及的数据采集、物性参数、方法手段、仪器设备、资料数据解释及成图图件等内容和数据项代码。
航空物探信息系统元数据标准:规定了航空物探空间数据管理与服务的元数据(数据的标识、内容、质量、状况及其他有关特征)的内容。
四、航迹线数据模型
(一)航迹线模型的结构
航空物探测量是依据测量比例尺在测区内布置测网(测线和切割线)。当飞机沿着设计的测线飞行测量时,航空物探数据收录系统按照一定的采样率采集采样点的地理位置、高度和各种地球物理场信息。采用属性数据分置的方法,将测线地理位置信息从航空物探测量数据中分离出来,形成航迹线要素类表,在此表中只存储与航迹线要素类有关的数据,如项目标识、测区编号、测线号、测线类型(用于区分测线、切割线、不同高度线、重复线等)、坐标、高度值等;将航迹线的对象类数据(磁场、重力场基础数据)分别以大字段形式存储在各自的二维表中,它们共享航迹线,解决了多源有序不同采样率的航空物探测量数据的数据存储问题,在满足要素类空间查询的同时,统一数据的存储方式(图2-9)。航迹线要素类隶属于测区要素类,它们之间为空间拓扑(包含)关系。测区从属于勘查项目,每个勘查项目至少有一个测区,它们之间为1对多关系。有关项目信息存放在项目概况信息对象类表中,各种表之间通过项目标识进行联接。
图2-9 航迹线数据模型结构
(二)航迹线的UML模型
统一建模语言UML(Unified Modeling Language)是一种定义良好、易于表达、功能强大且普遍适用的建模语言。它溶入了软件工程领域的新思想、新方法和新技术。UML是面向对象技术领域内占主导地位的标准建模语言,成为可视化建模语言的工业标准。在UML基础上,ESRI定义了空间数据库建模的ArcGIS包、类库和扩展原则。
图2-10 与航迹线有关的数据库表逻辑模型结构图
在确定航迹线数据模型后,以它为基础,使用UML完成与航迹的有关的项目概况信息、测区信息、原始数据等数据库表逻辑模型设计(图2-10)。
由UML模型生成Geodatabase模式时,模型中的每个类都对应生成一个要素类或对象类。类的属性映射为要素类或对象类的字段。基类属性中包含的字段,在继承类中不需重复创建。例如,每个类都包括项目标识等字段,可以创建一个包含公共属性的基类,其他类从该类继承公共的属性,而无需重复建基类中包含的属性。因为基类没有对应的要素类或对象类,所以将基类设置为抽象类型。要素类之间的关系采用依赖关系表示。
五、数据库逻辑模型
关系数据库的逻辑结构由一组关系模式组成,因而从概念结构到关系数据库逻辑结构的转换就是将概念设计中所得到的概念结构(ER图)转换成等价的UML关系模式(图2-11)。在UML模型图中,要素数据集用Geodatabase工作空间下的静态包表示。要素集包不能互相嵌套,为了容易组织,在生成物理模型后,在要素数据集包中自定义嵌套。要素数据集与空间参考有关,但是空间参考不能在UML中表达。要素类和二维表都是以类的形式创建的,区别是要素类继承Feature Class的属性,而二维表继承Object属性。为了表达每种元素的额外属性,比如设置字符型属性字段的字符串长度,设置要素类的几何类型(点、线或面)需要使用Geodatabase预定义的元素标记值。
图2-11 逻辑设计关系转换
基于航空物探数据的内在逻辑关系进行分析,使用统一建模语言(UML)构建数据实体对象间的关系类,定义了航空物探数据库的逻辑模型(图2-12)。
❺ 数据库主要的模型有哪些
层次模型、网状模型、关系模型
层次模型(格式化模型)
定义和限制条件:有且仅有一个节点,无父节点,此节点为树的根;其他节点有且仅有一个父节点;
优点:
①数据结构简单清晰;
②利用指针记录边向联系,查询效率高;
③良好的完整新支持;
缺点:
①只能表示1:N的联系。尽管有许多辅助手段实现M:N的联系,但比较复杂,不易掌握。
②层次模型的树是有序树(层次顺序)。对任一结点的所有子树都规定了先后次序,这一限制隐含了对数据库存取路径的控制。
③树中父子结点之间只存在一种联系,因此,对树中的任一结点,只有一条自根结点到达它的路径。
网状模型(格式化模型)
网状模型的2个特征:允许一个以上的节点无双亲;一个节点可以有多于一个的双亲;
优点:
①可以更加清晰表达现实,符合现实中的数据关系;
②可以很快存取操作;
缺点:
①结构复杂;
②不易掌握,网状模型的DDL,DDM复杂,并且并且要嵌入某一种高级语言(COBOL,c),用户不易掌握;
③应用程序复杂,记录之间的联系通过存取路径实现的,应用程序在访问数据时必须选择合适的存取路径,因此用户必须了解系统结构的细节,加重编写应用程序的负担;
关系模型
单一的数据结构——关系
现实世界的实体以及实体间的各种联系均用关系来表示,从用户角度看,关系模型中数据的逻辑结构是一张二维表。
优点:
①数据结构单一,关系模型中,不管是实体还是实体之间的联系,都用关系来表示,而关系都对应一张二维数据表,数据结构简单、清晰。
②关系规范化,并建立在严格的理论基础上,构成关系的基本规范要求关系中每个属性不可再分割,同时关系建立在具有坚实的理论基础的严格数学概念基础上。
③概念简单,操作方便,关系模型最大的优点就是简单,用户容易理解和掌握,一个关系就是一张二维表格,用户只需用简单的查询语言就能对数据库进行操作。
缺点:
①查询效率不如格式化数据模型;
②为了提高性能,数据库管理系统需要优化用户查询,增加了数据库管理系统的开发难度;