多源数据库
① 无缝空间数据库设计与构建
(一)问题的提出
塔里木河流域生态环境动态监测系统的运转需要大量的空间数据支持。在空间数据库构建前期,采集了塔里木河流域的各尺度基础地形图、生态环境专题图以及遥感影像资料等图形、图像数据,这些数据都是以分幅的成果进行收集和提交的,需要进入综合数据库中,以实现数据的共享。
我国国土版图大,而且大部分位于中、低纬度地区,因此我国现行的大于1∶50万比例尺的各种地形图都采用高斯-克里格投影即横切椭圆柱正形投影。经过高斯-克里格投影后的平面直角坐标系是以相切的经线(中央经线)的投影为X轴,以赤道的投影为Y轴。高斯-克里格投影具有以下特点:
(1)中央经线投影为直线,而且是投影的对称轴(也是投影平面的X轴);
(2)高斯-克里格投影是等角投影,投影后具有角度不变、伸长固定的特点(即同一地点各个方向的长度比不变),满足等角的要求;
(3)中央经线上长度没有变形,离中央经线越远变形越大。为了限制投影变形,必须进行分带投影。所谓分带就是按照一定的经度差,将椭球体按经线划分成若干个狭窄的区域,各个区域分别按高斯投影的规律进行投影,每一个区域就称为一个投影带。在每一个投影带内,位于各带中央的子午线就是轴子午线,各带相邻的子午线叫边缘子午线。分带之后,各带均有自己的坐标轴和原点,形成各自独立但又相同的坐标系统。根据国际通用方法,我国投影分带主要有两种:在我国1∶2.5万到1∶50万地形图均采用6°分带投影,1∶1万及更大比例尺的地形图采用3°分带投影,以保证投影变形误差满足地图的精度要求(王密等,2001)。
本系统所采集到的数据产品的空间参考大都是以高斯投影后的平面坐标为基础的分幅数据。塔里木河流域地域广阔,地理坐标介于东经73°10'~94°05',北纬34°55'~43°08'之间,以1∶10万基础地形图数据为例,按照高斯投影后的坐标分成了13°、14°、15°、16°四个6°高斯投影带,每个带的坐标都是以本带的坐标原点为参考点,空间基准不统一,如果将这些数据直接进行入库,将在跨带处产生缝隙,不能形成逻辑意义上完整的河流表现,也无法完成基于整个流域的生态环境分析,因此,必须采用相应的数据处理与建库技术,实现塔河整个流域数据的无缝集成管理,使之形成统一的整体。从基础数据的获取开始,进行精心设计和组织,分离出数据物理层和数据逻辑层,在统一的空间框架之下,将物理层归化到逻辑层,以消除逻辑层的缝隙,从而实现用户级的逻辑无缝空间数据库。
(二)无缝数据库
随着GIS数据发布与共享技术的发展,无缝空间数据库逐渐分化出两个层次的含义:一是GIS系统内部的数据无缝,一是不同GIS实现互操作时的数据无缝。前者是通常意义的无缝,后者主要通过数据标准化与操作标准化来实现。无缝空间数据库的最终含义体现在逻辑无缝数据库。无论是多源还是单源、同构还是异构,跨越数据层呈现在用户面前的GIS空间数据库必须是逻辑无缝的。
空间数据的无缝连接是一个建立在用户与数据库接口基础上的概念,意味着GIS管理的数据不再是单一、被硬性割裂的图幅,而是范围更加广阔的区域,这个区域小可到一个城市,大可到一个国家甚至整个地球(王卉、王家耀,2004)。由于硬软件条件的限制,计算机系统尚不能同时处理海量的空间数据,因此从具体技术的实施上,可采用将空间数据分块存储于数据库中,数据库提供相应的图块拼接信息。物理上空间数据是有缝隙的,但空间数据库提供图块之间的接图信息及相应的拼接访问手段,保障了空间数据在使用上的空间连贯性,即数据在逻辑使用上是无缝的(王密等,2001)。
(三)缝隙产生原因
在现实世界中,地理空间是由地貌、地物组成的连续的表层空间,地理信息则是有关地理空间的一切有用的知识。在计算机世界中,地理信息通过抽象、建模形成数字化的表示形式,通过空间数据库来进行表达、存储和管理(朱欣焰等,2002)。空间地理数据缝隙是在数据的获取、表示与处理过程中产生的数据不连续现象。
1.数据源
由于历史和现实的原因,地图是绝大多数GIS系统直接的数据源。地图是地球三维椭球面的二维平面表达,本身对真实世界有扭曲;地图是对连续空间的割裂表达,实体被分割到不同的地图空间中去;高斯投影是基本比例尺地形图经常选用的投影,也是绝大多数GIS系统的数学基础,由于分带的原因,使得投影后带有高斯投影平面坐标的地图无法实现无缝拼接。
2.数据表达与组织方式
空间地理几何数据的表示主要有栅格和矢量两种不同的形式。栅格形式是将地理表层空间划分为一系列网格,空间目标由这些网格的位置及其量化值来表示,这些网格本身就是连续空间信息的离散表达。矢量形式则是将地理空间的一切事物、概念进行抽象,形成点、线、面,由点、线、面来组成各类空间目标。按点、线、面来分类和按分层的思想来组织空间数据,也割裂了实体之间内在的联系。
在空间数据库组织与管理上,目前主要有文件型、文件与关系数据库混合型、全关系型以及对象关系型。传统的文件型空间数据库、文件与关系混合型空间数据库,按图幅或一定的区域范围以文件的形式来组织与存储空间几何数据,不同的图幅或区域之间存在缝隙。在文件与关系数据库混合型的空间数据库中,空间几何数据贮存在文件中,属性数据贮存在关系数据库中,属性数据和几何数据之间通过内部标识来链接,空间几何数据和属性数据之间存在缝隙。
3.数据处理
数据处理的过程中也会引入缝隙,产生这种缝隙的原因有:①数据处理过程的顺序不一致;②选择的处理参数不一致;③数字化的精度不一致。
4.多源异构数据共享
数据属性(数学基础、比例尺、用途、时间、精度等)的不同,导致了数据的差异,这些差异是多层次和多方面的,它们集中体现了数据的异构。数据异构和多源往往是一体的,多源异构是系统内部和系统之间数据裂隙的主要原因(刘仁峰,2005)。
(四)数据缝隙类别和表现
数据缝隙基本可以分为物理缝隙和逻辑缝隙两类。物理缝隙是地理空间的分离存储,本来连续的实体空间被分离到不同的存储空间和存储单元中去,例如空间数据的分幅、分层存储。逻辑缝隙是指逻辑上本身连续的信息不能以逻辑连续的方式呈现,例如跨越多幅图的一条河流,在图幅内查询河流属性(如长度)时只能获取其在本图幅内的相关信息而不是实体整体的信息。显然,由于空间信息本身的海量特性,要完全意义上的实现物理无缝的空间数据库目前还是不可能的,也没有必要。GIS用户关心的不是空间数据是物理无缝,因为GIS呈现给用户的是数据逻辑层,只需要保证用户看到的数据是逻辑无缝的。
物理有缝的数据库向逻辑无缝数据库的转换是无缝空间数据库构建的重要一环。
(五)无缝镶嵌技术
数据的无缝连接包含以下几个问题:投影、坐标系统、比例尺、数据精度等。对不同投影和坐标系统的空间数据在投影和坐标系统上统一采用相同的标准,当空间数据具有多尺度时,无缝连接寻找数据集之间连续的表达方式,它表现为不同尺度数据之间的集成。建立无缝空间数据的关键在于在合适的空间信息框架上实现多源异构空间数据的融合,框架是基础,融合是手段。
1.合适的空间框架选择
(1)适合多尺度信息表达。地球是一个开放的非常复杂的巨大系统,随着观察视角的变化,我们希望空间地理信息比例尺也自动增减。由于地图的自动综合受诸多因素的影响,目前比较可行的是采用多尺度空间数据支持来达到目的。所谓多尺度就是指系统内包含几种不同比例尺(或分辨率)的空间数据,其目的是为了适度地反映系统所关心区域的空间地理信息,以避免地物信息的过粗、失真或地物信息的负载量过大而无法使用。无缝空间数据库也应该符合多尺度空间数据库要求。
(2)适合大区域表达。各种自然和人文现象的空间分布,有其内在的原因和规律,这些原因和规律的获得,往往需要研究大区域多因素的综合作用;另一方面,对于全球范围的环境变异和气候变迁的研究需要基于数字地球的空间框架。大区域的表达,还涉及空间尺度问题,不应继续采用欧氏空间尺度,而应该采用大地线尺度空间。
2.多源异构空间数据的融合
(1)GIS的迅速发展和广泛应用导致了多源空间数据的产生。如何实现不同的GIS软件共享并操作不同来源的地理数据,即GIS多源空间数据的集成,成为GIS发展的关键。目前GIS多源空间数据的集成主要朝着三个方向发展,一是通过建立统一的数据交换标准来约束并规范已有的各类地理信息系统,采用数据交换标准来进行空间数据交换;二是建立开放式地理数据互操作规范,进行地理信息系统互操作;三是GIS数据中间件技术。
(2)统一数据交换标准存在很多实现上的困难。互操作是一个重要发展趋势,是在异构分布式数据库中实现信息共享的途径,它需要将GIS技术、分布处理技术、面向对象方法、数据库设计及实时信息获取方法更有效地结合起来。所谓GIS数据中间件技术是指能够嵌入各类GIS系统的软件,GIS开发者通过中间件开发商提供的接口,访问和操作特定的数据源。
(3)在多源异构数据集成技术尚未成熟的时候,人们再次把目光投向数据本身,如果可以提供关于数据的详细描述,是否可以提高融合数据的能力呢?于是,对于“关于数据的数据”的研究,即对于元数据的研究便普遍展开。从DublinCore到CSDGM与OGC,都提出了相应的元数据标准体系,有了完整而完善的元数据描述,必将提高数据的效能,从而最终促进多源异构数据库向无缝空间数据库的归化。
为实现塔河整个流域数据的无缝集成管理,使之形成统一的整体,设计从缝隙产生的地方开始,分离出数据物理层和数据逻辑层,在统一的空间框架之下,将物理层归化到逻辑层,以消除逻辑层的缝隙,从而实现用户级的逻辑无缝空间数据库;同时制定统一的数据提交规范,如所有矢量数据在入库前统一采用经纬度坐标,栅格数据统一提供两套数据,即高斯坐标和经纬度坐标,以满足不同用户的管理需求和精度要求。
② 数据库构建流程
构建相山地区地学空间数据库是在对各类原始数据或图件资料进行整理、编辑、处理的基础上,将各类数据或图形进行按空间位置整合的过程。其工作流程见图 2.1。
图2.1 相山地区多源地学空间数据库构建流程
2.2.1 资料收集
相山地区有 40 多年的铀矿勘查和研究历史,积累了大量地质生产或科学研究资料。笔者收集的面上的资料包括原始的离散数据如航空放射性伽玛能谱数据、航磁数据、山地重力测量数据、ETM 数据,而地面高精度磁测资料仅收集到文字报告和图件。上述各类数据均可达到制作 1∶50000 图件的要求。地质图采用 1995 年核工业 270 研究所等单位共同实施完成的 “相山火山岩型富大铀矿找矿模式及攻深方法技术研究”项目的 1∶50000附图; 采用的 1∶50000 地形图的情况见表 2.1。
2.2.2 图层划分
GIS 数据库既要存储和管理属性数据和空间数据,又要存储和管理空间拓扑关系数据。数据层原理: 大多数 GIS 都是将数据按照逻辑类型分成不同的数据层进行组织,即按空间数据逻辑或专业属性分为各种逻辑数据类型或专业数据层。相山地区数字化地质图包括地理要素和地质要素两大部分,共设置 9 个图层,每一图层 (包括点、线或多边形) 自动创建与之相对应的属性表。
表2.1 采用的地形图情况一览表
注: 坐标系均为 1954 年北京坐标系,1956 年黄海高程系,等高距为 10 m。
(1) 水系图层 (L6XS01) : 包括双线河流、单线河流、水库或水塘。
(2) 交通及居民地图层 (L6XS02) : 包括公路和主要自然村及名称。
(3) 地形等高线图层 (L6XS03) : 包括地形等高线及高程和山峰高程点。
(4) 盖层图层 (D6XS04) : 包括第四系 (Q) 和上白垩统南雄组 (K2n) 及其厚度和主要岩性。
(5) 火山岩系图层 (L6XS05) : 包括下白垩统打鼓顶组 (K1d) 、鹅湖岭组 (K1e) 及各种浅成- 超浅成侵入体 (次火山岩体) 的分布和主要岩性特征。
(6) 基底图层 (L6XS06) : 含下三叠统安源组 (T3a) 、震旦系 (Z) 、燕山早期花岗岩 (γ5) 、加里东期花岗岩 (γ3) 。
(7) 构造图层 (L6XS07) : 相山地区褶皱构造不发育,构造图层主要包括实测的和遥感影像解译的线性断裂或环形构造。
(8) 矿产图层 (L6XS08) : 包括大、中、小型铀矿床和矿点。
(9) 图框及图幅基本信息图层 (L6XS09) : 数字化地质图的总体描述,内容包括图框、角点坐标、涉及的 1∶500000 标准图幅编号、调查单位及出版年代等。
图层名编码结构如下:
相山铀矿田多源地学信息示范应用
2.2.3 图形输入
图形输入或称图形数字化,是将图形信息数据化,转变成按一定数据结构及类型组成的数字化图形。MapGIS 提供智能扫描矢量化和数字化两种输入方式。本次采用扫描矢量化输入,按点、线参数表事先设定缺省参数,分别将地形底图和地质底图扫描成栅格图像的 TIF 文件,按照图层划分原则,在计算机内分层进行矢量化。线型、花纹、色标、符号等均按 《数字化地质图图层及属性文件格式》行业标准执行。
对于已建立的图层,按点、线、多边形分别编辑修改,结合地质图、地形图及相关地质报告,采集添加有关属性数据,用以表示各图层点、线、多边形的特征。拓扑处理前先将多边形的地质界线校正到标准图框内进行修改,去掉与当前图层区域边界无关的线或点。对于图幅边部不封闭的区域,采用图框线作为多边形的边界线,使图幅内的多边形均成为封闭的多边形。拓扑处理后进行图形数据与属性数据挂接。
在 MapGIS 实用服务子系统误差校正模块中,将数字化地图校正到统一的大地坐标系统中。图形数据库采用高斯-克吕格 (6 度带) 投影系统,椭球参数: 北京54/克拉索夫斯基。
MapGIS 数据文件交换功能使系统内部的矢量图层很容易实现 Shape 和 Coverage 等文件格式的转换。在图形处理模块将上述各图层转成 Shape 文件格式。
2.2.4 离散数据网格化
在收集的原始资料中,除 1∶50000 地形图和地质图之外,航空放射性伽玛能谱数据(包括原始的和去条带处理后的数据) 、航磁数据、山地重力测量数据都是离散的二维表格数据。用 GeoExpl 网格化。GeoExpl 数据处理与分析系统提供了多种网格化计算的数学方法,本次选用克立格插值方法,网格间距 15 m。重力和航磁数据网格化后,进行不同方向或不同深度的延拓处理。所有网格化数据均采用了与上述图形数据相同的地图投影和坐标系统。
2.2.5 网格化数据影像化
MapGIS 网格化文件格式为 grd,可直接被 Erdas Imagine 读取,GeoExpl 网格化文件包括重磁处理反演后的网格化文件可转换成 Surfer.grd 后,被 Erdas Imagine 读取。然后将上述网格化数据一一转成 img 影像数据格式。
2.2.6 DEM 生成
地形等高线 (L6XS03) 文件在 MapGIS 空间分析子系统 DEM 分析模块中,生成 DEM栅格化文件: L6XS03.grd,再转成 img 格式,文件名改为: XSDEM。
经过上述程序形成的各类矢量或栅格数据,在 ArcView 平台建立 “相山数据库”工程文件,将上述各 Shape 图形和 img 影像文件一一添加到该工程文件中。该工程文件即为相山地区矢量、栅格一体化地学空间数据库。该数据库,一可以对这类地学空间信息实现由 GIS 支持的图层管理,二可以视需要不断进行数字—图形—图像的转换,三可以将多源地学信息进行叠合和融合,以实现多源地学信息的深化应用和分析,为实现相山地区铀资源数字勘查奠定基础。
③ mysql 5.7多源复制如何去掉一个复制源
GTID 对于单源复制还是很方便,但是对于多源复制,这里就需要特别注意:
要先停止所有的从库 stop slave;
然后清理本机所有的 GTID,reset master;
再进行 SET @@GLOBAL.GTID_PURGED='xxxxx' gtid 设置
- 这里就会引入一个问题,如果是级联复制的情况下,reset master 的时候,会把本机的所有 binlog 清理掉。如果下一级的从库存在延迟,没有及时的把 binlog 传过去,就会造成主从中断,这里我们该怎么避免呢?看这里:
做 reset master 的时候,先看看下游的从库是否存在很大的延迟。如果存在,把当前的 binlog 和后面未同步的 binlog 全部备份下;
待添加好从库的 channel 后,再把未同步的 binlog 文件手动拷贝到 binlog 目录;
更新下 mysql-bin.index 文件;
- 注意,binlog 不能同名,需要手动更新下文件。
④ 如何将地理信息多源数据整合在一起
数据库应用发展到今天,已有相当数量的企业积累了大量的、以不同形式存储的、依赖于不同的数据库管理系统的数据,如何共享这些数据信息,是企业进一步发展 所需解决的问题。针对上述问题,要实现网络环境下的信息共享,就必须联合各个异构数据库,
⑤ 矿产勘查中多源地学数据融合技术
地质特征、地球物理、地球化学和遥感等信息都是区域地质及成矿作用不同侧面的反映,因此在它们之间进行成矿信息的融合是必然的。矿产勘查中的多源数据融合包括: ①定性和定量数据的融合; ②相同分辨率的不同平台测量数据的融合; ③不同分辨率不同平台测量数据的融合。
目前,大多数融合主要是在多源遥感信息之间进行,如进行多传感器、多时相和多频谱的图像融合,还无法在图像处理中自动将非图像数据加入进去,在具体操作中只能通过GIS 数据库的数据综合叠加来实现对多源数据进行图像对图像的融合。以下将就矿产勘查中多源地学图像的融合过程进行介绍。
1. 物化探数据生成图像
物化探数据在空间结构上有网格化数据和不规则数据两种,对于网格化数据,根据所需像素密度应用插值技术生成图像,插值的方法有双三次样条、双线性插值,后者是最简单实用的一种。经过插值后的图像可以是二值、灰度或彩色的,为了进一步处理,通常将其处理成灰度图像,根据具体应用,灰阶可以为 16 或 256。离散数据可以先进行网格化再插值,当然也可以直接用三角网插值。对于矢量 GIS 地质数据,例如地层、岩性、断裂等,由于其属性的复杂性,可进行二次开发,按照属性意义生成图像。
2. 图像的配准和镶嵌
目前,大多数 GIS 和图像软件都实现了这两项功能,基本原理是在两幅图像上找出若干个同名地物,利用坐标变换将需要配准的图像坐标变换为标准坐标,把分幅图像拼接为一幅图像,以便于下一步处理。
3. 图像的地学专业化处理及信息提取
基于地学目标对不同类型的空间数据进行各种预处理,如遥感数据的光谱信息和空间信息提取、空间滤波、频率滤波、主成分分析、分形分析和纹理分析等处理; 对于物探数据进行专业化的化极、延拓、匹配滤波等数值处理,提取目标体不同特征的结构信息; 地球化学数据处理的目的是要找出化探异常区,关键问题是确定异常下限,通过多种计算方法,得到异常区的分布图像。
4. 多源地学数据的融合
矿产勘查中所用的信息源有遥感信息和地、物、化探信息,遥感信息具有高的光谱信息,色彩鲜艳,视域广,直观性强和综合信息丰富的特点,对地面地质特征 ( 地层、岩性、构造等) 、地形地貌和岩石裸露、水系分布均可直接提取; 地质与物化探信息则对具体目标有指示能力,可以看作一种影像的强度,参与图像的融合。基于原始数据的融合方法可采用 HIS 变换、K-L 变换、像元加权融合等方法来实现。
复习思考题
1. 遥感矿产解译应遵循的原则是什么?
2. 遥感常见的找矿解译标志有哪些?
3. 在遥感图像上如何识别矿体露头?
4. 在遥感图像上如何利用铁帽及氧化露头追索矿体?
5. 地质构造对找矿的控制作用有哪些?
6. 在遥感图像上如何利用围岩蚀变进行找矿?
7. 地貌标志在遥感找矿中有哪些?
8. 如何利用植物特征进行示矿信息的提取?
9. 如何应用 TM / ETM + 遥感影像识别蚀变矿物?
10. 简述 TM / ETM + 遥感影像的矿化蚀变信息提取的处理方法。
11. 如何建立区域遥感找矿模式?
12. 地质找矿中多源地学数据有何特点?
13. 简述矿产勘查中多源地学数据融合过程。
⑥ 简述数据仓库[Datawarehouse]的任务
没有意思啦。。。十多年的概念啦。。。
数据仓库是大型数据库特别是分布式数据库基础上提出来的东西,就是多数据库集成加初步的中间统计结果。目的是为了比如大型企业分布、多源数据库的集成,为上层应用提供个统一接口。
在数据仓库基础上的应用叫OLAP,可以认为是一种强化的数据库查询技术。
十年前OLAP就已经被数据挖掘给抢了风头了,还没在国内知名就变成落伍概念了。其实对企业来说,数据的增值利用现在也还没什么花头。
⑦ 多源信息一体化集成
国土资源遥感综合调查管理信息系统与其他信息系统相比,具有数据类型多样、数据格式各异等数据多源性的特征。为了将各个分散的专题数据形成一个有机整体,存放于统一的数据库中,实现整个项目的数据综合利用和共享,首先必须实现多源信息一体化集成,建立一个充分兼容的遥感综合调查数据集。以下是对遥感综合调查数据多源性的一个简单分析。
首先,数据的多源性体现在遥感调查信息的多时空性和多尺度性,遥感调查基础信息具有很强的时空特性。各个专题都要用到的卫星遥感影像就是一个明显的例子,它既有同一时间不同空间序列,也有同一空间不同时间序列。
其次,体现在遥感调查基础数据获取手段多源性,包括来自卫星和航空遥感、已有数据系统、图表、实地勘测数据以及在工作中统计分析的衍生数据等。这些不同手段获得的数据,其存储格式及提取和处理手段都各不相同。
第三,遥感调查基础数据的多源性还体现在存储格式上。遥感调查基础数据不仅要表达相关实体(如土地利用与土地覆被中的地类图斑)的空间位置和拓扑关系,同时也要记录空间实体对应的属性(如与地类图斑的有关社会经济属性)。这就决定了遥感调查基础数据源既包含空间数据,又包含非空间数据。空间数据还可以进一步分为栅格格式和矢量格式两类,非空间数据还可分成结构化数据和非结构化数据两大类。
因此,从形式上来看,遥感综合调查基础数据多源信息集成是指项目中不同来源、格式、特点、性质的数据实现逻辑上、物理上的有机集中。我们通过多源信息集成方法,建立了连续无缝的遥感调查基础信息数据库,实现了这些多类型、多尺度空间数据的一体化管理。