海量数据存储
Ⅰ 海量空间数据存储
(一)空间数据存储技术
随着地理信息系统的发展,空间数据库技术也得到了很大的发展,并出现了很多新的空间数据库技术(黄钊等,2003),其中应用最广的就是用关系数据库管理系统(RDBMS)来管理空间数据。
用关系数据库管理系统来管理空间数据,主要解决存储在关系数据库中的空间数据与应用程序之间的数据接口问题,即空间数据库引擎(SpatialDatabase Engine)(熊丽华等,2004)。更确切地说,空间数据库技术是解决空间数据对象中几何属性在关系数据库中的存取问题,其主要任务是:
(1)用关系数据库存储管理空间数据;
(2)从数据库中读取空间数据,并转换为GIS应用程序能够接收和使用的格式;
(3)将GIS应用程序中的空间数据导入数据库,交给关系数据库管理。
空间数据库中数据存储主要有三种模式:拓扑关系数据存储模式、Oracle Spatial模式和ArcSDE模式。拓扑关系数据存储模式将空间数据存在文件中,而将属性数据存在数据库系统中,二者以一个关键字相连。这样分离存储的方式由于存在数据的管理和维护困难、数据访问速度慢、多用户数据并发共享冲突等问题而不适用于大型空间数据库的建设。而OracleSpatial实际上只是在原来的数据库模型上进行了空间数据模型的扩展,实现的是“点、线、面”等简单要素的存储和检索,所以它并不能存储数据之间复杂的拓扑关系,也不能建立一个空间几何网络。ArcSDE解决了这些问题,并利用空间索引机制来提高查询速度,利用长事务和版本机制来实现多用户同时操纵同一类型数据,利用特殊的表结构来实现空间数据和属性数据的无缝集成等(熊丽华等,2004)。
ArcSDE是ESRI公司开发的一个中间件产品,所谓中间件是一个软件,它允许应用元素通过网络连接进行互操作,屏蔽其下的通讯协议、系统结构、操作系统、数据库和其他应用服务。中间件位于客户机/服务器的操作系统之上,管理计算资源和网络通讯,并营造出一个相对稳定的高层应用环境,使开发人员可以集中精力于系统的上层开发,而不用过多考虑系统分布式环境下的移植性和通讯能力。因此,中间件能无缝地连入应用开发环境中,应用程序可以很容易地定位和共享中间件提供的应用逻辑和数据,易于系统集成。在分布式的网络环境下,客户端的应用程序如果要访问网络上某个服务器的信息,而服务器可能运行在不同于客户端的操作系统和数据库系统中。此时,客户机的应用程序中负责寻找数据的部分只需要访问一个数据访问中间件,由该中间件完成网络中数据或服务的查找,然后将查找的信息返回给客户端(万定生等,2003)。因此,本系统实现空间数据库存储的基本思想就是利用ArcSDE实现各类空间数据的存储。
目前,空间数据存储技术已比较成熟,出现了许多类似ArcSDE功能的中间件产品,这些软件基本上都能实现空间数据的数据库存储与管理,但对于海量空间数据的存储,各种软件性能差别较大。随着数据量的增长,计算机在分析处理上会产生很多问题,比如数据不可能一次完全被读入计算机的内存中进行处理。单纯依赖于硬件技术,并不能满足持续增长的数据的处理要求。因此需要在软件上找到处理海量数据的策略,并最终通过软硬件的结合完成对海量数据的处理。在海量数据存储问题上,许多专家从不同侧面进行过研究,Lindstrom在地形简化中使用了外存模型(Out-of-core)技术;钟正采用了基于数据分块、动态调用的策略;汪国平等人在研究使用高速网络进行三维海量地形数据的实时交互浏览中,采用了分块、多分辨率模板建立模型等方法。这些技术、方法已经在各自系统上进行了研究和实现。本系统采用的ArcSDE软件基本上也是采用分块模型的方法,具体存储和操作不需要用户过多了解,已经由ArcSDE软件实现。因此,对海量数据的存储管理,更需要从数据的组织方式等方面进行设计。塔里木河流域生态环境动态监测系统采集了大量的遥感影像、正射影像等栅格结构的数据,这些数据具有很大的数据量,为适应流域空间基础设施的管理需要,采取一种新的方式来管理、分发这些海量数据以适应各部门的快速浏览和管理需要。
(二)影像金字塔结构
影像数据库的组织是影像数据库效率的关键,为了获得高效率的存取速度,在数据的组织上使用了金字塔数据结构和网格分块数据结构。该技术主导思想如下:
(1)将数据库中使用到的纹理处理成为大小一致的纹理块;
(2)为每块纹理生成5个细节等级的纹理,分别为0、1、2、3、4,其中1级纹理通过0级纹理1/4压缩得到,2级纹理通过1级纹理1/4压缩得到,…,以此类推;
(3)在显示每个块数据之前,根据显示比例的大小,并以此决定该使用那一级的纹理;
(4)在内存中建立纹理缓冲池,使用LRU算法进行纹理块的调度,确保使用频率高的纹理调度次数尽可能少。
(三)影像数据压缩
影像数据压缩有无损压缩和有损压缩两个方法,具体采取哪种压缩方法需根据具体情况确定。对于像元值很重要的数据,如分类数据、分析数据等采用无损压缩(即LZ77算法),否则采用有损压缩(即JPEG算法)。通过对影像数据的压缩,一方面可以节约存储空间,另一方面可以加快影像的读取和显示速度。影像数据的压缩一般与构建金字塔同时进行,在构建影像金字塔过程中自动完成数据的压缩。
Ⅱ 海量数据存储有哪些方式与方法
1、容量可线性扩展,单名字空间达EB级,2、海量小文件存储,百亿级文件高效访问,3、中心灵活部署,容灾汇聚分发更便捷,4、支持大数据和AI,统一数据存储和分析,你可以问下瑞驰信息技术,做数据存储很专 业,技术很牛的。希望我的回答能解决到你的问题
Ⅲ 海量数据存储有哪些方式与方法
杉岩海量对象存储MOS,针对海量非结构化数据存储的最优化解决方案,采用去中心化、分布式技术架构,支持百亿级文件及EB级容量存储,
具备高效的数据检索、智能化标签和分析能力,轻松应对大数据和云时代的存储挑战,为企业发展提供智能决策。
1、容量可线性扩展,单名字空间达EB级
SandStone MOS可在单一名字空间下实现海量数据存储,支持业务无感知的存储服务器横向扩容,为爆炸式增长的视频、音频、图片、文档等不同类型的非结构化数据提供完美的存储方案,规避传统NAS存储的单一目录或文件系统存储空间无法弹性扩展难题
2、海量小文件存储,百亿级文件高效访问
SandStone MOS基于完全分布式的数据和元数据存储架构,为海量小文件存储而生,将企业级NAS存储的千万文件量级提升至互联网规模的百亿级别,帮助企业从容应对几何级增长的海量小文件挑战。
3、中心灵活部署,容灾汇聚分发更便捷
SandStone MOS支持多数据中心灵活部署,为企业数据容灾、容灾自动切换、多分支机构、数据就近访问等场景提供可自定义的灵活解决方案,帮助企业实现跨地域多活容灾、数据流转、就近读写等,助力业务高速发展。
4、支持大数据和AI,统一数据存储和分析
SandStone MOS内置文件智能化处理引擎,实现包括语音识别、图片OCR识别、文件格式转换等批量处理功能,结合标签检索能力还可实现语音、证件照片检索,从而帮助企业更好地管理非结构化数据。同时,SandStone MOS还支持与Hadoop、Spark等大数据分析平台对接,一套存储即可满足企业数据存储、管理和挖掘的需求。
Ⅳ 有冷数据存储海量数据存储解决方案吗
目前市场上主流的海量数据存储解决方案当然是云存储解决方案啦!我知道一家公司瑞驰信息技术很专业,你可以咨询下看有没有适合你的方案
Ⅳ 哪些技术属于大数据的关键技术海量数据的存储技术
非常多的,问答不能发link,不然我给你link了。有譬如Hadoop等开源大数据项目的,编程语言的,以下就大数据底层技术说下。
简单以永洪科技的技术说下,有四方面,其实也代表了部分通用大数据底层技术:
Z-Suite具有高性能的大数据分析能力,她完全摒弃了向上升级(Scale-Up),全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据:
跨粒度计算(In-DatabaseComputing)
Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于跨粒度计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,我们称之为库内计算(In-Database)。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。
并行计算(MPP Computing)
Z-Suite是基于MPP架构的商业智能平台,她能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。作为横向扩展的大数据平台,Z-Suite能够充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。
列存储 (Column-Based)
Z-Suite是列存储的。基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O 的效率,从而大大提高查询性能。另外,列存储能够更好地压缩数据,一般压缩比在5 -10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术,节省了存储设备和内存的开销,却大大了提升计算性能。
内存计算
得益于列存储技术和并行计算技术,Z-Suite能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。
Ⅵ 数据存储,海量数据存储解决方案
目前市场上主流的海量数据存储解决方案当然是云存储解决方案啦! 南京云创存储科技有限公司的cStor云存储系统可以帮你解决海量存储的问题! 你可以到云创存储的官网上了解一下产品的详细信息! 希望我的回答会对你有所帮助咯!
Ⅶ 海量数据存储
存储技术经历了单个磁盘、磁带、RAID到网络存储系统的发展历程。网络存储技术就是将网络技术和I/O技术集成起来,利用网络的寻址能力、即插即用的连接性、灵活性,存储的高性能和高效率,提供基于网络的数据存储和共享服务。在超大数据量的存储管理、扩展性方面具有明显的优势。
典型的网络存储技术有网络附加存储NAS(Network Attached Storage)和存储区域网SAN(Storage Area Networks)两种。
1)NAS技术是网络技术在存储领域的延伸和发展。它直接将存储设备挂在网上,有良好的共享性、开放性。缺点是与LAN共同用物理网络,易形成拥塞,而影响性能。特别是在数据备份时,性能较低,影响在企业存储应用中的地位。
2)SAN技术是以数据存储为中心,使用光纤通道连接高速网络存储的体系结构。即将数据存储作为网络上的一个区域独立出来。在高度的设备和数据共享基础上,减轻网络和服务器的负担。因光纤通道的存储网和LAN分开,使性能得到很大的提高,而且还提供了很高的可靠性和强大的连续业务处理能力。在SAN中系统的扩展、数据迁移、数据本地备份、远程数据容灾数据备份和数据管理等都比较方便,整个SAN成为一个统一管理的存储池(Storage Pool)。SAN存储设备之间通过专用通道进行通信,不占用服务器的资源。因此非常适合超大量数据的存储,成为网络存储的主流。
3)存储虚拟化技术是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到互操作性的目的和利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成一个单一视图的存储池,可根据用户的需要方便地切割、分配。从而保持已有的投资,减少总体成本,提高存储效率。
存储虚拟化包括3个层次结构:基于服务器的虚拟化存储、基于存储设备的虚拟化存储和基于网络的虚拟化存储。
1)基于服务器的虚拟化存储由逻辑管理软件在主机/服务器上完成。经过虚拟化的存储空间可跨越多个异构的磁盘阵列,具有高度的稳定性和开放性,实现容易、简便。但对异构环境和分散管理不太适应。
2)基于存储设备的虚拟化存储,因一些高端磁盘阵列本身具有智能化管理,可以实现同一阵列,供不同主机分享。其结构性能可达到最优。但实现起来价格昂贵,可操作性差。
3)基于网络的虚拟化存储,通过使用专用的存储管理服务器和相应的虚拟化软件,实现多个主机/服务器对多个异构存储设备之间进行访问,达到不同主机和存储之间真正的互连和共享,成为虚拟存储的主要形式。根据不同结构可分为基于专用服务器和基于存储路由器两种方式。①基于专用服务器的虚拟化,是用一台服务器专用于提供系统的虚拟化功能。根据网络拓扑结构和专用服务器的具体功能,其虚拟化结构有对称和非对称两种方式。在对称结构中数据的传输与元数据访问使用同一通路。实现简单,对服务器和存储设备的影响小,对异构环境的适应性强。缺点是专用服务器可能成为系统性能的瓶颈,影响SAN的扩展。在非对称结构中,数据的传输与元数据访问使用不同通路。应用服务器的I/O命令先通过命令通路传送到专用服务器,获取元数据和传输数据视图后,再通过数据通路得到所需的数据。与对称结构相比,提高了存储系统的性能,增加了扩展能力。②基于存储路由器的SAN虚拟化,存储路由器是一种智能化设备,既具有路由器的功能,又针对I/O进行专门优化。它部署在存储路由器上,多个存储路由器保存着整个存储系统中的元数据多个副本,并通过一定的更新策略保持一致性。这种结构中,因存储路由器具有强大的协议功能,所以具有更多的优势。能充分利用存储资源,保护投资。能实现软硬件隔离,并辅有大量的自动化工具,提高了虚拟服务器的安全性,降低对技术人员的需求和成本。
Ⅷ 海量数据存储一般用在什么地方
分布式存储是一种数据存储技术,它通过网络使用企业中每台机器上的磁盘空间,这些分散的存储资源构成了虚拟存储设备,数据分布存储在企业的各个角落。你可以咨询下瑞驰,专业做数据存储的。
Ⅸ 海量存储和统一存储的区别
海量存储是针对目前数据爆炸性增长提出的概念。
统一存储即融合存储,将SAN/NAS都融入到存储设备中。
Ⅹ 海量数据存储与管理
正如上述,在国土资源遥感综合调查信息中,既包含有多源、多时相、多尺度、多分辨率、多类型的遥感图像数据和基础地理数据,也包括在项目开展过程中衍生的许多观测和分析资料,数据量十分庞大。因此,根据数据共享的要求,在数据生产、管理、应用服务以及更新和维护过程中,如何组织和管理好这些海量数据,如何快速、全面有效地访问和获得所需数据,成为面临的突出问题。在这里,采用何种方式利用现有的大型商业化关系数据库系统高效地存储与管理这些数据,成为能否发挥系统最大性能的关键所在。
传统的GIS系统对空间数据(与空间位置、空间关系有关的数据)的存储与管理大多采用这些商业软件特定的文件方式,如:ArcInfo的Coverage、MapInfo的Tab、MAPGIS的WL等。如果数据量越多,这些文件就会越大,数据的处理就会越复杂,其存储、检索、管理也就越困难,而且其最大的缺点还在于不能进行多用户并发操作。由此可见,用以往传统的存储机制去管理像遥感综合调查这样的海量数据,显然难以满足要求。而近年来发展起来的空间数据库引擎技术则是解决海量数据存储管理的途径之一。
本系统建设过程中,采用了空间数据库引擎ArcSDE+大型关系数据库Oracle组合技术,较理想地实现了遥感综合调查海量数据的存储、检索、查询、处理。众所周知,Oracle提供了大型数据库环境,能够很好地处理海量数据,而ArcSDE可将具有地理特征的空间数据和非空间数据统一加载到Oracle中去,因此,通过ArcSDE空间数据库引擎,可将Oracle海量数据管理功能加载到GIS系统中,并可利用Oracle的强大管理机制进行高效率的事务处理、记录锁定、并发控制等服务操作。