单一数据库实例和分布式存储
1. 什么是分布式数据库
精确的分布式数据库定义:分布式数据库是由一组数据组成的,这组数据分布在计算机网络中的不同的计算机上,网络中的每个节点具有独立处理的能力(称为场地自治),可以执行局部应用。同时,每个节点也能通过网络通信子系统执行全局应用。与之前的定义相比,更注重场地自治性以及自治场地之间的协作性。
分布式数据库系统:一个粗略的定义是“分布式数据库由一组数据组成,这些数据物理上分布在计算机网络的不同节点上(亦称场地)上,逻辑上是属于同一个系统。” 这里强调两点:
(1)分布性:数据库中的数据不是存储在同一场地,更确切的说,不存储在同一计算机的存储设备上,这就可以和集中式数据库相互区别。
(2)逻辑整体性:这些数据逻辑上是互相联系的,是一个整体(逻辑上如同集中数据库)。
2. 分布式数据库相比自建数据库具备哪些优势
自建数据库:
容易产生容量与性能瓶颈
当前的硬件条件下,主流数据库可以支持单表千万级数据量的存储,但是难以支撑密集的并发读写,存在性能瓶颈。
分区分表或分库方案限制太多
采用分区表方案,数据不能跨实例存储,扩展性和维护性较差。
采用分库方案,客户端需要自行管理各库连接,数据库连接管理和升级复杂,扩容迁移困难。
服务器成本高昂
普通X86服务器支撑能力有限,品牌厂商的服务器价格高昂,通过增加硬件规格来提升并发性能的成本太高,且能到达的性能高度有限。
在分布式数据库面前,上面这些都不是问题,有很长厂商都已经把分布式数据库做的不错了,如阿里云,华为云等。
如下以我熟悉的华为云分布式数据库中间件DDM为例为你介绍下,如果感兴趣可以去官网了解一下,现在好像还有试用活动:华为云分布式数据库中间件DDM
分布式数据库:
数据分布存储
DDM采用水平拆分方式,将数据记录数庞大的单表,按指定的拆分规则,分布式存储到各个分片中。同时DDM提供路由分发功能,应用服务无需考虑数据该写入哪个分片,该从哪个分片读取。
读写分离
用户可以根据数据读取压力负载情况,为每个RDS实例配置一个或者多个只读实例,提高查询并发性能。
高性能
在实际业务访问中,SQL主要的性能瓶颈集中在物理数据库节点上。
DDM实例关联多个RDS节点,减少单个RDS存储的数据量,同时实现并行计算,支持PB级数据量访问,以及百万级高并发。
在线平滑扩容
DDM在不中断业务的情况下,支持新增RDS实例,水平扩容存储空间。一键式扩容,轻松解决单机数据库的容量瓶颈。
3. 大数据的分布式数据库技术的对比
大数据技术的实现离不开很多其他的技术,我们提到最多的就是Hadoop技术,其实就目前而言,Hadoop技术看似是自成一套体系,其实并不是这样的,Hadoop和Spark以及分布式数据库其实也是存在差异的,我们就在这篇文章中给大家介绍一下这些内容。
首先我们说一说大数据分析,现在的大数据分析体系以Hadoop生态为主,而近年来逐渐火热的Spark技术也是主要的生态之一。可以这么说,Hadoop技术只能算是以HDFS+YARN作为基础的分布式文件系统,而不是数据库。我们提到的Hadoop的历史可以向前追溯10年,当年谷歌为了在几万台PC服务器上构建超大数据集合并提供极高性能的并发访问能力,从而发明了一种新的技术,而这个技术,也是Hadoop诞生的理论基础。如果我们从Hadoop的诞生背景可以看出,其主要解决的问题是超大规模集群下如何对非结构化数据进行批处理计算。实际上,在Hadoop架构中,一个分布式任务可以是类似传统结构化数据的关联、排序、聚集操作,也可以是针对非结构化数据的用户自定义程序逻辑。
那么Hadoop的发展道路是什么样的呢。最开始的Hadoop以Big、Hive和MapRece三种开发接口为代表,分别适用于脚本批处理、SQL批处理以及用户自定义逻辑类型的应用。而Spark的发展更是如此,最开始的SparkRDD几乎完全没有SQL能力,还是套用了Hive发展出的Shark才能对SQL有了一部分的支持。但是,随着企业用户对Hadoop的使用越发广泛,SQL已经渐渐成为大数据平台在传统行业的主要访问方式之一。
下面我们就说一说分布式数据库,分布式数据库有着悠久的历史,从以Oracle RAC为代表的联机交易型分布式数据库,到IBM DB2 DPF统计分析性分布式数据库,分布式数据库覆盖了OLTP与OLAP几乎全部的数据应用场景。而大部分分布式数据库功能集中在结构化计算与在线增删改查上。但是,这些传统的分布式数据库以数仓及分析类OLAP系统为主,其局限性在于,其底层的关系型数据库存储结构在效率上并不能满足大量高并发的数据查询以及大数据数据加工和分析的效率要求。因此,分布式数据库在近几年也有着极大的转型,从单一的数据模型向多模的数据模型转移,将OLTP、联机高并发查询以及支持大数据加工和分析结合起来,不再单独以OLAP作为设计目标。同时,分布式数据库在访问模式上也出现了K/V、文档、宽表、图等分支,支持除了SQL查询语言之外的其他访问模式,大大丰富了传统分布式数据库单一的用途。一般来说,多模数据库的主要目的是为了满足具有高性能要求的操作型需求以及目标明确的数据仓库功能,而不是类似大数据深度学习等数据挖掘场景。这就是分布式数据库的实际情况。
我们在这篇文章中给大家介绍了大数据分析以及分布式数据库的相关知识,通过这些内容相信大家已经理解了其中的具体区别了吧,如果这篇文章能够帮助到大家这就是我们最大的心愿。
4. 使用分布式数据库有什么优势
华为云、阿里云、腾讯云都推出了分布式数据库服务。
无限扩容
自动水平拆分。
支持字符串、数字、日期等多种拆纬度。
业务不中断平滑扩容。
性能卓越
性能通过水平扩展可线性提升。
简单易用
兼容MYSQL 协议、语法、客户端。
轻松数据导入,数据库上云。
一键实现数据库扩容。
业务零代码改动,实现读写分离。
快速部署
可在线快速部署实例,节省采购、部署、配置等自建数据库工作,缩短项目周期,帮助业务快速上线。
低成本
稳定的产品,完善的运维和技术支持,相比开源产品总体性价比更高;多种实例规格配置覆盖不同业务规模场景,按需购买。
单机数据库容易产生容量与性能瓶颈
当前的硬件条件下,主流数据库可以支持单表千万级数据量的存储,但是难以支撑密集的并发读写,存在性能瓶颈。
传统的分区分表或分库方案限制太多
采用分区表方案,数据不能跨实例存储,扩展性和维护性较差。
采用分库方案,客户端需要自行管理各库连接,数据库连接管理和升级复杂,扩容迁移困难。
单机数据库服务器成本高昂
普通X86服务器支撑能力有限,品牌厂商的服务器价格高昂,通过增加硬件规格来提升并发性能的成本太高,且能到达的性能高度有限。
数据分布存储
DDM采用水平拆分方式,将数据记录数庞大的单表,按指定的拆分规则,分布式存储到各个分片中。同时DDM提供路由分发功能,应用服务无需考虑数据该写入哪个分片,该从哪个分片读取。
读写分离
用户可以根据数据读取压力负载情况,为每个RDS实例配置一个或者多个只读实例,提高查询并发性能。
高性能
在实际业务访问中,SQL主要的性能瓶颈集中在物理数据库节点上。
DDM实例关联多个RDS节点,减少单个RDS存储的数据量,同时实现并行计算,支持PB级数据量访问,以及百万级高并发。
在线平滑扩容
DDM在不中断业务的情况下,支持新增RDS实例,水平扩容存储空间。一键式扩容,轻松解决单机数据库的容量瓶颈。
单机数据库的现状与困境
随着互联网飞速发展,企业数据越来越庞大,应用对性能要求也越来越高。单机数据库对大批量数据的处理存在一定的局限性:
DDM轻松应对海量数据与高并发
DDM解决了单机关系型数据库对硬件依赖性强、扩展能力有限、数据量增大后扩容困难、数据库响应变慢等难题,通过分布式集群架构方案实现了“平滑扩容”,扩容过程中保持业务不中断。
5. 集中式存储和分布式存储有什么区别
区别:
1、物理介质分布不同。
集中存储:物理介质集中布放。
分布存储:物理介质分布到不同的地理位置。
2、视频流上传不同:
集中存储:视频流上传到中心。
分布存储:视频流就近上传,对骨干网带宽没有什么要求;可采用多套低端的小容量的存储设备分布部署,设备价格和维护成本较低;小容量设备分布部署,对机房环境要求低。
3、对机房有要求不同:
集中存储:对机房环境要求高,要求机房空间大,承重、空调等都是需要考虑的问题。
分布存储:对骨干网带宽没有什么要求,可采用多套低端的小容量的存储设备分布部署,设备价格和维护成本较低;。小容量设备分布部署,对机房环境要求低。
(5)单一数据库实例和分布式存储扩展阅读:
集中存储:
指建立一个庞大的数据库,把各种信息存入其中,各种功能模块围绕信息库的周围并对信息库进行录入、修改、查询、删除等操作的组织方式。
分布式存储系统:
是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。
分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
网络-集中存储
网络-分布式存储系统
6. 什么是分布式数据库
分布式计算机系统所支撑的分布式数据库是数据库技术与计算机网络技术相结合的产物。与常见的集中式数据库相比,虽然分布式数据库的数据分散存储在网络上的各点,但它可以为网上所有的用户所共享,任何地方的合法用户都可以十分方便地获取和处理所需的数据,就像数据在他们本地的计算机上一样。
7. 分布式文件系统和分布式数据库有什么不同
分布式文件系统(dfs)和分布式数据库都支持存入,取出和删除。但是分布式文件系统比较暴力,可以当做key/value的存取。分布式数据库涉及精炼的数据,传统的分布式关系型数据库会定义数据元组的schema,存入取出删除的粒度较小。
分布式文件系统现在比较出名的有GFS(未开源),HDFS(Hadoop
distributed
file
system)。分布式数据库现在出名的有Hbase,oceanbase。其中Hbase是基于HDFS,而oceanbase是自己内部实现的分布式文件系统,在此也可以说分布式数据库以分布式文件系统做基础存储。
8. 什么是分布式数据存储
什么是分布式存储
分布式存储是一种数据存储技术,它通过网络使用企业中每台机器上的磁盘空间,这些分散的存储资源构成了虚拟存储设备,数据分布存储在企业的各个角落。
分布式存储系统,可在多个独立设备上分发数据。传统的网络存储系统使用集中存储服务器来存储所有数据。存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,无法满足大规模存储应用的需求。分布式网络存储系统采用可扩展的系统结构,使用多个存储服务器共享存储负载,利用位置服务器定位存储信息,不仅提高了系统的可靠性,可用性和访问效率,而且易于扩展。
9. 什么叫分布式数据库,有什么优点和缺点
1.分布式数据库是数据库的一种,是数据库技术和网络技术的结合产物。
2.各有优点和缺点.分布式数据库分为逻辑上分部物理上分布及逻辑上分布物理上集中两种。
是的,分布式数据文件便于数据库的管理维护。
10. 集中式存储和分布式存储的区别在哪里如何选择
如今全球数据存储量呈现爆炸式增长,企业及互联网数据以每年50%的速率在增长,据Gartner预测,到2020年,全球数据量将达到35ZB,等于80亿块4TB硬盘。数据结构变化给存储系统带来新的挑战。非结构化数据在存储系统中所占据比例已接近80%。
互联网的发展使得数据创造的主体由企业逐渐转向个人用户,而个人所产生的绝大部分数据均为图片、文档、视频等非结构化数据;企业办公流程更多通过网络实现,表单、票据等都实现了以非结构化为主的数字化存档;同时,基于数据库应用的结构化数据仍然在企业中占据重要地位,存储大量的核心信息。
数据业务的急剧增加,传统单一的SAN存储或NAS存储方式已经不适应业务发展需要。SAN存储:成本高,不适合PB级大规模存储系统。数据共享性不好,无法支持多用户文件共享。NAS存储:共享网络带宽,并发性能差。随系统扩展,性能会进一步下降。因此,集中式存储再次活跃。
那么集中式存储和分布式存储的有缺点分别有哪些呢?在面对二者时我们该如何选择呢?下面我将为大家介绍和分析集中式存储和分布式存储的不同之处以及在应用中我们应做的选择。
分布式和集中式存储的选择
集中存储的优缺点是,物理介质集中布放;视频流上传到中心对机房环境要求高,要求机房空间大,承重、空调等都是需要考虑的问题。
分布存储,集中管理的优缺点是,物理介质分布到不同的地理位置;视频流就近上传,对骨干网带宽没有什么要求;可采用多套低端的小容量的存储设备分布部署,设备价格和维护成本较低;小容量设备分布部署,对机房环境要求低。