分布式内存存储

发布时间: 2022-05-21 11:32:08

㈠什么是分布式存储

分布式存储系统，是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

(1)分布式内存存储扩展阅读：

分布式存储，集中管理，在这个方案中，共有三级：

1、上级监控中心：上级监控中心通常只有一个，主要由数字矩阵、认证服务器和VSTARClerk软件等。

2、本地监控中心：本地监控中心可以有多个，可依据地理位置设置，或者依据行政隶属关系设立，主要由数字矩阵、流媒体网关、iSCSI存储设备、VSTARRecorder软件等组成；音视频的数据均主要保存在本地监控中心，这就是分布式存储的概念。

3、监控前端：主要由摄像头、网络视频服务器组成，其中VE4000系列的网络视频服务器可以带硬盘，该硬盘主要是用于网络不畅时，暂时对音视频数据进行保存，或者需要在前端保存一些重要数据的情况。

㈡分布式缓存是什么

分布式缓存主要用于在高并发环境下，减轻数据库的压力，提高系统的响应速度和并发吞吐。当大量的读、写请求涌向数据库时，磁盘的处理速度与内存显然不在一个量级，因此，在数据库之前加一层缓存，能够显着提高系统的响应速度，并降低数据库的压力。作为传统的关系型数据库，MySQL提供完整的ACID操作，支持丰富的数据类型、强大的关联查询、where语句等，能够非常客易地建立查询索引，执行复杂的内连接、外连接、求和、排序、分组等操作，并且支持存储过程、函数等功能，产品成熟度高，功能强大。但是，对于需要应对高并发访问并且存储海量数据的场景来说，出于对性能的考虑，不得不放弃很多传统关系型数据库原本强大的功能，牺牲了系统的易用性，并且使得系统的设计和管理变得更为复杂。这也使得在过去几年中，流行着另一种新的存储解决方案——NoSQL，它与传统的关系型数据库最大的差别在于，它不使用SQL作为查询语言来查找数据，而采用key-value形式进行查找，提供了更高的查询效率及吞吐，并且能够更加方便地进行扩展，存储海量数据，在数千个节点上进行分区，自动进行数据的复制和备份。在分布式系统中，消息作为应用间通信的一种方式，得到了十分广泛的应用。消息可以被保存在队列中，直到被接收者取出，由于消息发送者不需要同步等待消息接收者的响应，消息的异步接收降低了系统集成的耦合度，提升了分布式系统协作的效率，使得系统能够更快地响应用户，提供更高的吞吐。
当系统处于峰值压力时，分布式消息队列还能够作为缓冲，削峰填谷，缓解集群的压力，避免整个系统被压垮。垂直化的搜索引擎在分布式系统中是一个非常重要的角色，它既能够满足用户对于全文检索、模糊匹配的需求，解决数据库like查询效率低下的问题，又能够解决分布式环境下，由于采用分库分表，或者使用NoSQL数据库，导致无法进行多表关联或者进行复杂查询的问题。

㈢分布式缓存主要用在高并发环境下的作用

分布式缓存主要用在高并发环境下，减轻数据库的压力，提高系统的响应速度和并发吞吐。当大量的读、写请求涌向数据库时，磁盘的处理速度与内存显然不在一个量级，因此，在数据库之前加一层缓存，能够显着提高系统的响应速度，并降低数据库的压力。作为传统的关系型数据库，MySQL提供完整的ACID操作，支持丰富的数据类型、强大的关联查询、where语句等，能够非常客易地建立查询索引，执行复杂的内连接、外连接、求和、排序、分组等操作，并且支持存储过程、函数等功能，产品成熟度高，功能强大。但是，对于需要应对高并发访问并且存储海量数据的场景来说，出于对性能的考虑，不得不放弃很多传统关系型数据库原本强大的功能，牺牲了系统的易用性，并且使得系统的设计和管理变得更为复杂。这也使得在过去几年中，流行着另一种新的存储解决方案——NoSQL，它与传统的关系型数据库最大的差别在于，它不使用SQL作为查询语言来查找数据，而采用key-value形式进行查找，提供了更高的查询效率及吞吐，并且能够更加方便地进行扩展，存储海量数据，在数千个节点上进行分区，自动进行数据的复制和备份。在分布式系统中，消息作为应用间通信的一种方式，得到了十分广泛的应用。消息可以被保存在队列中，直到被接收者取出，由于消息发送者不需要同步等待消息接收者的响应，消息的异步接收降低了系统集成的耦合度，提升了分布式系统协作的效率，使得系统能够更快地响应用户，提供更高的吞吐。
当系统处于峰值压力时，分布式消息队列还能够作为缓冲，削峰填谷，缓解集群的压力，避免整个系统被压垮。垂直化的搜索引擎在分布式系统中是一个非常重要的角色，它既能够满足用户对于全文检索、模糊匹配的需求，解决数据库like查询效率低下的问题，又能够解决分布式环境下，由于采用分库分表，或者使用NoSQL数据库，导致无法进行多表关联或者进行复杂查询的问题。

㈣什么是分布式存储系统

(4)分布式内存存储扩展阅读：

分布式存储，集中管理，在这个方案中，共有三级：

1、上级监控中心：上级监控中心通常只有一个，主要由数字矩阵、认证服务器和VSTARClerk软件等。

㈤什么是HDFS硬盘分布式存储

Namenode 是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。
文件操作，NameNode 负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟哪个DataNode联系，否则NameNode会成为系统的瓶颈。
副本存放在哪些DataNode上由 NameNode来控制，根据全局情况做出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低带块消耗和读取时延
Namenode 全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

NameNode支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。块存储管理，在整个HDFS集群中有且只有唯一一个处于active状态NameNode节点，该节点负责对这个命名空间（HDFS）进行管理。

1、Name启动的时候首先将fsimage（镜像）载入内存，并执行（replay）编辑日志editlog的的各项操作；
2、一旦在内存中建立文件系统元数据映射，则创建一个新的fsimage文件（这个过程不需SecondaryNameNode）和一个空的editlog；
3、在安全模式下，各个datanode会向namenode发送块列表的最新情况；
4、此刻namenode运行在安全模式。即NameNode的文件系统对于客服端来说是只读的。(显示目录，显示文件内容等。写、删除、重命名都会失败)；
5、NameNode开始监听RPC和HTTP请求
解释RPC:RPC（Remote Procere Call Protocol）——远程过程通过协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议；
6、系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中；
7、在系统的正常操作期间，namenode会在内存中保留所有块信息的映射信息。
存储文件，文件被分成block存储在磁盘上，为保证数据安全，文件会有多个副本 namenode和client的指令进行存储或者检索block，并且周期性的向namenode节点报告它存了哪些文件的blo
文件切分成块（默认大小128M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3）
NameNode 是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等
DataNode 在本地文件系统存储文件块数据，以及块数据的校验和。
可以创建、删除、移动或重命名文件，当文件创建、写入和关闭之后不能修改文件内容。

NameNode启动流程
1、Name启动的时候首先将fsimage（镜像）载入内存，并执行（replay）编辑日志editlog的的各项操作；
2、一旦在内存中建立文件系统元数据映射，则创建一个新的fsimage文件（这个过程不需SecondaryNameNode）和一个空的editlog；
3、在安全模式下，各个datanode会向namenode发送块列表的最新情况；
4、此刻namenode运行在安全模式。即NameNode的文件系统对于客服端来说是只读的。(显示目录，显示文件内容等。写、删除、重命名都会失败)；
5、NameNode开始监听RPC和HTTP请求
解释RPC:RPC（Remote Procere Call Protocol）——远程过程通过协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议；
6、系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中；
7、在系统的正常操作期间，namenode会在内存中保留所有块信息的映射信息。
HDFS的特点

优点：
1）处理超大文件
这里的超大文件通常是指百MB、数百TB大小的文件。目前在实际应用中，HDFS已经能用来存储管理PB级的数据了。

2）流式的访问数据
HDFS的设计建立在更多地响应"一次写入、多次读取"任务的基础上。这意味着一个数据集一旦由数据源生成，就会被复制分发到不同的存储节点中，然后响应各种各样的数据分析任务请求。在多数情况下，分析任务都会涉及数据集中的大部分数据，也就是说，对HDFS来说，请求读取整个数据集要比读取一条记录更加高效。

3）运行于廉价的商用机器集群上
Hadoop设计对硬件需求比较低，只须运行在低廉的商用硬件集群上，而无需昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。这就要求设计HDFS时要充分考虑数据的可靠性，安全性及高可用性。

缺点：
1）不适合低延迟数据访问
如果要处理一些用户要求时间比较短的低延迟应用请求，则HDFS不适合。HDFS是为了处理大型数据集分析任务的，主要是为达到高的数据吞吐量而设计的，这就可能要求以高延迟作为代价。

2）无法高效存储大量小文件
因为Namenode把文件系统的元数据放置在内存中，所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定。一般来说，每一个文件、文件夹和Block需要占据150字节左右的空间，所以，如果你有100万个文件，每一个占据一个Block，你就至少需要300MB内存。当前来说，数百万的文件还是可行的，当扩展到数十亿时，对于当前的硬件水平来说就没法实现了。还有一个问题就是，因为Map task的数量是由splits来决定的，所以用MR处理大量的小文件时，就会产生过多的Maptask，线程管理开销将会增加作业时间。举个例子，处理10000M的文件，若每个split为1M，那就会有10000个Maptasks，会有很大的线程开销；若每个split为100M，则只有100个Maptasks，每个Maptask将会有更多的事情做，而线程的管理开销也将减小很多。

1280M 1个文件 10block*150字节 = 1500 字节 =1.5KB
1280M 12.8M 100个 100个block*150字节 = 15000字节 = 15KB

3）不支持多用户写入及任意修改文件
在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。目前HDFS还不支持多个用户对同一文件的写操作，以及在文件任意位置进行修改。

四、HDFS文件读写流程
4.1 读文件流程

（1）打开分布式文件
调用分布式文件 DistributedFileSystem.open()方法。
（2）从 NameNode 获得 DataNode 地址
DistributedFileSystem 使用 RPC 调用 NameNode， NameNode返回存有该副本的 DataNode 地址， DistributedFileSystem 返回一个输入流 FSDataInputStream对象，该对象封存了输入流DFSInputStream。
（3）连接到DataNode
调用输入流 FSDataInputStream 的 read() 方法，从而输入流DFSInputStream 连接 DataNodes。
（4）读取DataNode
反复调用 read()方法，从而将数据从 DataNode 传输到客户端。
（5）读取另外的DataNode直到完成
到达块的末端时候，输入流 DFSInputStream 关闭与DataNode 连接，寻找下一个 DataNode。
（6）完成读取，关闭连接
即调用输入流 FSDataInputStream.close() 。

4.2 写文件流程

（1）发送创建文件请求：调用分布式文件系统DistributedFileSystem.create()方法；
（2） NameNode中创建文件记录：分布式文件系统DistributedFileSystem 发送 RPC 请求给namenode， namenode 检查权限后创建一条记录，返回输出流 FSDataOutputStream，封装了输出流 DFSOutputDtream；
（3）客户端写入数据：输出流 DFSOutputDtream 将数据分成一个个的数据包，并写入内部队列。 DataStreamer 根据 DataNode 列表来要求 namenode 分配适合的新块来存储数据备份。一组DataNode 构成管线(管线的 DataNode 之间使用 Socket 流式通信)
（4）使用管线传输数据： DataStreamer 将数据包流式传输到管线第一个DataNode，第一个DataNode 再传到第二个DataNode ,直到完成。
（5）确认队列： DataNode 收到数据后发送确认，管线的DataNode所有的确认组成一个确认队列。所有DataNode 都确认，管线数据包删除。
（6）关闭：客户端对数据量调用close（）方法。将剩余所有数据写入DataNode管线，并联系NameNode且发送文件写入完成信息之前等待确认。
（7） NameNode确认
（8）故障处理：若过程中发生故障，则先关闭管线，把队列中所有数据包添加回去队列，确保数据包不漏。为另一个正常DataNode的当前数据块指定一个新的标识，并将该标识传送给NameNode, 一遍故障DataNode在恢复后删除上面的不完整数据块. 从管线中删除故障DataNode 并把余下的数据块写入余下正常的DataNode。 NameNode发现复本两不足时，会在另一个节点创建一个新的复本

㈥什么是灵动的分布式存储系统

分布式存储简单的来说，就是将数据分散存储到多个存储服务器上，并将这些分散的存储资源构成一个虚拟的存储设备，实际上数据分散的存储在企业的各个角落。

分布式存储架构由三个部分组成：客户端、元数据服务器和数据服务器。客户端负责发送读写请求，缓存文件元数据和文件数据。元数据服务器负责管理元数据和处理客户端的请求，是整个系统的核心组件。数据服务器负责存放文件数据，保证数据的可用性和完整性。该架构的好处是性能和容量能够同时拓展，系统规模具有很强的伸缩性。

基于区块链的分布式存储主要具有如下特点：

高性能：分布式存储可以高效地管理读缓存和写缓存，并且支持自动的分级存储，通过将热点区域内的数据映射到高速存储中，以提高系统响应速度。

分级存储：允许高速存储和低速存储分开部署，或按任意比例混布，在不可预测的业务环境或者敏捷应用情况下，将存储效益发挥极致。

多副本技术：分布式存储采用多副本备份机制，并使用镜像、条带、分布式校验等方式满足用户对于可靠性不同的需求。

容灾与备份：分布式存储支持多时间点快照备份，可同时提取多个时间点样本同时恢复，降低了故障定位的难度，结合周期增量备份机制，确保数据安全高可用。

弹性扩展：得益于合理的分布式架构，还可预估并弹性扩展计算、存储容量和性能，扩展后旧数据会自动迁移至新节点，实现负载均衡，避免单点过热。

总之，分布式存储在架构、灵活性与成本方面的独特价值为政府、企业用户等应用提供了更好的解决方案。

㈦共享内存和分布式内存的区别

1、多进程不一定优于多线程
2、共享内存没有问题
3、Linux上的话，进程间共享数据可以用D-Bus，更可靠而且简单。D-Bus也是广播的。

如果要考虑高可靠性的话，那么采集程序可以单独一个进程，然后通过MOM，如ActiveMQ之类的用持久方式传送数据，可以广播也可以点对点，也支持分布式。监听程序两个，一个显示一个保存至数据库。这样的话只要考虑采集程序的高可靠性就可以了，因为如果采用持久方式发送数据的话，对方没有接收到数据的时候是会保存下来的。

㈧分布式存储支持多节点，节点是什么，一个磁盘还是一个主控

节点是什么？

节点是存储节点的简称，一般来说1个节点是1个存储服务器。

其中一个存储节点坏了是否影响数据的访问？

这个主要取决于你采取的数据保护措施，主要有以下几种：

多副本：同一份数据会保存多份（通常设置为 2 副本或 3 副本），即使副本所在的节点宕机也不会造成数据丢失；
HA（高可用）：节点宕机时，该节点上的虚拟机自动迁移至集群内其它节点，降低业务中断时间；
机架感知：根据机房物理拓扑结构，将副本分配在不同的机架、机箱、主机上，有效减少甚至避免物理硬件（电源、交换机等）故障导致的数据丢失。理论上，3 副本结合机架感知配置，系统可最多容忍 2 个机架上的主机全部失效；
快照：为虚拟机打快照，在其发生故障时将数据恢复至快照状态；
双活：同城双数据中心，灾难时无损快速恢复业务（RPO=0）；
备份：异地主备数据中心，灾难时尽可能挽回数据损失。

阅读全文

热点内容

数据库10061 发布：2025-01-16 16:11:47 浏览：700

电脑网络ip地址怎么配置发布：2025-01-16 16:03:48 浏览：329

我的世界安卓网易版怎么装材质包发布：2025-01-16 16:00:55 浏览：254

404页面源码发布：2025-01-16 15:58:48 浏览：887

手机建行密码忘记了怎么办发布：2025-01-16 15:45:38 浏览：224

易语言视频播放源码发布：2025-01-16 15:39:35 浏览：343

肇观算法发布：2025-01-16 15:38:39 浏览：610

管家婆找不到加密狗发布：2025-01-16 15:10:28 浏览：308

linux的etcfstab 发布：2025-01-16 15:00:43 浏览：364

电脑无法登录内网服务器发布：2025-01-16 15:00:28 浏览：575

分布式内存存储

与分布式内存存储相关的资讯