datanode主要存储什么
1. 存储元数据叫什么节点
元数据是为了描述数据的相关信息而存在的数据。主节点不会存储数据,数据节点专门存储数据,主节点存储了元数据信息。主节点的磁盘中存储了文件到块的关系,集群启动后,数据节点会报告名字节点 机器和块的关系,这两个关系组合起来便可找到文件所在机器的位置。
2. 简述hdfs体系结构
HDFS(Hadoop Distributed File System)的体系结构是一个主从(Master/Slave)结构模型,主要由三个关键组件构成:NameNode、DataNode和Secondary NameNode。
NameNode:作为HDFS集群的主节点,NameNode负责管理文件系统的命名空间(Namespace),包括文件名、目录结构、文件属性以及每个文件的数据块列表等信息。它将这些信息存储在内存中,并定期持久化到磁盘上,以防止数据丢失。NameNode还负责处理客户端的读写请求,如文件创建、删除等。
DataNode:DataNode是HDFS集群的从节点,负责在本地文件系统中存储实际的数据块(Block)。每个DataNode会定期向NameNode发送心跳信息,报告自己的状态和数据块信息。当客户端需要读写数据时,NameNode会指示DataNode进行相应的操作。
Secondary NameNode:Secondary NameNode并非NameNode的备份,而是帮助NameNode进行元数据的合并和检查点操作。它定期从NameNode获取fsimage(文件系统镜像)和edits(编辑日志)文件,合并它们生成新的fsimage,并返回给NameNode。这样,NameNode可以加载新的fsimage来减少启动时间和内存占用。
HDFS的这种体系结构使得它能够高效地处理大规模数据集,具有高容错性和高吞吐量的特点。通过分布式存储和冗余副本机制,HDFS能够确保数据的安全性和可靠性。