hdfs存储

发布时间: 2022-01-08 22:14:34

1. hdfs数据存储在集群什么地方

1、存储文件的时候需要指定存储的路径，这个路径是HDFS的路径。而不是哪个节点的某个目录。比如./hadoopfs-putlocalfilehdfspat一般操作的当前路径是/user/hadoop比如执行./hadoopfs-ls.实际上就相当于./hadoopfs-ls/user/hadoop2、HDFS本身就是一个文件系统，在使用的时候其实不用关心具体的文件是存储在哪个节点上的。如果需要查询可以通过页面来查看，也可以通过API来实现查询。

2. 关于hdfs的物理存储路径问题

我没用过Hive，但HDFS的存储机制都是一样的。
你所谓的物理位置指的是在操作系统中的磁盘路径？
这个路径是在Hadoop配置的时候写在hdfs-site.xml文件的dfs.datanode.data.dir字段里的，在每个datanode的这个文件夹里存着该节点上存储的所有数据块block，以blk_打头。
dfs.namenode.data.dir指定的文件夹在namenode中则存在元数据。
所以即便你知道这个所谓的物理路径也没什么用，数据都是以block形式存在的，大的数据还由好多个block组成，而且每个block还有副本。

3. hadoop 中文件是怎么存储的

1、存储文件的时候需要指定存储的路径，这个路径是HDFS的路径。而不是哪个节点的某个目录。比如./hadoopfs-putlocalfilehdfspat

一般操作的当前路径是/user/hadoop比如执行./hadoopfs-ls.实际上就相当于./hadoopfs-ls/user/hadoop

2、HDFS本身就是一个文件系统，在使用的时候其实不用关心具体的文件是存储在哪个节点上的。如果需要查询可以通过页面来查看，也可以通过API来实现查询。

4. 储存框架HDFS是啥

分布式文件储存系统

5. HDFS的文件存储过程

在正式介绍HDFS小文件存储方案之前，我们先介绍一下当前HDFS上文件存取的基本流程。
(1) 读文件流程
1）client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client
2） client收到文件位置信息后，与不同datanode建立socket连接并行获取数据。
(2) 写文件流程
1） client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用namenode节点
2） client将文件分块，并行存储到不同节点上datanode上，发送完成后，client同时发送信息给namenode和datanode
3） namenode收到的client信息后，发送确信信息给datanode
4） datanode同时收到namenode和datanode的确认信息后，提交写操作。

6. hdfs为什么能存储不同类型数据为什么能存储pb级的数据

“TB是一个计算机存储容量的单位，它等于2的40次方，或者接近一万亿个字节（即，一千千兆字节）。”
一提到数据量级，人们通常会联想到美国国会图书馆（见图）。德勤、麦肯锡、IBM、Gartner和移动广告公司Adfonic的数据专家向TechTarget记者介绍了PB级数据究竟有多大。

麦肯锡首席分析师Michael Chui指出，美国国会图书馆“在2011年4月前已经收集了235TB的数据，而一个PB相当于它的4倍。”
TechTarget自己的网络网站Whatis有关于PB大小的定义：“PB是数据存储容量的单位，它等于2的50次方个字节，或者在数值上大约等于1000个TB。”
未来学家Raymond Kurzweil他的论文中对PB的定义进行延伸：人类功能记忆的容量预计在1.25个TB。这意味着，800个人类记忆才相当于1个PB。
如果这样还不够清楚，那么Adfonic的CTO Wes Biggs给出了下面更直接的计算：
假设手机播放MP3的编码速度为平均每分钟1MB，而1首歌曲的平均时长为4分钟，那么1PB歌曲可以连续播放2000年。
如果智能手机相机拍摄相片的平均大小为3MB，打印照片的平均大小为8.5英寸，那么总共1PB的照片的并排排列长度就达到48000英里——大约可以环绕地球2周。
1PB足够存储整个美国人口的DNA，而且还能再克隆2倍。
DVD、战列舰和六国赛
从比特（bit）和字节（byte）开始，德勤的分析师还将他们的思考向以下方面进一步延伸。（1个比特是1个二进制位，可能是0或1;1个字节长8个二进制）：
如果以每秒1个位的速度数一下1PB所包含的位数，那么您需要2.85亿年才能数完。
如果每秒数1个字节，那么您需要数357万年。
保存1PB数据需要用掉22.3万张DVD。
保存1PB数据，需要用掉7.46亿张3.5英寸软盘;这7.46亿软盘重13422吨。这个重量仅仅比2艘Type 45驱逐舰轻一些。
人类身体细胞数据各不相同，但是数量最多的接近100万亿个，如果用1个位来表示1个细胞，那么1PB足够记录90个人的身体细胞，相当于橄榄球六国赛的全部球员。
谷歌、社交媒体和宇宙大爆炸
谷歌在2004年率先进军数字地图领域，并在2005年发布了谷歌地图和谷歌地球。现在，谷歌为用户提供了超过20PB（215亿MB）的地图影像——包括卫星图片、航拍照片和360度街景图片。
即使在2008年，谷歌每天处理的数据已经达到20 PB，一年就是7300 PB。
从那时起，社交媒体网站就开始生成PB级数据，它们逐渐成为所谓的“大数据”。
根据2012年2月1日Facebook向美国证券交易委员会提交的IPO文档记录，Facebook在1年前已经存储了100 PB数据。
在Twitter网站上，每分钟就有34000条微博出现。IBM非常关注于一个天文项目：“由于20个国家共同出资总计15亿欧元建设的平方公里阵列（Square Kilometer Array, SKA）是一个无线电天文望远镜，它可以观测宇宙大爆炸的衰弱信号。”
SKA（计划在2024年完成）估计整个宇宙每天将生成1376 PB数据，相当于每天传输的全球互联网流量的两倍。
只能尽量减少，而不能消除，常用减少误差的

7. 数据存储在OBS和HDFS有什么区别

据存储在OBS和HDFS有什么区别？
MRS集群处理的数据源来源于OBS或HDFS，HDFS是Hadoop分布式文件系统（Hadoop Distributed File System），OBS（Object Storage Service）即对象存储服务，是一个基于对象的海量存储服务，为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据，客户可以基于云管理平台Web界面和OBS客户端对数据进行浏览、管理和使用，同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。
数据存储在OBS：数据存储和计算分离，集群存储成本低，存储量不受限制，并且集群可以随时删除，但计算性能取决于OBS访问性能，相对HDFS有所下降，建议在数据计算不频繁场景下使用。
数据存储在HDFS：数据存储和计算不分离，集群成本较高，计算性能高，但存储量受磁盘空间限制，删除集群前需将数据导出保存，建议在数据计算频繁场景下使用。

8. hdfs适合存储多大的单个文件

首先hdfs是建立在多个机器文件系统上的一个逻辑上的文件系统。它的底层数据以数据块方式存储，块大小可进行调整。
假如你设置一个数据块大小为256M，上传一个1G的文件，它底层会将这个文件分成4块存储，每个块256M。你在hdfs上看到的是一个完整的文件，随时可对这个文件进行操作，无需关注它的存储。就像你在操作系统上操作文件一样，无需关注它存在那个磁盘哪个扇区

阅读全文

热点内容

学考密码重置要求的证件是什么发布：2024-09-20 07:19:46 浏览：477

电脑主服务器怎么开机发布：2024-09-20 07:19:07 浏览：728

2022款瑞虎升级哪些配置发布：2024-09-20 06:59:07 浏览：264

数据库与asp 发布：2024-09-20 06:55:25 浏览：727

python解释编译发布：2024-09-20 06:52:57 浏览：648

舞蹈丰收脚本发布：2024-09-20 06:36:26 浏览：595

linux进程端口号发布：2024-09-20 06:36:11 浏览：79

派派怎么改密码忘了发布：2024-09-20 06:25:49 浏览：780

linux虚拟地址物理地址发布：2024-09-20 06:23:29 浏览：564

大华监控云存储发布：2024-09-20 06:13:24 浏览：597

hdfs存储

与hdfs存储相关的资讯