负责hdfs的数据存储
㈠ hdfs的数据存储和管理通常至少要有()个副本
一般的数据存储和管理,通常需要之前10个副本左右。
㈡ maprece 执行过程中,哪些数据是存储在hdfs上的
不用纠结于这个吧。 一般来说是dn去读处理自己节点的数据。当数据倾斜比较厉害的时候,也就是所有数据都在一台dn上的话,会有跨节点作业出现,其他的dn来读这台dn的数据。
㈢ hdfs的数据存储和管理通常至少要有几个副本
Dfs的数据储存和管理通常至少要有三个副本左右,因为有三个副本可以去备份,或者去储藏一些比较重要的资料
㈣ hadoop 中一个大文件 在hdfs中是如何存储的
文件是按照块来存储的,比如配置的每块大小为64M,那么5G的文件,会分成5*1024/64=80块,每个块会在不同节点上存多份。你上面说的依次写入datanode,是指将每个块依次写入。
读取的时候,也是一块一块来读的,当然,这些都已经被HDFS的客户端封装好了,你看到就是在读一个文件。
㈤ hdfs数据存储在集群什么地方
1、存储文件的时候需要指定存储的路径,这个路径是HDFS的路径。而不是哪个节点的某个目录。比如./hadoopfs-putlocalfilehdfspat一般操作的当前路径是/user/hadoop比如执行./hadoopfs-ls.实际上就相当于./hadoopfs-ls/user/hadoop2、HDFS本身就是一个文件系统,在使用的时候其实不用关心具体的文件是存储在哪个节点上的。如果需要查询可以通过页面来查看,也可以通过API来实现查询。
㈥ 下面哪个程序负责hdfs数据存储
存放到HDFS 一般都是要分析的数据。分析完成的数据直接存储到MYSQL 或者ORACLE 中。这种处理方式是离线处理。如日志文件存储到hdfs 分析出网站的流量 UV PV 等等。一般都是用pig hive 和mr 等进行分析的。 存放到HBASE 一般都是数据拿过来直接用...
㈦ hdfs为什么能存储不同类型数据为什么能存储pb级的数据
“TB是一个计算机存储容量的单位,它等于2的40次方,或者接近一万亿个字节(即,一千千兆字节)。”
一提到数据量级,人们通常会联想到美国国会图书馆(见图)。德勤、麦肯锡、IBM、Gartner和移动广告公司Adfonic的数据专家向TechTarget记者介绍了PB级数据究竟有多大。
麦肯锡首席分析师Michael Chui指出,美国国会图书馆“在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍。”
TechTarget自己的网络网站Whatis有关于PB大小的定义:“PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个TB。”
未来学家Raymond Kurzweil他的论文中对PB的定义进行延伸:人类功能记忆的容量预计在1.25个TB。这意味着,800个人类记忆才相当于1个PB。
如果这样还不够清楚,那么Adfonic的CTO Wes Biggs给出了下面更直接的计算:
假设手机播放MP3的编码速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB歌曲可以连续播放2000年。
如果智能手机相机拍摄相片的平均大小为3MB,打印照片的平均大小为8.5英寸,那么总共1PB的照片的并排排列长度就达到48000英里——大约可以环绕地球2周。
1PB足够存储整个美国人口的DNA,而且还能再克隆2倍。
DVD、战列舰和六国赛
从比特(bit)和字节(byte)开始,德勤的分析师还将他们的思考向以下方面进一步延伸。(1个比特是1个二进制位,可能是0或1;1个字节长8个二进制):
如果以每秒1个位的速度数一下1PB所包含的位数,那么您需要2.85亿年才能数完。
如果每秒数1个字节,那么您需要数357万年。
保存1PB数据需要用掉22.3万张DVD。
保存1PB数据,需要用掉7.46亿张3.5英寸软盘;这7.46亿软盘重13422吨。这个重量仅仅比2艘Type 45驱逐舰轻一些。
人类身体细胞数据各不相同,但是数量最多的接近100万亿个,如果用1个位来表示1个细胞,那么1PB足够记录90个人的身体细胞,相当于橄榄球六国赛的全部球员。
谷歌、社交媒体和宇宙大爆炸
谷歌在2004年率先进军数字地图领域,并在2005年发布了谷歌地图和谷歌地球。现在,谷歌为用户提供了超过20PB(215亿MB)的地图影像——包括卫星图片、航拍照片和360度街景图片。
即使在2008年,谷歌每天处理的数据已经达到20 PB,一年就是7300 PB。
从那时起,社交媒体网站就开始生成PB级数据,它们逐渐成为所谓的“大数据”。
根据2012年2月1日Facebook向美国证券交易委员会提交的IPO文档记录,Facebook在1年前已经存储了100 PB数据。
在Twitter网站上,每分钟就有34000条微博出现。IBM非常关注于一个天文项目:“由于20个国家共同出资总计15亿欧元建设的平方公里阵列(Square Kilometer Array, SKA)是一个无线电天文望远镜,它可以观测宇宙大爆炸的衰弱信号。”
SKA(计划在2024年完成)估计整个宇宙每天将生成1376 PB数据,相当于每天传输的全球互联网流量的两倍。
只能尽量减少,而不能消除,常用减少误差的
㈧ 哪个程序负责“hdfs”和“数据存储”
负责“hdfs”和“数据存储”的程序是HDFS。