当前位置:首页 » 文件管理 » hadoop上传文件到hdfs

hadoop上传文件到hdfs

发布时间: 2022-10-06 17:33:22

A. 怎样将hadoop自带的wordcount发布到集群上运行

运行自带wordcount-Hadoop2的方法
1、在linux系统中,所在目录“/home/kcm”下创建一个文件input
[ubuntu@701~]$ mkdir input
2.在文件夹input中创建两个文本文件file1.txt和file2.txt,file1.txt中内容是“hello word”,file2.txt中内容是“hello hadoop”、“hello maprece”(分两行)。
[ubuntu@701~]$ cd input
[ubuntu@701~]$ vi file1.txt(编辑文件并保存)
[ubuntu@701~]$ vi file2.txt(编辑文件并保存)
[ubuntu@701~]$ ls -l /home/kcm/input
file1.txt file2.txt
显示文件内容可用:
[ubuntu@701~]$ cat/home/kcm/input/file1.txt
hello word
[ubuntu@701~]$ cat /home/kcm/input/file2.txt
hello maprece
hello hadoop
3.在HDFS上创建输入文件夹wc_input,并将本地文件夹input中的两个文本文件上传到集群的wc_input下
[ubuntu@701~]$ hadoop fs -mkdir wc_input
[ubuntu@701~]$ hadoop fs -put/home/kcm/input/file* wc_input
查看wc_input中的文件:
[ubuntu@701~]$ /hadoop fs -ls wc_input
Found 2 items
-rw-r--r-- 1 root supergroup 11 2014-03-13 01:19 /user/hadoop/wc_input/file1.txt
-rw-r--r-- 1 root supergroup 29 2014-03-13 01:19 /user/hadoop/wc_input/file2.txt
4.首先,在window下将wordcount进行打包,我们这里把它打包成wordcount.jar;然后,将wordcount.jar拷贝到linux系统中,存放的目录自己决定即可。我们这里存放到/home/kcm目录下面。
5.运行wordcount.jar包(转到该jar包存放的目录下):
[ubuntu@701~]$ hadoop jar wordcount.jar /user/hadoop/wc_input /user/hadoop/output

B. hdfs的特点有哪些

hdfs的特点
一、hdfs的优点
1.支持海量数据的存储:一般来说,HDFS存储的文件可以支持TB和PB级别的数据。
2.检测和快速应对硬件故障:在集群环境中,硬件故障是常见性问题。因为有上千台服务器连在一起,故障率很高,因此故障检测和自动恢复hdfs文件系统的一个设计目标。假设某一个datanode挂掉之后,因为数据是有备份的,还可以从其他节点里找到。namenode通过心跳机制来检测datanode是否还存活。
3.流式数据访问:(HDFS不能做到低延迟的数据访问,但是HDFS的吞吐量大)=》Hadoop适用于处理离线数据,不适合处理实时数据。HDFS的数据处理规模比较大,应用一次需要大量的数据,同时这些应用一般都是批量处理,而不是用户交互式处理。应用程序能以流的形式访问数据库。主要的是数据的吞吐量,而不是访问速度。访问速度最终是要受制于网络和磁盘的速度,机器节点再多,也不能突破物理的局限。
4.简化的一致性模型:对于外部使用用户,不需要了解hadoop底层细节,比如文件的切块,文件的存储,节点的管理。一个文件存储在HDFS上后,适合一次写入,多次读取的场景。因为存储在HDFS上的文件都是超大文件,当上传完这个文件到hadoop集群后,会进行文件切块,分发,复制等操作。如果文件被修改,会导致重新触发这个过程,而这个过程耗时是最长的。所以在hadoop里,2.0版本允许数据的追加,单不允许数据的修改。
5.高容错性:数据自动保存多个副本,副本丢失后自动恢复。可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,namenode也可以感知,将数据分发和备份到相应的节点上。
6.商用硬件:Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件(在各种零售店都能买到的普通硬件)的集群上的,因此至少对于庞大的集群来说,节点故障的几率还是非常高的。HDFS遇到上述故障时,被设计成能够继续运行且不让用户察觉到明显的中断。
二、HDFS缺点(局限性)
1、不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟数据访问,不适合hadoop。对于低延迟的访问需求,HBase是更好的选择。
2、不适合大量的小文件存储 :由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验,每个文件、目录和数据块的存储信息大约占150字节。因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存。如果是上亿级别的,就会超出当前硬件的能力。
3、修改文件:对于上传到HDFS上的文件,不支持修改文件。Hadoop2.0虽然支持了文件的追加功能,但是还是不建议对HDFS上的文件进行修改。因为效率低下。HDFS适合一次写入,然后多次读取的场景。
4、不支持用户的并行写:同一时间内,只能有一个用户执行写操作。

C. 刚学习spark,想上传文件给hdfs,是不是需要hadoop然后java编程这样是用eclip

spark会把hdfs当做一个数据源来处理, 所以数据存储都要做, 之后编程是从Hadoop改成spark就可以了. 是否用eclipse无所谓, 只要能编译运行就可以

D. Linux里面hdfs作用是什么

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

E. 关于用java写程序把本地文件上传到HDFS中的问题

将这FileSystem hdfs = FileSystem.get(config);
改成FileSystem hdfs = FileSystem.get(URI.create("hdfs://master:9000"),config)
上面那句取得的是本地文件系统对象,改成下面这个才是取得hdfs文件系统对象,当你要操作本地文件对象的时候就要用上面那句取得本地文件对象,我在2.7.4刚开始也是跟你一样的错误,改为下面的就可以了

F. 熟悉常用的 Linux 操作和 Hadoop 操作

1.切换到当前目录的上一级目录
cd ..
2.切换到当前登录 Linux 系统的用户自己的主文件夹
cd ~
3.进入/tmp 目录,创建目录 a1/a2/a3/a4。
mkdir a1/a2/a3/a4 -p
4.删除目录
rmdir a
rmdir a1/a2/a3/a4 -p
5.cp 命令:复制文件或目录
(1) 将当前用户的主文件夹下的文件.bashrc 复制到目录“/usr”下,并重命名为 bashrc1
sudo cp .bashrc /usr/bashrc1
(2) 在目录“/tmp”下新建目录 test,再把这个目录复制到“/usr”目录下
cd /tmp
mkdir test
sudo cp /tmp/test /usr -r
6.mv 命令:移动文件与目录,或更名
(1) 将“/usr”目录下的文件 bashrc1 移动到“/usr/test”目录下
sudo mv /usr/bashrc1 /usr/test
(2) 将“/usr”目录下的 test 目录重命名为 test2
sudo mv /usr/test /usr/test2
7.rm 命令:移除文件或目录
(1) 将“/usr/test2”目录下的 bashrc1 文件删除
sudo rm /usr/test2/bashrc1
(2) 将“/usr”目录下的 test2 目录删除
sudo rm -rf /usr/test2
8.cat 命令:查看文件内容查看当前用户主文件夹下的.bashrc 文件内容
cat .bashrc
9.tac 命令:反向查看文件内容反向查看当前用户主文件夹下的.bashrc 文件的内容
tac .bashrc
10.more 命令:一页一页翻动查看翻页查看当前用户主文件夹下的.bashrc 文件的内容
more .bashrc
11.head 命令:取出前面几行
(1) 查看当前用户主文件夹下.bashrc 文件内容前 20 行
head -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容,后面 50 行不显示,只显示前面几行
head -n -50 .bashrc
12.tail 命令:取出后面几行
(1)查看当前用户主文件夹下.bashrc 文件内容最后 20 行
tail -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容,并且只列出 50 行以后的数据
tail -n -50 .bashrc
13.touch 命令:修改文件时间或创建新文件
(1) 在“/tmp”目录下创建一个空文件 hello,并查看文件时间
touch hello
stat hello
(2)修改 hello 文件,将文件时间整为 5 天前
touch -d "2019-3-26" hello
stat hello
14.chown 命令:修改文件所有者权限将 hello 文件所有者改为 root 帐号,并查看属性
sudo chown root hello
ls -l hello
15.find 命令:文件查找找出主文件夹下文件名为.bashrc 的文件
find .bashrc
16.tar 命令:压缩命令
(1) 在根目录“/”下新建文件夹 test,然后在根目录“/”下打包成 test.tar.gz
tar -zcvf test.tar.gz test/
(2) 把上面的 test.tar.gz 压缩包,解压缩到“/tmp”目录
tar -zxvf test.tar.gz
17.grep 命令:查找字符串从“~/.bashrc”文件中查找字符串'examples'
grep -rn "examples" .bashrc
18.使用 hadoop 用户登录 Linux 系统,启动 Hadoop(Hadoop 的安装目录为“/usr/local/hadoop”),为 hadoop 用户在 HDFS 中创建用户目录“/user/hadoop”
./bin/hadoop fs -mkdir -p /usr/hadoop
19.接着在 HDFS 的目录“/user/hadoop”下,创建 test 文件夹,并查看文件列表
./bin/hdfs dfs -mkdir test
./bin/hadoop fs -ls
20.将 Linux 系统本地的“~/.bashrc”文件上传到 HDFS 的 test 文件夹中,并查看 test

./bin/hadoop fs -put ~/.bashrc test

./bin/hadoop fs -ls test
21.将 HDFS 文件夹 test 复制到 Linux 系统本地文件系统的“/usr/local/hadoop”目录下

参考: 1

G. 是否可以利用hdfs命令编辑文本文件原因是什么

摘要 上传文件

H. 在本地eclipse上开发hadoop程序,将文件上传到hdfs上时用下面程序,老是找不到文件,问什么

static String INPUT_PATH = "hdfs://hadoop0:9000/VERSION";

public static void main(String[] args) throws Exception{
final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), new Configuration());
//put
final FSDataOutputStream out = fileSystem.create(new Path("/dir1/hosts"));
IOUtils.Bytes(new FileInputStream(new File("C:\\Windows\\System32\\drivers\\etc\\hosts")), out, 1024, true);

I. 如何远程上传文件到hadoop中

全用以下命令上传文件到Hadoop上:

hadoopfs-putlocal_file_name/user/hadoop/

其中,/user/hadoop/为HDFS上的路径。local_file_name为需要上传的文件名。

热点内容
2013年二级c语言真题 发布:2024-10-08 10:44:47 浏览:242
linux的locale 发布:2024-10-08 10:44:36 浏览:91
2rsa算法 发布:2024-10-08 10:29:53 浏览:542
南京社保密码多少 发布:2024-10-08 10:21:01 浏览:472
国内的少儿编程 发布:2024-10-08 10:21:00 浏览:520
vscode编译调试闪退 发布:2024-10-08 10:19:27 浏览:671
oracle数据库用户权限 发布:2024-10-08 09:46:00 浏览:708
立方的算法口诀 发布:2024-10-08 09:44:30 浏览:820
python输入到excel表格 发布:2024-10-08 09:36:31 浏览:285
脚本拒绝访问闪退 发布:2024-10-08 09:34:55 浏览:939