hadoop上传文件到hdfs

发布时间: 2022-10-06 17:33:22

A. 怎样将hadoop自带的wordcount发布到集群上运行

运行自带wordcount-Hadoop2的方法
1、在linux系统中，所在目录“/home/kcm”下创建一个文件input
[ubuntu@701~]$ mkdir input
2.在文件夹input中创建两个文本文件file1.txt和file2.txt，file1.txt中内容是“hello word”,file2.txt中内容是“hello hadoop”、“hello maprece”(分两行)。
[ubuntu@701~]$ cd input
[ubuntu@701~]$ vi file1.txt（编辑文件并保存）
[ubuntu@701~]$ vi file2.txt（编辑文件并保存）
[ubuntu@701~]$ ls -l /home/kcm/input
file1.txt file2.txt
显示文件内容可用：
[ubuntu@701~]$ cat/home/kcm/input/file1.txt
hello word
[ubuntu@701~]$ cat /home/kcm/input/file2.txt
hello maprece
hello hadoop
3.在HDFS上创建输入文件夹wc_input,并将本地文件夹input中的两个文本文件上传到集群的wc_input下
[ubuntu@701~]$ hadoop fs -mkdir wc_input
[ubuntu@701~]$ hadoop fs -put/home/kcm/input/file* wc_input
查看wc_input中的文件：
[ubuntu@701~]$ /hadoop fs -ls wc_input
Found 2 items
-rw-r--r-- 1 root supergroup 11 2014-03-13 01:19 /user/hadoop/wc_input/file1.txt
-rw-r--r-- 1 root supergroup 29 2014-03-13 01:19 /user/hadoop/wc_input/file2.txt
4.首先，在window下将wordcount进行打包，我们这里把它打包成wordcount.jar；然后，将wordcount.jar拷贝到linux系统中，存放的目录自己决定即可。我们这里存放到/home/kcm目录下面。
5.运行wordcount.jar包（转到该jar包存放的目录下）：
[ubuntu@701~]$ hadoop jar wordcount.jar /user/hadoop/wc_input /user/hadoop/output

B. hdfs的特点有哪些

hdfs的特点
一、hdfs的优点
1.支持海量数据的存储：一般来说，HDFS存储的文件可以支持TB和PB级别的数据。
2.检测和快速应对硬件故障：在集群环境中，硬件故障是常见性问题。因为有上千台服务器连在一起，故障率很高，因此故障检测和自动恢复hdfs文件系统的一个设计目标。假设某一个datanode挂掉之后，因为数据是有备份的，还可以从其他节点里找到。namenode通过心跳机制来检测datanode是否还存活。
3.流式数据访问：（HDFS不能做到低延迟的数据访问，但是HDFS的吞吐量大）=》Hadoop适用于处理离线数据，不适合处理实时数据。HDFS的数据处理规模比较大，应用一次需要大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理。应用程序能以流的形式访问数据库。主要的是数据的吞吐量，而不是访问速度。访问速度最终是要受制于网络和磁盘的速度，机器节点再多，也不能突破物理的局限。
4.简化的一致性模型：对于外部使用用户，不需要了解hadoop底层细节，比如文件的切块，文件的存储，节点的管理。一个文件存储在HDFS上后，适合一次写入，多次读取的场景。因为存储在HDFS上的文件都是超大文件，当上传完这个文件到hadoop集群后，会进行文件切块，分发，复制等操作。如果文件被修改，会导致重新触发这个过程，而这个过程耗时是最长的。所以在hadoop里，2.0版本允许数据的追加，单不允许数据的修改。
5.高容错性：数据自动保存多个副本，副本丢失后自动恢复。可构建在廉价的机器上，实现线性扩展。当集群增加新节点之后，namenode也可以感知，将数据分发和备份到相应的节点上。
6.商用硬件：Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件（在各种零售店都能买到的普通硬件）的集群上的，因此至少对于庞大的集群来说，节点故障的几率还是非常高的。HDFS遇到上述故障时，被设计成能够继续运行且不让用户察觉到明显的中断。
二、HDFS缺点（局限性）
1、不能做到低延迟数据访问：由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟数据访问，不适合hadoop。对于低延迟的访问需求，HBase是更好的选择。
2、不适合大量的小文件存储：由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验，每个文件、目录和数据块的存储信息大约占150字节。因此，如果有一百万个小文件，每个小文件都会占一个数据块，那至少需要300MB内存。如果是上亿级别的，就会超出当前硬件的能力。
3、修改文件：对于上传到HDFS上的文件，不支持修改文件。Hadoop2.0虽然支持了文件的追加功能，但是还是不建议对HDFS上的文件进行修改。因为效率低下。HDFS适合一次写入，然后多次读取的场景。
4、不支持用户的并行写：同一时间内，只能有一个用户执行写操作。

C. 刚学习spark,想上传文件给hdfs，是不是需要hadoop然后java 编程这样是用eclip

spark会把hdfs当做一个数据源来处理, 所以数据存储都要做, 之后编程是从Hadoop改成spark就可以了. 是否用eclipse无所谓, 只要能编译运行就可以

D. Linux里面hdfs作用是什么

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以实现流的形式访问（streaming access）文件系统中的数据。

E. 关于用java写程序把本地文件上传到HDFS中的问题

将这FileSystem hdfs = FileSystem.get(config);
改成FileSystem hdfs = FileSystem.get(URI.create("hdfs://master:9000"),config)
上面那句取得的是本地文件系统对象，改成下面这个才是取得hdfs文件系统对象，当你要操作本地文件对象的时候就要用上面那句取得本地文件对象，我在2.7.4刚开始也是跟你一样的错误，改为下面的就可以了

F. 熟悉常用的 Linux 操作和 Hadoop 操作

1.切换到当前目录的上一级目录
cd ..
2.切换到当前登录 Linux 系统的用户自己的主文件夹
cd ~
3.进入/tmp 目录，创建目录 a1/a2/a3/a4。
mkdir a1/a2/a3/a4 -p
4.删除目录
rmdir a
rmdir a1/a2/a3/a4 -p
5.cp 命令：复制文件或目录
(1) 将当前用户的主文件夹下的文件.bashrc 复制到目录“/usr”下，并重命名为 bashrc1
sudo cp .bashrc /usr/bashrc1
(2) 在目录“/tmp”下新建目录 test，再把这个目录复制到“/usr”目录下
cd /tmp
mkdir test
sudo cp /tmp/test /usr -r
6.mv 命令：移动文件与目录，或更名
(1) 将“/usr”目录下的文件 bashrc1 移动到“/usr/test”目录下
sudo mv /usr/bashrc1 /usr/test
(2) 将“/usr”目录下的 test 目录重命名为 test2
sudo mv /usr/test /usr/test2
7.rm 命令：移除文件或目录
(1) 将“/usr/test2”目录下的 bashrc1 文件删除
sudo rm /usr/test2/bashrc1
(2) 将“/usr”目录下的 test2 目录删除
sudo rm -rf /usr/test2
8.cat 命令：查看文件内容查看当前用户主文件夹下的.bashrc 文件内容
cat .bashrc
9.tac 命令：反向查看文件内容反向查看当前用户主文件夹下的.bashrc 文件的内容
tac .bashrc
10.more 命令：一页一页翻动查看翻页查看当前用户主文件夹下的.bashrc 文件的内容
more .bashrc
11.head 命令：取出前面几行
(1) 查看当前用户主文件夹下.bashrc 文件内容前 20 行
head -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容，后面 50 行不显示，只显示前面几行
head -n -50 .bashrc
12.tail 命令：取出后面几行
(1)查看当前用户主文件夹下.bashrc 文件内容最后 20 行
tail -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容，并且只列出 50 行以后的数据
tail -n -50 .bashrc
13.touch 命令：修改文件时间或创建新文件
(1) 在“/tmp”目录下创建一个空文件 hello，并查看文件时间
touch hello
stat hello
(2)修改 hello 文件，将文件时间整为 5 天前
touch -d "2019-3-26" hello
stat hello
14.chown 命令：修改文件所有者权限将 hello 文件所有者改为 root 帐号，并查看属性
sudo chown root hello
ls -l hello
15.find 命令：文件查找找出主文件夹下文件名为.bashrc 的文件
find .bashrc
16.tar 命令：压缩命令
(1) 在根目录“/”下新建文件夹 test，然后在根目录“/”下打包成 test.tar.gz
tar -zcvf test.tar.gz test/
(2) 把上面的 test.tar.gz 压缩包，解压缩到“/tmp”目录
tar -zxvf test.tar.gz
17.grep 命令：查找字符串从“～/.bashrc”文件中查找字符串'examples'
grep -rn "examples" .bashrc
18.使用 hadoop 用户登录 Linux 系统，启动 Hadoop（Hadoop 的安装目录为“/usr/local/hadoop”），为 hadoop 用户在 HDFS 中创建用户目录“/user/hadoop”
./bin/hadoop fs -mkdir -p /usr/hadoop
19.接着在 HDFS 的目录“/user/hadoop”下，创建 test 文件夹，并查看文件列表
./bin/hdfs dfs -mkdir test
./bin/hadoop fs -ls
20.将 Linux 系统本地的“～/.bashrc”文件上传到 HDFS 的 test 文件夹中，并查看 test

./bin/hadoop fs -put ~/.bashrc test

./bin/hadoop fs -ls test
21.将 HDFS 文件夹 test 复制到 Linux 系统本地文件系统的“/usr/local/hadoop”目录下

参考： 1

G. 是否可以利用hdfs命令编辑文本文件原因是什么

摘要上传文件

H. 在本地eclipse上开发hadoop程序，将文件上传到hdfs上时用下面程序，老是找不到文件，问什么

static String INPUT_PATH = "hdfs://hadoop0:9000/VERSION";

public static void main(String[] args) throws Exception{
final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), new Configuration());
//put
final FSDataOutputStream out = fileSystem.create(new Path("/dir1/hosts"));
IOUtils.Bytes(new FileInputStream(new File("C:\\Windows\\System32\\drivers\\etc\\hosts")), out, 1024, true);

I. 如何远程上传文件到hadoop中

全用以下命令上传文件到Hadoop上：

hadoopfs-putlocal_file_name/user/hadoop/

其中，/user/hadoop/为HDFS上的路径。local_file_name为需要上传的文件名。

阅读全文

热点内容

2013年二级c语言真题发布：2024-10-08 10:44:47 浏览：242

linux的locale 发布：2024-10-08 10:44:36 浏览：91

2rsa算法发布：2024-10-08 10:29:53 浏览：542

南京社保密码多少发布：2024-10-08 10:21:01 浏览：472

国内的少儿编程发布：2024-10-08 10:21:00 浏览：520

vscode编译调试闪退发布：2024-10-08 10:19:27 浏览：671

oracle数据库用户权限发布：2024-10-08 09:46:00 浏览：708

立方的算法口诀发布：2024-10-08 09:44:30 浏览：820

python输入到excel表格发布：2024-10-08 09:36:31 浏览：285

脚本拒绝访问闪退发布：2024-10-08 09:34:55 浏览：939

hadoop上传文件到hdfs

与hadoop上传文件到hdfs相关的资讯