hadoop上傳文件到hdfs

發布時間: 2022-10-06 17:33:22

A. 怎樣將hadoop自帶的wordcount發布到集群上運行

運行自帶wordcount-Hadoop2的方法
1、在linux系統中，所在目錄「/home/kcm」下創建一個文件input
[ubuntu@701~]$ mkdir input
2.在文件夾input中創建兩個文本文件file1.txt和file2.txt，file1.txt中內容是「hello word」,file2.txt中內容是「hello hadoop」、「hello maprece」(分兩行)。
[ubuntu@701~]$ cd input
[ubuntu@701~]$ vi file1.txt（編輯文件並保存）
[ubuntu@701~]$ vi file2.txt（編輯文件並保存）
[ubuntu@701~]$ ls -l /home/kcm/input
file1.txt file2.txt
顯示文件內容可用：
[ubuntu@701~]$ cat/home/kcm/input/file1.txt
hello word
[ubuntu@701~]$ cat /home/kcm/input/file2.txt
hello maprece
hello hadoop
3.在HDFS上創建輸入文件夾wc_input,並將本地文件夾input中的兩個文本文件上傳到集群的wc_input下
[ubuntu@701~]$ hadoop fs -mkdir wc_input
[ubuntu@701~]$ hadoop fs -put/home/kcm/input/file* wc_input
查看wc_input中的文件：
[ubuntu@701~]$ /hadoop fs -ls wc_input
Found 2 items
-rw-r--r-- 1 root supergroup 11 2014-03-13 01:19 /user/hadoop/wc_input/file1.txt
-rw-r--r-- 1 root supergroup 29 2014-03-13 01:19 /user/hadoop/wc_input/file2.txt
4.首先，在window下將wordcount進行打包，我們這里把它打包成wordcount.jar；然後，將wordcount.jar拷貝到linux系統中，存放的目錄自己決定即可。我們這里存放到/home/kcm目錄下面。
5.運行wordcount.jar包（轉到該jar包存放的目錄下）：
[ubuntu@701~]$ hadoop jar wordcount.jar /user/hadoop/wc_input /user/hadoop/output

B. hdfs的特點有哪些

hdfs的特點
一、hdfs的優點
1.支持海量數據的存儲：一般來說，HDFS存儲的文件可以支持TB和PB級別的數據。
2.檢測和快速應對硬體故障：在集群環境中，硬體故障是常見性問題。因為有上千台伺服器連在一起，故障率很高，因此故障檢測和自動恢復hdfs文件系統的一個設計目標。假設某一個datanode掛掉之後，因為數據是有備份的，還可以從其他節點里找到。namenode通過心跳機制來檢測datanode是否還存活。
3.流式數據訪問：（HDFS不能做到低延遲的數據訪問，但是HDFS的吞吐量大）=》Hadoop適用於處理離線數據，不適合處理實時數據。HDFS的數據處理規模比較大，應用一次需要大量的數據，同時這些應用一般都是批量處理，而不是用戶互動式處理。應用程序能以流的形式訪問資料庫。主要的是數據的吞吐量，而不是訪問速度。訪問速度最終是要受制於網路和磁碟的速度，機器節點再多，也不能突破物理的局限。
4.簡化的一致性模型：對於外部使用用戶，不需要了解hadoop底層細節，比如文件的切塊，文件的存儲，節點的管理。一個文件存儲在HDFS上後，適合一次寫入，多次讀取的場景。因為存儲在HDFS上的文件都是超大文件，當上傳完這個文件到hadoop集群後，會進行文件切塊，分發，復制等操作。如果文件被修改，會導致重新觸發這個過程，而這個過程耗時是最長的。所以在hadoop里，2.0版本允許數據的追加，單不允許數據的修改。
5.高容錯性：數據自動保存多個副本，副本丟失後自動恢復。可構建在廉價的機器上，實現線性擴展。當集群增加新節點之後，namenode也可以感知，將數據分發和備份到相應的節點上。
6.商用硬體：Hadoop並不需要運行在昂貴且高可靠的硬體上。它是設計運行在商用硬體（在各種零售店都能買到的普通硬體）的集群上的，因此至少對於龐大的集群來說，節點故障的幾率還是非常高的。HDFS遇到上述故障時，被設計成能夠繼續運行且不讓用戶察覺到明顯的中斷。
二、HDFS缺點（局限性）
1、不能做到低延遲數據訪問：由於hadoop針對高數據吞吐量做了優化，犧牲了獲取數據的延遲，所以對於低延遲數據訪問，不適合hadoop。對於低延遲的訪問需求，HBase是更好的選擇。
2、不適合大量的小文件存儲：由於namenode將文件系統的元數據存儲在內存中，因此該文件系統所能存儲的文件總數受限於namenode的內存容量。根據經驗，每個文件、目錄和數據塊的存儲信息大約佔150位元組。因此，如果有一百萬個小文件，每個小文件都會佔一個數據塊，那至少需要300MB內存。如果是上億級別的，就會超出當前硬體的能力。
3、修改文件：對於上傳到HDFS上的文件，不支持修改文件。Hadoop2.0雖然支持了文件的追加功能，但是還是不建議對HDFS上的文件進行修改。因為效率低下。HDFS適合一次寫入，然後多次讀取的場景。
4、不支持用戶的並行寫：同一時間內，只能有一個用戶執行寫操作。

C. 剛學習spark,想上傳文件給hdfs，是不是需要hadoop然後java 編程這樣是用eclip

spark會把hdfs當做一個數據源來處理, 所以數據存儲都要做, 之後編程是從Hadoop改成spark就可以了. 是否用eclipse無所謂, 只要能編譯運行就可以

D. Linux裡面hdfs作用是什麼

Hadoop分布式文件系統(HDFS)是指被設計成適合運行在通用硬體(commodity hardware)上的分布式文件系統（Distributed File System）。它和現有的分布式文件系統有很多共同點。但同時，它和其他的分布式文件系統的區別也是很明顯的。HDFS是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問，非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束，來實現流式讀取文件系統數據的目的。HDFS在最開始是作為Apache Nutch搜索引擎項目的基礎架構而開發的。HDFS是Apache Hadoop Core項目的一部分。
HDFS有著高容錯性（fault-tolerant）的特點，並且設計用來部署在低廉的（low-cost）硬體上。而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以實現流的形式訪問（streaming access）文件系統中的數據。

E. 關於用java寫程序把本地文件上傳到HDFS中的問題

將這FileSystem hdfs = FileSystem.get(config);
改成FileSystem hdfs = FileSystem.get(URI.create("hdfs://master:9000"),config)
上面那句取得的是本地文件系統對象，改成下面這個才是取得hdfs文件系統對象，當你要操作本地文件對象的時候就要用上面那句取得本地文件對象，我在2.7.4剛開始也是跟你一樣的錯誤，改為下面的就可以了

F. 熟悉常用的 Linux 操作和 Hadoop 操作

1.切換到當前目錄的上一級目錄
cd ..
2.切換到當前登錄 Linux 系統的用戶自己的主文件夾
cd ~
3.進入/tmp 目錄，創建目錄 a1/a2/a3/a4。
mkdir a1/a2/a3/a4 -p
4.刪除目錄
rmdir a
rmdir a1/a2/a3/a4 -p
5.cp 命令：復制文件或目錄
(1) 將當前用戶的主文件夾下的文件.bashrc 復制到目錄「/usr」下，並重命名為 bashrc1
sudo cp .bashrc /usr/bashrc1
(2) 在目錄「/tmp」下新建目錄 test，再把這個目錄復制到「/usr」目錄下
cd /tmp
mkdir test
sudo cp /tmp/test /usr -r
6.mv 命令：移動文件與目錄，或更名
(1) 將「/usr」目錄下的文件 bashrc1 移動到「/usr/test」目錄下
sudo mv /usr/bashrc1 /usr/test
(2) 將「/usr」目錄下的 test 目錄重命名為 test2
sudo mv /usr/test /usr/test2
7.rm 命令：移除文件或目錄
(1) 將「/usr/test2」目錄下的 bashrc1 文件刪除
sudo rm /usr/test2/bashrc1
(2) 將「/usr」目錄下的 test2 目錄刪除
sudo rm -rf /usr/test2
8.cat 命令：查看文件內容查看當前用戶主文件夾下的.bashrc 文件內容
cat .bashrc
9.tac 命令：反向查看文件內容反向查看當前用戶主文件夾下的.bashrc 文件的內容
tac .bashrc
10.more 命令：一頁一頁翻動查看翻頁查看當前用戶主文件夾下的.bashrc 文件的內容
more .bashrc
11.head 命令：取出前面幾行
(1) 查看當前用戶主文件夾下.bashrc 文件內容前 20 行
head -n20 .bashrc
(2)查看當前用戶主文件夾下.bashrc 文件內容，後面 50 行不顯示，只顯示前面幾行
head -n -50 .bashrc
12.tail 命令：取出後面幾行
(1)查看當前用戶主文件夾下.bashrc 文件內容最後 20 行
tail -n20 .bashrc
(2)查看當前用戶主文件夾下.bashrc 文件內容，並且只列出 50 行以後的數據
tail -n -50 .bashrc
13.touch 命令：修改文件時間或創建新文件
(1) 在「/tmp」目錄下創建一個空文件 hello，並查看文件時間
touch hello
stat hello
(2)修改 hello 文件，將文件時間整為 5 天前
touch -d "2019-3-26" hello
stat hello
14.chown 命令：修改文件所有者許可權將 hello 文件所有者改為 root 帳號，並查看屬性
sudo chown root hello
ls -l hello
15.find 命令：文件查找找出主文件夾下文件名為.bashrc 的文件
find .bashrc
16.tar 命令：壓縮命令
(1) 在根目錄「/」下新建文件夾 test，然後在根目錄「/」下打包成 test.tar.gz
tar -zcvf test.tar.gz test/
(2) 把上面的 test.tar.gz 壓縮包，解壓縮到「/tmp」目錄
tar -zxvf test.tar.gz
17.grep 命令：查找字元串從「～/.bashrc」文件中查找字元串'examples'
grep -rn "examples" .bashrc
18.使用 hadoop 用戶登錄 Linux 系統，啟動 Hadoop（Hadoop 的安裝目錄為「/usr/local/hadoop」），為 hadoop 用戶在 HDFS 中創建用戶目錄「/user/hadoop」
./bin/hadoop fs -mkdir -p /usr/hadoop
19.接著在 HDFS 的目錄「/user/hadoop」下，創建 test 文件夾，並查看文件列表
./bin/hdfs dfs -mkdir test
./bin/hadoop fs -ls
20.將 Linux 系統本地的「～/.bashrc」文件上傳到 HDFS 的 test 文件夾中，並查看 test

./bin/hadoop fs -put ~/.bashrc test

./bin/hadoop fs -ls test
21.將 HDFS 文件夾 test 復制到 Linux 系統本地文件系統的「/usr/local/hadoop」目錄下

參考： 1

G. 是否可以利用hdfs命令編輯文本文件原因是什麼

摘要上傳文件

H. 在本地eclipse上開發hadoop程序，將文件上傳到hdfs上時用下面程序，老是找不到文件，問什麼

static String INPUT_PATH = "hdfs://hadoop0:9000/VERSION";

public static void main(String[] args) throws Exception{
final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), new Configuration());
//put
final FSDataOutputStream out = fileSystem.create(new Path("/dir1/hosts"));
IOUtils.Bytes(new FileInputStream(new File("C:\\Windows\\System32\\drivers\\etc\\hosts")), out, 1024, true);

I. 如何遠程上傳文件到hadoop中

全用以下命令上傳文件到Hadoop上：

hadoopfs-putlocal_file_name/user/hadoop/

其中，/user/hadoop/為HDFS上的路徑。local_file_name為需要上傳的文件名。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：841

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1104

python中的init方法發布：2025-10-20 08:17:33 瀏覽：810

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：975

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：864

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1215

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：437

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：317

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：995

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：960

hadoop上傳文件到hdfs

與hadoop上傳文件到hdfs相關的資訊