hadoop下載文件夾
『壹』 Docker部署Hadoop
部署Docker單節點Hadoop集群
通過Docker容器實現Hadoop集群部署,以簡化安裝和管理。訪問集群狀態的路徑為server:8088/cluster,瀏覽HDFS文件的路徑為server:50070/explorer.h...。使用Python訪問集群。
首先,確保安裝Python依賴。示例代碼如下:
利用Docker構建Hadoop鏡像,並創建網路,拉取Ubuntu鏡像,創建容器,修改鏡像源,安裝Java。
下載JDK8並解壓,配置環境變數並驗證Java安裝情況。使用docker export命令導出Java鏡像。
安裝SSH,通過命令進入容器,執行相關命令。
下載Hadoop,配置Hadoop環境。進入配置目錄修改hadoop-env.sh文件,創建文件夾,並調整核心配置文件core-site.xml、HDFS配置文件hdfs-site.xml、MapRece配置文件mapred-site.xml和YARN配置文件yarn-site.xml。修改workers文件,最後刪除臨時文件。
導出Hadoop鏡像並創建容器,啟動Hadoop集群。測試HDFS功能。使用Python連接Hadoop集群。
構建基於Ubuntu16的Hadoop鏡像,拉取鏡像並創建容器。配置鏡像,安裝JDK、Scala和所需依賴。配置SSH以實現免密碼登錄。繼續調整Hadoop配置文件。
創建目錄,修改配置文件。完成Hadoop等配置,導出鏡像並創建容器。啟動集群並測試Hadoop功能。
搭建具有三個節點的集群,其中一台作為主節點,其餘兩台作為從節點。配置集群間SSH免密碼登錄。修改Hadoop配置文件以適應集群環境。啟動Hadoop集群,配置分發集群配置文件,啟動集群並測試。
『貳』 hadoop中在HDFS中創建一個input目錄,然後hadoop fs -ls命令
從fs -ls從列出來的文件看,這個文件夾/user/root/input是通過root用戶創建的。說明你在從本地文件系統拷貝input目錄到hdfs系統的時候,不是採用的hadoop用戶,而是用root用戶執行的拷貝命令,你可能忘記切換用戶了,可以刪除現在的input目錄(採用root用戶運行hadoop的刪除命令,或者不刪除也沒關系),重新使用hadoop用戶把input導入到hdfs系統中試試看。
另外,實際上應用的時候是需要關注hdfs中文件的目錄結構的。你現在採用的是默認的方式,預設會放/user/${user.name}目錄下。
在把本地文件導入到hdfs的時候,是可以指定傳到什麼目錄的,比如:
#創建input目錄
sh bin/hadoop fs -mkdir /user/hadoop/input
#把myfile.txt導入到hdfs的input目錄下
sh bin/hadoop fs –put /usr/hadoop/mydata/myfile.txt /user/hadoop/input