linux下安裝hadoop
⑴ 如何在linux下搭建hadoop集群環境 小殘's Blog
前期准備
l 兩台linux虛擬機(本文使用redhat5,IP分別為 IP1、IP2)
l JDK環境(本文使用jdk1.6,網上很多配置方法,本文省略)
l Hadoop安裝包(本文使用Hadoop1.0.4)
搭建目標
210作為主機和節點機,211作為節點機。
搭建步驟
1修改hosts文件
在/etc/hosts中增加:
IP1 hadoop1
IP2 hadoop2
2 實現ssh無密碼登陸
2.1 主機(master)無密碼本機登陸
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
直接回車,完成後會在 ~/.ssh/ 生成兩個文件: id_dsa 和 id_dsa.pub 。
這兩個是成對出現,類似鑰匙和鎖。
再把 id_dsa.pub 追加到授權 key 裡面 ( 當前並沒有 authorized_key s文件 ) :
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
ssh localhost hostname
還是要輸入密碼,一般這種情況都是因為目錄或文件的許可權問題,看看系統日誌,確實是許可權問題
.ssh下的authorized_keys許可權為600,其父目錄和祖父目錄應為755
2.2 無密碼登陸節點機(slave)
slave上執行:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
生成.ssh目錄。
將master上的authorized_keys復制到slave上:
scp authorized_keys hadoop2:~/.ssh/
實驗:在master上執行
ssh hadoop2
實現無密碼登陸。
3 配置Hadoop
3.1拷貝hadoop
將hadoop-1.0.4.tar.gz ,拷貝到usr/local 文件夾下,然後解壓。
解壓命令:
tar –zxvf hadoop-1.0.4.tar.gz
3.2查看 cat /etc/hosts
IP1 hadoop1
IP2 hadoop2
3.3 配置 conf/masters 和 conf/slaves
conf/masters:
1
IP1
conf/slaves:
1
2
IP2
IP2
3.4 配置 conf/hadoop-env.sh
加入
1
export java_HOME=/home/elvis/soft/jdk1.7.0_17
3.5 配置 conf/core-site.xml
1
2
3
4
<property>
<name>fs.default.name</name>
<value>hdfs://IP1:9000</value>
</property>
3.6 配置 conf/hdfs-site.xml
加入
<property>
<name>dfs.http.address</name>
<value>IP1:50070</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
3.7 配置conf/mapred-site.xml
加入
<property>
<name>mapred.job.tracker</name>
<value>192.168.1.50:8012</value>
</property>
3.8 建立相關的目錄
1
/usr/local/hadoop/ //hadoop數據和namenode目錄
【注意】只創建到hadoop目錄即可,不要手動創建data和namenode目錄。
其他節點機也同樣建立該目錄。
3.9 拷貝hadoop文件到其他節點機
將hadoop文件遠程到其他節點(這樣前面的配置就都映射到了其他節點上),
命令:
1
scp -r hadoop-1.0.4 IP2:/usr/local/
3.10 格式化Active master
命令:
bin/hadoop namenode -format
3.11 啟動集群 ./start-all.sh
現在集群啟動起來了,看一下,命令:
1
bin/hadoop dfsadmin -report
2個datanode,打開web看一下
瀏覽器輸入:IP1:50070
打完收工,集群安裝完成!
⑵ 阿里雲雲伺服器linux可以部署hadoop么
通過命令行下載Hadoop ,我下載的版本是1.2.1,版本穩定且方便學習。
[plain] view plain
wget http://mirror.bit.e.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
下載完成後,將hadoop安裝包轉移至要安裝的目錄
[plain] view plain
mv hadoop-1.2.1.tar.gz /usr/hadoop/
cd /usr/hadoop/
解壓
[plain] view plain
tar -zxvf hadoop-1.2.1.tar.gz
配置Hadoop
配置文件在 hadoop的conf文件夾下
首先修改 hadoop-env.sh 文件
[plain] view plain
vim hadoop-env.sh
找到 # export JAVA_HOME=…..
修改為 export JAVA_HOME=/usr/Java/java8
注意 // 如果忘記java的路徑,可以通過命令 echo $JAVA_HOME查看
其次修改 core-site.xml 文件
其實 修改 hadoop-env.sh
[plain] view plain
vim hadoop-env.sh
修改內容為
[html] view plain
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://canghong:9000</value>
</property>
</configuration>
然後修改 hdfs-site.xml
[html] view plain
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data</value>
</property>
</configuration>
最後修改 mapred-site.xml
[html] view plain
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>canghong:9001</value>
</property>
</configuration>
配置完成後,告訴系統hadoop的安裝目錄
[plain] view plain
vim ~/.bashrc
export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1
在 export PATH 中 加入 HADOOP_HOME
export PATH=${JAVA_HOME}/bin:$HADOOP_HOME/bin:$PATH
測試
在命令行輸入 hadoop
出現
10015 JobTracker
9670 TaskTracker
9485 DataNode
10380 Jps
9574 SecondaryNameNode
9843 NameNode
則表示成功
格式化文件系統
[plain] view plain
cd /usr/hadoop/hadoop-1.2.1/bin
hadoop namenode -formate
啟動
啟動 bin下的 start-all.sh
start-all.sh
測試
在命令行 輸入 jps 查看hadoop是否正常運行
⑶ 使用root用戶完成相關配置,安裝hadoop需要配置前置環境
可以使用 root 用戶來完成 Hadoop 的相關配置和安裝,但在此之前,需要確保系統安裝了一些必要的前置環境和軟體。以下是配置 Hadoop 環境的基本步驟:
安裝 Java 運行環境(JRE)或 Java 開發工具包(JDK)。Hadoop 是使用 Java 語言開發的,因此需要安裝 Java 運行環境才能運行。
配置 Java 環境變數。在 Linux 系統中,可以使用 export 命令設置 PATH 和或明戚 JAVA_HOME 環境變數,以便系統能夠識別 Java 運行環境。
下載 Hadoop 的最新版本,例如 Apache Hadoop 2.9.2。
解壓 Hadoop 壓縮包,並將其槐枯放置在某個有讀寫許可權的目錄下。
配置 Hadoop 的環境變數衫陵,以便系統可以找到 Hadoop 的二進制文件。在 Linux 系統中,可以在 .bashrc 文件中添加以下語句:
Copy code
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
配置 Hadoop 的相關文件,如 core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml,這些文件記錄了 Hadoop 的基本配置信息,例如 NameNode 的地址、DataNode 的地址等等。
格式化 Hadoop 的文件系統。在 Hadoop 安裝目錄中運行以下命令:
Copy code
$HADOOP_HOME/bin/hdfs namenode -format
完成以上步驟後,Hadoop 環境就可以正常運行了,您可以使用 Hadoop 開發應用程序或處理大數據了。需要注意的是,Hadoop 配置和部署比較復雜,需要一定的經驗和技能,建議在操作前先了解相關資料或請有經驗的人進行指導。
⑷ 如何在Linux上安裝與配置Hadoop
在Linux上安裝Hadoop之前,需要先安裝兩個程序:
1. JDK 1.6或更高版本;
2. SSH(安全外殼協議),推薦安裝OpenSSH。
下面簡述一下安裝這兩個程序的原因:
1. Hadoop是用Java開發的,Hadoop的編譯及MapRece的運行都需要使用JDK。
2. Hadoop需要通過SSH來啟動salve列表中各台主機的守護進程,因此SSH也是必須安裝的,即使是安裝偽分布式版本(因為Hadoop並沒有區分集群式和偽分布式)。對於偽分布式,Hadoop會採用與集群相同的處理方式,即依次序啟動文件conf/slaves中記載的主機上的進程,只不過偽分布式中salve為localhost(即為自身),所以對於偽分布式Hadoop,SSH一樣是必須的。
(2)配置環境變數
輸入命令:
sudo gedit /etc/profile
輸入密碼,打開profile文件。
在文件的最下面輸入如下內容:
#set Java Environment
export JAVA_HOME= (你的JDK安裝位置,一般為/usr/lib/jvm/java-6-sun)
export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
export PATH="$JAVA_HOME/:$PATH"
這一步的意義是配置環境變數,使你的系統可以找到JDK。
(3)驗證JDK是否安裝成功
輸入命令:
java -version
查看信息:
java version "1.6.0_14"
Java(TM) SE Runtime Environment (build 1.6.0_14-b08)
Java HotSpot(TM) Server VM (build 14.0-b16, mixed mode)
⑸ Linux中用idea如何安裝Hadoop jar包
(1)准備工作
1) 安裝JDK 6或者JDK 7
2) 安裝scala 2.10.x (注意版本)
2)下載Intellij IDEA最新版(本文以IntelliJ IDEA Community Edition 13.1.1為例說明,不同版本,界面布局可能不同):
3)將下載的Intellij IDEA解壓後,安裝scala插件,流程如下:
依次選擇「Configure」–> 「Plugins」–> 「Browse repositories」,輸入scala,然後安裝即可
(2)搭建Spark源碼閱讀環境(需要聯網)
一種方法是直接依次選擇「import project」–> 選擇spark所在目錄 –> 「SBT」,之後intellij會自動識別SBT文件,並下載依賴的外部jar包,整個流程用時非常長,取決於機器的網路環境(不建議在windows下操作,可能遇到各種問題),一般需花費幾十分鍾到幾個小時。注意,下載過程會用到git,因此應該事先安裝了git。
第二種方法是首先在linux操作系統上生成intellij項目文件,然後在intellij IDEA中直接通過「Open Project」打開項目即可。在linux上生成intellij項目文件的方法(需要安裝git,不需要安裝scala,sbt會自動下載)是:在spark源代碼根目錄下,輸入sbt/sbt gen-idea
註:如果你在windows下閱讀源代碼,建議先在linux下生成項目文件,然後導入到windows中的intellij IDEA中。