手動編譯hadoop

發布時間: 2022-09-04 18:55:25

❶ hadoop在window10上怎麼編譯

前言 Windows下運行Hadoop，通常有兩種方式：一種是用VM方式安裝一個linux操作系統，這樣基本可以實現全Linux環境的Hadoop運行；另一種是通過Cygwin模擬Linux環境。後者的好處是使用比較方便，安裝過程也簡單，本篇文章是介紹第二種方式Cygwin模.

❷ 如何編譯hadoop-eclipse-plugin插件

1.編譯hadoop2.6.0的eclipse插件
編譯源碼：
cd src/contrib/eclipse-plugin
ant jar -Dversion=2.6.0 -Declipse.home=/opt/eclipse -Dhadoop.home=/opt/hadoop-2.6.0
eclipse.home 和 hadoop.home 設置成你自己的環境路徑

命令行執行編譯，產生了8個警告信息，直接忽略。
compile:
[echo] contrib: eclipse-plugin
[javac] /software/hadoop2x-eclipse-plugin/src/contrib/eclipse-plugin/build.xml:76: warning: 'includeantruntime' was not set, defaulting to build.sysclasspath=last; set to false for repeatable builds
[javac] Compiling 45 source files to /software/hadoop2x-eclipse-plugin/build/contrib/eclipse-plugin/classes
[javac] /opt/hadoop-2.6.0/share/hadoop/common/hadoop-common-2.6.0.jar(org/apache/hadoop/fs/Path.class): warning: Cannot find annotation method 'value()' in type 'LimitedPrivate': class file for org.apache.hadoop.classification.InterfaceAudience not found
[javac] /opt/hadoop-2.6.0/share/hadoop/hdfs/hadoop-hdfs-

❸ 怎麼自己動手編譯hadoop的eclipse插件

1.在Linux環境中偽分布式部署hadoop(SSH免登陸)，運行WordCount實例成功。 http://www.cnblogs.com/PurpleDream/p/4009070.html

2.自己打包hadoop在eclipse中的插件。 http://www.cnblogs.com/PurpleDream/p/4014751.html

3.在eclipse中訪問hadoop運行WordCount成功。

所以我下邊會分三次記錄下我的過程，為自己以後查閱方便，要是能幫助到其他人，自然是更好了！

===============================================================長長的分割線====================================================================

正文:

如果你想在eclipse中安裝hadoop的插件，一個很重要的問題就是hadoop的版本與eclipse版本的匹配問題，如果不匹配，可能會導致很多問題。

綜上，我在完成了在Linux的CentOS系統中安裝hadoop並簡單運行WordCount之後(具體參看本文前言中的博客鏈接)，將學習的重點放到了hadoop的eclipse插件上。其實網上也有部分文章在介紹如何編寫插件，但是由於我的eclispe版本是Juno，而之前在CentOS安裝的是hadoop-1.0.1，所以沒有找到完全匹配的成功案例。所以最終決定自己也動手變異一個自己的hadoop插件。

在有了這個想法之後，一開始會覺得特別困難，但是在真正去做之後，會發現很多問題其實還是可以解決的，只要你懂得如果使用網路和谷歌，多參考一下別人的文章，汲取精華，最終一定會成功的。

第一步，確定大致流程:

1.首先我需要ant編譯，然後就是hadoop-1.0.1.tar.gz這個安裝包，還有就是eclipse。

2.針對我自己的環境，電腦是Win7，eclispe是Juno，下載了hadoop-1.0.1.tar.gz，就差ant之前沒有安裝。

第二步，安裝ant：

1.我參考的是這篇文章http://blog.csdn.net/yang382197207/article/details/10185251，我當時下載的是apache-ant-1.9.4，其他的步驟按照這篇文章介紹的配置就會成功。

第三步，在正式建立項目之前，我在介紹下我的環境： OS: windows 7, Eclipse: Juno, JDK: 1.6.0_43, Hadoop: 1.0.1

1.首先在Eclipse中新建一個Java項目，名字叫hadoop-1.0.1-eclipse-plugin，其實這個名字你可以隨意的。

2.解壓hadoop-1.0.1.tar.gz，在解壓後的目錄中(我的是D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1)，依次將下面的文件放到項目中:

(1).將\hadoop-1.0.1\src\contrib\eclipse-plugin裡面的所有文件以及\hadoop-1.0.1\src\contrib\build-contrib.xml拖拽到項目中

(2).將根目錄\hadoop-1.0.1里的所有.jar文件拖拽到eclipse項目中bin目錄下。

3.打開項目中的build-contrib.xml，做如下的配置：

(1).找到<property name="hadoop.root" location="hadoop-1.0.1解壓縮後的目錄"/>

(2).找到<property name="eclipse.home" location="自己的eclipse的目錄"/>

(3).找到<property name="version" value="hadoop的版本號"/>

可以參考我的配置，如圖:

view sourceprint?
1.
<property name="name" value="${ant.project.name}"/>
2.
<property name="root" value="${basedir}"/>
3.
<property name="hadoop.root" location="D:/SettingUp/ITSettingUp/Hadoop/hadoop-1.0/hadoop-1.0.1"/>
4.
<property name="eclipse.home" location="D:/HaveSetted/ITHaveSetted/Eclipse"/>
5.
<property name="version" value="1.0.1"/>
4.打開項目中的build.xml，做如下的配置：

(1).將文件開頭的 <import file="../build-contrib.xml"/> 修改為 <import file="build-contrib.xml"/>

(2).在<javac...>里如下圖加入includeantruntime="on"，效果如下：

view sourceprint?
01.
<target name="compile" depends="init, ivy-retrieve-common" unless="skip.contrib">
02.
<echo message="contrib: ${name}"/>
03.
<javac
04.
encoding="${build.encoding}"
05.
srcdir="${src.dir}"
06.
includes="**/*.java"
07.
destdir="${build.classes}"
08.
debug="${javac.debug}"
09.
deprecation="${javac.deprecation}"
10.
includeantruntime="on">
11.
<classpath refid="classpath"/>
12.
</javac>
13.
</target>
(3).在<path id="classpath">中添加：<path refid="hadoop-jars"/>，效果如下：

view sourceprint?
1.

2.
<path id="classpath">
3.
<pathelement location="${build.classes}"/>
4.
<pathelement location="${hadoop.root}/build/classes"/>
5.
<path refid="eclipse-sdk-jars"/>
6.
<path refid="hadoop-jars"/>
7.
</path>
(4).在<target name="jar" depends="compile" unless="skip.contrib">這個標簽里，在< file="${hadoop.root}/build/ivy/lib/Hadoop/common/commons-cli-${commons-cli.version}.jar" todir="${build.dir}/lib" verbose="true"/>這個配置的下面添加如下幾個jar包的配置：

view sourceprint?
1.
< file="${hadoop.root}/lib/commons-configuration-1.6.jar" todir="${build.dir}/lib" verbose="true"/>
2.
< file="${hadoop.root}/lib/commons-httpclient-3.0.1.jar" todir="${build.dir}/lib" verbose="true"/>
3.
< file="${hadoop.root}/lib/commons-lang-2.4.jar" todir="${build.dir}/lib" verbose="true"/>
4.
< file="${hadoop.root}/lib/jackson-core-asl-1.8.8.jar" todir="${build.dir}/lib" verbose="true"/>
5.
< file="${hadoop.root}/lib/jackson-mapper-asl-1.8.8.jar" todir="${build.dir}/lib" verbose="true"/>
最終效果如圖：

view sourceprint?
01.

02.
<target name="jar" depends="compile" unless="skip.contrib">
03.
<mkdir dir="${build.dir}/lib"/>
04.
< file="${hadoop.root}/build/hadoop-core-${version}.jar" tofile="${build.dir}/lib/hadoop-core-1.0.1.jar" verbose="true"/>
05.
< file="${hadoop.root}/build/ivy/lib/Hadoop/common/commons-cli-${commons-cli.version}.jar" todir="${build.dir}/lib" verbose="true"/>
06.

07.
< file="${hadoop.root}/lib/commons-configuration-1.6.jar" todir="${build.dir}/lib" verbose="true"/>
08.
< file="${hadoop.root}/lib/commons-httpclient-3.0.1.jar" todir="${build.dir}/lib" verbose="true"/>
09.
< file="${hadoop.root}/lib/commons-lang-2.4.jar" todir="${build.dir}/lib" verbose="true"/>
10.
< file="${hadoop.root}/lib/jackson-core-asl-1.8.8.jar" todir="${build.dir}/lib" verbose="true"/>
11.
< file="${hadoop.root}/lib/jackson-mapper-asl-1.8.8.jar" todir="${build.dir}/lib" verbose="true"/>
12.

13.
<jar
14.
jarfile="${build.dir}/hadoop-${name}-${version}.jar"
15.
manifest="${root}/META-INF/MANIFEST.MF">
16.
<fileset dir="${build.dir}" includes="classes/ lib/"/>
17.
<fileset dir="${root}" includes="resources/ plugin.xml"/>
18.
</jar>
19.
</target>
(5).在文件末尾</project>標簽之前添加配置：

view sourceprint?
1.
<path id="hadoop-jars">
2.
<fileset dir="${hadoop.root}/">
3.
<include name="hadoop-*.jar"/>
4.
</fileset>
5.
</path>
5.打開hadoop-1.0.1的解壓縮目錄(我的是D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1)，復制兩個jar包到對應的目錄文件夾，以我的文件目錄結構舉例如下：

(1).將D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1\hadoop-core-1.0.1.jar 復制到D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1\build\這個文件夾中

(2).將D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1\lib\commons-cli-1.2.jar復制到D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1\build\ivy\lib\Hadoop\common這個文件夾中

6.再回到eclipse，打開項目中的\META-INF\MANIFEST.MF文件，做如下的添加：

view sourceprint?
1.
Bundle-ClassPath: classes/,
2.
lib/hadoop-core-1.0.1.jar,
3.
lib/commons-cli-1.2.jar,
4.
lib/commons-configuration-1.6.jar,
5.
lib/commons-httpclient-3.0.1.jar,
6.
lib/commons-lang-2.4.jar,
7.
lib/jackson-core-asl-1.8.8.jar,
8.
lib/jackson-mapper-asl-1.8.8.ja,
7.經過上邊的配置，基本已經完成，我們可以編譯項目了。右擊build.xml文件選擇 Run As Ant Build，編譯成功，生成的hadoop-1.0.1-eclipse-plugin.jar在hadoop-1.0.1解壓目錄的\build\contrib\eclipse-plugin文件夾裡面。

第四步，當然就是在eclipse中配置我們編譯好的插件。

1.把hadoop-1.0.1-eclipse-plugin.jar文件放到eclipse安裝目錄的plugins中，重啟eclipse。重啟後，會在Window->Open Perspective->Other里，看到大象圖標的Map/Rece出現，或者是window->Preferences中看到Hadoop Map/Rece這個選項。

2.window->Preferences中點擊Hadoop Map/Rece這個選項，將Hadoop的那個解壓縮目錄(我的是D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1)的路徑配置上，配置效果圖如下：

\

3.然後我們在Window->Open Perspective->Other里，點擊Map/Rece,切換到這個模式，截圖如下：

\

4.切換到Map/Rece模式後，我們看到畫面(4)中的截圖，點擊右下角的兩個小圖標，測試有沒有反應，如果有反應，暫時先別配置，這個我下篇博客會具體講。如果怎麼點都沒有反應，則可以做如下操作：

(1).打開項目中的\META-INF\MANIFEST.MF文件，找到之前編譯時，添加的Bundle-ClassPath: classes/ 這個位置，之前我們添加了7個jar包的配置，再增加四個，如下：

view sourceprint?
1.
lib/hadoop-common-0.21.0.jar,
2.
lib/hadoop-hdfs-0.21.0.jar,
3.
lib/log4j-1.2.15.jar,
4.
lib/hadoop-mapred-0.21.0.jar
(2).然後我們還需要去網上下載這四個jar包放到下面的文件夾中，以我的目錄舉例：D:\SettingUp\ITSettingUp\Hadoop\hadoop-1.0\hadoop-1.0.1\lib。

(3).然後在重新編譯即可，在替換原來的插件時，在重啟eclipse的過程中，你可以這樣做：先刪除原來的插件，原來重啟eclipse，確認Map/Rece沒了；然後再關掉eclipse，將新的插件放到plugins里，之後再次啟動eclipse。解決這個問題時我在網上參考的文章是：http://blog.csdn.net/kky2010_110/article/details/7774747，大家也可以看看~。

(4).上邊所提到的截圖如下：

\

經過上邊說的這些步驟，eclipse中的hadoop插件我們算是編譯完了，這個過程中一定要注意的是，不要怕失敗，多嘗試，因為hadoop版本與eclipse版本是有關系的，所以導致你的版本和我的不太一致，可能會失敗，但是也可能會成功。所以在這里再次提醒，注意文章開始，我對自己的環境的版本的介紹，尤其是eclipse和hadoop的版本。建議大家如果有時間的話，可以先不管版本，按照我的步驟先走一遍，如果實在是不成功的話，則可以找個和我一樣的eclipse和hadoop版本，再體驗一回。因為，我在這個過程中，就發現，由於是第一次學hadoop，不見到成功的效果，總覺得少點什麼，總想見識一下，莫取笑哈~

至於下一步，如果配置Location和運行WordCount，我會在下一篇博客中具體說明，謝謝支持，覺得文章還不錯的話，多多點贊，多多留言哈，這將使我充滿動力!

❹ 怎麼使用eclipse編譯hadoop源碼

使用eclipse編譯hadoop源碼

1，建立一個Hadoop源碼文件夾。
2、svn 檢出hadoop1.0.4的源碼。svn checkout http://svn.apache.org/repos/asf/hadoop/common/tags/release-1.0.4
注意：如果在ubuntu下直接上面語句報錯，可能需要執行下面的語句
sudo apt-get install autoconf
sudo apt-get install libtool
3、在檢出完成後的目錄下執行
ant eclipse.然後將源碼導入到eclipse中。
4、修改 release-1.0.4/src/contrib/gridmix/src/Java/org/apache/hadoop/mapred/gridmix/Gridmix.java
將兩處的 Enum<? extends T> 改成 Enum<?>

5、編譯器設置及編譯。
右擊工程名，Properties-->Builders-->New--->Ant Builder
New_Builder --> Edit: Name: hadoop-Builder.Main:Builderfile(builder.xml的位置)：/home/nacey/workspace/source-workspace/hadoop-1.0.4;Targets—>Manual Build: jar
然後選擇菜單Project-->Build Project

在/home/nacey/workspace/source-workspace/hadoop-1.0.4/build文件夾下會生成三個開發 jar 包:

hadoop-client-1.0.4-SNAPSHOT.jar
hadoop-core-1.0.4-SNAPSHOT.jar
hadoop-minicluster-1.0.4-SNAPSHOT.jar

去掉"-SNAPSHOT"即可替換hadoop-1.0.4 下的同名 jar 包.

注意如果要在集群中使用自己編譯的jar，則需要替換集群中的所有機器。不然會出現版本不匹配。

❺ 如何在CentOS6.5下編譯64位的Hadoop2.x

一、預先安裝必要軟體

1、需要的軟體：java, svn, autoconf, automake, libtool, ncurses-devel, openssl-devel, gcc, lzo-devel, zlib-devel, znt, maven, protobuf, cmake
檢測系統中是否已安裝了某一軟體命令：rpm -qa|grep 軟體名，如檢測系統中是否安裝了svn：

$ rpm -qa|grep svn
2、如果已安裝，則跳過，如果沒有安裝，用命令：yum install svn進行安裝，如：

$ yum install svn
如果yum命令安裝失敗（找不到相應的包），則需手動下載相應的軟體包進行安裝，比如maven, protobuf這兩個個軟體；

二、安裝maven

1、軟體包：apache-maven-3.0.5-bin.tar.gz
不要使用最新的Maven3.1.1，與Maven3.0.x存在兼容性問題，所以老是出現java.lang.NoClassDefFoundError: org/sonatype/aether/graph/DependencyFilter之類的錯誤。選擇3.0.5版本：apache-maven-3.0.5-bin.tar.gz
將apache-maven-3.0.5-bin.tar.gz移動到/usr目錄（軟體包所在目錄）：
# mv ./apache-maven-3.0.5-bin.tar.gz /usr
進入/usr目錄，解壓（/usr目錄）：
# tar –zxvf apache-maven-3.0.5-bin.tar.gz ./
刪除解壓後的壓縮包（/usr目錄）：
# rm –rf apache-maven-3.0.5-bin.tar.gz
將/usr / apache-maven-3.0.5/bin加到環境變數中
# vi /etc/profile
在PATH行的最後加上「:/usr/apache-maven-3.0.5/bin」
2、使配置生效：

# source /etc/profile
驗證是否安裝成功：

# mvn –version

三、安裝protobuf
1、軟體包：protobuf-2.5.0.tar.gz
將protobuf-2.5.0.tar.gz移動到/usr目錄（軟體包所在目錄）：
# mv ./ protobuf-2.5.0.tar.gz /usr
進入/usr目錄，解壓（/usr目錄）：

# tar –zxvf protobuf-2.5.0.tar.gz ./
刪除解壓後的壓縮包（/usr目錄）：

# rm –rf protobuf-2.5.0.tar.gz
進入/usr/protobuf-2.5.0目錄：
# cd /usr/protobuf-2.5.0
2、依次執行下列命令：
# ./configure
# make
# make check
# make install
檢測是否安裝成功：
# protoc --version
四、下載hadoop-2.2.0源碼並編譯

在/usr目錄進行
用svn下載hadoop-2.2.0源碼，命令：
$ svn checkout 'http://svn.apache.org/repos/asf/hadoop/common/tags/release-2.2.0'
源碼下載完成後，在/usr目錄下會有一個release-2.2.0目錄，進入該目錄：
$ cd /usr/release-2.2.0
$ ls –la

編譯源碼：
$ mvn package -Pdist,native -DskipTests –Dtar --不生成文檔
$ mvn package -Pdist,native,docs,src -DskipTests –Dtar --生成文檔，需要安裝findbugs，並設置FINDBUGS_HOME環境變數
編譯的時間比較久，編譯過程中會聯網下載所需要的包，機子沒聯網是不會成功編譯的。
編譯結束，最後列印的信息如下，每一項均是『SUCCESS』，則編譯成功：

編譯好的代碼包在/usr/release-2.2.0/hadoop-dist/target目錄下：
$ cd /usr/release-2.2.0/hadoop-dist/target
$ ls –la
因為是在64位系統下編譯的，所以編譯出來的代碼包是64位版本的；可以直接將/usr/release-2.2.0/hadoop-dist/target目錄下的hadoop-2.2.0或者hadoop-2.2.0.tar.gz拷貝到其他linux64位平台進行搭建hadoop集群。

說明：
1、機器得連網，如果沒聯網找可以聯網的機器下載，但是編譯時還是要下載一些東西，所以，實在不行。最好找相同平台（可以是虛擬機）能上網的機器做下面工作，弄好了再把編譯好的代碼包拷回來。
2、命令操作中，『#』開頭的是在root用戶進行，『$』開頭的是在普通用戶下進行

❻ 如何編譯hadoop的native庫

3、進入hadoop-2.4.1-src編譯hadoop
cd hadoop-2.4.1-src
mvn clean package -Pdist,native -DskipTests -Dtar

4、一般情況下/root/soft/hadoop/hadoop-2.4.1-src/hadoop-hdfs-project/hadoop-hdfs-httpfs/downloads路徑下的apache-tomcat-6.0.36.tar.gz下載不完全，
正常大小應該為6.47M左右，如果不對請官網手動下載，路徑為http://archive.apache.org/dist/tomcat/tomcat-6/v6.0.36/bin/apache-tomcat-6.0.36.tar.gz
5、替換hadoop-2.4.1/lib/native為編譯後hadoop-2.4.1-src/hadoop-dist/target/hadoop-2.4.1/lib/native包

❼ 如何編譯Apache Hadoop2.4.0源代碼

安裝JDK
hadoop是java寫的，編譯hadoop必須安裝jdk。
從oracle官網下載jdk，下載地址是http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html，選擇 jdk-7u45-linux-x64.tar.gz下載。
執行以下命令解壓縮jdk
tar -zxvf jdk-7u45-linux-x64.tar.gz
會生成一個文件夾jdk1.7.0_45，然後設置環境變數中。
執行命令 vi/etc/profile，增加以下內容到配置文件中，結果顯示如下

export JAVA_HOME=/usr/java/jdk1.7.0_45
export JAVA_OPTS="-Xms1024m-Xmx1024m"
exportCLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

保存退出文件後，執行以下命令
source /etc/profile
java –version 看到顯示的版本信息即正確。

安裝maven

hadoop源碼是使用maven組織管理的，必須下載maven。從maven官網下載，下載地址是http://maven.apache.org/download.cgi，選擇 apache-maven-3.1.0-bin.tar.gz 下載，不要選擇3.1下載。

執行以下命令解壓縮jdk
tar -zxvf apache-maven-3.1.0-bin.tar.gz
會生成一個文件夾apache-maven-3.1.0，然後設置環境變數中。

執行命令vi /etc/profile，編輯結果如下所示
MAVEN_HOME=/usr/maven/apache-maven-3.1.0
export MAVEN_HOME
export PATH=${PATH}:${MAVEN_HOME}/bin

保存退出文件後，執行以下命令

source /etc/profile
mvn -version
如果看到下面的顯示信息，證明配置正確了。

❽ 如何在hadoop-2.6.0上編譯運行自己編寫的java代碼

在不使用eclipse情況使java程序在hadoop 2.2中運行的完整過程。整個過程中其實分為java程序的編譯，生成jar包，運行測試。
這三個步驟運用的命令都比較簡單，主要的還是如何找到hadoop 2.2提供給java程序用來編譯的jar包。具體可以查看:
HADOOP_HOME/share/hadoop/httpfs/tomcat/webapps/webhdfs/WEB-INF/lib目錄
下面會通過一個在hadoop中創建一個目錄的JAVA例子來進行演示
具體代碼如下：

package com.wan.demo;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HADemo {

public static void main(String[] args) {
// TODO Auto-generated method stub
mkdir(args[0]);
}

public static void mkdir(String dir){
Configuration configuration=new Configuration();
FileSystem fs;
try {
fs = FileSystem.get(configuration);
fs.mkdirs(new Path(dir));
fs.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}

把HADemo.java文件拷貝到linux環境中
配置HADOOP_HOME/bin到環境中，啟動集群，進入HADemo.java文件目錄中
注:下面的lib目錄裡面的文件由HADOOP_HOME/share/hadoop/httpfs/tomcat/webapps/ webhdfs/WEB-INF/lib目錄中獲取，下面做的目的是為了縮減命令長度
1.編譯java
# mkdir class
#Javac -classpath .:lib/hadoop-common-2.2.0.jar:lib/hadoop-annotations-2.2.0.jar -d class HADemo.java
2.生成jar包
#jar -cvf hademo.jar -C class/ .
added manifest
adding: com/(in = 0) (out= 0)(stored 0%)
adding: com/wan/(in = 0) (out= 0)(stored 0%)
adding: com/wan/demo/(in = 0) (out= 0)(stored 0%)
adding: com/wan/demo/HADemo.class(in = 844) (out= 520)(deflated 38%)
3.測試運行
#hadoop jar hademo.jar com.wan.demo.HADemo /test
檢測：
#hadoop fs -ls /

結束！

❾ 如何在hadoop2.5.2使用命令行編譯打包運行自己的maprece程序

網上的 MapRece WordCount 教程對於如何編譯 WordCount.Java 幾乎是一筆帶過… 而有寫到的，大多又是 0.20 等舊版本版本的做法，即 javac -classpath /usr/local/Hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java，但較新的 2.X 版本中，已經沒有 hadoop-core*.jar 這個文件，因此編輯和打包自己的 MapRece 程序與舊版本有所不同。
本文以 Hadoop 2.7.2 環境下的 WordCount 實例來介紹 2.x 版本中如何編輯自己的 MapRece 程序。

編譯、打包 Hadoop MapRece 程序
我們將 Hadoop 的 classhpath 信息添加到 CLASSPATH 變數中，在 ~/.bashrc 中增加如下幾行：

[html] view plain
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

別忘了執行 source ~/.bashrc 使變數生效，接著就可以通過 javac 命令編譯 WordCount.java 了（使用的是 Hadoop 源碼中的 WordCount.java，源碼在文本最後面）：javac WordCount.java

編譯時會有警告，可以忽略。編譯後可以看到生成了幾個 .class 文件。

接著把 .class 文件打包成 jar，才能在 Hadoop 中運行：

[html] view plain
jar -cvf WordCount.jar ./WordCount*.class

開始運行：
[html] view plain
hadoop jar WordCount.jar WordCount input output//hdfs上的input文件夾，命令執行所在位置為WordCount.jar同一目錄

因為程序中聲明了
package ，所以在命令中也要 org.apache.hadoop.examples 寫完整：

[html] view plain
hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output

查看：
[html] view plain
hadoop fs -cat /output/part-r-00000
WordCount.java 源碼

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.maprece.Job;
import org.apache.hadoop.maprece.Mapper;
import org.apache.hadoop.maprece.Recer;
import org.apache.hadoop.maprece.lib.input.FileInputFormat;
import org.apache.hadoop.maprece.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumRecer
extends Recer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();

public void rece(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
Job job = new Job(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumRecer.class);
job.setRecerClass(IntSumRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

❿ 如何編譯Apache Hadoop2.2.0源代碼

下載hadoop-2.2.0-src.tar.gz 下載。

執行以下命令解壓縮jdk
tar -zxvf hadoop-2.2.0-src.tar.gz

會生成一個文件夾 hadoop-2.2.0-src。源代碼中有個bug，這里需要修改一下，編輯目錄/usr/local/hadoop-2.2.0-src/hadoop-common-project/hadoop-auth中的文件pom.xml，執行以下命令
gedit pom.xml
在第55行下增加以下內容
<dependency>
<groupId>org.mortbay.jetty</groupId>
<artifactId>jetty-util</artifactId>
<scope>test</scope>
</dependency>

保存退出即可。

上述bug詳見https://issues.apache.org/jira/browse/HADOOP-10110，在hadoop3中修復了，離我們太遙遠了。

好了，現在進入到目錄/usr/local/hadoop-2.2.0-src中，執行命令
mvn package -DskipTests -Pdist,native,docs
如果沒有執行第4步，把上面命令中的docs去掉即可，就不必生成文檔了。
該命令會從外網下載依賴的jar，編譯hadoop源碼，需要花費很長時間，你可以吃飯了。
在等待n久之後，可以看到如下的結果：
[INFO] Apache Hadoop Main ................................ SUCCESS [6.936s]
[INFO] Apache Hadoop Project POM ......................... SUCCESS [4.928s]
[INFO] Apache Hadoop Annotations ......................... SUCCESS [9.399s]
[INFO] Apache Hadoop Assemblies .......................... SUCCESS [0.871s]
[INFO] Apache Hadoop Project Dist POM .................... SUCCESS [7.981s]
[INFO] Apache Hadoop Maven Plugins ....................... SUCCESS [8.965s]
[INFO] Apache Hadoop Auth ................................ SUCCESS [39.748s]
[INFO] Apache Hadoop Auth Examples ....................... SUCCESS [11.081s]
[INFO] Apache Hadoop Common .............................. SUCCESS [10:41.466s]
[INFO] Apache Hadoop NFS ................................. SUCCESS [26.346s]
[INFO] Apache Hadoop Common Project ...................... SUCCESS [0.061s]
[INFO] Apache Hadoop HDFS ................................ SUCCESS [12:49.368s]
[INFO] Apache Hadoop HttpFS .............................. SUCCESS [41.896s]
[INFO] Apache Hadoop HDFS BookKeeper Journal ............. SUCCESS [41.043s]
[INFO] Apache Hadoop HDFS-NFS ............................ SUCCESS [9.650s]
[INFO] Apache Hadoop HDFS Project ........................ SUCCESS [0.051s]
[INFO] hadoop-yarn ....................................... SUCCESS [1:22.693s]
[INFO] hadoop-yarn-api ................................... SUCCESS [1:20.262s]
[INFO] hadoop-yarn-common ................................ SUCCESS [1:30.530s]
[INFO] hadoop-yarn-server ................................ SUCCESS [0.177s]
[INFO] hadoop-yarn-server-common ......................... SUCCESS [15.781s]
[INFO] hadoop-yarn-server-nodemanager .................... SUCCESS [40.800s]
[INFO] hadoop-yarn-server-web-proxy ...................... SUCCESS [6.099s]
[INFO] hadoop-yarn-server-resourcemanager ................ SUCCESS [37.639s]
[INFO] hadoop-yarn-server-tests .......................... SUCCESS [4.516s]
[INFO] hadoop-yarn-client ................................ SUCCESS [25.594s]
[INFO] hadoop-yarn-applications .......................... SUCCESS [0.286s]
[INFO] hadoop-yarn-applications-distributedshell ......... SUCCESS [10.143s]
[INFO] hadoop-maprece-client ........................... SUCCESS [0.119s]
[INFO] hadoop-maprece-client-core ...................... SUCCESS [55.812s]
[INFO] hadoop-yarn-applications-unmanaged-am-launcher .... SUCCESS [8.749s]
[INFO] hadoop-yarn-site .................................. SUCCESS [0.524s]
[INFO] hadoop-yarn-project ............................... SUCCESS [16.641s]
[INFO] hadoop-maprece-client-common .................... SUCCESS [40.796s]
[INFO] hadoop-maprece-client-shuffle ................... SUCCESS [7.628s]
[INFO] hadoop-maprece-client-app ....................... SUCCESS [24.066s]
[INFO] hadoop-maprece-client-hs ........................ SUCCESS [13.243s]
[INFO] hadoop-maprece-client-jobclient ................. SUCCESS [16.670s]
[INFO] hadoop-maprece-client-hs-plugins ................ SUCCESS [3.787s]
[INFO] Apache Hadoop MapRece Examples .................. SUCCESS [17.012s]
[INFO] hadoop-maprece .................................. SUCCESS [6.459s]
[INFO] Apache Hadoop MapRece Streaming ................. SUCCESS [12.149s]
[INFO] Apache Hadoop Distributed Copy .................... SUCCESS [15.968s]
[INFO] Apache Hadoop Archives ............................ SUCCESS [5.851s]
[INFO] Apache Hadoop Rumen ............................... SUCCESS [18.364s]
[INFO] Apache Hadoop Gridmix ............................. SUCCESS [14.943s]
[INFO] Apache Hadoop Data Join ........................... SUCCESS [9.648s]
[INFO] Apache Hadoop Extras .............................. SUCCESS [5.763s]
[INFO] Apache Hadoop Pipes ............................... SUCCESS [16.289s]
[INFO] Apache Hadoop Tools Dist .......................... SUCCESS [3.261s]
[INFO] Apache Hadoop Tools ............................... SUCCESS [0.043s]
[INFO] Apache Hadoop Distribution ........................ SUCCESS [56.188s]
[INFO] Apache Hadoop Client .............................. SUCCESS [10.910s]
[INFO] Apache Hadoop Mini-Cluster ........................ SUCCESS [0.321s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 40:00.444s
[INFO] Finished at: Thu Dec 26 12:42:24 CST 2013
[INFO] Final Memory: 109M/362M
[INFO] ------------------------------------------------------------------------

閱讀全文

熱點內容

androidaes加密發布：2025-02-13 05:08:36 瀏覽：492

李宗瑞文件夾發布：2025-02-13 04:27:59 瀏覽：611

phpparent的parent 發布：2025-02-13 04:18:08 瀏覽：457

小容量存儲器市場發布：2025-02-13 04:01:11 瀏覽：373

ickeck文件夾發布：2025-02-13 04:00:21 瀏覽：644

上傳照片文案發布：2025-02-13 03:53:13 瀏覽：426

電腦版花雨庭怎麼調中文伺服器發布：2025-02-13 03:32:35 瀏覽：39

linux開發android 發布：2025-02-13 03:32:34 瀏覽：490

查詢重復欄位的sql語句發布：2025-02-13 03:12:42 瀏覽：327

8uftp上傳網站發布：2025-02-13 03:01:57 瀏覽：245

手動編譯hadoop

與手動編譯hadoop相關的資訊