hadoop252源碼

發布時間: 2022-07-07 13:39:09

A. 為什麼要編譯 hadoop 源碼怎麼在eclipse里寫hadoop程序啊~ 上不了外網，hadoop源碼編譯不了，該怎麼

1：編譯了hadoop，可以方便的查看某個函數的實現。如果不編譯就只是自己去翻源代碼了。更重要的是如果你編譯了hadoop，你可以根據自己的需要改動hadoop的某些實現機制。（hadoop開源的好處）.
2：編程hadoop程序是不需要編譯hadoop源碼的。你可以參看網上hadoop安裝教程。
關於hadoop編程，歡迎訪問我的博客：http://blog.csdn.net/jackydai987

B. hadoop源碼修改了，編譯成功後，將編譯後的hadoop文件直接拿來搭建么，還是需要經過什麼處理呢

把你編譯後的hadoop源碼丟到原來的hadoop集群環境中去即覆蓋hadoop安裝目錄下的原hadoop-core-xxx.jar 同樣的所有節點都需要更新然後重啟集群

C. hadoop 源代碼從哪裡可以找到啊怎麼下載，說詳細一點謝謝

你可以用SVN軟體在這里同步到最新的代碼：
http://svn.apache.org/repos/asf/hadoop
其實你同步你研究領域的分支就可以了，全同步實在太大了。
SVN軟體可以用Tortoise SVN，使用方法一下就可以了。
當然也可以到cloudera或Yahoo!的hadoop官網的download鏈接去下載。

D. hadoop yarn源碼怎麼進行修改

第一個階段：學習hadoop基本使用和基本原理，從應用角度對hadoop進行了解和學習
這是第一個階段，你開始嘗試使用hadoop，從應用層面，對hadoop有一定了解，比如你可以使用hadoop shell對hdfs進行操作，使用hdfs API編寫一些程序上傳，下載文件；使用MapRece API編寫一個數據處理程序。一旦你對hadoop的基本使用方法比較熟悉了，接下來可以嘗試了解它的內部原理，注意，不需要通過閱讀源代碼了解內部原理，只需看一些博客，書籍，比如《Hadoop權威指南》，對於HDFS而言，你應該知道它的基本架構以及各個模塊的功能；對於MapRece而言，你應該知道其具體的工作流程，知道partition，shuffle，sort等工作原理，可以自己在紙上完整個畫完maprece的流程，越詳細越好。
在這個階段，建議你多看一些知名博客，多讀讀《hadoop權威指南》（可選擇性看相關的幾章）。如果你有實際項目驅動，那是再好不過了，理論聯系實際是最好的hadoop學習方法；如果你沒有項目驅動，那建議你不要自己一個人悶頭學，多跟別人交流，多主動給別人講講，最好的學習方式還是「講給別人聽」。
============
第二個階段：從無到入門，開始閱讀hadoop源代碼
這個階段是最困苦和漫長的，尤其對於那些沒有任何分布式經驗的人。很多人這個階段沒有走完，就放棄了，最後停留在hadoop應用層面。
這個階段，第一件要做的事情是，選擇一個hadoop組件。如果你對分布式存儲感興趣，那麼你可以選擇HDFS，如果你讀分布式計算感興趣，你可以選擇MapRece，如果你對資源管理系統感興趣，你可以選擇YARN。
選擇好系統後，接下來的經歷是最困苦的。當你把hadoop源代碼導入eclipse或intellij idea，沏上一杯茶，開始准備優哉游哉地看hadoop源代碼時，你懵逼了：你展開那數不盡的package和class，覺得無從下手，好不容易找到了入口點，然後你屁顛屁顛地通過eclipse的查找引用功能，順著類的調用關系一層層找下去，最後迷失在了代碼的海洋中，如同你在不盡的壓棧，最後棧溢出了，你忘記在最初的位置。很多人經歷過上面的過程，最後沒有順利逃出來，而放棄。
如果你正在經歷這個過程，我的經驗如下：首先，你要摸清hadoop的代碼模塊，知道client，master，slave各自對應的模塊（hadoop中核心系統都是master/slave架構，非常類似），並在閱讀源代碼過程中，時刻謹記你當前閱讀的代碼屬於哪一個模塊，會在哪個組件中執行；之後你需要摸清各個組件的交互協議，也就是分布式中的RPC，這是hadoop自己實現的，你需要對hadoop RPC的使用方式有所了解，然後看各模塊間的RPC protocol，到此，你把握了系統的骨架，這是接下來閱讀源代碼的基礎；接著，你要選擇一個模塊開始閱讀，我一般會選擇Client，這個模塊相對簡單些，會給自己增加信心，為了在閱讀代碼過程中，不至於迷失自己，建議在紙上畫出類的調用關系，邊看邊畫，我記得我閱讀hadoop源代碼時，花了一疊紙。注意，看源代碼過程中，很容易煩躁不安，建議經常起來走走，不要把自己逼得太緊。
在這個階段，建議大家多看一些源代碼分析博客和書籍，比如《Hadoop技術內幕》系列叢書（軒相關網站：Hadoop技術內幕）就是最好的參考資料。藉助這些博客和書籍，你可以在前人的幫助下，更快地學習hadoop源代碼，節省大量時間，注意，目前博客和書籍很多，建議大家廣泛收集資料，找出最適合自己的參考資料。
這個階段最終達到的目的，是對hadoop源代碼整體架構和局部的很多細節，有了一定的了解。比如你知道MapRece Scheler是怎樣實現的，MapRece shuffle過程中，map端做了哪些事情，rece端做了哪些事情，是如何實現的，等等。這個階段完成後，當你遇到問題或者困惑點時，可以迅速地在Hadoop源代碼中定位相關的類和具體的函數，通過閱讀源代碼解決問題，這時候，hadoop源代碼變成了你解決問題的參考書。
============
第三個階段：根據需求，修改源代碼。
這個階段，是驗證你閱讀源代碼成效的時候。你根據leader給你的需求，修改相關代碼完成功能模塊的開發。在修改源代碼過程中，你發現之前閱讀源代碼仍過於粗糙，這時候你再進一步深入閱讀相關代碼，彌補第二個階段中薄弱的部分。當然，很多人不需要經歷第三個階段，僅僅第二階段就夠了：一來能夠通過閱讀代碼解決自己長久以來的技術困惑，滿足自己的好奇心，二來從根源上解決解決自己遇到的各種問題。這個階段，沒有太多的參考書籍或者博客，多跟周圍的同事交流，通過代碼review和測試，證明自己的正確性。
============
閱讀hadoop源代碼的目的不一定非是工作的需要，你可以把他看成一種修養，通過閱讀hadoop源代碼，加深自己對分布式系統的理解，培養自己踏實做事的心態。

E. 如何通過eclipse查看，閱讀hadoop2.4源碼

1.導入查看hadoop源碼

(1)選擇Existing Projects into Workspace

(2)選擇源碼路徑

(3)查看源碼

這樣我們就完成了全部的內容。

2.閱讀hadoop源碼

其中比較常用的：

Open Call Hierarchy：

用Open Call
Hierarchy可以查看方法的調用層次。如果想知道一個方法在別的什麼地方被調用了，這個功能就很好用了，實際中也很常用，比如要重構一個方法時，想
知道他對其它什麼地方可能有影響，就可以用這個功能。在方法名上點擊右鍵，選擇Open Type
Hierarchy即可，快捷鍵是Ctrl+Alt+H。可以在Call Hierarchy窗口看到方法的調用層次的導航。

Open Type Hierarchy：

用Open Type Hierarchy可以查看類的繼承關系，可以在Hierarchy窗口看到繼承層次的導航。在方法或類名上點擊右鍵，選擇Open
Type Hierarchy即可，快捷鍵是F4。

介紹完畢，這里在介紹一些其他的跟蹤源碼的方法：

1、用Open Declaration可以查看類、方法和變數的聲明。這是最常用的一個功能了，如果在要追蹤的對象上點右鍵，選擇Open
Declaration，可以跳轉到其聲明的地方。這個功能有個快捷鍵是F3，當然你也可以按住Ctrl鍵，滑鼠移過去會變成一個小手，單擊就可以了。

2、用Open Super
Implemention可以查看當前方法在父類中的實現或介面中的聲明(前提是該方法是對父類或介面中相應方法的重寫)，在方法名上點擊右鍵，選擇Open Super
Implemention即可。

3、最後介紹一個超級好用的功能，叫Open
Implemention，就是可以跳轉到某個調用的方法的具體實現的地方去。為什麼說這個是超級好用呢?用過Spring的人都知道，現在都提倡面向接
口編程，所以，如果使用Open
Declaration來追蹤一個方法的調用的話，只會看到該方法在介面中的聲明，而看不該方法在具體類中的實現，當然，可以使用Call
Hierarchy先得到該方法的整個的調用層次，然後再導航到具體的實現處，但操作有些麻煩了。

有了Open Implemention，就可以直接看到實現的代碼了，在方法名上點擊右鍵，選擇Open
Implemention就可以了!只是要享受這個功能，可安裝一個Eclipse插件，這里就不在詳細介紹了。

F. 如何在hadoop2.5.2使用命令行編譯打包運行自己的maprece程序

網上的 MapRece WordCount 教程對於如何編譯 WordCount.java 幾乎是一筆帶過… 而有寫到的，大多又是 0.20 等舊版本版本的做法，即 javac -classpath /usr/local/Hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java，但較新的 2.X 版本中，已經沒有 hadoop-core*.jar 這個文件，因此編輯和打包自己的 MapRece 程序與舊版本有所不同。
本文以 Hadoop 2.7.2 環境下的 WordCount 實例來介紹 2.x 版本中如何編輯自己的 MapRece 程序。

編譯、打包 Hadoop MapRece 程序
我們將 Hadoop 的 classhpath 信息添加到 CLASSPATH 變數中，在 ~/.bashrc 中增加如下幾行：

[html] view plain
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

別忘了執行 source ~/.bashrc 使變數生效，接著就可以通過 javac 命令編譯 WordCount.java 了（使用的是 Hadoop 源碼中的 WordCount.java，源碼在文本最後面）：javac WordCount.java

編譯時會有警告，可以忽略。編譯後可以看到生成了幾個 .class 文件。

接著把 .class 文件打包成 jar，才能在 Hadoop 中運行：

[html] view plain
jar -cvf WordCount.jar ./WordCount*.class

開始運行：
[html] view plain
hadoop jar WordCount.jar WordCount input output//hdfs上的input文件夾，命令執行所在位置為WordCount.jar同一目錄

因為程序中聲明了
package ，所以在命令中也要 org.apache.hadoop.examples 寫完整：

[html] view plain
hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output

查看：
[html] view plain
hadoop fs -cat /output/part-r-00000
WordCount.java 源碼

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.maprece.Job;
import org.apache.hadoop.maprece.Mapper;
import org.apache.hadoop.maprece.Recer;
import org.apache.hadoop.maprece.lib.input.FileInputFormat;
import org.apache.hadoop.maprece.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumRecer
extends Recer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();

public void rece(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
Job job = new Job(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumRecer.class);
job.setRecerClass(IntSumRecer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

G. 怎麼對hadoop源碼進行優化

自己修改hadoop源碼，然後自己打包替換原來的包就可以了

H. hadoop的源代碼怎麼下載應該下載哪一個文件不知道選擇那個

根據你的系統和需求來下載
如果你的OS是Fedora ，是64位機的話，可以選擇下載後綴是amd64.rpm包，使用rpm命令安裝。
如果你的OS是Fedora ，是32位機的話，可以選擇下載後綴是i386.rpm包，使用rpm命令安裝。

如果你的OS是Debian或Ubuntu，是64位機的話，可以下載amd64.deb包。
如果你的OS是Debian或Ubuntu，是32位機的話，可以下載i386.deb包。

如果不確定的話，那麼下載tar.gz包，解壓縮到你想安裝的目錄（/usr/local/）即可，然後做環境配置。

I. hadoop hdfs 源碼怎麼看

在使用Hadoop的過程中，很容易通過FileSystem類的API來讀取HDFS中的文件內容，讀取內容的過程是怎樣的呢？今天來分析客戶端讀取HDFS文件的過程，下面的一個小程序完成的功能是讀取HDFS中某個目錄下的文件內容，然後輸出到控制台，代碼如下：

[java] view plain
public class LoadDataFromHDFS {
public static void main(String[] args) throws IOException {
new LoadDataFromHDFS().loadFromHdfs("hdfs://localhost:9000/user/wordcount/");
}

public void loadFromHdfs(String hdfsPath) throws IOException {
Configuration conf = new Configuration();

Path hdfs = new Path(hdfsPath);

FileSystem in = FileSystem.get(conf);
//in = FileSystem.get(URI.create(hdfsPath), conf);//這兩行都會創建一個DistributedFileSystem對象

FileStatus[] status = in.listStatus(hdfs);
for(int i = 0; i < status.length; i++) {
byte[] buff = new byte[1024];
FSDataInputStream inputStream = in.open(status[i].getPath());
while(inputStream.read(buff) > 0) {
System.out.print(new String(buff));
}
inputStream.close();
}
}
}

FileSystem in = FileSystem.get(conf)這行代碼創建一個DistributedFileSystem，如果直接傳入一個Configuration類型的參數，那麼默認會讀取屬性fs.default.name的值，根據這個屬性的值創建對應的FileSystem子類對象，如果沒有配置fs.default.name屬性的值，那麼默認創建一個org.apache.hadoop.fs.LocalFileSystem類型的對象。但是這里是要讀取HDFS中的文件，所以在core-site.xml文件中配置fs.default.name屬性的值為hdfs://localhost:9000，這樣FileSystem.get(conf)返回的才是一個DistributedFileSystem類的對象。還有一種創建DistributedFileSystem這種指定文件系統類型對像的方法是使用FileSystem.get(Configuration conf)的一個重載方法FileSystem.get(URI uri, Configuration)，其實調用第一個方法時在FileSystem類中先讀取conf中的屬性fs.default.name的值，再調用的FileSystem.get(URI uri, Configuration)方法。

閱讀全文

熱點內容

王者榮耀在哪裡顯示賬號密碼發布：2025-07-12 16:36:42 瀏覽：896

打包sql資料庫發布：2025-07-12 16:19:27 瀏覽：794

php日誌查看發布：2025-07-12 16:12:10 瀏覽：212

ftp目錄映射為本地盤符發布：2025-07-12 16:06:59 瀏覽：645

nas存儲百科發布：2025-07-12 16:03:17 瀏覽：126

python的sort函數發布：2025-07-12 15:53:21 瀏覽：50

ensp伺服器怎麼設置web根目錄發布：2025-07-12 15:47:56 瀏覽：286

安卓怎麼設置二卡發信息發布：2025-07-12 15:43:50 瀏覽：743

如何看到無線密碼發布：2025-07-12 15:43:13 瀏覽：677

好網址可緩存發布：2025-07-12 15:36:07 瀏覽：254

hadoop252源碼

與hadoop252源碼相關的資訊