hadoop源碼閱讀

發布時間: 2022-06-07 18:47:53

A. hadoop搭建完全分布式完成，可是不會用

1、能搭好環境說明水平還不錯。
2、下邊應該分以下幾步走：
一，依據示常式序，自己手寫wordcount之類的示常式序，以此充分了解m/r和hdfs的簡單原理。
二，針對某些知識點，如hadoop應用場景、hadoop的簡單應用等，去網路一下搞定，這樣的問題最關鍵、最需要做的。
三，深入閱讀hadoop的源碼，把框架的數據流或說工作流搞個大致清楚。
四，試著用hadoop解決一些實際問題和項目應用。
參考下吧。

B. 如何把hadoop源碼關聯到eclipse工程中

操作步驟如下：

1、解壓源碼

首先，在windows下使用winRar把hadoop-1.0.4.tar.gz解壓，如圖所示：

C. hadoop 源代碼從哪裡可以找到啊怎麼下載，說詳細一點謝謝

你可以用SVN軟體在這里同步到最新的代碼：
http://svn.apache.org/repos/asf/hadoop
其實你同步你研究領域的分支就可以了，全同步實在太大了。
SVN軟體可以用Tortoise SVN，使用方法一下就可以了。
當然也可以到cloudera或Yahoo!的hadoop官網的download鏈接去下載。

D. hadoop hdfs 源碼怎麼看

在使用Hadoop的過程中，很容易通過FileSystem類的API來讀取HDFS中的文件內容，讀取內容的過程是怎樣的呢？今天來分析客戶端讀取HDFS文件的過程，下面的一個小程序完成的功能是讀取HDFS中某個目錄下的文件內容，然後輸出到控制台，代碼如下：

[java] view plain
public class LoadDataFromHDFS {
public static void main(String[] args) throws IOException {
new LoadDataFromHDFS().loadFromHdfs("hdfs://localhost:9000/user/wordcount/");
}

public void loadFromHdfs(String hdfsPath) throws IOException {
Configuration conf = new Configuration();

Path hdfs = new Path(hdfsPath);

FileSystem in = FileSystem.get(conf);
//in = FileSystem.get(URI.create(hdfsPath), conf);//這兩行都會創建一個DistributedFileSystem對象

FileStatus[] status = in.listStatus(hdfs);
for(int i = 0; i < status.length; i++) {
byte[] buff = new byte[1024];
FSDataInputStream inputStream = in.open(status[i].getPath());
while(inputStream.read(buff) > 0) {
System.out.print(new String(buff));
}
inputStream.close();
}
}
}

FileSystem in = FileSystem.get(conf)這行代碼創建一個DistributedFileSystem，如果直接傳入一個Configuration類型的參數，那麼默認會讀取屬性fs.default.name的值，根據這個屬性的值創建對應的FileSystem子類對象，如果沒有配置fs.default.name屬性的值，那麼默認創建一個org.apache.hadoop.fs.LocalFileSystem類型的對象。但是這里是要讀取HDFS中的文件，所以在core-site.xml文件中配置fs.default.name屬性的值為hdfs://localhost:9000，這樣FileSystem.get(conf)返回的才是一個DistributedFileSystem類的對象。還有一種創建DistributedFileSystem這種指定文件系統類型對像的方法是使用FileSystem.get(Configuration conf)的一個重載方法FileSystem.get(URI uri, Configuration)，其實調用第一個方法時在FileSystem類中先讀取conf中的屬性fs.default.name的值，再調用的FileSystem.get(URI uri, Configuration)方法。

E. Hadoop入門需要哪些知識

如果是掌握hadoop的使用，java基礎好就可以，看看hadoop權威指南。
想深入學習源碼的話，就需要些網路編程的知識了。

大講台國內首個it在線自適應學習平台。中國的knewton，世界的自適應學習，網路「大講台」。
具體步驟：
1.選擇一個Hadoop的版本，然後閱讀文檔了解Hadoop：What's Hadoop, Why Hadoop exists；
2.安裝Hadoop，三種方式都試下；
3.在Hadoop文檔裡面有Hadoop Command的資料，I.hdfs command，盡量試試這兩方面的命令；
4.Hadoop Files，看看Hadoop文件的概念，關注它的分布式特點，然後看Rece函數輸出文件；
5.自己寫WordCount與Advanced WordCount；
6.寫Sort程序；
7.使用RandomTextWriter；
8.模仿SequenceFileInputFormat、SequenceFileOutputFormat、寫自己的；
9.yahoo有一個Hadoop的教程，英文版的，裡面的內容很好；
10.《hadoop權威指南》當參考書，自己就可以實戰了！

F. hadoop yarn源碼怎麼進行修改

第一個階段：學習hadoop基本使用和基本原理，從應用角度對hadoop進行了解和學習
這是第一個階段，你開始嘗試使用hadoop，從應用層面，對hadoop有一定了解，比如你可以使用hadoop shell對hdfs進行操作，使用hdfs API編寫一些程序上傳，下載文件；使用MapRece API編寫一個數據處理程序。一旦你對hadoop的基本使用方法比較熟悉了，接下來可以嘗試了解它的內部原理，注意，不需要通過閱讀源代碼了解內部原理，只需看一些博客，書籍，比如《Hadoop權威指南》，對於HDFS而言，你應該知道它的基本架構以及各個模塊的功能；對於MapRece而言，你應該知道其具體的工作流程，知道partition，shuffle，sort等工作原理，可以自己在紙上完整個畫完maprece的流程，越詳細越好。
在這個階段，建議你多看一些知名博客，多讀讀《hadoop權威指南》（可選擇性看相關的幾章）。如果你有實際項目驅動，那是再好不過了，理論聯系實際是最好的hadoop學習方法；如果你沒有項目驅動，那建議你不要自己一個人悶頭學，多跟別人交流，多主動給別人講講，最好的學習方式還是「講給別人聽」。
============
第二個階段：從無到入門，開始閱讀hadoop源代碼
這個階段是最困苦和漫長的，尤其對於那些沒有任何分布式經驗的人。很多人這個階段沒有走完，就放棄了，最後停留在hadoop應用層面。
這個階段，第一件要做的事情是，選擇一個hadoop組件。如果你對分布式存儲感興趣，那麼你可以選擇HDFS，如果你讀分布式計算感興趣，你可以選擇MapRece，如果你對資源管理系統感興趣，你可以選擇YARN。
選擇好系統後，接下來的經歷是最困苦的。當你把hadoop源代碼導入eclipse或intellij idea，沏上一杯茶，開始准備優哉游哉地看hadoop源代碼時，你懵逼了：你展開那數不盡的package和class，覺得無從下手，好不容易找到了入口點，然後你屁顛屁顛地通過eclipse的查找引用功能，順著類的調用關系一層層找下去，最後迷失在了代碼的海洋中，如同你在不盡的壓棧，最後棧溢出了，你忘記在最初的位置。很多人經歷過上面的過程，最後沒有順利逃出來，而放棄。
如果你正在經歷這個過程，我的經驗如下：首先，你要摸清hadoop的代碼模塊，知道client，master，slave各自對應的模塊（hadoop中核心系統都是master/slave架構，非常類似），並在閱讀源代碼過程中，時刻謹記你當前閱讀的代碼屬於哪一個模塊，會在哪個組件中執行；之後你需要摸清各個組件的交互協議，也就是分布式中的RPC，這是hadoop自己實現的，你需要對hadoop RPC的使用方式有所了解，然後看各模塊間的RPC protocol，到此，你把握了系統的骨架，這是接下來閱讀源代碼的基礎；接著，你要選擇一個模塊開始閱讀，我一般會選擇Client，這個模塊相對簡單些，會給自己增加信心，為了在閱讀代碼過程中，不至於迷失自己，建議在紙上畫出類的調用關系，邊看邊畫，我記得我閱讀hadoop源代碼時，花了一疊紙。注意，看源代碼過程中，很容易煩躁不安，建議經常起來走走，不要把自己逼得太緊。
在這個階段，建議大家多看一些源代碼分析博客和書籍，比如《Hadoop技術內幕》系列叢書（軒相關網站：Hadoop技術內幕）就是最好的參考資料。藉助這些博客和書籍，你可以在前人的幫助下，更快地學習hadoop源代碼，節省大量時間，注意，目前博客和書籍很多，建議大家廣泛收集資料，找出最適合自己的參考資料。
這個階段最終達到的目的，是對hadoop源代碼整體架構和局部的很多細節，有了一定的了解。比如你知道MapRece Scheler是怎樣實現的，MapRece shuffle過程中，map端做了哪些事情，rece端做了哪些事情，是如何實現的，等等。這個階段完成後，當你遇到問題或者困惑點時，可以迅速地在Hadoop源代碼中定位相關的類和具體的函數，通過閱讀源代碼解決問題，這時候，hadoop源代碼變成了你解決問題的參考書。
============
第三個階段：根據需求，修改源代碼。
這個階段，是驗證你閱讀源代碼成效的時候。你根據leader給你的需求，修改相關代碼完成功能模塊的開發。在修改源代碼過程中，你發現之前閱讀源代碼仍過於粗糙，這時候你再進一步深入閱讀相關代碼，彌補第二個階段中薄弱的部分。當然，很多人不需要經歷第三個階段，僅僅第二階段就夠了：一來能夠通過閱讀代碼解決自己長久以來的技術困惑，滿足自己的好奇心，二來從根源上解決解決自己遇到的各種問題。這個階段，沒有太多的參考書籍或者博客，多跟周圍的同事交流，通過代碼review和測試，證明自己的正確性。
============
閱讀hadoop源代碼的目的不一定非是工作的需要，你可以把他看成一種修養，通過閱讀hadoop源代碼，加深自己對分布式系統的理解，培養自己踏實做事的心態。

G. Hadoop 請教學習順序

雖然從事Hadoop方面工作，但是不是高手，畢竟只有一年經歷而已。
分享下本人的學習經歷吧。
了解Hadoop運行機制，可以學習Hadoop權威指南或者Hadoop實戰；
了解Hadoop運行流程，看懂HADOOP_HOME/bin/下面主要執行腳本。
查看core-default.xml/hdfs-default.xml/mapred-default.xml等默認配置
文件，及core-site.xml/hdfs-site.xml/mapred-site.xml等相關文件，學會
如何進行參數優化，以及掌握如何配置讀取壓縮文件，默認的gzip，及
自定義的lzo，學會自定義Combiner/Patitioner等，掌握各種輸入輸出
格式的區別及應用場景，學會自定義輸入輸出格式，其次學習MapRece演算法，
比如In-Map-Combing，相對頻度計算，Pairs演算法，Strips演算法等。掌握好
maprece編程。
在這其中，需要好好閱讀HADOOP_HOME/src/目錄下的Hadoop源碼，
這個就是開源最大的好處。說的比較亂，但是就湊合著借鑒下吧

H. CDH版的hadoop有沒有源碼提供

首先，不得不說，hadoop發展到現在這個階段，代碼已經變得非常龐大臃腫，如果你直接閱讀最新版本的源代碼，難度比較大，需要足夠的耐心和時間，所以，如果你覺得認真一次，認真閱讀一次hadoop源代碼，一定要有足夠的心理准備和時間預期。其次，需要注意，閱讀Hadoop源代碼的效率，因人而異，如果你有足夠的分布式系統知識儲備，看過類似的系統，則能夠很快地讀它的源代碼進行通讀，並快速切入你最關注的局部細節，比如你之前看過某個分布式資料庫的源代碼，對分布式系統的網路通信模塊，調度模塊等有一定了解，這對閱讀hadoop源代碼有極大幫助；如果你是一個初學者，對hadoop一無所知，只了解一些java語法，那閱讀hadoop源代碼是極具挑戰的一件事情，尤其是從無到開始入門的過程，是極度煎熬和困惑的，這時候需要你在閱讀代碼過程中，不斷補充缺乏的相關知識（比如RPC，NIO，設計模式等），循序漸進，直到入門。接下來進入主題，說一下閱讀源代碼的個人經驗。由於我也是從無到入門，再到修改源代碼，逐步過渡的，所以，對於很多人而言，具有借鑒意義。 ============ 第一個階段：學習hadoop基本使用和基本原理，從應用角度對hadoop進行了解和學習這是第一個階段，你開始嘗試使用hadoop，從應用層面，對hadoop有一定了解，比如你可以使用hadoop shell對hdfs進行操作，使用hdfs API編寫一些程序上傳，下載文件；使用MapRece API編寫一個數據處理程序。一旦你對hadoop的基本使用方法比較熟悉了，接下來可以嘗試了解它的內部原理，注意，不需要通過閱讀源代碼了解內部原理，只需看一些博客，書籍，比如《Hadoop權威指南》，對於HDFS而言，你應該知道它的基本架構以及各個模塊的功能；對於MapRece而言，你應該知道其具體的工作流程，知道partition，shuffle，sort等工作原理，可以自己在紙上完整個畫完maprece的流程，越詳細越好。在這個階段，建議你多看一些知名博客，多讀讀《hadoop權威指南》（可選擇性看相關的幾章）。如果你有實際項目驅動，那是再好不過了，理論聯系實際是最好的hadoop學習方法；如果你沒有項目驅動，那建議你不要自己一個人悶頭學，多跟別人交流，多主動給別人講講，最好的學習方式還是「講給別人聽」。 ============ 第二個階段：從無到入門，開始閱讀hadoop源代碼這個階段是最困苦和漫長的，尤其對於那些沒有任何分布式經驗的人。很多人這個階段沒有走完，就放棄了，最後停留在hadoop應用層面。這個階段，第一件要做的事情是，選擇一個hadoop組件。如果你對分布式存儲感興趣，那麼你可以選擇HDFS，如果你讀分布式計算感興趣，你可以選擇MapRece，如果你對資源管理系統感興趣，你可以選擇YARN。選擇好系統後，接下來的經歷是最困苦的。當你把hadoop源代碼導入eclipse或intellij idea，沏上一杯茶，開始准備優哉游哉地看hadoop源代碼時，你懵逼了：你展開那數不盡的package和class，覺得無從下手，好不容易找到了入口點，然後你屁顛屁顛地通過eclipse的查找引用功能，順著類的調用關系一層層找下去，最後迷失在了代碼的海洋中，如同你在不盡的壓棧，最後棧溢出了，你忘記在最初的位置。很多人經歷過上面的過程，最後沒有順利逃出來，而放棄。如果你正在經歷這個過程，我的經驗如下：首先，你要摸清hadoop的代碼模塊，知道client，master，slave各自對應的模塊（hadoop中核心系統都是master/slave架構，非常類似），並在閱讀源代碼過程中，時刻謹記你當前閱讀的代碼屬於哪一個模塊，會在哪個組件中執行；之後你需要摸清各個組件的交互協議，也就是分布式中的RPC，這是hadoop自己實現的，你需要對hadoop RPC的使用方式有所了解，然後看各模塊間的RPC protocol，到此，你把握了系統的骨架，這是接下來閱讀源代碼的基礎；接著，你要選擇一個模塊開始閱讀，我一般會選擇Client，這個模塊相對簡單些，會給自己增加信心，為了在閱讀代碼過程中，不至於迷失自己，建議在紙上畫出類的調用關系，邊看邊畫，我記得我閱讀hadoop源代碼時，花了一疊紙。注意，看源代碼過程中，很容易煩躁不安，建議經常起來走走，不要把自己逼得太緊。在這個階段，建議大家多看一些源代碼分析博客和書籍，比如《Hadoop技術內幕》系列叢書（軒相關網站：Hadoop技術內幕）就是最好的參考資料。藉助這些博客和書籍，你可以在前人的幫助下，更快地學習hadoop源代碼，節省大量時間，注意，目前博客和書籍很多，建議大家廣泛收集資料，找出最適合自己的參考資料。這個階段最終達到的目的，是對hadoop源代碼整體架構和局部的很多細節，有了一定的了解。比如你知道MapRece Scheler是怎樣實現的，MapRece shuffle過程中，map端做了哪些事情，rece端做了哪些事情，是如何實現的，等等。這個階段完成後，當你遇到問題或者困惑點時，可以迅速地在Hadoop源代碼中定位相關的類和具體的函數，通過閱讀源代碼解決問題，這時候，hadoop源代碼變成了你解決問題的參考書

I. 怎麼使用eclipse編譯hadoop源碼

使用eclipse編譯hadoop源碼

1，建立一個Hadoop源碼文件夾。
2、svn 檢出hadoop1.0.4的源碼。svn checkout http://svn.apache.org/repos/asf/hadoop/common/tags/release-1.0.4
注意：如果在ubuntu下直接上面語句報錯，可能需要執行下面的語句
sudo apt-get install autoconf
sudo apt-get install libtool
3、在檢出完成後的目錄下執行
ant eclipse.然後將源碼導入到eclipse中。
4、修改 release-1.0.4/src/contrib/gridmix/src/Java/org/apache/hadoop/mapred/gridmix/Gridmix.java
將兩處的 Enum<? extends T> 改成 Enum<?>

5、編譯器設置及編譯。
右擊工程名，Properties-->Builders-->New--->Ant Builder
New_Builder --> Edit: Name: hadoop-Builder.Main:Builderfile(builder.xml的位置)：/home/nacey/workspace/source-workspace/hadoop-1.0.4;Targets—>Manual Build: jar
然後選擇菜單Project-->Build Project

在/home/nacey/workspace/source-workspace/hadoop-1.0.4/build文件夾下會生成三個開發 jar 包:

hadoop-client-1.0.4-SNAPSHOT.jar
hadoop-core-1.0.4-SNAPSHOT.jar
hadoop-minicluster-1.0.4-SNAPSHOT.jar

去掉"-SNAPSHOT"即可替換hadoop-1.0.4 下的同名 jar 包.

注意如果要在集群中使用自己編譯的jar，則需要替換集群中的所有機器。不然會出現版本不匹配。

J. 如何在eclipse里方便的讀hadoop源碼

導入查看hadoop源碼（1）選擇Existing Projects into Workspace （2）選擇源碼路徑（3）查看源碼這樣就完成了全部的內容。
閱讀hadoop源碼其中比較常用的Open Call Hierarchy：用Open Call Hierarchy可以查看方法的調用層次。

閱讀全文

熱點內容

sql修復語句發布：2025-01-09 23:41:36 瀏覽：61

電腦中dns伺服器發布：2025-01-09 23:30:12 瀏覽：700

解放資料庫發布：2025-01-09 23:28:52 瀏覽：366

融資租賃演算法發布：2025-01-09 23:28:47 瀏覽：826

長安t最新配置怎麼開發布：2025-01-09 23:28:45 瀏覽：146

群暉腳本圖片發布：2025-01-09 23:27:56 瀏覽：311

android開發發展發布：2025-01-09 23:15:36 瀏覽：283

sw裝配體怎麼選擇零件配置發布：2025-01-09 23:13:17 瀏覽：209

如何進入華為的伺服器發布：2025-01-09 23:11:37 瀏覽：854

安卓日歷每月提醒怎麼設置發布：2025-01-09 23:07:53 瀏覽：390

hadoop源碼閱讀

與hadoop源碼閱讀相關的資訊