當前位置:首頁 » 操作系統 » hadoop源碼導入idea

hadoop源碼導入idea

發布時間: 2022-08-07 19:21:16

1. 如何將hadoop源碼導入intellj idea

(1)准備工作 1) 安裝JDK 6或者JDK 7 2) 安裝scala 2.10.x (注意版本) 2)下載Intellij IDEA最新版(本文以IntelliJ IDEA Community Edition 13.1.1為例說明,不同版本,界面布局可能不同)

2. intellij idea 怎麼集成hadoop

同求!同求!同求!同求!同求!同求!同求!同求!

3. idea 怎麼導入hadoop架包

我們在項目目錄下面創建一個input文件夾,在文件夾中創建一個文件,然後在文件中隨意輸入一些字元串,保存,然後運行剛剛新建的Application,等待運行完成會發現項目目錄下多了一個output文件夾,打開裡面的『part-r-00000』文件就會發現裡面是對你輸入字元串的出現個數的統計。

當你第二次運行的時候因為hadoop不會自動刪除output目錄所以可能會出現錯誤,請手動刪除之後再運行。
這樣就可以使用intellij來開發hadoop程序並進行調試了。

4. hadoop yarn源碼怎麼進行修改

第一個階段:學習hadoop基本使用和基本原理,從應用角度對hadoop進行了解和學習
這是第一個階段,你開始嘗試使用hadoop,從應用層面,對hadoop有一定了解,比如你可以使用hadoop shell對hdfs進行操作,使用hdfs API編寫一些程序上傳,下載文件;使用MapRece API編寫一個數據處理程序。一旦你對hadoop的基本使用方法比較熟悉了,接下來可以嘗試了解它的內部原理,注意,不需要通過閱讀源代碼了解內部原理,只需看一些博客,書籍,比如《Hadoop權威指南》,對於HDFS而言,你應該知道它的基本架構以及各個模塊的功能;對於MapRece而言,你應該知道其具體的工作流程,知道partition,shuffle,sort等工作原理,可以自己在紙上完整個畫完maprece的流程,越詳細越好。
在這個階段,建議你多看一些知名博客,多讀讀《hadoop權威指南》(可選擇性看相關的幾章)。如果你有實際項目驅動,那是再好不過了,理論聯系實際是最好的hadoop學習方法;如果你沒有項目驅動,那建議你不要自己一個人悶頭學,多跟別人交流,多主動給別人講講,最好的學習方式還是「講給別人聽」。
============
第二個階段:從無到入門,開始閱讀hadoop源代碼
這個階段是最困苦和漫長的,尤其對於那些沒有任何分布式經驗的人。 很多人這個階段沒有走完,就放棄了,最後停留在hadoop應用層面。
這個階段,第一件要做的事情是,選擇一個hadoop組件。如果你對分布式存儲感興趣,那麼你可以選擇HDFS,如果你讀分布式計算感興趣,你可以選擇MapRece,如果你對資源管理系統感興趣,你可以選擇YARN。
選擇好系統後,接下來的經歷是最困苦的。當你把hadoop源代碼導入eclipse或intellij idea,沏上一杯茶,開始准備優哉游哉地看hadoop源代碼時,你懵逼了:你展開那數不盡的package和class,覺得無從下手,好不容易找到了入口點,然後你屁顛屁顛地通過eclipse的查找引用功能,順著類的調用關系一層層找下去,最後迷失在了代碼的海洋中,如同你在不盡的壓棧,最後棧溢出了,你忘記在最初的位置。很多人經歷過上面的過程,最後沒有順利逃出來,而放棄。
如果你正在經歷這個過程,我的經驗如下:首先,你要摸清hadoop的代碼模塊,知道client,master,slave各自對應的模塊(hadoop中核心系統都是master/slave架構,非常類似),並在閱讀源代碼過程中,時刻謹記你當前閱讀的代碼屬於哪一個模塊,會在哪個組件中執行;之後你需要摸清各個組件的交互協議,也就是分布式中的RPC,這是hadoop自己實現的,你需要對hadoop RPC的使用方式有所了解,然後看各模塊間的RPC protocol,到此,你把握了系統的骨架,這是接下來閱讀源代碼的基礎;接著,你要選擇一個模塊開始閱讀,我一般會選擇Client,這個模塊相對簡單些,會給自己增加信心,為了在閱讀代碼過程中,不至於迷失自己,建議在紙上畫出類的調用關系,邊看邊畫,我記得我閱讀hadoop源代碼時,花了一疊紙。注意,看源代碼過程中,很容易煩躁不安,建議經常起來走走,不要把自己逼得太緊。
在這個階段,建議大家多看一些源代碼分析博客和書籍,比如《Hadoop技術內幕》系列叢書(軒相關網站:Hadoop技術內幕)就是最好的參考資料。藉助這些博客和書籍,你可以在前人的幫助下,更快地學習hadoop源代碼,節省大量時間,注意,目前博客和書籍很多,建議大家廣泛收集資料,找出最適合自己的參考資料。
這個階段最終達到的目的,是對hadoop源代碼整體架構和局部的很多細節,有了一定的了解。比如你知道MapRece Scheler是怎樣實現的,MapRece shuffle過程中,map端做了哪些事情,rece端做了哪些事情,是如何實現的,等等。這個階段完成後,當你遇到問題或者困惑點時,可以迅速地在Hadoop源代碼中定位相關的類和具體的函數,通過閱讀源代碼解決問題,這時候,hadoop源代碼變成了你解決問題的參考書。
============
第三個階段:根據需求,修改源代碼。
這個階段,是驗證你閱讀源代碼成效的時候。你根據leader給你的需求,修改相關代碼完成功能模塊的開發。在修改源代碼過程中,你發現之前閱讀源代碼仍過於粗糙,這時候你再進一步深入閱讀相關代碼,彌補第二個階段中薄弱的部分。當然,很多人不需要經歷第三個階段,僅僅第二階段就夠了:一來能夠通過閱讀代碼解決自己長久以來的技術困惑,滿足自己的好奇心,二來從根源上解決解決自己遇到的各種問題。 這個階段,沒有太多的參考書籍或者博客,多跟周圍的同事交流,通過代碼review和測試,證明自己的正確性。
============
閱讀hadoop源代碼的目的不一定非是工作的需要,你可以把他看成一種修養,通過閱讀hadoop源代碼,加深自己對分布式系統的理解,培養自己踏實做事的心態。

5. 如何使用idea開發hadoop程序

(1)准備工作
1) 安裝JDK 6或者JDK 7
2) 安裝scala 2.10.x (注意版本)
2)下載Intellij IDEA最新版(本文以IntelliJ IDEA Community Edition 13.1.1為例說明,不同版本,界面布局可能不同):
3)將下載的Intellij IDEA解壓後,安裝scala插件,流程如下:
依次選擇「Configure」–> 「Plugins」–> 「Browse repositories」,輸入scala,然後安裝即可

(2)搭建Spark源碼閱讀環境(需要聯網)
一種方法是直接依次選擇「import project」–> 選擇spark所在目錄 –> 「SBT」,之後intellij會自動識別SBT文件,並下載依賴的外部jar包,整個流程用時非常長,取決於機器的網路環境(不建議在windows下操作,可能遇到各種問題),一般需花費幾十分鍾到幾個小時。注意,下載過程會用到git,因此應該事先安裝了git。
第二種方法是首先在linux操作系統上生成intellij項目文件,然後在intellij IDEA中直接通過「Open Project」打開項目即可。在linux上生成intellij項目文件的方法(需要安裝git,不需要安裝scala,sbt會自動下載)是:在spark源代碼根目錄下,輸入sbt/sbt gen-idea
註:如果你在windows下閱讀源代碼,建議先在linux下生成項目文件,然後導入到windows中的intellij IDEA中。

6. 如何把hadoop源碼關聯到eclipse工程中

操作步驟如下:

1、解壓源碼

首先,在windows下使用winRar把hadoop-1.0.4.tar.gz解壓,如圖所示:

7. 如何用idea能不能遠程連接hadoop

一、准備工作
1.1 在win7中,找一個目錄,解壓hadoop-2.6.0,本文中是D:\yangjm\Code\study\hadoop\hadoop-2.6.0 (以下用$HADOOP_HOME表示)
1.2 在win7中添加幾個環境變數
HADOOP_HOME=D:\yangjm\Code\study\hadoop\hadoop-2.6.0
HADOOP_BIN_PATH=%HADOOP_HOME%\bin
HADOOP_PREFIX=D:\yangjm\Code\study\hadoop\hadoop-2.6.0
另外,PATH變數在最後追加;%HADOOP_HOME%\bin
二、eclipse遠程調試
1.1 下載hadoop-eclipse-plugin插件
hadoop-eclipse-plugin是一個專門用於eclipse的hadoop插件,可以直接在IDE環境中查看hdfs的目錄和文件內容。其源代碼託管於github上,官網地址是 https://github.com/winghc/hadoop2x-eclipse-plugin
有興趣的可以自己下載源碼編譯,網路一下N多文章,但如果只是使用 https://github.com/winghc/hadoop2x-eclipse-plugin/tree/master/release%20 這里已經提供了各種編譯好的版本,直接用就行,將下載後的hadoop-eclipse-plugin-2.6.0.jar復制到eclipse/plugins目錄下,然後重啟eclipse就完事了
1.2 下載windows64位平台的hadoop2.6插件包(hadoop.dll,winutils.exe)
在hadoop2.6.0源碼的hadoop-common-project\hadoop-common\src\main\winutils下,有一個vs.net工程,編譯這個工程可以得到這一堆文件,輸出的文件中,
hadoop.dll、winutils.exe 這二個最有用,將winutils.exe復制到$HADOOP_HOME\bin目錄,將hadoop.dll復制到%windir%\system32目錄 (主要是防止插件報各種莫名錯誤,比如空對象引用啥的)
註:如果不想編譯,可直接下載編譯好的文件 hadoop2.6(x64)V0.2.zip
1.3 配置hadoop-eclipse-plugin插件
啟動eclipse,windows->show view->other

window->preferences->hadoop map/rece 指定win7上的hadoop根目錄(即:$HADOOP_HOME)

然後在Map/Rece Locations 面板中,點擊小象圖標

添加一個Location

這個界麵灰常重要,解釋一下幾個參數:
Location name 這里就是起個名字,隨便起
Map/Rece(V2) Master Host 這里就是虛擬機里hadoop master對應的IP地址,下面的埠對應 hdfs-site.xml里dfs.datanode.ipc.address屬性所指定的埠
DFS Master Port: 這里的埠,對應core-site.xml里fs.defaultFS所指定的埠
最後的user name要跟虛擬機里運行hadoop的用戶名一致,我是用hadoop身份安裝運行hadoop 2.6.0的,所以這里填寫hadoop,如果你是用root安裝的,相應的改成root
這些參數指定好以後,點擊Finish,eclipse就知道如何去連接hadoop了,一切順利的話,在Project Explorer面板中,就能看到hdfs里的目錄和文件了

可以在文件上右擊,選擇刪除試下,通常第一次是不成功的,會提示一堆東西,大意是許可權不足之類,原因是當前的win7登錄用戶不是虛擬機里hadoop的運行用戶,解決辦法有很多,比如你可以在win7上新建一個hadoop的管理員用戶,然後切換成hadoop登錄win7,再使用eclipse開發,但是這樣太煩,最簡單的辦法:
hdfs-site.xml里添加
1 <property>
2 <name>dfs.permissions</name>
3 <value>false</value>
4 </property>

然後在虛擬機里,運行hadoop dfsadmin -safemode leave
保險起見,再來一個 hadoop fs -chmod 777 /
總而言之,就是徹底把hadoop的安全檢測關掉(學習階段不需要這些,正式生產上時,不要這么干),最後重啟hadoop,再到eclipse里,重復剛才的刪除文件操作試下,應該可以了。
1.4 創建WoldCount示例項目
新建一個項目,選擇Map/Rece Project

後面的Next就行了,然後放一上WodCount.java,代碼如下:
View Code
然後再放一個log4j.properties,內容如下:(為了方便運行起來後,查看各種輸出)
View Code
最終的目錄結構如下:

然後可以Run了,當然是不會成功的,因為沒給WordCount輸入參數,參考下圖:
1.5 設置運行參數

因為WordCount是輸入一個文件用於統計單詞字,然後輸出到另一個文件夾下,所以給二個參數,參考上圖,在Program arguments里,輸入
hdfs://172.28.20.xxx:9000/jimmy/input/README.txt
hdfs://172.28.20.xxx:9000/jimmy/output/
大家參考這個改一下(主要是把IP換成自己虛擬機里的IP),注意的是,如果input/READM.txt文件沒有,請先手動上傳,然後/output/ 必須是不存在的,否則程序運行到最後,發現目標目錄存在,也會報錯,這個弄完後,可以在適當的位置打個斷點,終於可以調試了:

三、intellij idea 遠程調試hadoop
3.1 創建一個maven的WordCount項目
pom文件如下:
View Code
項目結構如下:

項目上右擊-》Open Mole Settings 或按F12,打開模塊屬性

添加依賴的Libary引用

然後把$HADOOP_HOME下的對應包全導進來

導入的libary可以起個名稱,比如hadoop2.6

3.2 設置運行參數

注意二個地方:
1是Program aguments,這里跟eclipes類似的做法,指定輸入文件和輸出文件夾
2是Working Directory,即工作目錄,指定為$HADOOP_HOME所在目錄
然後就可以調試了

intellij下唯一不爽的,由於沒有類似eclipse的hadoop插件,每次運行完wordcount,下次再要運行時,只能手動命令行刪除output目錄,再行調試。為了解決這個問題,可以將WordCount代碼改進一下,在運行前先刪除output目錄,見下面的代碼:
View Code
但是光這樣還不夠,在IDE環境中運行時,IDE需要知道去連哪一個hdfs實例(就好象在db開發中,需要在配置xml中指定DataSource一樣的道理),將$HADOOP_HOME\etc\hadoop下的core-site.xml,復制到resouces目錄下,類似下面這樣:

裡面的內容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://172.28.20.***:9000</value>
</property>
</configuration>

上面的IP換成虛擬機里的IP即可

8. 如何將spark源代碼導入到idea 14的工程中

你好。 IntelliJ IDEA 13已經不需要事先sbt gen-idea了,直接打開源碼目錄,IntelliJ會自動識別SBT項目並導入。不過我一般還是習慣先sbt gen-idea一下。 不是搞spark源碼閱讀的話,直接下載二進制吧,里邊有spark-assembly-1.0.1-hadoop2.2.0.ja...

9. CDH版的hadoop有沒有源碼提供

首先,不得不說,hadoop發展到現在這個階段,代碼已經變得非常龐大臃腫,如果你直接閱讀最新版本的源代碼,難度比較大,需要足夠的耐心和時間,所以,如果你覺得認真一次,認真閱讀一次hadoop源代碼,一定要有足夠的心理准備和時間預期。 其次,需要注意,閱讀Hadoop源代碼的效率,因人而異,如果你有足夠的分布式系統知識儲備,看過類似的系統,則能夠很快地讀它的源代碼進行通讀,並快速切入你最關注的局部細節,比如你之前看過某個分布式資料庫的源代碼,對分布式系統的網路通信模塊,調度模塊等有一定了解,這對閱讀hadoop源代碼有極大幫助;如果你是一個初學者,對hadoop一無所知,只了解一些java語法,那閱讀hadoop源代碼是極具挑戰的一件事情,尤其是從無到開始入門的過程,是極度煎熬和困惑的,這時候需要你在閱讀代碼過程中,不斷補充缺乏的相關知識(比如RPC,NIO,設計模式等),循序漸進,直到入門。 接下來進入主題,說一下閱讀源代碼的個人經驗。由於我也是從無到入門,再到修改源代碼,逐步過渡的,所以,對於很多人而言,具有借鑒意義。 ============ 第一個階段:學習hadoop基本使用和基本原理,從應用角度對hadoop進行了解和學習 這是第一個階段,你開始嘗試使用hadoop,從應用層面,對hadoop有一定了解,比如你可以使用hadoop shell對hdfs進行操作,使用hdfs API編寫一些程序上傳,下載文件;使用MapRece API編寫一個數據處理程序。一旦你對hadoop的基本使用方法比較熟悉了,接下來可以嘗試了解它的內部原理,注意,不需要通過閱讀源代碼了解內部原理,只需看一些博客,書籍,比如《Hadoop權威指南》,對於HDFS而言,你應該知道它的基本架構以及各個模塊的功能;對於MapRece而言,你應該知道其具體的工作流程,知道partition,shuffle,sort等工作原理,可以自己在紙上完整個畫完maprece的流程,越詳細越好。 在這個階段,建議你多看一些知名博客,多讀讀《hadoop權威指南》(可選擇性看相關的幾章)。如果你有實際項目驅動,那是再好不過了,理論聯系實際是最好的hadoop學習方法;如果你沒有項目驅動,那建議你不要自己一個人悶頭學,多跟別人交流,多主動給別人講講,最好的學習方式還是「講給別人聽」。 ============ 第二個階段:從無到入門,開始閱讀hadoop源代碼 這個階段是最困苦和漫長的,尤其對於那些沒有任何分布式經驗的人。 很多人這個階段沒有走完,就放棄了,最後停留在hadoop應用層面。 這個階段,第一件要做的事情是,選擇一個hadoop組件。如果你對分布式存儲感興趣,那麼你可以選擇HDFS,如果你讀分布式計算感興趣,你可以選擇MapRece,如果你對資源管理系統感興趣,你可以選擇YARN。 選擇好系統後,接下來的經歷是最困苦的。當你把hadoop源代碼導入eclipse或intellij idea,沏上一杯茶,開始准備優哉游哉地看hadoop源代碼時,你懵逼了:你展開那數不盡的package和class,覺得無從下手,好不容易找到了入口點,然後你屁顛屁顛地通過eclipse的查找引用功能,順著類的調用關系一層層找下去,最後迷失在了代碼的海洋中,如同你在不盡的壓棧,最後棧溢出了,你忘記在最初的位置。很多人經歷過上面的過程,最後沒有順利逃出來,而放棄。 如果你正在經歷這個過程,我的經驗如下:首先,你要摸清hadoop的代碼模塊,知道client,master,slave各自對應的模塊(hadoop中核心系統都是master/slave架構,非常類似),並在閱讀源代碼過程中,時刻謹記你當前閱讀的代碼屬於哪一個模塊,會在哪個組件中執行;之後你需要摸清各個組件的交互協議,也就是分布式中的RPC,這是hadoop自己實現的,你需要對hadoop RPC的使用方式有所了解,然後看各模塊間的RPC protocol,到此,你把握了系統的骨架,這是接下來閱讀源代碼的基礎;接著,你要選擇一個模塊開始閱讀,我一般會選擇Client,這個模塊相對簡單些,會給自己增加信心,為了在閱讀代碼過程中,不至於迷失自己,建議在紙上畫出類的調用關系,邊看邊畫,我記得我閱讀hadoop源代碼時,花了一疊紙。注意,看源代碼過程中,很容易煩躁不安,建議經常起來走走,不要把自己逼得太緊。 在這個階段,建議大家多看一些源代碼分析博客和書籍,比如《Hadoop技術內幕》系列叢書(軒相關網站:Hadoop技術內幕)就是最好的參考資料。藉助這些博客和書籍,你可以在前人的幫助下,更快地學習hadoop源代碼,節省大量時間,注意,目前博客和書籍很多,建議大家廣泛收集資料,找出最適合自己的參考資料。 這個階段最終達到的目的,是對hadoop源代碼整體架構和局部的很多細節,有了一定的了解。比如你知道MapRece Scheler是怎樣實現的,MapRece shuffle過程中,map端做了哪些事情,rece端做了哪些事情,是如何實現的,等等。這個階段完成後,當你遇到問題或者困惑點時,可以迅速地在Hadoop源代碼中定位相關的類和具體的函數,通過閱讀源代碼解決問題,這時候,hadoop源代碼變成了你解決問題的參考書

10. 如何在Mac使用Intellij idea搭建遠程Hadoop開發環境

點擊左上角 + ,Type選擇SFTP,然後配置伺服器ip和部署路徑,用戶名密碼等選項
之後選擇自動部署,這樣每次修改都會自動部署到伺服器,也可以右鍵,選擇Deployment,upload to ...

熱點內容
adbandroid版本 發布:2025-01-16 13:53:14 瀏覽:387
直鏈雲存儲 發布:2025-01-16 13:19:30 瀏覽:726
電腦主機伺服器多少錢 發布:2025-01-16 13:00:28 瀏覽:667
linuxoracle操作 發布:2025-01-16 12:40:50 瀏覽:47
河北存儲服務價格 發布:2025-01-16 12:39:21 瀏覽:351
掛機伺服器的搭建 發布:2025-01-16 12:34:07 瀏覽:417
安卓怎麼刪除信任憑證 發布:2025-01-16 12:22:06 瀏覽:338
代理編譯 發布:2025-01-16 12:07:59 瀏覽:794
伺服器為什麼老是無響應 發布:2025-01-16 12:07:59 瀏覽:894
安卓怎麼傳軟體到蘋果 發布:2025-01-16 12:01:28 瀏覽:959