webhdfs上傳
❶ HDFS文件
Hadoop支持的文件系統由很多(見下圖),HDFS只是其中一種實現。java抽象類 org.apache.hadoop.fs.FileSystem 定義了Hadoop中一個文件系統的客戶端介面,並且該抽象類有幾個具體實現。Hadoop一般使用URI(下圖)方案來選取合適的文件系統實例進行交互。
特別的,HDFS文件系統的操作可以使用 FsSystem shell 、客戶端(http rest api、Java api、C api等)。
FsSystem shell 的用法基本同本地shell類似,命令可參考 FsSystem shell
Hadoop是用Java寫的,通過Java Api( FileSystem 類)可以調用大部分Hadoop文件系統的交互操作。更詳細的介紹可參考 hadoop Filesystem 。
非Java開發的應用可以使用由WebHDFS協議提供的HTTP REST API,但是HTTP比原生的Java客戶端要慢,所以不到萬不得已盡量不要使用HTTP傳輸特大數據。通過HTTP來訪問HDFS有兩種方法:
兩種如圖
在第一種情況中,namenode和datanode內嵌的web服務作為WebHDFS的端節點運行(是否啟用WebHDFS可通過dfs.webhdfs.enabled設置,默認為true)。文件元數據在namenode上,文件讀寫操作首先被發往namenode,有namenode發送一個HTTP重定向至某個客戶端,指示以流的方式傳輸文件數據的目的或源datanode。
第二種方法依靠一個或多個獨立代理伺服器通過HTTP訪問HDFS。所有集群的網路通信都需要通過代理,因此客戶端從來不直接訪問namenode或datanode。使用代理後可以使用更嚴格的防火牆策略和帶寬策略。
HttpFs代理提供和WebHDFS相同的HTTP介面,這樣客戶端能夠通過webhdfs URI訪問介面。HttpFS代理啟動獨立於namenode和datanode的守護進程,使用httpfs.sh 腳本,默認在一個不同的埠上監聽(14000)。
下圖描述了
讀文件時客戶端與 HDFS 中的 namenode, datanode 之間的數據流動。
對上圖的解釋如下:
在讀取過程中, 如果 FSDataInputStream 在和一個 datanode 進行交流時出現了一個錯誤,他就去試一試下一個最接近的塊,他當然也會記住剛才發生錯誤的 datanode 以至於之後不會再在這個 datanode 上進行沒必要的嘗試。 DFSInputStream 也會在 datanode 上傳輸出的數據上核查檢查數(checknums).如果損壞的塊被發現了, DFSInputStream 就試圖從另一個擁有備份的 datanode 中去讀取備份塊中的數據。
在這個設計中一個重要的方面就是客戶端直接從 datanode 上檢索數據,並通過 namenode 指導來得到每一個塊的最佳 datanode。這種設計允許 HDFS 擴展大量的並發客戶端,因為數據傳輸只是集群上的所有 datanode 展開的。期間,namenode 僅僅只需要服務於獲取塊位置的請求(塊位置信息是存放在內存中,所以效率很高)。如果不這樣設計,隨著客戶端數據量的增長,數據服務就會很快成為一個瓶頸。
我們知道,相對於客戶端(之後就是 maprece task 了),塊的位置有以下可能性:
我們認為他們對於客戶端的帶寬遞減,距離遞增(括弧中表示距離)。示意圖如下:
如果集群中的機器都在同一個機架上,我們無需其他配置,若集群比較復雜,由於hadoop無法自動發現網路拓撲,所以需要額外配置網路拓撲。
基本讀取程序,將文件內容輸出到console
FileSystemCat
隨機讀取
展開原碼
下圖描述了寫文件時客戶端與 HDFS 中的 namenode, datanode 之間的數據流動。
對上圖的解釋如下:
如果在任何一個 datanode 在寫入數據的時候失敗了,接下來所做的一切對客戶端都是透明的:首先, pipeline 被關閉,在確認隊列中的剩下的包會被添加進數據隊列的起始位置上,以至於在失敗的節點下游的任 何節點都不會丟失任何的包。然後與 namenode 聯系後,當前在一個好的 datanode 會聯系 namenode, 給失敗節點上還未寫完的塊生成一個新的標識ID, 以至於如果這個失敗的 datanode 不久後恢復了,這個不完整的塊將會被刪除。失敗節點會從 pipeline 中移除,然後剩下兩個好的 datanode 會組成一個的新的 pipeline ,剩下的 這些塊的包(也就是剛才放在數據隊列隊首的包)會繼續寫進 pipeline 中好的 datanode 中。最後,namenode 注意到塊備份數小於規定的備份數,他就安排在另一個節點上創建完成備份,直接從已有的塊中復制就可以。然後一直到滿足了備份數( dfs.replication )。如果有多個節點的寫入失敗了,如果滿足了最小備份數的設置( dfs.namenode.repliction.min ),寫入也將會成功,然後剩下的備份會被集群非同步的執行備份,直到滿足了備份數( dfs.replication )。
創建目錄
文件壓縮有兩大好處:
Hadoop 對於壓縮格式的是自動識別。如果我們壓縮的文件有相應壓縮格式的擴展名(比如 lzo,gz,bzip2 等)。Hadoop 會根據壓縮格式的擴展名自動選擇相對應的解碼器來解壓數據,此過程完全是 Hadoop 自動處理,我們只需要確保輸入的壓縮文件有擴展名。
Hadoop中有多種壓縮格式、演算法和工具,下圖列出了常用的壓縮方法。
表中的「是否可切分」表示對應的壓縮演算法是否支持切分,也就是說是否可以搜索數據流的任意位置並進一步往下讀取數據,可切分的壓縮格式尤其適合MapRece。
所有的壓縮演算法都需要權衡空間/時間:壓縮和解壓縮速度更快,其代價通常是只能節省少量的空間。不同的壓縮工具有不同的特性:
更詳細的比較如下
1.壓縮性能比較
2.優缺點
另外使用hadoop原生(native)類庫比其他java實現有更快的壓縮和解壓縮速度。特徵比較如下:
使用容器文件格式結合壓縮演算法也能更好的提高效率。順序文件、Arvo文件、ORCFiles、Parqurt文件同時支持壓縮和切分。
壓縮舉例(Java)
壓縮
解壓縮
六、文件序列化
序列化是指將結構化數據轉換為位元組流以便在網路上傳輸或寫到磁碟進行永久存儲。反序列化獅子將位元組流轉換回結構化對象的逆過程。
序列化用於分布式數據處理的兩大領域:進程間通信和永久存儲。
對序列化的要求時是格式緊湊(高效使用存儲空間)、快速(讀寫效率高)、可擴展(可以透明地讀取老格式數據)且可以互操作(可以使用不同的語言讀寫數據)。
Hadoop使用的是自己的序列化格式 Writable ,它絕對緊湊、速度快,但不太容易用java以外的語言進行擴展或使用。
當然,用戶也可以使用其他序列化框架或者自定義序列化方式,如 Avro 框架。
Hadoop內部還使用了 Apache Thrift 和 Protocal Buffers 來實現RPC和數據交換。
❷ 雲計算平台有哪些
雲計算平台可以劃分為3類:以數據存儲為主的存儲型雲平台,以數據處理為主的計算型雲平台以及計算和數據存儲處理兼顧的綜合雲計算平台
雲計算平台是雲計算時代兵家爭奪激烈的地方。
1.開源雲計算平台
(1)AbiCloud(Abiquo公司)
AbiCloud是一款用於公司的開源的雲計算平台,使公司能夠以快速、簡單和可擴展的方式創建和管理大型、復雜的IT基礎設施(包括虛擬伺服器、網路、應用、存儲設備等)
(2)Hadoop(Apache基金會)
該計劃是完全模仿Google體系架構做的一個開源項目,主要包括Map/Rece和HDFS文件系統
(3)Eucalyptus項目(加利福尼亞大學)
創建了一個使企業能夠使用它們內部IT資源(包括伺服器、存儲系統、網路設備)的開源界面,來建立能夠和Amazon EC2兼容的雲
(4)MongoDB(10gen)
MongoDB是一個高性能、開源、無模式的文檔型資料庫,它在許多場景下可用於替代傳統的關系型資料庫或鍵/值存儲方式
(5)Enomalism彈性計算平台
它提供了一個功能類似於EC2的雲計算框架。Enomalism基於Linux,同時支持Xen和Kernel Virtual Machine(KVM)。與其他純IaaS解決方案不同的是,Enomalism提供了一個基於Turbo Gears Web應用程序框架和Python的軟體棧
(6)Nimbus(網格中間件Globus)
Nimbus面向科學計算需求,通過一組開源工具來實現基礎設施即服務(IaaS)的雲計算解決方案
2.雲計算平台廠商
(1)微軟
技術特性:整合其所用軟體及數據服務
核心技術:大型應用軟體開發技術
企業服務:Azure平台
開發語言:.NET
(2)Google
技術特性:儲存及運算水平擴充能力
核心技術:平行分散技術MapRece,BigTable,GFS
企業服務:Google AppEngine,應用代管服務
開發語言:Python,Java
(3)IBM
技術特性:整合其所有軟體及硬體服務
核心技術:網格技術,分布式存儲,動態負載
企業服務:虛擬資源池提供,企業雲計算整合方案
(4)Oracle
技術特性:軟硬體彈性虛擬平台
核心技術:Orackle的數據存儲技術,Sun開源技術
企業服務:EC2上的Oracle資料庫,OracleVM,Sun xVM
(5)Amazon
技術特性:彈性虛擬平台
核心技術:虛擬化技術Xen
企業服務:EC2、S3,SimpleDB、SQS
開發語言:
(6)Saleforce
技術特性:彈性可定製商務軟體
核心技術:應用平台整合技術
企業服務:Force.com
開發語言:Java,APEX
(7)EMC
技術特性:信息存儲系統及虛擬化技術
核心技術:Vmware的虛擬化技術,一流存儲技術
企業服務:Atoms雲存儲系統,私有雲解決方案
(8)阿里巴巴
技術特性:彈性可定製商務軟體
核心技術:應用平台整合技術
企業服務:軟體互聯平台,雲電子商務平台
(9)中國移動
技術特性:堅實的網路技術豐富的帶寬資源
核心技術:底層集群部署技術,資源池虛擬技術,網路相關技術
了解更多開源相關,去LUPA社區看看吧。
❸ 大數據如何入門
首先我們要了解Java語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。
大數據
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據基礎。
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
❹ 分布式存儲技術有哪些
中央存儲技術現已發展非常成熟。但是同時,新的問題也出現了,中心化的網路很容易擁擠,數據很容易被濫用。傳統的數據傳輸方式是由客戶端向雲伺服器傳輸,由伺服器向客戶端下載。而分布式存儲系統QKFile是從客戶端傳送到 N個節點,然後從這些節點就近下載到客戶端內部,因此傳輸速度非常快。對比中心協議的特點是上傳、下載速度快,能夠有效地聚集空閑存儲資源,並能大大降低存儲成本。
在節點數量不斷增加的情況下,QKFile市場趨勢開始突出,未來用戶數量將呈指數增長。分布式存儲在未來會有很多應用場景,如數據存儲,文件傳輸,網路視頻,社會媒體和去中心化交易等。網際網路的控制權越來越集中在少數幾個大型技術公司的手中,它的網路被去中心化,就像分布式存儲一樣,總是以社區為中心,面向用戶,而分布式存儲就是實現信息技術和未來網際網路功能的遠景。有了分布式存儲,我們可以創造出更加自由、創新和民主的網路體驗。是時候把網際網路推向新階段了。
作為今年非常受歡迎的明星項目,關於QKFile的未來發展會推動互聯網的進步,給整個市場帶來巨大好處。分布式存儲是基於網際網路的基礎結構產生的,區塊鏈分布式存儲與人工智慧、大數據等有疊加作用。對今天的中心存儲是一個巨大的補充,分布式時代的到來並不是要取代現在的中心互聯網,而是要使未來的數據存儲發展得更好,給整個市場生態帶來不可想像的活力。先看共識,後看應用,QKFile創建了一個基礎設施平台,就像阿里雲,阿里雲上面是做游戲的做電商的視頻網站,這就叫應用層,現階段,在性能上,坦白說,與傳統的雲存儲相比,沒有什麼競爭力。不過另一方面來說,一個新型的去中心化存儲的信任環境式非常重要的,在此環境下,自然可以衍生出許多相關應用,市場潛力非常大。
雖然QKFile離真正的商用還有很大的距離,首先QKFile的經濟模型還沒有定論,其次QKFile需要集中精力發展分布式存儲、商業邏輯和 web3.0,只有打通分布式存儲賽道,才有實力引領整個行業發展,人們認識到了中心化存儲的弊端,還有許多企業開始接受分布式存儲模式,即分布式存儲 DAPP應用觸達用戶。所以QKFile將來肯定會有更多的商業應用。創建超本地高效存儲方式的能力。當用戶希望將數據存儲在QKFile網路上時,他們就可以擺脫巨大的集中存儲和地理位置的限制,用戶可以看到在線存儲的礦工及其市場價格,礦工之間相互競爭以贏得存儲合約。使用者挑選有競爭力的礦工,交易完成,用戶發送數據,然後礦工存儲數據,礦工必須證明數據的正確存儲才能得到QKFile獎勵。在網路中,通過密碼證明來驗證數據的存儲安全性。采礦者通過新區塊鏈向網路提交其儲存證明。通過網路發布的新區塊鏈驗證,只有正確的區塊鏈才能被接受,經過一段時間,礦工們就可以獲得交易存儲費用,並有機會得到區塊鏈獎勵。數據就在更需要它的地方傳播了,旋轉數據就在地球范圍內流動了,數據的獲取就不斷優化了,從小的礦機到大的數據中心,所有人都可以通過共同努力,為人類信息社會的建設奠定新的基礎,並從中獲益。
❺ 搭建hadoop集群,常用配置文件是什麼,以及配置哪些屬性
一. 簡介
參考了網上許多教程,最終把hadoop在ubuntu14.04中安裝配置成功。下面就把詳細的安裝步驟敘述一下。我所使用的環境:兩台ubuntu 14.04 64位的台式機,hadoop選擇2.7.1版本。(前邊主要介紹單機版的配置,集群版是在單機版的基礎上,主要是配置文件有所不同,後邊會有詳細說明)
二. 准備工作
2.1 創建用戶
創建用戶,並為其添加root許可權,經過親自驗證下面這種方法比較好。
1 sudo adser hadoop2 sudo vim /etc/sudoers3 # 修改內容如下:4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL
給hadoop用戶創建目錄,並添加到sudo用戶組中,命令如下:
1 sudo chown hadoop /home/hadoop2 # 添加到sudo用戶組3 sudo adser hadoop sudo
最後注銷當前用戶,使用新創建的hadoop用戶登陸。
2.2安裝ssh服務
ubuntu中默認是沒有裝ssh server的(只有ssh client),所以先運行以下命令安裝openssh-server。安裝過程輕松加愉快~
sudo apt-get install ssh openssh-server
2.3 配置ssh無密碼登陸
直接上代碼:執行完下邊的代碼就可以直接登陸了(可以運行ssh localhost進行驗證)
1 cd ~/.ssh# 如果找不到這個文件夾,先執行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys
注意:
這里實現的是無密登陸自己,只適用與hadoop單機環境。如果配置Hadoop集群設置Master與Slave的SSH無密登陸可
三. 安裝過程
3.1 下載hadoop安裝包
有兩種下載方式:
1. 直接去官網下載:
2. 使用wget命令下載:
3.2 配置hadoop
1. 解壓下載的hadoop安裝包,並修改配置文件。我的解壓目錄是(/home/hadoop/hadoop-2.7.1),即進入/home/hadoop/文件夾下執行下面的解壓縮命令。
tar -zxvf hadoop-2.7.1.tar.gz
2. 修改配置文件:(hadoop2.7.1/etc/hadoop/)目錄下,hadoop-env.sh,core-site.xml,mapred-site.xml.template,hdfs-site.xml。
(1). core-site.xml 配置:其中的hadoop.tmp.dir的路徑可以根據自己的習慣進行設置。
至此,wordcount demo 運行結束。
六. 總結
配置過程遇到了很多問題,最後都一一解決,收獲很多,特此把這次配置的經驗分享出來,方便想要配置hadoop環境的各位朋友~
(Hadoop集群安裝配置過程基本和單機版是一樣的,主要是在配置文件方面有所區別,以及ssh無密登陸要求master和slave能夠互相無密登陸。