當前位置:首頁 » 文件管理 » hadoop壓縮

hadoop壓縮

發布時間: 2022-07-02 18:07:27

㈠ 如何檢測hadoop中gz壓縮文件是否損壞

執行hive任務的時候,進入到8088的map詳細進度列表,即是RUNNING MAP attempts in job_1456816082333_1354,查看最後出錯的map是哪個節點或者在頁面直接點擊logs進入詳細log日誌查看,或者進入到節點的Hadoop的logs/userlogs目錄
根據jobid找到對應的目錄: application_1456816082333_1354,裡面有錯誤的文件id,然後刪除掉hdfs的對應的損壞文件。

㈡ hadoop壓縮演算法用哪種最好

hadoop壓縮演算法用哪種最好
Test Plan的配置元件中有一些和HTTP屬性相關的元件:HTTP Cache Manager、HTTP Authorization Manager、HTTP Cookie Manager、HTTP Header Manager、HTTP Request Defaults等,這些是什麼呢?
JMeter不是瀏覽器,因此其行為並不和瀏覽器完全一致。這些JMeter提供的HTTP屬性管理器用於盡可能模擬瀏覽器的行為,在HTTP協議層上定製發送給被測應用的HTTP請求。

㈢ hadoop lzo 壓縮比多高

大概 10:1 。

㈣ 如何安裝hadoop本地壓縮庫

Hadoop安裝配置snappy壓縮

[一]、 實驗環境

CentOS 6.3 64位

Hadoop 2.6.0

JDK 1.7.0_75

[二]、 snappy編譯安裝

2.1、下載源碼

到官網 http://code.google.com/p/snappy/ 或者到 https://github.com/google/snappy
下載源碼,目前版本為 1.1.1。

2.2、編譯安裝

解壓 tar -zxvf snappy-1.1.1.tar.gz ,然後以 root 用戶 執行標準的三步進行編譯安裝:

/configure

make

make install

默認是安裝到 /usr/local/lib ,這時在此目錄下查看:

[hadoop@micmiu ~]$ ls -lh /usr/local/lib |grep snappy

-rw-r--r-- 1 root root 229K Mar 10 11:28 libsnappy.a

-rwxr-xr-x 1 root root 953 Mar 10 11:28 libsnappy.la

lrwxrwxrwx 1 root root 18 Mar 10 11:28 libsnappy.so ->
libsnappy.so.1.2.0

lrwxrwxrwx 1 root root 18 Mar 10 11:28 libsnappy.so.1 ->
libsnappy.so.1.2.0

-rwxr-xr-x 1 root root 145K Mar 10 11:28 libsnappy.so.1.2.0

安裝過程沒有錯誤同時能看到上面的動態庫,基本表示snappy 安裝編譯成功。

[三]、Hadoop snappy 安裝配置

3.1、hadoop 動態庫重新編譯支持snappy

hadoop動態庫編譯參考:Hadoop2.2.0源碼編譯 和 Hadoop2.x在Ubuntu系統中編譯源碼 ,只是把最後編譯的命令中增加
-Drequire.snappy :

1mvn package -Pdist,native -DskipTests -Dtar -Drequire.snappy

把重新編譯生成的hadoop動態庫替換原來的。

3.2、hadoop-snappy 下載

目前官網沒有軟體包提供,只能藉助 svn 下載源碼:

1svn checkout http://hadoop-snappy.googlecode.com/svn/trunk/
hadoop-snappy

3.3、hadoop-snappy 編譯

1mvn package [-Dsnappy.prefix=SNAPPY_INSTALLATION_DIR]

PS:如果上面 snappy安裝路徑是默認的話,即 /usr/local/lib,則此處
[-Dsnappy.prefix=SNAPPY_INSTALLATION_DIR] 可以省略,或者
-Dsnappy.prefix=/usr/local/lib

編譯成功後,把編譯後target下的 hadoop-snappy-0.0.1-SNAPSHOT.jar 復制到 $HADOOP_HOME/lib
,同時把編譯生成後的動態庫 到 $HADOOP_HOME/lib/native/ 目錄下:

1cp -r
$HADOOP-SNAPPY_CODE_HOME/target/hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64
$HADOOP_HOME/lib/native/

3.4、編譯過程中常見錯誤處理

① 缺少一些第三方依賴

官方文檔中提到編譯前提需要:gcc c++, autoconf, automake, libtool, java 6, JAVA_HOME set,
Maven 3

②錯誤信息:

[exec] libtool: link: gcc -shared
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyCompressor.o
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyDecompressor.o
-L/usr/local/lib -ljvm -ldl -m64 -Wl,-soname -Wl,libhadoopsnappy.so.0 -o
.libs/libhadoopsnappy.so.0.0.1

[exec] /usr/bin/ld: cannot find -ljvm

[exec] collect2: ld returned 1 exit status

[exec] make: *** [libhadoopsnappy.la] Error 1

或者

[exec] /bin/sh ./libtool --tag=CC --mode=link gcc -g -Wall -fPIC -O2 -m64
-g -O2 -version-info 0:1:0 -L/usr/local/lib -o libhadoopsna/usr/bin/ld: cannot
find -ljvm

[exec] collect2: ld returned 1 exit status

[exec] make: *** [libhadoopsnappy.la] Error 1

[exec] ppy.la -rpath /usr/local/lib
src/org/apache/hadoop/io/compress/snappy/SnappyCompressor.lo
src/org/apache/hadoop/io/compress/snappy/SnappyDecompressor.lo -ljvm -ldl

[exec] libtool: link: gcc -shared
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyCompressor.o
src/org/apache/hadoop/io/compress/snappy/.libs/SnappyDecompressor.o
-L/usr/local/lib -ljvm -ldl -m64 -Wl,-soname -Wl,libhadoopsnappy.so.0 -o
.libs/libhadoopsnappy.so.0.0.1

[ant] Exiting
/home/hadoop/codes/hadoop-snappy/maven/build-compilenative.xml.

這個錯誤是因為沒有把安裝jvm的libjvm.so 鏈接到
/usr/local/lib。如果你的系統時amd64,可以執行如下命令解決這個問題:

1ln -s /usr/java/jdk1.7.0_75/jre/lib/amd64/server/libjvm.so
/usr/local/lib/

[四]、hadoop配置修改

4.1、修改 $HADOOP_HOME/etc/hadoop/hadoop-env.sh,添加:

1export
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_HOME/lib/native/Linux-amd64-64/

4.2、修改 $HADOOP_HOME/etc/hadoop/core-site.xml:

XHTML

io.compression.codecs

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

4.3、修改 $HADOOP_HOME/etc/hadoop/mapred-site.xml 中有關壓縮屬性,測試snappy:

XHTML

maprece.map.output.compress

true

maprece.map.output.compress.codec

org.apache.hadoop.io.compress.SnappyCodec[五]、測試驗證

全部配置好後(集群中所有的節點都需要動態庫和修改配置),重啟hadoop集群環境,運行自帶的測試實例
wordcount,如果maprece過程中沒有錯誤信息即表示snappy壓縮安裝方法配置成功。

當然hadoop也提供了本地庫的測試方法 hadoop checknative :

[hadoop@micmiu ~]$ hadoop checknative

15/03/17 22:57:59 INFO bzip2.Bzip2Factory: Successfully loaded &
initialized native-bzip2 library system-native

15/03/17 22:57:59 INFO zlib.ZlibFactory: Successfully loaded &
initialized native-zlib library

Native library checking:

hadoop: true
/usr/local/share/hadoop-2.6.0/lib/native/libhadoop.so.1.0.0

zlib: true /lib64/libz.so.1

snappy: true
/usr/local/share/hadoop/lib/native/Linux-amd64-64/libsnappy.so.1

lz4: true revision:99

bzip2: true /lib64/libbz2.so.1

openssl: true /usr/lib64/libcrypto.so

㈤ 我在解壓hadoop壓縮包的時候遇到這問題怎麼辦

I would go back and re-gzip the tar file though (to save space):
gzip xxxxxx.x.x.tar
tar -zxvf xxxxxx.x.x.tar.gz
想刨根問底的可以查下他的意思,在看下TAR 指令的用法,。
總之:我出現這個錯誤時,就是把指令改為:
tar -xvf xxxx.tar.gz
然後指令就運行了。。

㈥ 數據壓縮為什麼選擇hadoop

hadoop對於壓縮格式的是透明識別,我們的MapRece任務的執行是透明的,hadoop能夠自動為我們
將壓縮的文件解壓,而不用我們去關心。

㈦ hadoop sequencefile 怎麼使用

1.SequenceFile特點:是 Hadoop 的一個重要數據文件類型,它提供key-value的存儲,但與傳統key-value存儲(比如hash表,btree)不同的是,它是appendonly的,於是你不能對已存在的key進行寫操作。

2.SequenceFile 有三種壓縮態:
1 Uncompressed – 未進行壓縮的狀
2.record compressed - 對每一條記錄的value值進行了壓縮(文件頭中包含上使用哪種壓縮演算法的信息)
3. block compressed – 當數據量達到一定大小後,將停止寫入進行整體壓縮,整體壓縮的方法是把所有的keylength,key,vlength,value 分別合在一起進行整體壓縮
3.結構組成:
3.1 header數據:保存文件的壓縮態標識;
3.2 Metadata數據:簡單的屬性/值對,標識文件的一些其他信息。Metadata 在文件創建時就寫好了,所以也是不能更改
3.3 追加的鍵值對數據
3.4 流存儲結構:流的存儲頭位元組格式:
Header: *位元組頭」SEQ」, 後跟一個位元組表示版本」SEQ4」,」SEQ6」.//這里有點忘了 不記得是怎麼處理的了,回頭補上做詳細解釋
*keyClass name
*valueClass name
*compression boolean型的存儲標示壓縮值是否轉變為keys/values值了
*blockcompression boolean型的存儲標示是否全壓縮的方式轉變為keys/values值了
*compressor 壓縮處理的類型,比如我用Gzip壓縮的Hadoop提供的是GzipCodec什麼的..
*元數據 這個大家可看可不看的

4.擴展實現:
4.1 MapFile 一個key-value 對應的查找數據結構,由數據文件/data 和索引文件 /index 組成,數據文件中包含所有需要存儲的key-value對,按key的順序排列。索引文件包含一部分key值,用以指向數據文件的關鍵位置
4.2 SetFile – 基於 MapFile 實現的,他只有key,value為不可變的數據。
4.3 ArrayFile – 也是基於 MapFile 實現,他就像我們使用的數組一樣,key值為序列化的數字。
4.4 BloomMapFile – 他在 MapFile 的基礎上增加了一個 /bloom 文件,包含的是二進制的過濾表,在每一次寫操作完成時,會更新這個過濾表。

5.使用如下:主要是Writer和Reader對象完成文件的添加和讀功能,應用demo參照下面鏈接,其中Map端以SequenceFileInputFormat格式接收,Map的key-value應為SequenceFile保持一致。

㈧ 如何在Scala中讀取Hadoop集群上的gz壓縮文件

(1)一個從文件創建的Scala對象,或(2)一個並行切片(分布在各個節點之間),或(3)從其他RDD轉換得來,或(4)改變已有RDD的持久性,如請求將已有RDD緩存在內存中。Spark應用稱為driver,實現單個節點或一組節點上的操作。

㈨ hadoop集群用不同的操作系統,使用snappy壓縮會慢嗎

Docker最核心的特性之一,就是能夠將任何應用包括Hadoop打包到Docker鏡像中。這篇教程介紹了利用Docker在單機上快速搭建多節點Hadoop集群的詳細步驟。作者在發現目前的HadooponDocker項目所存在的問題之後,開發了接近最小化的Hadoop鏡像,並且支持快速搭建任意節點數的Hadoop集群。GitHub:kiwanlau/hadoop-cluster-docker直接用機器搭建Hadoop集群是一個相當痛苦的過程,尤其對初學者來說。他們還沒開始跑wordcount,可能就被這個問題折騰的體無完膚了。而且也不是每個人都有好幾台機器對吧。你可以嘗試用多個虛擬機搭建,前提是你有個性能杠杠的機器。我的目標是將Hadoop集群運行在Docker容器中,使Hadoop開發者能夠快速便捷地在本機搭建多節點的Hadoop集群。其實這個想法已經有了不少實現,但是都不是很理想,他們或者鏡像太大,或者使用太慢,或者使用了第三方工具使得使用起來過於復雜。下表為一些已知的HadooponDocker項目以及其存在的問題。更快更方便地改變Hadoop集群節點數目另外,alvinhenrick/hadoop-mutinode項目增加節點時需要手動修改Hadoop配置文件然後重新構建hadoop-nn-dn鏡像,然後修改容器啟動腳本,才能實現增加節點的功能。而我通過shell腳本實現自動話,不到1分鍾可以重新構建hadoop-master鏡像,然後立即運行!本項目默認啟動3個節點的Hadoop集群,支持任意節點數的Hadoop集群。另外,啟動Hadoop,運行wordcount以及重新構建鏡像都採用了shell腳本實現自動化。這樣使得整個項目的使用以及開發都變得非常方便快捷。開發測試環境操作系統:ubuntu14.04和ubuntu12.04內核版本:3.13.0-32-genericDocker版本:1.5.0和1.6.2小夥伴們,硬碟不夠,內存不夠,尤其是內核版本過低會導致運行失敗。

㈩ hadoop用什麼壓縮工具最好

hadoop用什麼壓縮工具最好
填充可以按從下到上的順序疊加
選中圖層control+command+m創建蒙版
control+c會出現放大鏡,然後可以方便選擇顏色替換當前選擇對象的顏色
畫布的控制
使用空格進行抓手移動畫布
按command加滑鼠滾輪進行畫布放大和縮小
control+p能夠切換到像素模式查看,相當於輸出png後點開圖片查看的效果。
control+g開啟關閉網格
按住option鍵能夠看到各個對象之間的距離
command+1縮小至能看到所有對象,command+2放大到選中對象到屏幕適合的大小,command+0縮小至100%
Symbol共享元素,一次編輯所有地方都能夠生效。

熱點內容
如何登錄男朋友的微信密碼 發布:2025-01-16 07:41:14 瀏覽:194
寶駿解壓流程 發布:2025-01-16 07:35:35 瀏覽:2
兩匹壓縮機多少錢 發布:2025-01-16 07:29:19 瀏覽:635
個人pc搭建游戲伺服器 發布:2025-01-16 07:27:09 瀏覽:970
存儲剩餘照片 發布:2025-01-16 07:25:01 瀏覽:50
ftp解除限制上傳文件個數 發布:2025-01-16 07:16:26 瀏覽:348
梯度下降法python 發布:2025-01-16 07:10:43 瀏覽:520
載入並編譯著色器apex 發布:2025-01-16 07:00:08 瀏覽:59
方舟出售腳本 發布:2025-01-16 06:57:55 瀏覽:955
釘釘代理伺服器Ip地址和瑞口 發布:2025-01-16 06:57:05 瀏覽:699