hive編譯

發布時間: 2022-01-30 08:34:28

㈠我想學習hive，請問安裝hive之前，必須安裝centos、hadoop、java這些嗎

安裝需要
java 1.6，java 1.7或更高版本。
Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x
linux,mac,windows操作系統。以下內容適用於linux系統。
安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件
$ tar -xzvf hive-x.y.z.tar.gz

設置hive環境變數
$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}

設置hive運行路徑
$ export PATH=$HIVE_HOME/bin:$PATH

編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。

以Hive 0.13版為例
編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。
export HADOOP_HOME=<hadoop-install-dir>

在hdfs上為hive創建\tmp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。
$ export HIVE_HOME=<hive-install-dir>

在命令行窗口啟動hive
$ $HIVE_HOME/bin/hive

若執行成功，將看到類似內容如圖所示

㈡如何編譯hive_hbase-handler.jar

之前上傳了一個文檔：http://wenku..com/view/faec57fb04a1b0717fd5dd00.html?st=1你可以看看。

㈢ hive的源代碼的編譯與調試怎麼做

windows自帶的記事本只能做編輯源代碼使用，要編譯需要有編譯器才行，找些其他的集成化軟體，編輯編譯連接調試集成一體的，如vc6.0，wintc等

㈣ Apache Hive的工作原理是什麼

Hadoop處理完全依賴於MapRece框架，這要求用戶了解Java編程的高級樣式，以便成功查詢數據。Apache Hive背後的動機是簡化查詢，並將Hadoop非結構化數據開放給公司中更廣泛的用戶群。
Hive有三個主要功能：數據匯總，查詢和分析。它支持名為HiveQL或HQL的語言表達的查詢，HQL是一種聲明性的類sql語言，在其第一個版本中，它自動將SQL樣式的查詢轉換為在Hadoop平台上執行的MapRece。此外，HiveQL支持自定義MapRece腳本，以便查詢。
當通過Hive提交SQL查詢時，它們最初由創建會話句柄的驅動程序組件接收，通過Java資料庫連接/開放資料庫連接介面將請求轉發給編譯器，隨後轉發作業以供執行。Hive支持數據序列化/反序列化，並通過包含名為Hive-Metastore的系統目錄來提高模式設計的靈活性。

㈤ eclipse怎麼開發hive udf

Hive進行UDF開發十分簡單，此處所說UDF為Temporary的function，所以需要hive版本在0.4.0以上才可以。
Hive的UDF開發只需要重構UDF類的evaluate函數即可。例：
package com.hrj.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class helloUDF extends UDF {
public String evaluate(String str) {
try {
return "HelloWorld " + str;
} catch (Exception e) {
return null;
}
}
}

將該java文件編譯成helloudf.jar
hive> add jar helloudf.jar;
hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';
hive> select helloworld(t.col1) from t limit 10;
hive> drop temporary function helloworld;

註：
1.helloworld為臨時的函數，所以每次進入hive都需要add jar以及create temporary操作
2.UDF只能實現一進一出的操作，如果需要實現多進一出，則需要實現UDAF

㈥ hive的安裝配置

你可以下載一個已打包好的hive穩定版，也可以下載源碼自己build一個版本。
安裝需要 java 1.6，java 1.7或更高版本。 Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x Linux,mac,windows操作系統。以下內容適用於linux系統。安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件 $tar-xzvfhive-x.y.z.tar.gz設置hive環境變數 $cdhive-x.y.z$exportHIVE_HOME={{pwd}}設置hive運行路徑 $exportPATH=$HIVE_HOME/bin:$PATH編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。
以Hive 0.13版為例編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。 exportHADOOP_HOME=<hadoop-install-dir>在hdfs上為hive創建 mp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。 $exportHIVE_HOME=<hive-install-dir>在命令行窗口啟動hive $$HIVE_HOME/bin/hive若執行成功，將看到類似內容如圖所示

㈦如何通俗地理解Hive的工作原理

Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化載入（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言，稱為 HQL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉 MapRece 開發者的開發自定義的 mapper 和 recer 來處理內建的 mapper 和 recer 無法完成的復雜的分析工作。
流程大致步驟為：
1. 用戶提交查詢等任務給Driver。
2. 編譯器獲得該用戶的任務Plan。
3. 編譯器Compiler根據用戶任務去MetaStore中獲取需要的Hive的元數據信息。
4. 編譯器Compiler得到元數據信息，對任務進行編譯，先將HiveQL轉換為抽象語法樹，然後將抽象語法樹轉換成查詢塊，將查詢塊轉化為邏輯的查詢計劃，重寫邏輯查詢計劃，將邏輯計劃轉化為物理的計劃（MapRece）, 最後選擇最佳的策略。
5. 將最終的計劃提交給Driver。
6. Driver將計劃Plan轉交給ExecutionEngine去執行，獲取元數據信息，提交給JobTracker或者SourceManager執行該任務，任務會直接讀取HDFS中文件進行相應的操作。
7. 獲取執行的結果。
8. 取得並返回執行結果。

㈧ hue/oozie 調度shell執行hive腳本

前面已經有篇文章介紹如何編譯包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。clouderamanager裝好的spark,直接執行spark-shell進入命令行後，寫入如下語句：valhiveContext=neworg.apache.spark.sql.hive.HiveContext(sc)你會發現沒法執行通過，因為cm裝的原生的spark是不支持sparkhql的，我們需要手動進行一些調整：第一步，將編譯好的包含hive的JAR包上傳到hdfs上配置的默認的spark的sharelib目錄：/user/spark/share/lib第二步：在你要運行spark-shell腳本的節點上的/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目錄下面，下載這個jar到這個目錄：hadoopfs-gethdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar（具體路徑替換成你自己的）。然後這個目錄下面原來會有個軟鏈接spark-assembly.jar指向的是spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar，我們把這個軟鏈接刪除掉重新創建一個同名的軟鏈接：ln-sspark-assembly-with-hive-maven.jarspark-assembly.jar，指向我們剛下載下來的那個JAR包，這個JAR包會在啟動spark-shell腳本時裝載到driverprogram的classpath中去的，sparkContext也是在driver中創建出來的，所以需要將我們編譯的JAR包替換掉原來的spark-assembly.jar包，這樣在啟動spark-shell的時候，包含hive的spark-assembly就被裝載到classpath中去了。第三步：在/opt/cloudera/parcels/CDH/lib/spark/conf/目錄下面創建一個hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目錄是默認的spark的配置目錄，當然你可以修改默認配置目錄的位置。hive-site.xml內容如下：hive.metastore.localfalsehive.metastore.uristhrift://n1:9083hive.metastore.client.socket.timeout300hive.metastore.warehouse.dir/user/hive/warehouse這個應該大家都懂的，總要讓spark找到hive的元數據在哪吧，於是就有了上面一些配置。第四步：修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark-defaults.conf，添加一個屬性：spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。這個是讓每個executor下載到本地然後裝載到自己的classpath下面去的，主要是用在yarn-cluster模式。local模式由於driver和executor是同一個進程所以沒關系。以上完事之後，運行spark-shell,再輸入:valhiveContext=neworg.apache.spark.sql.hive.HiveContext(sc)應該就沒問題了。我們再執行一個語句驗證一下是不是連接的我們指定的hive元資料庫：hiveContext.sql("showtables").take(10)//取前十個表看看最後要重點說明一下這里的第二步第三步和第四步，如果是yarn-cluster模式的話，應該替換掉集群所有節點的spark-assembly.jar集群所有節點的sparkconf目錄都需要添加hive-site.xml，每個節點spark-defaults.conf都需要添加spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。可以寫個shell腳本來替換，不然手動一個一個節點去替換也是蠻累的。

閱讀全文

熱點內容

排列概率演算法發布：2025-03-14 16:26:35 瀏覽：371

caffepython使用發布：2025-03-14 16:13:17 瀏覽：231

小明加密訪問發布：2025-03-14 16:12:36 瀏覽：861

mysql怎麼導出資料庫發布：2025-03-14 15:47:52 瀏覽：988

錄制的視頻怎麼保存到存儲卡發布：2025-03-14 15:46:19 瀏覽：794

curl源碼編譯發布：2025-03-14 15:43:55 瀏覽：354

天龍八部無憂腳本發布：2025-03-14 15:34:46 瀏覽：25

jdk764forlinux 發布：2025-03-14 15:34:40 瀏覽：361

安卓車機怎麼使用實景導航發布：2025-03-14 15:33:15 瀏覽：907

變數的存儲分配發布：2025-03-14 15:01:12 瀏覽：173

hive編譯

與hive編譯相關的資訊