hive源碼

發布時間: 2022-02-06 18:19:38

1. 我想學習hive，請問安裝hive之前，必須安裝centos、hadoop、java這些嗎

安裝需要
java 1.6，java 1.7或更高版本。
Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x
linux,mac,windows操作系統。以下內容適用於linux系統。
安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件
$ tar -xzvf hive-x.y.z.tar.gz

設置hive環境變數
$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}

設置hive運行路徑
$ export PATH=$HIVE_HOME/bin:$PATH

編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。

以Hive 0.13版為例
編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。
export HADOOP_HOME=<hadoop-install-dir>

在hdfs上為hive創建\tmp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。
$ export HIVE_HOME=<hive-install-dir>

在命令行窗口啟動hive
$ $HIVE_HOME/bin/hive

若執行成功，將看到類似內容如圖所示

2. 如何讓Pentaho Aggregation Designer整合hive的數據源

最近需要進行利用pentaho聚合設計器實現hive數據倉庫中表的聚合，但是目前的pentaho aggregation designer不支持hive的連接類型，想問下有沒有牛人研究過pentaho aggregation designer的源碼或是有別的方法直接將hive-jdbc加進去就可以使用

3. hive的源代碼的編譯與調試怎麼做

windows自帶的記事本只能做編輯源代碼使用，要編譯需要有編譯器才行，找些其他的集成化軟體，編輯編譯連接調試集成一體的，如vc6.0，wintc等

4. hive 需要寫java代碼嗎

如果你的項目是java項目的話，就需要使用hive提供的java api，如下代碼：
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

import org.apache.log4j.Logger;

/**
* Hive的JavaApi
*
* 啟動hive的遠程服務介面命令行執行：hive --service hiveserver >/dev/null 2>/dev/null &
*
* @author 吖大哥
*
*/
public class HiveJdbcCli {

private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";
private static String url = "jdbc:hive://hadoop3:10000/default";
private static String user = "hive";
private static String password = "mysql";
private static String sql = "";
private static ResultSet res;
private static final Logger log = Logger.getLogger(HiveJdbcCli.class);

public static void main(String[] args) {
Connection conn = null;
Statement stmt = null;
try {
conn = getConn();
stmt = conn.createStatement();

// 第一步:存在就先刪除
String tableName = dropTable(stmt);

// 第二步:不存在就創建
createTable(stmt, tableName);

// 第三步:查看創建的表
showTables(stmt, tableName);

// 執行describe table操作
describeTables(stmt, tableName);

// 執行load data into table操作
loadData(stmt, tableName);

// 執行 select * query 操作
selectData(stmt, tableName);

// 執行 regular hive query 統計操作
countData(stmt, tableName);

} catch (ClassNotFoundException e) {
e.printStackTrace();
log.error(driverName + " not found!", e);
System.exit(1);
} catch (SQLException e) {
e.printStackTrace();
log.error("Connection error!", e);
System.exit(1);
} finally {
try {
if (conn != null) {
conn.close();
conn = null;
}
if (stmt != null) {
stmt.close();
stmt = null;
}
} catch (SQLException e) {
e.printStackTrace();
}
}
}

private static void countData(Statement stmt, String tableName)
throws SQLException {
sql = "select count(1) from " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行「regular hive query」運行結果:");
while (res.next()) {
System.out.println("count ------>" + res.getString(1));
}
}

private static void selectData(Statement stmt, String tableName)
throws SQLException {
sql = "select * from " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行 select * query 運行結果:");
while (res.next()) {
System.out.println(res.getInt(1) + "\t" + res.getString(2));
}
}

private static void loadData(Statement stmt, String tableName)
throws SQLException {
String filepath = "/home/hadoop01/data";
sql = "load data local inpath '" + filepath + "' into table "
+ tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
}

private static void describeTables(Statement stmt, String tableName)
throws SQLException {
sql = "describe " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行 describe table 運行結果:");
while (res.next()) {
System.out.println(res.getString(1) + "\t" + res.getString(2));
}
}

private static void showTables(Statement stmt, String tableName)
throws SQLException {
sql = "show tables '" + tableName + "'";
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("執行 show tables 運行結果:");
if (res.next()) {
System.out.println(res.getString(1));
}
}

private static void createTable(Statement stmt, String tableName)
throws SQLException {
sql = "create table "
+ tableName
+ " (key int, value string) row format delimited fields terminated by '\t'";
stmt.executeQuery(sql);
}

private static String dropTable(Statement stmt) throws SQLException {
// 創建的表名
String tableName = "testHive";
sql = "drop table " + tableName;
stmt.executeQuery(sql);
return tableName;
}

private static Connection getConn() throws ClassNotFoundException,
SQLException {
Class.forName(driverName);
Connection conn = DriverManager.getConnection(url, user, password);
return conn;
}

}

5. 如何把hive源碼導入eclipse當中，從而能進行對hive的再次開發和更新謝謝！

在Eclipse中新建一個java項目，然後把hive源碼中src下的文件復制到新建的項目的src下即可

6. hive中設置參數怎樣設置走spark-sql

1、下載源碼

2、下載Maven,並配置
此配置簡單，就略過

3、使用maven進行打包：
打包命令：
mvn -Pyarn -Dhadoop.version=2.3.0-cdh5.0.0 -Phive -Phive-thriftserver -DskipTests clean package

上面的hadoop.version可以根據自己的需要設置相應的版本

7. 如何使用Maven構建《hadoop權威指南3》隨書的源碼包

執行完上述步驟後，輸入hbase命令出現如下界面，就說明已經安裝成功了（別忘了執行". ~/.bashrc"使配置的環境變數生效）：

下面我們就可以切換到本書的源文件包的根目錄下使用maven來構建本書的jar包了：
% mvn package -DskipTests -Dhadoop.version=1.0.4
執行過這條命令後就是很長時間的等待，maven會到他的中央倉庫和apache的倉庫中下載所需要的jar包和pom.xml文件（這個過程可能要持續大約一個小時，要確保你的電腦已經連上網路，下載完成後在~/.m2/repository文件夾中——也即本地倉庫——可以看到已經下載下來的jar包和pom文件），然後再逐個構建根目錄下pom.xml中配置的moles，等所有的工作做完就可以看到已經打包的各個jar包，從而可以很方便的在命令行使用hadoop命令測試書中的代碼了

8. hive的安裝配置

你可以下載一個已打包好的hive穩定版，也可以下載源碼自己build一個版本。
安裝需要 java 1.6，java 1.7或更高版本。 Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x Linux,mac,windows操作系統。以下內容適用於linux系統。安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件 $tar-xzvfhive-x.y.z.tar.gz設置hive環境變數 $cdhive-x.y.z$exportHIVE_HOME={{pwd}}設置hive運行路徑 $exportPATH=$HIVE_HOME/bin:$PATH編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。
以Hive 0.13版為例編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。 exportHADOOP_HOME=<hadoop-install-dir>在hdfs上為hive創建 mp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。 $exportHIVE_HOME=<hive-install-dir>在命令行窗口啟動hive $$HIVE_HOME/bin/hive若執行成功，將看到類似內容如圖所示

9. windows下怎麼用python連接hive資料庫

由於版本的不同，Python 連接 Hive 的方式也就不一樣。
在網上搜索關鍵字 python hive 的時候可以找到一些解決方案。大部分是這樣的，首先把hive 根目錄下的$HIVE_HOME/lib/py拷貝到 python 的庫中，也就是 site-package 中，或者乾脆把新寫的 python 代碼和拷貝的 py 庫放在同一個目錄下，然後用這個目錄下提供的 thrift 介面調用。示例也是非常簡單的。類似這樣：
import sys
from hive_service import ThriftHive
from hive_service.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

def hiveExe(sql):

try:
transport = TSocket.TSocket('127.0.0.1', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()

client.execute(sql)

print "The return value is : "
print client.fetchAll()
print "............"
transport.close()
except Thrift.TException, tx:
print '%s' % (tx.message)

if __name__ == '__main__':
hiveExe("show tables")171819202122232425262728

或者是這樣的：
#!/usr/bin/env python

import sys

from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

try:
transport = TSocket.TSocket('14.18.154.188', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)

client = ThriftHive.Client(protocol)
transport.open()

client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
client.execute("SELECT * FROM test1")
while (1):
row = client.fetchOne()
if (row == None):
break
print rowve
client.execute("SELECT * FROM test1")
print client.fetchAll()

transport.close()

except Thrift.TException, tx:
print '%s' % (tx.message)

但是都解決不了問題，從 netstat 中查看可以發現 TCP 連接確實是建立了，但是不執行 hive 指令。也許就是版本的問題。
還是那句話，看各種中文博客不如看官方文檔。
項目中使用的 hive 版本是0.13，此時此刻官網的最新版本都到了1.2.1了。中間間隔了1.2.0、1.1.0、1.0.0、0.14.0。但是還是參考一下官網的方法試試吧。
首先看官網的 setting up hiveserver2
可以看到啟動 hiveserver2 可以配置最大最小線程數，綁定的 IP，綁定的埠，還可以設置認證方式。（之前一直不成功正式因為這個連接方式）然後還給了 python 示例代碼。
import pyhs2

with pyhs2.connect(host='localhost',
port=10000,
authMechanism="PLAIN",
user='root',
password='test',
database='default') as conn:
with conn.cursor() as cur:
#Show databases
print cur.getDatabases()

#Execute query
cur.execute("select * from table")

#Return column info from query
print cur.getSchema()

#Fetch table results
for i in cur.fetch():
print

在拿到這個代碼的時候，自以為是的把認證信息給去掉了。然後運行發現跟之前博客里介紹的方法結果一樣，建立了 TCP 連接，但是就是不執行，也不報錯。這是幾個意思？然後無意中嘗試了一下原封不動的使用上面的代碼。結果可以用。唉。。。
首先聲明一下，hive-site.xml中默認關於 hiveserver2的配置我一個都沒有修改，一直是默認配置啟動 hiveserver2。沒想到的是默認配置是有認證機制的。
然後再寫一點，在安裝 pyhs2的時候還是遇到了點問題，其實還是要看官方文檔的，我只是沒看官方文檔直接用 pip安裝導致了這個問題。安裝 pyhs2需要確定已經安裝了幾個依賴包。直接看在 github 上的 wiki 吧。哪個沒安裝就補上哪一個就好了。
To install pyhs2 on a clean CentOS 6.4 64-bit desktop....

(as root or with sudo)

get ez_setup.py from https://pypi.python.org/pypi/ez_setup
python ez_setup.py
easy_install pip
yum install gcc-c++
yum install cyrus-sasl-devel.x86_64
yum install python-devel.x86_64
pip install

寫了這么多，其實是在啰嗦自己遇到的問題。下面寫一下如何使用 python
連接 hive。
python 連接 hive 是基於 thrift 完成的。所以需要伺服器端和客戶端的配合才能使用。
在伺服器端需要啟動 hiveserver2 服務，啟動方法有兩種，第二種方法只是對第一種方法的封裝。
1. $HIVE_HOME/bin/hive --server hiveserver2
2. $HIVE_HOME/bin/hiveserver21212

默認情況下就是hiveserver2監聽了10000埠。也可以通過修改 hive-site.xml 或者在啟動的時候添加參數來實現修改默認配置。
另外一方面，在客戶端需要安裝 python 的依賴包 pyhs2。安裝方法在上面也介紹了，基本上就是用 pip install pyhs2，如果安裝不成功，安裝上面提到的依賴包就可以了。
最後運行上面的示例代碼就可以了，配置好 IP 地址、埠、資料庫、表名稱就可以用了，默認情況下認證信息不需要修改。
另外補充一點 fetch 函數執行速度是比較慢的，會把所有的查詢結果返回來。可以看一下 pyhs2 的源碼，查看一下還有哪些函數可以用。下圖是 Curor 類的可以使用的函數。

一般 hive 表裡的數據比較多，還是一條一條的讀比較好，所以選擇是喲功能 fetchone函數來處理數據。fetchone函數如果讀取成功會返回列表，否則 None。可以把示例代碼修改一下，把 fetch修改為：
count = 0
while (1):
row = cur.fetchone()
if (row is not None):
count += 1
print count, row
else:
print "it's over"

10. cdh安裝spark支持hive嗎

Shark為了實現Hive兼容，在HQL方面重用了Hive中HQL的解析、邏輯執行計劃翻譯、執行計劃優化等邏輯，可以近似認為僅將物理執行計劃從MR作業替換成了Spark作業（輔以內存列式存儲等各種和Hive關系不大的優化）；
同時還依賴Hive Metastore和Hive SerDe（用於兼容現有的各種Hive存儲格式）。這一策略導致了兩個問題，
第一是執行計劃優化完全依賴於Hive，不方便添加新的優化策略；
二是因為MR是進程級並行，寫代碼的時候不是很注意線程安全問題，導致Shark不得不使用另外一套獨立維護的打了補丁的Hive源碼分支（至於為何相關修改沒有合並到Hive主線，我也不太清楚）。

Spark SQL解決了這兩個問題。第一，Spark SQL在Hive兼容層面僅依賴HQL parser、Hive Metastore和Hive SerDe。也就是說，從HQL被解析成抽象語法樹（AST）起，就全部由Spark SQL接管了。執行計劃生成和優化都由Catalyst負責。藉助Scala的模式匹配等函數式語言特性，利用Catalyst開發執行計劃優化策略比Hive要簡潔得多。

閱讀全文

熱點內容

qb充值源碼發布：2025-01-11 10:00:21 瀏覽：27

c語言元編程發布：2025-01-11 09:53:02 瀏覽：343

線切割割圓怎麼編程發布：2025-01-11 09:52:23 瀏覽：171

怎麼選女孩子的配置發布：2025-01-11 09:47:33 瀏覽：671

python獲取header 發布：2025-01-11 09:47:32 瀏覽：492

iis7上傳大小發布：2025-01-11 09:41:38 瀏覽：507

拍攝腳本是什麼工作發布：2025-01-11 09:39:12 瀏覽：786

魅族安卓8什麼時候更新發布：2025-01-11 09:27:58 瀏覽：362

電腦板我的世界登錄密碼多少發布：2025-01-11 09:15:43 瀏覽：284

編譯原理和是非終結符嗎發布：2025-01-11 09:15:42 瀏覽：252

hive源碼

與hive源碼相關的資訊