hive源码

发布时间: 2022-02-06 18:19:38

1. 我想学习hive，请问安装hive之前，必须安装centos、hadoop、java这些吗

安装需要
java 1.6，java 1.7或更高版本。
Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x
linux,mac,windows操作系统。以下内容适用于linux系统。
安装打包好的hive
需要先到apache下载已打包好的hive镜像，然后解压开该文件
$ tar -xzvf hive-x.y.z.tar.gz

设置hive环境变量
$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}

设置hive运行路径
$ export PATH=$HIVE_HOME/bin:$PATH

编译Hive源码
下载hive源码
此处使用maven编译，需要下载安装maven。

以Hive 0.13版为例
编译hive 0.13源码基于hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
编译hive 基于hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
运行hive
Hive运行依赖于hadoop，在运行hadoop之前必需先配置好hadoopHome。
export HADOOP_HOME=<hadoop-install-dir>

在hdfs上为hive创建\tmp目录和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目录，然后你才可以运行hive。
在运行hive之前设置HiveHome。
$ export HIVE_HOME=<hive-install-dir>

在命令行窗口启动hive
$ $HIVE_HOME/bin/hive

若执行成功，将看到类似内容如图所示

2. 如何让Pentaho Aggregation Designer整合hive的数据源

最近需要进行利用pentaho聚合设计器实现hive数据仓库中表的聚合，但是目前的pentaho aggregation designer不支持hive的连接类型，想问下有没有牛人研究过pentaho aggregation designer的源码或是有别的方法直接将hive-jdbc加进去就可以使用

3. hive的源代码的编译与调试怎么做

windows自带的记事本只能做编辑源代码使用，要编译需要有编译器才行，找些其他的集成化软件，编辑编译连接调试集成一体的，如vc6.0，wintc等

4. hive 需要写java代码吗

如果你的项目是java项目的话，就需要使用hive提供的java api，如下代码：
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

import org.apache.log4j.Logger;

/**
* Hive的JavaApi
*
* 启动hive的远程服务接口命令行执行：hive --service hiveserver >/dev/null 2>/dev/null &
*
* @author 吖大哥
*
*/
public class HiveJdbcCli {

private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";
private static String url = "jdbc:hive://hadoop3:10000/default";
private static String user = "hive";
private static String password = "mysql";
private static String sql = "";
private static ResultSet res;
private static final Logger log = Logger.getLogger(HiveJdbcCli.class);

public static void main(String[] args) {
Connection conn = null;
Statement stmt = null;
try {
conn = getConn();
stmt = conn.createStatement();

// 第一步:存在就先删除
String tableName = dropTable(stmt);

// 第二步:不存在就创建
createTable(stmt, tableName);

// 第三步:查看创建的表
showTables(stmt, tableName);

// 执行describe table操作
describeTables(stmt, tableName);

// 执行load data into table操作
loadData(stmt, tableName);

// 执行 select * query 操作
selectData(stmt, tableName);

// 执行 regular hive query 统计操作
countData(stmt, tableName);

} catch (ClassNotFoundException e) {
e.printStackTrace();
log.error(driverName + " not found!", e);
System.exit(1);
} catch (SQLException e) {
e.printStackTrace();
log.error("Connection error!", e);
System.exit(1);
} finally {
try {
if (conn != null) {
conn.close();
conn = null;
}
if (stmt != null) {
stmt.close();
stmt = null;
}
} catch (SQLException e) {
e.printStackTrace();
}
}
}

private static void countData(Statement stmt, String tableName)
throws SQLException {
sql = "select count(1) from " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("执行“regular hive query”运行结果:");
while (res.next()) {
System.out.println("count ------>" + res.getString(1));
}
}

private static void selectData(Statement stmt, String tableName)
throws SQLException {
sql = "select * from " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("执行 select * query 运行结果:");
while (res.next()) {
System.out.println(res.getInt(1) + "\t" + res.getString(2));
}
}

private static void loadData(Statement stmt, String tableName)
throws SQLException {
String filepath = "/home/hadoop01/data";
sql = "load data local inpath '" + filepath + "' into table "
+ tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
}

private static void describeTables(Statement stmt, String tableName)
throws SQLException {
sql = "describe " + tableName;
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("执行 describe table 运行结果:");
while (res.next()) {
System.out.println(res.getString(1) + "\t" + res.getString(2));
}
}

private static void showTables(Statement stmt, String tableName)
throws SQLException {
sql = "show tables '" + tableName + "'";
System.out.println("Running:" + sql);
res = stmt.executeQuery(sql);
System.out.println("执行 show tables 运行结果:");
if (res.next()) {
System.out.println(res.getString(1));
}
}

private static void createTable(Statement stmt, String tableName)
throws SQLException {
sql = "create table "
+ tableName
+ " (key int, value string) row format delimited fields terminated by '\t'";
stmt.executeQuery(sql);
}

private static String dropTable(Statement stmt) throws SQLException {
// 创建的表名
String tableName = "testHive";
sql = "drop table " + tableName;
stmt.executeQuery(sql);
return tableName;
}

private static Connection getConn() throws ClassNotFoundException,
SQLException {
Class.forName(driverName);
Connection conn = DriverManager.getConnection(url, user, password);
return conn;
}

}

5. 如何把hive源码导入eclipse当中，从而能进行对hive的再次开发和更新谢谢！

在Eclipse中新建一个java项目，然后把hive源码中src下的文件复制到新建的项目的src下即可

6. hive中设置参数怎样设置走spark-sql

1、下载源码

2、下载Maven,并配置
此配置简单，就略过

3、使用maven进行打包：
打包命令：
mvn -Pyarn -Dhadoop.version=2.3.0-cdh5.0.0 -Phive -Phive-thriftserver -DskipTests clean package

上面的hadoop.version可以根据自己的需要设置相应的版本

7. 如何使用Maven构建《hadoop权威指南3》随书的源码包

执行完上述步骤后，输入hbase命令出现如下界面，就说明已经安装成功了（别忘了执行". ~/.bashrc"使配置的环境变量生效）：

下面我们就可以切换到本书的源文件包的根目录下使用maven来构建本书的jar包了：
% mvn package -DskipTests -Dhadoop.version=1.0.4
执行过这条命令后就是很长时间的等待，maven会到他的中央仓库和apache的仓库中下载所需要的jar包和pom.xml文件（这个过程可能要持续大约一个小时，要确保你的电脑已经连上网络，下载完成后在~/.m2/repository文件夹中——也即本地仓库——可以看到已经下载下来的jar包和pom文件），然后再逐个构建根目录下pom.xml中配置的moles，等所有的工作做完就可以看到已经打包的各个jar包，从而可以很方便的在命令行使用hadoop命令测试书中的代码了

8. hive的安装配置

你可以下载一个已打包好的hive稳定版，也可以下载源码自己build一个版本。
安装需要 java 1.6，java 1.7或更高版本。 Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x Linux,mac,windows操作系统。以下内容适用于linux系统。安装打包好的hive
需要先到apache下载已打包好的hive镜像，然后解压开该文件 $tar-xzvfhive-x.y.z.tar.gz设置hive环境变量 $cdhive-x.y.z$exportHIVE_HOME={{pwd}}设置hive运行路径 $exportPATH=$HIVE_HOME/bin:$PATH编译Hive源码
下载hive源码
此处使用maven编译，需要下载安装maven。
以Hive 0.13版为例编译hive 0.13源码基于hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 编译hive 基于hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 运行hive
Hive运行依赖于hadoop，在运行hadoop之前必需先配置好hadoopHome。 exportHADOOP_HOME=<hadoop-install-dir>在hdfs上为hive创建 mp目录和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目录，然后你才可以运行hive。
在运行hive之前设置HiveHome。 $exportHIVE_HOME=<hive-install-dir>在命令行窗口启动hive $$HIVE_HOME/bin/hive若执行成功，将看到类似内容如图所示

9. windows下怎么用python连接hive数据库

由于版本的不同，Python 连接 Hive 的方式也就不一样。
在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的，首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中，也就是 site-package 中，或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下，然后用这个目录下提供的 thrift 接口调用。示例也是非常简单的。类似这样：
import sys
from hive_service import ThriftHive
from hive_service.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

def hiveExe(sql):

try:
transport = TSocket.TSocket('127.0.0.1', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = ThriftHive.Client(protocol)
transport.open()

client.execute(sql)

print "The return value is : "
print client.fetchAll()
print "............"
transport.close()
except Thrift.TException, tx:
print '%s' % (tx.message)

if __name__ == '__main__':
hiveExe("show tables")171819202122232425262728

或者是这样的：
#!/usr/bin/env python

import sys

from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

try:
transport = TSocket.TSocket('14.18.154.188', 10000)
transport = TTransport.TBufferedTransport(transport)
protocol = TBinaryProtocol.TBinaryProtocol(transport)

client = ThriftHive.Client(protocol)
transport.open()

client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
client.execute("SELECT * FROM test1")
while (1):
row = client.fetchOne()
if (row == None):
break
print rowve
client.execute("SELECT * FROM test1")
print client.fetchAll()

transport.close()

except Thrift.TException, tx:
print '%s' % (tx.message)

但是都解决不了问题，从 netstat 中查看可以发现 TCP 连接确实是建立了，但是不执行 hive 指令。也许就是版本的问题。
还是那句话，看各种中文博客不如看官方文档。
项目中使用的 hive 版本是0.13，此时此刻官网的最新版本都到了1.2.1了。中间间隔了1.2.0、1.1.0、1.0.0、0.14.0。但是还是参考一下官网的方法试试吧。
首先看官网的 setting up hiveserver2
可以看到启动 hiveserver2 可以配置最大最小线程数，绑定的 IP，绑定的端口，还可以设置认证方式。（之前一直不成功正式因为这个连接方式）然后还给了 python 示例代码。
import pyhs2

with pyhs2.connect(host='localhost',
port=10000,
authMechanism="PLAIN",
user='root',
password='test',
database='default') as conn:
with conn.cursor() as cur:
#Show databases
print cur.getDatabases()

#Execute query
cur.execute("select * from table")

#Return column info from query
print cur.getSchema()

#Fetch table results
for i in cur.fetch():
print

在拿到这个代码的时候，自以为是的把认证信息给去掉了。然后运行发现跟之前博客里介绍的方法结果一样，建立了 TCP 连接，但是就是不执行，也不报错。这是几个意思？然后无意中尝试了一下原封不动的使用上面的代码。结果可以用。唉。。。
首先声明一下，hive-site.xml中默认关于 hiveserver2的配置我一个都没有修改，一直是默认配置启动 hiveserver2。没想到的是默认配置是有认证机制的。
然后再写一点，在安装 pyhs2的时候还是遇到了点问题，其实还是要看官方文档的，我只是没看官方文档直接用 pip安装导致了这个问题。安装 pyhs2需要确定已经安装了几个依赖包。直接看在 github 上的 wiki 吧。哪个没安装就补上哪一个就好了。
To install pyhs2 on a clean CentOS 6.4 64-bit desktop....

(as root or with sudo)

get ez_setup.py from https://pypi.python.org/pypi/ez_setup
python ez_setup.py
easy_install pip
yum install gcc-c++
yum install cyrus-sasl-devel.x86_64
yum install python-devel.x86_64
pip install

写了这么多，其实是在啰嗦自己遇到的问题。下面写一下如何使用 python
连接 hive。
python 连接 hive 是基于 thrift 完成的。所以需要服务器端和客户端的配合才能使用。
在服务器端需要启动 hiveserver2 服务，启动方法有两种，第二种方法只是对第一种方法的封装。
1. $HIVE_HOME/bin/hive --server hiveserver2
2. $HIVE_HOME/bin/hiveserver21212

默认情况下就是hiveserver2监听了10000端口。也可以通过修改 hive-site.xml 或者在启动的时候添加参数来实现修改默认配置。
另外一方面，在客户端需要安装 python 的依赖包 pyhs2。安装方法在上面也介绍了，基本上就是用 pip install pyhs2，如果安装不成功，安装上面提到的依赖包就可以了。
最后运行上面的示例代码就可以了，配置好 IP 地址、端口、数据库、表名称就可以用了，默认情况下认证信息不需要修改。
另外补充一点 fetch 函数执行速度是比较慢的，会把所有的查询结果返回来。可以看一下 pyhs2 的源码，查看一下还有哪些函数可以用。下图是 Curor 类的可以使用的函数。

一般 hive 表里的数据比较多，还是一条一条的读比较好，所以选择是哟功能 fetchone函数来处理数据。fetchone函数如果读取成功会返回列表，否则 None。可以把示例代码修改一下，把 fetch修改为：
count = 0
while (1):
row = cur.fetchone()
if (row is not None):
count += 1
print count, row
else:
print "it's over"

10. cdh安装spark支持hive吗

Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业（辅以内存列式存储等各种和Hive关系不大的优化）；
同时还依赖Hive Metastore和Hive SerDe（用于兼容现有的各种Hive存储格式）。这一策略导致了两个问题，
第一是执行计划优化完全依赖于Hive，不方便添加新的优化策略；
二是因为MR是进程级并行，写代码的时候不是很注意线程安全问题，导致Shark不得不使用另外一套独立维护的打了补丁的Hive源码分支（至于为何相关修改没有合并到Hive主线，我也不太清楚）。

Spark SQL解决了这两个问题。第一，Spark SQL在Hive兼容层面仅依赖HQL parser、Hive Metastore和Hive SerDe。也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。执行计划生成和优化都由Catalyst负责。借助Scala的模式匹配等函数式语言特性，利用Catalyst开发执行计划优化策略比Hive要简洁得多。

阅读全文

热点内容

枪战王者如何用账号密码登录发布：2025-01-11 10:30:56 浏览：936

mysql在linux下安装发布：2025-01-11 10:30:49 浏览：843

数据库copy 发布：2025-01-11 10:26:06 浏览：533

unity清理缓存发布：2025-01-11 10:25:23 浏览：466

优酷视频双击上传发布：2025-01-11 10:24:41 浏览：963

存储脐带胎儿干细胞发布：2025-01-11 10:18:36 浏览：330

实简ftp软件怎么改服务器文件发布：2025-01-11 10:09:39 浏览：555

qb充值源码发布：2025-01-11 10:00:21 浏览：27

c语言元编程发布：2025-01-11 09:53:02 浏览：343

线切割割圆怎么编程发布：2025-01-11 09:52:23 浏览：172

hive源码

与hive源码相关的资讯