hbasethriftpython

发布时间: 2023-06-10 04:59:47

⑴ python连接hive，怎么安装thrifthive

HiveServer2的启动

启动HiveServer2

HiveServer2的启动十分简便：

$ $HIVE_HOME/bin/hiveserver2

或者

$ $HIVE_HOME/bin/hive --service hiveserver2

默认情况下，HiverServer2的Thrift监听端口是10000，其WEB UI端口是10002。可通过http://localhost:10002来查看HiveServer2的Web UI界面，这里显示了Hive的一些基本信息。如果Web界面不能查看，则说明HiveServer2没有成功运行。

使用beeline测试客户端连接

HiveServer2成功运行后，我们可以使用Hive提供的客户端工具beeline连接HiveServer2。

$ $HIVE_HOME/bin/beeline

beeline > !connect jdbc:hive2://localhost:10000

如果成功登录将出现如下的命令提示符，此时可以编写HQL语句。

0: jdbc:hive2://localhost:10000>

报错：User: xxx is not allowed to impersonate anonymous

在beeline使用!connect连接HiveServer2时可能会出现如下错误信息：

Caused by: org.apache.hadoop.ipc.RemoteException:
User: xxx is not allowed to impersonate anonymous

这里的xxx是我的操作系统用户名称。这个问题的解决方法是在hadoop的core-size.xml文件中添加xxx用户代理配置：

<property> <name>hadoop.proxyuser.xxx.groups</name> <value>*</value></property><property> <name>hadoop.proxyuser.xxx.hosts</name> <value>*</value></property>

重启HDFS后，再用beeline连接HiveServer2即可成功连接。

常用配置

HiveServer2的配置可以参考官方文档《Setting Up HiveServer2》

这里列举一些hive-site.xml的常用配置：

hive.server2.thrift.port：监听的TCP端口号。默认为10000。

hive.server2.thrift.bind.host：TCP接口的绑定主机。

hive.server2.authentication：身份验证方式。默认为NONE（使用 plain SASL），即不进行验证检查。可选项还有NOSASL, KERBEROS, LDAP, PAM and CUSTOM.

hive.server2.enable.doAs：是否以模拟身份执行查询处理。默认为true。

Python客户端连接HiveServer2

python中用于连接HiveServer2的客户端有3个：pyhs2，pyhive，impyla。官网的示例采用的是pyhs2，但pyhs2的官网已声明不再提供支持，建议使用impyla和pyhive。我们这里使用的是impyla。

impyla的安装

impyla必须的依赖包括：

six
bit_array
thriftpy(python2.x则是thrift)

为了支持Hive还需要以下两个包：

sasl
thrift_sasl

可在Python PI中下载impyla及其依赖包的源码。

impyla示例

以下是使用impyla连接HiveServer2的示例：

from impala.dbapi import connect

conn = connect(host='127.0.0.1', port=10000, database='default', auth_mechanism='PLAIN')

cur = conn.cursor()

cur.execute('SHOW DATABASES')print(cur.fetchall())

cur.execute('SHOW Tables')print(cur.fetchall())

⑵ 如何在python中访问hbase的数据

python访问hbase需要额外的库，一般用thrift。使用thrift调用hbase，由于篇幅限制在这里不能说的很详细。

请网络Phthonthrift或pythonhbase自行查阅相关资料。

下面是一个例子仅供参考

#coding:utf-8

fromthriftimportThrift
fromthrift.transportimportTSocket
fromthrift.transportimportTTransport
fromthrift.protocolimportTBinaryProtocol
fromhbaseimportHbase
fromhbase.ttypesimport*
importcsv


defclient_conn():
transport=TSocket.TSocket('hostname,like:localhost',port)
transport=TTransport.TBufferedTransport(transport)
protocol=TBinaryProtocol.TBinaryProtocol(transport)
client=Hbase.Client(protocol)
transport.open()
returnclient

if__name__=="__main__":

client=client_conn()
result=client.getRow("tablename","rowname")
data_simple=[]
fork,vinresult[0].columns.items():#.keys()
data_simple.append((v.timestamp,v.value))
writer.writerows(data)
csvfile.close()

csvfile_simple=open("data_xy_simple.csv","wb")
writer_simple=csv.writer(csvfile_simple)
writer_simple.writerow(["timestamp","value"])
writer_simple.writerows(data_simple)
csvfile_simple.close()

⑶ 如何使用python在hbase里进行模糊查询

注意：正则的写法可能不对，保证能过滤出数据，但是可能不会严格匹配，正则问题请自己解决；
#导入thrift和habse包
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
from hbase import Hbase
from hbase.ttypes import *
#此处可以修改地址和端口
host = '192.168.1.1'
#默认端口为9090
port = 9090
#要查询的表名
table = 'table_name'
#定义一个过滤器，此为关键步骤
filter = "RowFilter(=,'regexstring:.3333.')" #此行原创：）
# Make socket
transport = TSocket.TSocket(host, port)
# Buffering is critical. Raw sockets are very slow
# 还可以用TFramedTransport,也是高效传输方式
transport = TTransport.TBufferedTransport(transport)
# Wrap in a protocol
#传输协议和传输过程是分离的，可以支持多协议
protocol = TBinaryProtocol.TBinaryProtocol(transport)
#客户端代表一个用户
client = Hbase.Client(protocol)
#打开连接
try:
transport.open()
scan.filterString=filter
scanner = client.scannerOpenWithScan(table, scan)
except Exception:
finally:
client.scannerClose(scan)
transport.close()
连接代码网上一搜一大堆，非原创，来源已不可考，非本人研究成果；
关键就是这个："RowFilter(=,'regexstring:.3333.')"
这个过滤器要写对，hbase有十几种内置的过滤器方法，有几种比较运算符和比较器，上面这个是正则方式，即'regexstring:.3333.'；
过滤器整个双引号里面的内容会通过thrift传给hbase服务端处理，下划线这部分正则要支持java的正则要求不然会报错，过滤器的用法官网有，网上也有些资料，但是坑比较多，这几天各种被坑//包括官方坑
Apache HBase

⑷ python可以把爬虫的数据写入hbase么

在已经安装了HBase服务的服务器中，已经自动安装了HBase的Thrift的肆并桥脚本，路径为：/usr/lib/hbase/include/thrift
。
需要使用这个脚本生蔽陪成基于Python语言的HBase的Thrift脚本，具体命令如下：
thrift
--gen
py
hbase2.thrift
命令执行成功后会生成名为gen-py的目录，其中包含了python版本的HBase包。
主要文件介绍如下：
l
Hbase.py
中定义了一些HbaseClient可以使用的方法
l
ttypes.py中定义了HbaseClient传输的数据类裂猛型
将生成的HBase包放入项目代码或者放入Python环境的依赖包目录中即可调用。

⑸ 如何在Python中访问HBase的数据

Python连接HBase时需要先加载Thrift和HBase的相关包，之后创建与HBase的连接并进行后续操作，具体代码如下：
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from thrift.transport.TSocket import TSocket
from thrift.transport.TTransport import TBufferedTransport
from thrift.protocol import TBinaryProtocol
from hbase import Hbase
from hbase.ttypes import *
import pymongo
import hashlib
import time
from datetime import datetime

class HBaseOperator():
def __init__(self):
self.host = "ip_address"
self.port = 9090
self.transport = TBufferedTransport(TSocket(self.host, self.port))
self.transport.open()
self.protocol = TBinaryProtocol.TBinaryProtocol(self.transport)
self.client = Hbase.Client(self.protocol)

def __del__(self):
self.transport.close()

def getAllTablesInfo(self):
#get table info
listTables = self.client.getTableNames()
print "="*40
print "Show all tables information...."

for tableName in listTables:
print "TableName:" + tableName
print " "
listColumns = self.client.getColumnDescriptors(tableName)
print listColumns
print " "

listTableRegions = self.client.getTableRegions(tableName)
print listTableRegions
print "+"*40

⑹ hbase的特点

hbase的特点：高可靠性、高性能、面向列、可伸缩的。

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

(6)hbasethriftpython扩展阅读

访问接口：

1. Native Java API，最常规和高效的访问方式，适合Hadoop MapRece Job并行批处理HBase表数据

2. HBase Shell，HBase的命令行工具，最简单的接口，适合HBase管理使用

3. Thrift Gateway，利用Thrift序列化技术，支持C++，PHP，Python等多种语言，适合其他异构系统在线访问HBase表数据

4. REST Gateway，支持REST 风格的Http API访问HBase, 解除了语言限制

5. Pig，可以使用Pig Latin流式编程语言来操作HBase中的数据，和Hive类似，本质最终也是编译成MapRece Job来处理HBase表数据，适合做数据统计。

阅读全文

热点内容

安卓系统密码忘了怎么办发布：2025-02-13 21:49:28 浏览：971

找回密码发送信息是什么意思发布：2025-02-13 21:49:26 浏览：639

织梦通用源码发布：2025-02-13 21:48:41 浏览：438

pid算法调速发布：2025-02-13 21:20:31 浏览：686

脚本中new 发布：2025-02-13 21:00:11 浏览：741

什么配置的笔记本电脑能玩神武发布：2025-02-13 20:54:40 浏览：179

挑选云服务器需要注意什么发布：2025-02-13 20:53:31 浏览：98

加密滴胶卡发布：2025-02-13 20:30:48 浏览：275

javalogin 发布：2025-02-13 20:25:48 浏览：427

智联招聘无法上传照片发布：2025-02-13 20:16:03 浏览：529

hbasethriftpython

与hbasethriftpython相关的资讯