hbase源码编译
‘壹’ hbase是什么工具
将数据导入HBase中有如下几种方式:使用HBase的API中的Put方法使用HBase 的bulk load 工具使用定制的MapRece Job方式 使用HBase的API中的Put是最直接的方法,用法也很容易学习。但针对大部分情况,它并非都是最高效的方式。当需要将海量数据在规定时间内载入HBase中时,效率问题体现得尤为明显。待处理的数据量一般都是巨大的,这也许是为何我们选择了HBase而不是其他数据库的原因。在项目开始之前,你就该思考如何将所有能够很好的将数据转移进HBase,否则之后可能面临严重的性能问题。 HBase有一个名为 bulk load的功能支持将海量数据高效地装载入HBase中。Bulk load是通过一个MapRece Job来实现的,通过Job直接生成一个HBase的内部HFile格式文件来形成一个特殊的HBase数据表,然后直接将数据文件加载到运行的集群中。使用bulk load功能最简单的方式就是使用importtsv 工具。importtsv 是从TSV文件直接加载内容至HBase的一个内置工具。它通过运行一个MapRece Job,将数据从TSV文件中直接写入HBase的表或者写入一个HBase的自有格式数据文件。尽管importtsv 工具在需要将文本数据导入HBase的时候十分有用,但是有一些情况,比如导入其他格式的数据,你会希望使用编程来生成数据,而MapRece是处理海量数据最有效的方式。这可能也是HBase中加载海量数据唯一最可行的方法了。当然我们可以使用MapRece向HBase导入数据,但海量的数据集会使得MapRece Job也变得很繁重。若处理不当,则可能使得MapRece的job运行时的吞吐量很小。在HBase中数据合并是一项频繁执行写操作任务,除非我们能够生成HBase的内部数据文件,并且直接加载。这样尽管HBase的写入速度一直很快,但是若合并过程没有合适的配置,也有可能造成写操作时常被阻塞。写操作很重的任务可能引起的另一个问题就是将数据写入了相同的族群服务器(region server),这种情况常出现在将海量数据导入到一个新建的HBase中。一旦数据集中在相同的服务器,整个集群就变得不平衡,并且写速度会显着的降低。我们将会在本文中致力于解决这些问题。我们将从一个简单的任务开始,使用API中的Put方法将Mysql中的数据导入HBase。接着我们会描述如何使用 importtsv 和 bulk load将TSV数据文件导入HBase。我们也会有一个MapRece样例展示如何使用其他数据文件格式来导入数据。上述方式都包括将数据直接写入HBase中,以及在HDFS中直接写入HFile类型文件。本文中最后一节解释在向HBase导入数据之前如何构建好集群。本文代码均是以java编写,我们假设您具有基本Java知识,所以我们将略过如何编译与打包文中的Java示例代码,但我们会在示例源码中进行注释。
‘贰’ hbase源码怎么导入eclipse
如何使用Eclipse导入并运行源码(
网上关于Eclipse配置和开发入门程序的文章很多,可是要么很粗浅,要么很高深,却很少看到讲解如何把别人的源码导入到自己的Eclipse环境中编译运行的描述。做为初学者,能够学习网上一些优秀源码是提高的必由之路,可是Eclipse却不象VC和Delphi那样容易上手,对于很多初学者来说,它似乎还是太难了点。在找不到很好的关于Eclipse入门教程的情况下,为了能运行网上下载的Java源码,我颇费了一些时间寻找如何正确的导入源码并运行的方法,不敢独美,特贡献出来与初学者共享。
运行环境:
Java EE 5.0
Eclipse 3.1 中文版
源代码用例(都是Java Application):
仿真Windows记事本
连连看
上述的两个源代码在赛迪网上可以找到。关于JDK的配置、安装和Eclipse的安装本文不再赘述,读者可以很容易地找到相关的资料。本文只讲使用Eclipse来导入源代码的方法。
首先确保你的工作空间已经创建好,在我的机器上工作空间所在的目录是“e:/workspace”。源代码存放路径假设为“我的文档/cai/Java/一个仿windows的记事本”和“我的文档/cai/Java/连连看/kyodai”。
下面开始介绍导入源码的方法。
◎选择菜单“文件/新建/项目”,选择“Java项目”,弹出“创建Java项目”对话框。
◎在“创建Java项目”中输入“项目名”,项目名可以为任意名字,不必和main类的名字一样。这里假设为“Notepad”。
在“内容”中有两个单选按钮,视你的需要来使用。其中“在工作空间中创建新项目”会在你的工作空间中创建一个新目录,目录名与项目名一致;“从现有资源创建项目”可以在源码所在目录中直接编译运行,生成的class文件也会存放在源码目录中。
下面先讲“在工作空间中创建新项目”的方法。
◎在“内容”中单选“在工作空间中创建新项目”,点击“完成”按钮。此时在e:/workspace下生成Notepad目录。
◎下面需要导入源码到工作空间去。选择菜单“文件/导入”,选择“文件系统”。弹出“文件系统”对话框。
◎在“从目录”中选择源码存放目录“我的文档/cai/Java/一个仿windows的记事本”,勾选上所有的.java源码,其他的垃圾不要选上。下面又有两个选择:对话框下方有两个选项,若选择“创建完整的文件夹结构”,就会按源码所存放的路径完整地在工作空间中创建目录,创建完毕会由于main方法类的路径不对而在包资源管理器内的图标上显示叉叉,无法编译成功;若选择“只创建选择的文件夹”,则会在工作空间创建的目录下导入所有的文件而不会保留原目录,此时可以编译成功。
◎若选择“创建完整的文件夹结构”,导入完成后,选择菜单“项目/属性/Java构建路径/源代码”,点击“添加文件夹”,把子目录逐级点开,直到源代码所在这级目录为止,勾选上该目录。弹出的提示对话框点击确定即可。注意上级目录不要勾选,否则会报错。这样这种方法导入的源码也可以编译运行了。
◎注意若源代码中含有子目录,在main程序中会有import ...的语句,此时要注意import后面的目录级别,在选择Java构建路径时要勾选上import指明的上级目录名。例如,连连看代码中有子目录topbar,在main程序中有import kyodai.topbar语句,那么就要勾选到“我的文档/cai/Java/连连看/”这级目录,而非源码所在的“我的文档/cai/Java/连连看/kyodai”目录。
◎在连连看源码中,作者已经把所有源码都打包成了一个Jar,此时只需要添加该Jar包而不需要导入其他源码就可以运行了(但不能调试,因为Jar包中不含源码)。方法是创建完新项目后,选择菜单“项目/属性/Java构建路径”,点击“库”页,点击“添加外部JAR”按钮,选择源码自带的Jar包即可运行。
下面介绍“从现有资源创建项目”的方法。
◎在“创建Java项目”对话框中,点击“下一步”按钮,弹出“Java设置”对话框。
◎在“Java设置”对话框中选择“库”页,选择“添加JAR”,若找不到随源码提供的Jar包,就选择“添加外部JAR”。一般如果Jar存放的目录正确,在“添加JAR”中是可以找到该条目的。双击出现的Jar包即可添加进去。若不需要额外的库支持,则点击“完成”。
这样,用上面两种方法创建的项目就可以编译运行了。下面就介绍运行的方法。
◎选择菜单“Run/运行”,弹出“创建、管理和运行配置”对话框。
◎根据源码的种类在左边的列表中进行选择。我们用的两个例子都是Java应用程序,所以双击“Java应用程序”,在对话框右边可以输入运行的配置。
◎如果新建了项目还没有运行过,那么右边的“项目”栏缺省值即为刚创建的项目。在“名称”栏中输入运行配置的名称,建议与项目名称一致(也可以不一致),不能与其他的运行配置重名。
◎点击“Main类”栏右方的“搜索”按钮,一般只有一个main类,在弹出的对话框中双击下面那个栏目的main类即可。如果需要以其他的main方法做为程序入口,可以勾选上“Main类”栏下方的两个复选框,选择其他的入口。
◎如果需要增加特殊的环境变量,例如有的源码可能需要添加classpath环境变量,则可以在“环境”页中添加。
◎运行配置中的内容也会同样反映在调试配置中,运行和调试使用相同的配置。
创建了一堆新项目后,包资源管理器中会有一堆乱七八糟项目,有些是你需要的,有些是早已废弃不用的,你可以删除那些不用的项目,方法是右键点击该项目,选择“删除”。这里要提醒读者一下的是,删除对话框有两个选项,问你是否删除该项目目录下的内容,缺省是“不删除内容”,如果选择删除,那么那个目录就整个被删除掉了,如果你这个目录下的东西还有用,那你只好哭了。
删除掉没用的项目后,运行/调试对话框中多余的配置也可以删除,方法是右键点击不用的配置名,选择删除。
好了,这是我初学Eclipse的一些心得,希望能对广大想要使用Eclipse又担心它烦琐的初学者有些帮助。
‘叁’ 如何在windows平台上用Eclipse调试运行HBase
操作步骤如下:
1.下载和安装cygwin;
2.下载新的Zookeeper包和HBase包,这里ZooKeeper版本为3.3.1,HBase版本为0.20.4
3.把利用它们的源码包在Eclipse下生成2个独立的Project,注意:zookeeper工程,要把那个conf目录加入到工程的src中去
4.修改zookeeper工程下的conf目录中的zoo.cfg文件,例子如下:
# The number of milliseconds of each tick
tickTime=5000
# the directory where the snapshot is stored.
dataDir=D:/zookeeper-3.3.1/data
# the port at which the clients will connect
clientPort=2181
就是给zookeeper指定文件存放的地方以及端口
5.启动zookeeper
在Eclipse中新建一个Run config,main class为:org.apache.zookeeper.server.quorum.QuorumPeerMain
启动的程序参数为:D:/workspace/zookeeper3.3.1/conf/zoo.cfg
启动的虚拟机参数为:
-Dzookeeper.log.dir=D:/workspace/zookeeper3.3.1/log
-Dzookeeper.root.logger=INFO,CONSOLE
如图所示:
好了,这样就可以在Eclipse中把ZooKeeper启动起来了。
6.修改HBase project中的一个类
org.apache.hadoop.hbase.LocalHBaseCluster
找到它的main函数,把main函数改成下
public static void main(String[] args) throws IOException {
HBaseConfiguration conf = new HBaseConfiguration();
conf.set("hbase.zookeeper.quorum", "localhost");
conf.set("hbase.zookeeper.property.clientPort", "2181");
LocalHBaseCluster cluster = new LocalHBaseCluster(conf,1);
cluster.startup();
}
注意行:LocalHBaseCluster cluster = new LocalHBaseCluster(conf,1); 构造函数中的1是代表Region server的个数,在这里只想起一个region server.
7.修改HBase的配置文件
在HBase project下的src中可以看到hbase-default.xml和hbase-site.xml两个文件,改哪个都可以。直接在hbase-default.xml改的,重要的是下面3个属性hbase.rootdir,hbase.cluster.distributed,hbase.tmp.dir,
把hbase.rootdir,hbase.tmp.dir都指向了本地的目录,当然可以根据自己的需要调整,当然格式一定一样写。
<property>
<name>hbase.rootdir</name>
<value>file:///D:/hbase-0.20.3/data</value>
<description>The directory shared by region servers.
Should be fully-qualified to include the filesystem to use.
E.g: hdfs://NAMENODE_SERVER:PORT/HBASE_ROOTDIR
</description>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>false</value>
<description>The mode the cluster will be in. Possible values are
false: standalone and pseudo-distributed setups with managed Zookeeper
true: fully-distributed with unmanaged Zookeeper Quorum (see hbase-env.sh)
</description>
</property>
<property>
<name>hbase.tmp.dir</name>
<value>D:/hbase-0.20.3/tmp</value>
<description>Temporary directory on the local filesystem.</description>
</property>
<property>
8.启动HBase,直接run org.apache.hadoop.hbase.LocalHBaseCluster就可以,run config不需要没有什么别的配置。当然就也可以debug了。
‘肆’ 如何使用Eclipse构建HBase开发环境
在Eclipse中构建HBase开发环境步骤:
1:从HBase集群中复制一份Hbase部署文件,放置在开发端某一目录下(如在/app/hadoop/hbase096目录下)。
2:在eclipse里新建一个java项目HBase,然后选择项目属性,在Libraries->Add External JARs...,然后选择/app/hadoop/hbase096/lib下相关的JAR包,如果只是测试用的话,就简单一点,将所有的JAR选上。
3:在项目HBase下增加一个文件夹conf,将Hbase集群的配置文件hbase-site.xml复制到该目录,然后选择项目属性在Libraries->Add Class Folder,将刚刚增加的conf目录选上。
4:在HBase项目中增加一个package,然后增加一个HBaseTestCase的class,然后把源码复制进去。
5:设置运行配置,然后运行。运行前将Hbase集群先启动。
6:检验,使用hbase shell查看hbase,发现已经建立表hbase_tb。
补充jar包版本:hadoop-1.2.1,hbase-0.94.12,zookeeper-3.4.5
‘伍’ 在ubuntu环境下怎么利用python将数据批量导入数据hbase
能够单条导入就能够批量导入
配置 thrift
python使用的包 thrift
个人使用的python 编译器是pycharm community edition. 在工程中设置中,找到project interpreter, 在相应的工程下,找到package,然后选择 “+” 添加, 搜索 hbase-thrift (Python client for HBase Thrift interface),然后安装包。
安装服务器端thrift。
参考官网,同时也可以在本机上安装以终端使用。
thrift Getting Started
也可以参考安装方法 python 调用HBase 范例
首先,安装thrift
下载thrift,这里,我用的是thrift-0.7.0-dev.tar.gz 这个版本
tar xzf thrift-0.7.0-dev.tar.gz
cd thrift-0.7.0-dev
sudo ./configure –with-cpp=no –with-ruby=no
sudo make
sudo make install
然后,到HBase的源码包里,找到
src/main/resources/org/apache/hadoop/hbase/thrift/
执行
thrift –gen py Hbase.thrift
mv gen-py/hbase/ /usr/lib/python2.4/site-packages/ (根据python版本可能有不同)
获取数据示例 1
# coding:utf-8
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
from hbase import Hbase
# from hbase.ttypes import ColumnDescriptor, Mutation, BatchMutation
from hbase.ttypes import *
import csv
def client_conn():
# Make socket
transport = TSocket.TSocket('hostname,like:localhost', port)
# Buffering is critical. Raw sockets are very slow
transport = TTransport.TBufferedTransport(transport)
# Wrap in a protocol
protocol = TBinaryProtocol.TBinaryProtocol(transport)
# Create a client to use the protocol encoder
client = Hbase.Client(protocol)
# Connect!
transport.open()
return client
if __name__ == "__main__":
client = client_conn()
# r = client.getRowWithColumns('table name', 'row name', ['column name'])
# print(r[0].columns.get('column name')), type((r[0].columns.get('column name')))
result = client.getRow("table name","row name")
data_simple =[]
# print result[0].columns.items()
for k, v in result[0].columns.items(): #.keys()
#data.append((k,v))
# print type(k),type(v),v.value,,v.timestamp
data_simple.append((v.timestamp, v.value))
writer.writerows(data)
csvfile.close()
csvfile_simple = open("data_xy_simple.csv", "wb")
writer_simple = csv.writer(csvfile_simple)
writer_simple.writerow(["timestamp", "value"])
writer_simple.writerows(data_simple)
csvfile_simple.close()
print "finished"
会基础的python应该知道result是个list,result[0].columns.items()是一个dict 的键值对。可以查询相关资料。或者通过输出变量,观察变量的值与类型。
说明:上面程序中 transport.open()进行链接,在执行完后,还需要断开transport.close()
目前只涉及到读数据,之后还会继续更新其他dbase操作。
‘陆’ 如何编译Flume-NG源码之最新1.5.2版本
方法
源码下载
http://www.neoye.com/3446.html apache-flume-1.5.2-src.tar.gz
解压至C盘根目录
建议放到C盘根目录中,测试时我是放到这里,其它目录不保证可以顺利通过,可参考测试。
运行mvn
进入c:\apache-flume-1.5.2目录,运行mvn install -DskipTests -Dtar注意:网上有其它参考材料说要先将注释掉hbase和hadoop-test相关的依赖,我没这样做,没问题。
可能根据环境不同有差异。不过大家遇到与hbase和hadoop-test相关的错误可以进行参考更正。
部分代码参考
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase</artifactId>
<version>${hbase.version}</version>
<classifier>tests</classifier>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-test</artifactId>
<version>${hadoop.version}</version>
</dependency>
典型问题1处理[重点]
1、error reading error in opening zip file
[ERROR] error: error reading
/org/elasticsearch/elasticsearch/0.90.1/elasticsearch-0.90.1.jar;
error in opening zip file
[ERROR] -> [Help 1]
出现这个错误可能是已经下载的这个jar存在问题。到本地库中找到对应的jar所在位置,然后将其删除,重新运行mvn命令可解决。以上这个错误不一定是elasticsearch的jar找不到,其他jar也可能出现这个问题。
典型问题2处理[重点]
flume-ng-morphline-solr-sink出现问题,对应的kite-morphline没有找到依赖。要使用这个flume-ng-morphline-solr-sink做些文章的,所以这里出问题必须解决。
[ERROR] Failed to execute goal on project flume-ng-morphline-solr-sink: Could no
t resolve dependencies for project org.apache.flume.flume-ng-sinks:flume-ng-morp
hline-solr-sink:jar:1.5.2: Failed to collect dependencies for [org.apache.flume:
flume-ng-core:jar:1.5.2 (compile), org.slf4j:slf4j-api:jar:1.6.1 (compile), org.
kitesdk:kite-morphlines-all:pom:0.12.0 (compile?), org.slf4j:jcl-over-slf4j:jar:
1.6.1 (provided), org.apache.solr:solr-test-framework:jar:4.3.0 (test), org.kite
sdk:kite-morphlines-solr-core:jar:tests:0.12.0 (test), junit:junit:jar:4.10 (tes
t)]: Failed to read artifact descriptor for org.kitesdk:kite-morphlines-all:pom:
0.12.0: Could not transfer artifact org.kitesdk:kite-morphlines-all:pom:0.12.0 f
rom/to cdh.repo (https://repository.cloudera.com/artifactory/cloudera-repos): Co
nnection to https://repository.cloudera.com refused: Connection timed out: conne
ct -> [Help 1]
提示的错误是连接cloudera的中央库超时了,看似是网络问题。其实解决了网络问题还有另外一个重大问题就是版本对应不上。查看了一下flume-ng-morphline-solr-sink的pom.xml文件,对应查找的kite.version是0.12.0版本。但其实cloudera的中央库上也没有这个版本了。所以解决办法是: A、将kite.version的版本改成0.15.0.修改进入源码根目录找到pom.xml文件,找到<kite.version>0.15.0</kite.version>将0.12.0修改成0.15.0 B、找到<dependenciesManagement>标签,将下面代码插入到dependency中。
<dependency>
<groupId>org.kitesdk</groupId>
<artifactId>kite-morphlines-all</artifactId>
<version>${kite.version}</version>
<exclusions>
<exclusion>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
</exclusion>
</exclusions>
<type>pom</type>
<optional>true</optional>
</dependency>
C:\apache-flume-1.5.2-src\flume-ng-sinks\flume-ng-morphline-solr-sink目录,打开pom.xml文件,将所有${kite.version}替换成0.15.0。上一步的目的是如果工程引用了org.kitesdk的话,则不使用这个版本。可以自定义其引用的版本。我在实际应用中就遇到了这两个主要的问题。当然其中还有一些主要是repository连接不上的问题(公司比较烂,网络有限制)。想各种办法从网上先down下来再上传到私服解决。最后提示”Build Success”编译成功了,见下图。
编译成eclipse工程
mvn eclipse:eclipse至此,使用eclipse导入工程即可进行开发了。
我这里还遇到了两个flume-dataset-sink的单体测试中有一个方法编译不过去的问题。因为我没用到这个sink所以也没去解决。另一个问题是可能在install时可能会遇到Missing artifact jdk.tools:jdk.tools:jar:1.6的问题。
解决办法:在flume-ng-morphline-solr-sink的pom.xml文件中添加一个依赖。
<dependency>
<groupId>jdk.tools</groupId>
<artifactId>jdk.tools</artifactId>
<version>1.7</version>
<scope>system</scope>
<systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
</dependency>
至于jdk的版本和系统路径根据实际的开发环境的环境变量而定,其他都没问题。
‘柒’ hbase的特点
hbase的特点:高可靠性、高性能、面向列、可伸缩的。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
(7)hbase源码编译扩展阅读
访问接口:
1. Native Java API,最常规和高效的访问方式,适合Hadoop MapRece Job并行批处理HBase表数据
2. HBase Shell,HBase的命令行工具,最简单的接口,适合HBase管理使用
3. Thrift Gateway,利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访问HBase表数据
4. REST Gateway,支持REST 风格的Http API访问HBase, 解除了语言限制
5. Pig,可以使用Pig Latin流式编程语言来操作HBase中的数据,和Hive类似,本质最终也是编译成MapRece Job来处理HBase表数据,适合做数据统计。
‘捌’ hbase 源码 什么语言开发的
是用java开发的,hbase包含两个核心服务,一个是HMaster,一个是HRegionServer,在hbase部署的服务器上调用jps命令能查看到这两个进程。
‘玖’ hbase源代码 纯java开发的吗
是的,纯java开发的nosql
‘拾’ Linux:eclipse上如何导入hbase-1.x源码
hbase源码导入eclipse分三步:
1.svn下载源码
2.mvn package -Dmaven.test.skip.exec=true编译源码
3.导入eclipse,可以用插件,用mvn eclipse:eclipse生成eclipse文件,导入eclipse。