當前位置:首頁 » 存儲配置 » hbase存儲

hbase存儲

發布時間: 2022-01-10 20:06:59

A. 解讀Hadoop Hbase適合存儲哪類數據

最適合使用Hbase存儲的數據是非常稀疏的數據(非結構化或者半結構化的數據)。Hbase之所以擅長存儲這類數據,是因為Hbase是column-oriented列導向的存儲機制,而我們熟知的RDBMS都是row- oriented行導向的存儲機制(郁悶的是我看過N本關於關系資料庫的介紹從來沒有提到過row- oriented行導向存儲這個概念)。在列導向的存儲機制下對於Null值得存儲是不佔用任何空間的。比如,如果某個表 UserTable有10列,但在存儲時只有一列有數據,那麼其他空值的9列是不佔用存儲空間的(普通的資料庫MySql是如何佔用存儲空間的呢?)。 Hbase適合存儲非結構化的稀疏數據的另一原因是他對列集合 column families 處理機制。 打個比方,ruby和python這樣的動態語言和c++、java類的編譯語言有什麼不同? 對於我來說,最顯然的不同就是你不需要為變數預先指定一個類型。Ok ,現在Hbase為未來的DBA也帶來了這個激動人心的特性,你只需要告訴你的數據存儲到Hbase的那個column families 就可以了,不需要指定它的具體類型:char,varchar,int,tinyint,text等等。 Hbase還有很多特性,比如不支持join查詢,但你存儲時可以用:parent-child tuple 的方式來變相解決。 由於它是Google BigTable的 Java 實現,你可以參考一下:google bigtable 。
解讀Hadoop Hbase適合存儲哪類數據,參考:http://e.51cto.com/course/course_id-3819.html

B. hbase可以存儲 圖片嗎如果可以怎麼存儲

hbase是分布式資料庫,什麼數據都能存。
hbase是沒有類型的,全是二進制位元組。
你去看看 habse的 client API

C. HBase數據到底是怎麼存儲的

每個列簇對應HDFS中的一個單獨文件,hbase不是按行存儲,你想一行有多列族的情況下,就會把數據存在多個文件下,按行存儲的意思,是會把行數據存在一個文件中,所以hbase是按列存儲的。

應該說hbase和傳統關系型資料庫還是有些相似的地方,起碼在hfile中hbase列族下一行的列是相鄰存儲的,這點跟傳統關系型資料庫應該是類似的。

D. 如果有幾百億條數據,如何在hbase表中存放

1、首先你有沒有那麼多台伺服器的集群,如果只是幾台,你要想夠不夠,你的hbase 有幾百億,那麼你hdfs上的數據可能要有兩個備份,你這幾百億條是如何生成的,肯定是maprece跑出來導入到hbase中把,那麼原始數據你要不要留,如果留,加上備份就要三份,所以節點的多少要確定。
2、幾百億其實挺多的,hbase 的設計一定要跟你的業務相關,hbase他不能完全像關系型資料庫那樣去隨意查詢,到達一定量級,如果設計的不好也是非常之慢的,甚至將hbase搞到崩潰。所以你先去網上看看rowkey的設計原則,比如長度原則等等,然後根據自己業務,哪些查詢經常用到,哪些不會用到,想要用hbase實現那種非常靈活的類似關系資料庫的查詢是不理智的。
3、樓上的兄弟說得對,還有region熱點的問題,如果你的hbase數據不是那種每天增量的數據,建議跑個maprece對你的數據進行各評判,看看如何能將數據盡可能均勻的分配到每個region中,當然這需要預先分配region
4、幾百億條數據,如果對rowkey進行模糊過濾一定非常非常之慢,所以可以考慮二級索引或者協處理器

E. java api操作hbase存儲數據為16進制如何設置存儲為正常數值

一般情況下,我們使用Linux的shell命令,就可以非常輕松的操作Hbase,例如一些建表,建列簇,插值,顯示所有表,統計數量等等,但有時為了提高靈活性,我們也需要使用編程語言來操作Hbase,當然Hbase通過Thrift介面提供了對大多數主流編程語言的支持,例如C++,PHP,Python,Ruby等等,那麼本篇,散仙給出的例子是基於Java原生的API操作Hbase,相比其他的一些編程語言,使用Java操作Hbase,會更加高效一些,因為Hbase本身就是使用Java語言編寫的。轉載
下面,散仙給出源碼,以供參考:

package com.hbase;

import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.util.Bytes;

/**
* @author 三劫散仙
*
* **/
public class Test {

static Configuration conf=null;
static{

conf=HBaseConfiguration.create();//hbase的配置信息
conf.set("hbase.zookeeper.quorum", "10.2.143.5"); //zookeeper的地址

}

public static void main(String[] args)throws Exception {

Test t=new Test();
//t.createTable("temp", new String[]{"name","age"});
//t.insertRow("temp", "2", "age", "myage", "100");
// t.getOneDataByRowKey("temp", "2");
t.showAll("temp");

}

/***
* 創建一張表
* 並指定列簇
* */
public void createTable(String tableName,String cols[])throws Exception{
HBaseAdmin admin=new HBaseAdmin(conf);//客戶端管理工具類
if(admin.tableExists(tableName)){
System.out.println("此表已經存在.......");
}else{
HTableDescriptor table=new HTableDescriptor(tableName);
for(String c:cols){
HColumnDescriptor col=new HColumnDescriptor(c);//列簇名
table.addFamily(col);//添加到此表中
}

admin.createTable(table);//創建一個表
admin.close();
System.out.println("創建表成功!");
}
}

/**
* 添加數據,
* 建議使用批量添加
* @param tableName 表名
* @param row 行號
* @param columnFamily 列簇
* @param column 列
* @param value 具體的值
*
* **/
public void insertRow(String tableName, String row,
String columnFamily, String column, String value) throws Exception {
HTable table = new HTable(conf, tableName);
Put put = new Put(Bytes.toBytes(row));
// 參數出分別:列族、列、值
put.add(Bytes.toBytes(columnFamily), Bytes.toBytes(column),
Bytes.toBytes(value));

table.put(put);
table.close();//關閉
System.out.println("插入一條數據成功!");
}

/**
* 刪除一條數據
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);
Delete d=new Delete(Bytes.toBytes(rowkey));
h.delete(d);//刪除一條數據
h.close();
}

/**
* 刪除多條數據
* @param tableName 表名
* @param row rowkey
* **/
public void deleteByRow(String tableName,String rowkey[])throws Exception{
HTable h=new HTable(conf, tableName);

List<Delete> list=new ArrayList<Delete>();
for(String k:rowkey){
Delete d=new Delete(Bytes.toBytes(k));
list.add(d);
}
h.delete(list);//刪除
h.close();//釋放資源
}

/**
* 得到一條數據
*
* @param tableName 表名
* @param rowkey 行號
* ***/
public void getOneDataByRowKey(String tableName,String rowkey)throws Exception{
HTable h=new HTable(conf, tableName);

Get g=new Get(Bytes.toBytes(rowkey));
Result r=h.get(g);
for(KeyValue k:r.raw()){

System.out.println("行號: "+Bytes.toStringBinary(k.getRow()));
System.out.println("時間戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}

}
h.close();

}

/**
* 掃描所有數據或特定數據
* @param tableName
* **/
public void showAll(String tableName)throws Exception{

HTable h=new HTable(conf, tableName);

Scan scan=new Scan();
//掃描特定區間
//Scan scan=new Scan(Bytes.toBytes("開始行號"),Bytes.toBytes("結束行號"));
ResultScanner scanner=h.getScanner(scan);
for(Result r:scanner){
System.out.println("==================================");
for(KeyValue k:r.raw()){

System.out.println("行號: "+Bytes.toStringBinary(k.getRow()));
System.out.println("時間戳: "+k.getTimestamp());
System.out.println("列簇: "+Bytes.toStringBinary(k.getFamily()));
System.out.println("列: "+Bytes.toStringBinary(k.getQualifier()));
//if(Bytes.toStringBinary(k.getQualifier()).equals("myage")){
// System.out.println("值: "+Bytes.toInt(k.getValue()));
//}else{
String ss= Bytes.toString(k.getValue());
System.out.println("值: "+ss);
//}

}
}
h.close();

}

}

F. hbase 如何存儲數據

HBASE中的表示按column family來存儲的

建立一個有3個column family的表

create 't1', {NAME => 'f1', VERSIONS => 1}, {NAME => 'f2', VERSIONS => 1}, {NAME => 'f3', VERSIONS => 1}
定義表的時候只需要指定column family的名字,列名在put的時候動態指定
插入數據
下面插入沒有指定column的名字
put 't1', 'r1', 'f1', 'v1'
put 't1', 'r2', 'f2', 'v2'
put 't1', 'r3', 'f3', 'v3'

下面插入指定column的名字
put 't1', 'r4', 'f1:c1', 'v1'
put 't1', 'r5', 'f2:c2', 'v2'
put 't1', 'r6', 'f3:c3', 'v3'

hbase(main):245:0> scan 't1'
ROW COLUMN+CELL
r1 column=f1:, timestamp=1335407967324, value=v1
r2 column=f2:, timestamp=1335408004559, value=v2
r4 column=f1:c1, timestamp=1335408640777, value=v1
r5 column=f2:c1, timestamp=1335408640822, value=v2
r6 column=f1:c6, timestamp=1335412392258, value=v3
r6 column=f2:c1, timestamp=1335412384739, value=v3
r6 column=f2:c2, timestamp=1335412374797, value=v3

插入多列的數據
put 't1', 'r7', 'f1:c4', 'v9'
put 't1', 'r7', 'f2:c3', 'v9'
put 't1', 'r7', 'f3:c2', 'v9'

手工把memstore寫到Hfile中

flush 't1'

刪除所有CF3的數據
deleteall 't1','r7'

flush 't1'

每次flash都會建一個新的hfile

$ ../bin/hadoop dfs -lsr /hbase/t1

數據時直接存到CF目錄下的,每個CF目錄下有3到4個Hfile

f1
f1/
f1/321c683f48dd91e058179486587e
f1/
f2
f2/
f2/
f2/
f3
f3/
f3/
f3/
f3/

f3都數據雖然都被刪除了,由於沒有合並文件都存在

手工合並hfile

hbase(main):244:0> compact 't1'
0 row(s) in 0.0550 seconds

$ ../bin/hadoop dfs -lsr /hbase/t1
f1
f1/
f2
f2/

/f3

f1和f2下就只有一個hfile,f3下面沒有hfile因為數據都被刪除了

一次只能put一個column
一次只能delete一個column
刪除整行,用deleteall
deleteall 't1', 'r1'
了解更多開源相關,去LUPA社區看看吧。

G. 儲存框架HBase是啥

分布式資料庫系統

H. 傳統的行存儲和(HBase)列存儲的區別

列存儲不同於傳統的關系型資料庫,其數據在表中是按行存儲的,列方式所帶來的重要好處之一就是,由於查詢中的選擇規則是通過列來定義的,因此整個資料庫是自動索引化的。按列存儲每個欄位的數據聚集存儲,在查詢只需要少數幾個欄位的時候,能大大減少讀取的數據量,一個欄位的數據聚集存儲,那就更容易為這種聚集存儲設計更好的壓縮/解壓演算法

傳統的(Oracle)行存儲和(Hbase)列存儲的區別

這里寫圖片描a
1、數據是按行存儲的
2、沒有索引的查詢使用大量I/O
3、建立索引和物化視圖需要花費大量時間和資源
4、面對查詢的需求,資料庫必須被大量膨脹才能滿足性能需求

這里寫圖片描述
1、數據按列存儲–每一列單獨存放
2、數據即是索引
3、只訪問查詢涉及的列–大量降低系統IO
4、每一列由一個線索來處理–查詢的並發處理
5、數據類型一致,數據特徵相似–高效壓縮

I. hbase 存儲為什麼快

從根本上講,

  1. hbase是列式資料庫,不是以行為連續存儲的,二是以列為連續存儲的。因此對列可以將從磁碟上連續地讀取所有記錄的某一列。充分發揮IO吞吐能力,讀取自然會很快;

  2. hbase是基於HDFS存儲數據塊的,可以將操作分散到多個節點並行地執行;

J. hbase依靠什麼存儲底層數據

行導向的存儲機制

熱點內容
jspoa源碼 發布:2024-11-14 12:21:31 瀏覽:420
不記得了密碼怎麼辦 發布:2024-11-14 12:18:58 瀏覽:442
python字元串的大小 發布:2024-11-14 12:17:24 瀏覽:222
源碼編輯軟體 發布:2024-11-14 12:15:00 瀏覽:386
java中object 發布:2024-11-14 12:11:48 瀏覽:636
買車時哪些配置需要另外加錢 發布:2024-11-14 12:10:19 瀏覽:534
在哪裡修改密碼和手機號 發布:2024-11-14 12:10:08 瀏覽:932
c語言雙軌加密演算法 發布:2024-11-14 12:08:41 瀏覽:689
java母 發布:2024-11-14 12:08:36 瀏覽:456
微信如何評論圖片安卓 發布:2024-11-14 11:56:34 瀏覽:849