hbase查詢sql
『壹』 在HBase限制sql命令問題,怎麼解決
解決方法
此問題產生的主要原因是因為zookeeper集群未關閉防火牆。
執行下面命令後仍然報上面的錯誤:
systemctl start iptables.service
經過仔細查找後發現,CentOS 7.0默認使用的是firewall作為防火牆,需要執行如下命令關閉防火牆:
systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall開機啟動
關閉各個節點防火牆後,重啟zookeeper進程,就可以解決上述問題了。
『貳』 hbase執行一條語句插入一行數據,java編程實現類似executeUpdate(sql);
可以一次插入一行啊,HTableInterface.put(Put p)插入一個Put對象
public Put(byte [] row) 一個對象就是一行
public Put add(byte [] family, byte [] qualifier, long ts, byte [] value);繼續添加列
『叄』 我拿到hbase的rdd了,應該怎麼轉為DataFrame,以便我用sql查詢
RDD:A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.
rdd是一個分布式的數據集,數據分散在分布式集群的各台機器上
A DataFrame is equivalent to a relational table in Spark SQL, and can be created using various functions in SQLContext
dataframe更像是一張關系型數據表,是一種spark獨有的數據格式吧,這種格式的數據可以使用sqlcontext裡面的函數
『肆』 hbase 有沒有類似pl/sql developer這樣的工具
這個目前還真找不到,
hbase屬於NoSQL/列式 資料庫,
而現在的資料庫開發工具 都是 管理的關系型資料庫。
比如 dbvisualizer
AquaDataStudio
『伍』 hbase可以執行標准sql嗎
如果要做的話。通常是使用hive(能夠直接處理HBase中的數據),或者自己開發maprece程序;例子網上有很多。你這個邏輯如果不很復雜,通過hive簡單些,寫幾條語句就搞定。另:如果就是驗證下功能,那做做沒問題。要是生產的話基於HBase做分析基本不可用。因為不管哪種方法都要查HBase表,數據多了這個效率你接受不了;多進程並發訪問在服務端有緩存的情況下(通過一定條件過濾的場景)才能夠達到幾千條/秒,如果不做緩存(遍歷整表時)只能達到每秒一兩百條。慢的要死。生產的話可以考慮使用hive基於HDFS文件做分析。
『陸』 hbase sql 查詢當前庫有多表
list 能查看到所有表名
『柒』 如何使用HBase構建NewSQL
目前主流的資料庫或者NoSQL要麼在CAP裡面選擇AP,比較典型的例子是Cassandra,要麼選擇CP比如HBase,這兩個是目前用得非
常多的NoSQL的實現。我們的價值觀一定認為未來是分布式的,一定是盡量傾向於全部都擁有,大部分情況下取捨都是HA,主流的比較頂級的資料庫都會選擇
C,分布式系統一定逃不過P,所以A就只能選擇HA。現在主要領域是資料庫的開發,完全分布式,主要方向和谷歌的F1方向非常類似。
目前看NewSQL代表未來(Google Spanner、F1、FoundationDB),HBase在國內有六個Committer,在目
前主流的開源資料庫裡面幾乎是最強的陣容。大家選型的時候會有一個猶豫,到底應該選擇HBase還是選Cassandra。根據應用場景,如果需要一致
性,HBase一定是你最好的選擇,我推薦HBase。它始終保持強一致,我們非常喜歡一致性,喪失一致性的時候有些錯誤會特別詭異,很難查。對於
Push-down特性的設計其實比較好,全局上是一個巨大的分布式資料庫,但是邏輯上是分成了一個個Region,Region在哪台機器上是明確的。
比如要統計記錄的條數,假設數據分布在整個系統裡面,對數十億記錄做一個求和操作,就是說不同的機器上都要做一個sum,把條件告訴他要完成哪些任務,他給你任務你再匯總,這是典型的分布式的 MPP,做加速的時候是非常有效的。
2015年HBaseConf 上面有一句總結: 「Nothing is hotter than SQL-on-
Hadoop, and now SQL-
on- HBase is fast approaching equal hotness status」, 實際上SQL-on-HBase 也是非
常火。因為 Schema Less 沒有約束其實是很嚇人的一件事情,當然沒有約束也比較爽,就是後期維護十分痛苦,規模進一步擴大了之後又需要遷移
到 SQL。
現在無論從品質還是速度上要求已經越來越高,擁有SQL的同時還希望有ACID的東西(OLAP一般不追求一致性)。所以TiDB在設計時就強調這
樣的特點:始終保持分布式事務的支持,兼容MySQL協議。無數公司在SQL遇到Scale問題的時候很痛苦地做出了選擇,比如遷移到
HBase,Cassandra
MongoDB已經看過太多的公司做這種無比痛苦的事情,現在不用痛苦了,直接遷過來,直接把數據導進來就OK了。TiDB最重要的是關注OLTP,對於
互聯網業務來說通常是在毫秒級內就需要返回一個結果。
我們到目前為止開發了六個月,開源了兩個月。昨天晚上TiDB達到了第一個Alpha的階段,現在可以擁有一個強大的資料庫:支持分布式事務,始終
保持同步的復制,強大的按需Scale能力,無阻塞的Schema變更。發布第一個Alpha版本的時候以前的質疑都會淡定下來,因為你可以閱讀每一行代
碼,體驗每個功能。選擇這個領域也是非常艱難的決定,實在太Hardcore了,當初Google Spanner也做了5年。不過我們是真愛,我們就是
技術狂,就是要解決問題,就是要挑大家最頭痛的問題去解決。好在目前阿里的OceanBase給我們服了顆定心丸,大家也不會質疑分布式關系型資料庫是否
可行。
『捌』 怎麼將hbase進行sql化查詢
1 代碼自動完成,為快速,自動填入關鍵字和對象
2 准確的腳本建設.
3 先進的SQL查詢編輯器.
4 創造有吸引力的資料庫的報告迅速和容易
5 出口數據迅速從資料庫中可用的格式,
6 支持各種資料庫平台.包括使用MS Excel,HTML格式,的RTF,PDF文件,XML和更多.
『玖』 如何通過SQL操作HBase數據
Spark SQL就是shark ,也就是SQL on Spark。如果沒記錯的話,shark的開發利用了hive的API,所以支持讀取HBase。而且Spark的數據類型兼容範圍大於Hadoop,並且包含了Hadoop所支持的任何數據類型。