nosql對象存儲
㈠ 數據治理說起來容易,做起來難,華為雲Stack有解
移動互聯網和大數據日益發展,沉澱的數據越來越多,數據的質量、使用效率、數據安全等等各類的問題迎面而來。為了讓數據發揮最大的價值,數據治理作為數智化戰略的一項必要舉措,列入了大多數企業的戰略行動計劃,業界也有「數字轉型、治理先行」的說法。但是談到數據治理,業界有一個普遍的共識,那就是 「數據治理說起來容易,做起來難」。怎麼通過數據治理解決這些難題?數據治理究竟難在哪裡?華為作為典型的非雲原生企業是如何應對的呢?
2018到2021年間全球8300家標桿企業中,全面擁抱數字技術的前10%企業相比後25%企業營收增速超過5倍。數字化轉型浪潮下,數據資產將成為關鍵生產要素支撐未來數據產業化升級,是未來政企實現跨越式發展的必然選擇。
根據華為在政企行業多年的深入耕耘和自身轉型的實踐,我們發現,優質高效的數據底座,是保障政企運營效率持續提升和業務創新升級的重要基石。我們深知打破數據孤島、確保數據准確、促進數據共享、保障數據隱私與安全,是政企數據治理的關鍵。當前很多企業數據體系建設呈現出「煙囪化」的趨勢,為政企數據治理帶來了四大挑戰:
l 進不來 :數據來源復雜,集成難;
l 質量差 :數據質量要求高,規則校驗多,落地難;
l 出不去 :數據煙囪林立,業務和數據匹配難,共享難;
l 不放心 :數據安全、交互風險高。
早期的華為是典型的非數字原生企業。從2007年開始,我們通過兩個階段的持續變革,系統地完成了數據管理體系建設,實現業務感知和ROADS體驗的數字化轉型:
l 階段一(2007-2017) :設立數據管理專業組織,建立數據管理框架,發布數據管理政策,通過統一信息架構與標准、有效的數據質量改進機制,提升數據質量,實現數據全流程貫通,業務運作效率整體提升。
l 階段二(2017-至今): 建設數據底座,匯聚和聯接全域數據,實現數據業務可視、隨需共享、敏捷自助、安全透明的目標,支撐准確決策和數據創新,構築差異化競爭力。
華為經過十多年的實踐,我們總結出 「4層保障」和「2個抓手」(信息架構、數據質量) ,實現清潔數據,充分釋放數據價值的核心手段。
4層保障包括:
l 政策保障: 從目的、適用范圍、管理原則、問責等方面進行政策制定,公司層面需統一遵從,確保業務與IT共同參與數據治理。
l 流程保障: 建立數據管理流程,重大決議由企業變革指導委員會決策,通過變革管理體系和流程運營體系落地。
l 組織保障: 按領域任命數據管理Owner和團隊,建立實體化數據管理組織承接數據管理改進目標。
l IT落地保障: 建設承載面向「聯接共享」的數據底座和數據服務融合的統一IT平台,完成數據全流程流轉與價值變現。
2個抓手是指:
l 信息架構: 構建面向「業務交易」的信息架構,描述業務運作和管理決策所需要的各類數據及其關系,保障企業內統一「數據語言」。
l 數據質量: 建立數據質量管理框架和運作機制,例行開展公司級數據質量評估,由企業數據管理組織定期發布報告,牽引各業務領域持續改進。
上述的4層保障和2個抓手,構成了企業數據戰略資產綜合治理體系,能夠確保關鍵數據資產的有清晰的業務管理責任,IT落地有穩定清晰的原則依據,作業人員有規范的流程指導。遇到爭議時,有裁決和升級處理機制,治理過程有充足的人力、組織、預算保障。只有建立起有效的數據治理環境,數據的質量和安全才能得到保障,數據的價值才能真正發揮。
作為華為數字化轉型的底座,華為雲沉澱了大量的實踐經驗和方案能力,並通過華為雲Stack來賦能政企,加速各行各業的數字化轉型。在數據治理領域,華為雲Stack為政企提供數據湖治理中心服務(DGC)來幫助企業客戶快速構建數據運營能力。DGC是數據全生命周期一站式開發運營平台,提供數據集成、數據開發、數據治理、數據服務、數據可視化等功能,支持行業知識庫智能化建設,支持大數據存儲、大數據計算分析引擎等數據底座。下面我們就來一起看看DGC是怎樣應對我們前面提到的挑戰:
l 進的來:簡單高效的物理和邏輯數據集成保障數據全面入湖
非數字原生企業發展普遍有較長的 歷史 ,隨著不同階段的發展需求,業務系統間存在大量復雜的集成和嵌套,數據來源多樣,數據形成孤島難以集中共享。
數據集成:簡單易用的多源異構數據批量和實時接入
DGC能夠提供活易用的可視化配置與遷移任務編排,將數據遷移和集成的效率提升數十倍。除主流關系型資料庫支持外,還支持對象存儲、Nosql等40餘種同/異構數據源及三方大數據平台批量遷移入湖。 DGC物理入湖與HetuEngine跨湖跨倉協同的邏輯入湖 作為兩種重要數據集成方式協同互補,滿足數據聯接和用戶數據消費不同場景需求,支撐客戶數據湖從離線走向實時,構建物理分散、邏輯統一的邏輯數據湖。
l 理的清:從源端架構到平台工具端到端數據質量保障
企業級信息架構:結構化的方式實施有效的治理
企業在運轉過程中,需要定義業務流程中涉及的人、事、物資源,實施有效的數據治理,確保各類數據在企業業務單元間高效、准確地傳遞,上下游流程快速執行和運作。企業長期存在信息架構與IT開發實施「兩張皮」的現象,數據人員和IT人員缺乏統一協同,企業數據架構混亂,信息架構資產和產品實現邏輯割裂,數據模型資產缺失。
平台工具和服務:一體化開發設計,端到端專業服務,有機聯動保障數據質量
結合華為數據治理專家團隊與項目實踐經驗,DGC規范設計實現了一體化設計和開發,不僅確保了元數據驗證、發布和注冊的一致性,而且實現了產品數據模型管理和資產可視,同時輔以專業的數據治理服務團隊、成熟項目管理機制和豐富的實踐經驗,支撐企業構建高質量的清潔數據架構和能力。在政務大數據中心通過DGC一體化平台和專業服務,完成多個委辦局全量數據接入,落地數據分層架構模型設計,完成基礎庫與主題庫的建設,實現委辦局數據全流程生命周期設計與落地,涵蓋數據架構和模型設計、數據標准設計、數據模型物化、數據質量稽核作業等,助力領導決策支持、宏觀經濟雲圖和惠民APP示範應用系統上線。
l 出得去:通過數據服務和數據地圖實現數據自助消費
數據底座建設的目標是便捷地支撐數據消費,確保用戶安全可靠地獲取數據,並通過靈活的數據分析等方式,按需快捷的消費數據。
數據服務:服務化方式供應數據
通過服務化方式對外提供,用戶不再直接集成數據,而是通過聚合應用模型可視化構建,涵蓋API發布、管理、運維、售賣的全生命周期管理,作為業務的「可消費產品」的關鍵要素之一,解決了數據的可供應性。
數據地圖:從查詢到分析到使用一站式自助
以數據搜索為核心,綜合反映數據的來源、數量、質量、分布、標准、流向、關聯關系,滿足多用戶、多場景的數據消費需求,解決了數據「可搜索/可獲取性」的難點問題。消費方獲取數據後,還支持從數據查詢到拖拽式分析的端到端的一站式自助作業,幫助數據消費者結合自身需要獲取分析結果,滿足業務運營中數據實時可視化需求。
l 用的安:從模型、制度到平台多維度打造立體化數據安全體系
安全能力模型評估:系統化安全管理抓手
數據安全能力成熟度模型是數據安全建設中的系統化框架,圍繞數據全生命周期,結合業務的需求以及監管法規的要求,持續不斷的提升組織整體的數據安全能力,提升數據安全水平和行業競爭力,確保數據生產要素安全流通和數字經濟 健康 發展。在多個項目中,華為通過安全評估、安全加固等專業服務,助力客戶高分通過等保評估,實現數據安全流通。
從制度到工具和服務:統一安全治理框架落地
數據安全治理需要從決策層到技術層,從管理制度到工具支撐和服務體系,自上而下形成貫穿整個組織架構的完整鏈條。企業組織內的各個層級之間需要對數據安全治理的目標達成共識,確保採取合理和適當的措施;DGC數據安全定義數據密級、認證數據源、對數據動靜態脫敏及添加水印等方式以最有效的方式保護數字資產。
企業數字化轉型逐步進入深水區,如何提升海量數據治理的效率和准確率,如何將專家經驗固化傳遞都面臨巨大的挑戰。人工智慧與數據治理深度融合將會開啟數據治理的新階段,通過AI加速企業數據生產要素的變現、進一步釋放數據價值。
l 智能數據資產編目
基於AI的智能數據編目系統具備數據的學習、理解和推理能力,幫助團隊實現數據自主、簡化數據 探索 、實現重要數據資產智能編目推薦。
l 智能數據標准推薦/去重
通過機器學習技術,自動掃描元數據信息,提煉關鍵數據項,智能識別新增數據標准、冗餘存量數據標准去重,提高智能化程度。
l 智能重復/異常數據檢測
智能重復/異常數據檢測技術,將數據根據相似讀音、相似數據類型分組,通過模型計算相似度得分,超出規定閾值時,自動異常檢測和識別。
l 智能主外鍵識別
通過篩選候選主外鍵時構造特徵向量,並調用分類器智能判別該元數據是否為主外鍵,提升數據模型質量,進而優化和簡化後續資產梳理和對外提供數據服務。
數據是物理世界、數字世界和認知世界相互聯接轉換的紐帶,大規模數據交互將構成龐大的政企數據生態。政企數字化轉型不能一蹴而就,數據治理亦非一朝一夕之功,治理的數據規模日趨龐大,類型千變萬化,手段也更智能豐富,需要我們共同攜手從制度、流程、技術、生態多維度一起努力,構建數據智能新世界。
㈡ 哪個屬於Nosql資料庫
NoSQL,泛指非關系型的資料庫。隨著互聯網web2.0網站的興起,傳統的關系資料庫在處理web2.0網站,特別是超大規模和高並發的SNS類型的web2.0純動態網站已經顯得力不從心,出現了很多難以克服的問題,而非關系型的資料庫則由於其本身的特點得到了非常迅速的發展。
常見的Nosql資料庫有:
一、Redis資料庫
Redis(RemoteDictionaryServer),即遠程字典服務,是一個開源的使用ANSIC語言編寫、支持網路、可基於內存亦可持久化的日誌型、Key-Value資料庫,並提供多種語言的API。從2010年3月15日起,Redis的開發工作由VMware主持。從2013年5月開始,Redis的開發由Pivotal贊助。
二、MongoDB資料庫
MongoDB是一個介於關系資料庫和非關系資料庫之間的產品,是非關系資料庫當中功能最豐富,最像關系資料庫的。它支持的數據結構非常鬆散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。
Mongo最大的特點是它支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關系資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。
(2)nosql對象存儲擴展閱讀:
對於NoSQL並沒有一個明確的范圍和定義,但是他們都普遍存在下面一些共同特徵:
一、易擴展
NoSQL資料庫種類繁多,但是一個共同的特點都是去掉關系資料庫的關系型特性。數據之間無關系,這樣就非常容易擴展。無形之間,在架構的層面上帶來了可擴展的能力。
二、大數據量,高性能
NoSQL資料庫都具有非常高的讀寫性能,尤其在大數據量下,同樣表現優秀。這得益於它的無關系性,資料庫的結構簡單。一般MySQL使用Query Cache。NoSQL的Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說性能就要高很多。
三、靈活的數據模型
NoSQL無須事先為要存儲的數據建立欄位,隨時可以存儲自定義的數據格式。而在關系資料庫里,增刪欄位是一件非常麻煩的事情。如果是非常大數據量的表,增加欄位簡直就是——個噩夢。這點在大數據量的Web2.0時代尤其明顯。
四、高可用
NoSQL在不太影響性能的情況,就可以方便地實現高可用的架構。比如Cassandra、HBase模型,通過復制模型也能實現高可用。
㈢ 不屬於對象存儲的存儲類型
塊存儲和文件存儲不屬於對象儲存
對象數據組成結構
與塊存儲和文件存儲管理數據的方式不同,對象存儲是以對象的形式管理數據的。對象和文件最大的不同,就是在文件基礎之上增加了元數據。一般情況下,對象分為三個部分:數據、元數據以及對象id。
對象的數據通常是無結構的數據,比如:圖片、視頻或文檔等;對象的元數據則指的是對象的相關描述,比如:圖片的大小、文檔的擁有者等;對象id則是一個全局的唯一標識符,用來區分對象的。
從數據結構來看,這三種存儲有著根本不同。塊存儲的數據結構是數組,而文件存儲是二叉樹(B,B-,B+,B*各種樹),對象存儲基本上都是哈希表。
數組和二叉樹都是老生常談,沒有太多值得說的,而對象存儲使用的哈希表也就是常聽說的鍵值(KeyVaule型)存儲的核心數據結構,每個對象找一個UID(所謂的「鍵」KEY),算哈希值(所謂的「值Vaule」)以後和目標對應。找了一個哈希表例子如下:
鍵值對應關系簡單粗暴,畢竟算個hash值是很快的,這種扁平化組織形式可以做得非常大,避免了二叉樹的深度,對於真·海量的數據存儲和大規模訪問都能給力支持。所以不僅是對象存儲,很多NoSQL的分布式資料庫都會使用它,比如Redis,MongoDB,Cassandra 還有Dynamo等等。
㈣ 使用NOSQL存儲一個對象應該用哪個比較好
mongodb就很好
㈤ 不屬於對象存儲的存儲類型
塊存儲和文件存儲。
1、塊存儲
以下列出的兩種存儲方式都是塊存儲類型:
1) DAS(Direct AttachSTorage):是直接連接於主機伺服器的一種儲存方式,每一台主機伺服器有獨立的儲存設備,每台主機伺服器的儲存設備無法互通,需要跨主機存取資料時,必須經過相對復雜的設定,若主機伺服器分屬不同的操作系統,要存取彼此的資料,更是復雜,有些系統甚至不能存取。通常用在單一網路環境下且數據交換量不大,性能要求不高的環境下,可以說是一種應用較為早的技術實現。
2)SAN(Storage Area Network):是一種用高速(光纖)網路聯接專業主機伺服器的一種儲存方式,此系統會位於主機群的後端,它使用高速I/O 聯結方式, 如 SCSI, ESCON及 Fibre- Channels。一般而言,SAN應用在對網路速度要求高、對數據的可靠性和安全性要求高、對數據共享的性能要求高的應用環境中,特點是代價高,性能好。例如電信、銀行的大數據量關鍵應用。它採用SCSI 塊I/O的命令集,通過在磁碟或FC(Fiber Channel)級的數據訪問提供高性能的隨機I/O和數據吞吐率,它具有高帶寬、低延遲的優勢,在高性能計算中佔有一席之地,但是由於SAN系統的價格較高,且可擴展性較差,已不能滿足成千上萬個CPU規模的系統。
2、文件存儲
通常,NAS產品都是文件級存儲。NAS(Network Attached Storage):是一套網路儲存設備,通常是直接連在網路上並提供資料存取服務,一套 NAS 儲存設備就如同一個提供數據文件服務的系統,特點是性價比高。例如教育、政府、企業等數據存儲應用。
它採用NFS或CIFS命令集訪問數據,以文件為傳輸協議,通過TCP/IP實現網路化存儲,可擴展性好、價格便宜、用戶易管理,如目前在集群計算中應用較多的NFS文件系統,但由於NAS的協議開銷高、帶寬低、延遲大,不利於在高性能集群中應用。
下面,我們對DAS、NAS、SAN三種技術進行比較和分析:
表格 1 三種技術的比較
㈥ nosql資料庫有哪些
nosql資料庫有哪些?
1. In-Memory KV Store : Redis
2. Disk-Based KV Store: Leveldb
3. Document Store: Mongodb
4. Column Table Store: HBase
㈦ nosql資料庫是什麼 具有代表性以key-value的形式存儲的
什麼是NoSQL
大家有沒有聽說過「NoSQL」呢?近年,這個詞極受關注。看到「NoSQL」這個詞,大家可能會誤以為是「No!SQL」的縮寫,並深感憤怒:「SQL怎麼會沒有必要了呢?」但實際上,它是「Not Only SQL」的縮寫。它的意義是:適用關系型資料庫的時候就使用關系型資料庫,不適用的時候也沒有必要非使用關系型資料庫不可,可以考慮使用更加合適的數據存儲。
為彌補關系型資料庫的不足,各種各樣的NoSQL資料庫應運而生。
為了更好地了解本書所介紹的NoSQL資料庫,對關系型資料庫的理解是必不可少的。那麼,就讓我們先來看一看關系型資料庫的歷史、分類和特徵吧。
關系型資料庫簡史
1969年,埃德加?6?1弗蘭克?6?1科德(Edgar Frank Codd)發表了劃時代的論文,首次提出了關系數據模型的概念。但可惜的是,刊登論文的《IBM Research Report》只是IBM公司的內部刊物,因此論文反響平平。1970年,他再次在刊物《Communication of the ACM》上發表了題為「A Relational Model of Data for Large Shared Data banks」(大型共享資料庫的關系模型)的論文,終於引起了大家的關注。
科德所提出的關系數據模型的概念成為了現今關系型資料庫的基礎。當時的關系型資料庫由於硬體性能低劣、處理速度過慢而遲遲沒有得到實際應用。但之後隨著硬體性能的提升,加之使用簡單、性能優越等優點,關系型資料庫得到了廣泛的應用。
通用性及高性能
雖然本書是講解NoSQL資料庫的,但有一個重要的大前提,請大家一定不要誤解。這個大前提就是「關系型資料庫的性能絕對不低,它具有非常好的通用性和非常高的性能」。毫無疑問,對於絕大多數的應用來說它都是最有效的解決方案。
突出的優勢
關系型資料庫作為應用廣泛的通用型資料庫,它的突出優勢主要有以下幾點:
保持數據的一致性(事務處理)
由於以標准化為前提,數據更新的開銷很小(相同的欄位基本上都只有一處)
可以進行JOIN等復雜查詢
存在很多實際成果和專業技術信息(成熟的技術)
這其中,能夠保持數據的一致性是關系型資料庫的最大優勢。在需要嚴格保證數據一致性和處理完整性的情況下,用關系型資料庫是肯定沒有錯的。但是有些情況不需要JOIN,對上述關系型資料庫的優點也沒有什麼特別需要,這時似乎也就沒有必要拘泥於關系型資料庫了。
關系型資料庫的不足
不擅長的處理
就像之前提到的那樣,關系型資料庫的性能非常高。但是它畢竟是一個通用型的資料庫,並不能完全適應所有的用途。具體來說它並不擅長以下處理:
大量數據的寫入處理
為有數據更新的表做索引或表結構(schema)變更
欄位不固定時應用
對簡單查詢需要快速返回結果的處理
。。。。。。
NoSQL資料庫
為了彌補關系型資料庫的不足(特別是最近幾年),NoSQL資料庫出現了。關系型資料庫應用廣泛,能進行事務處理和JOIN等復雜處理。相對地,NoSQL資料庫只應用在特定領域,基本上不進行復雜的處理,但它恰恰彌補了之前所列舉的關系型資料庫的不足之處。
易於數據的分散
如前所述,關系型資料庫並不擅長大量數據的寫入處理。原本關系型資料庫就是以JOIN為前提的,就是說,各個數據之間存在關聯是關系型資料庫得名的主要原因。為了進行JOIN處理,關系型資料庫不得不把數據存儲在同一個伺服器內,這不利於數據的分散。相反,NoSQL資料庫原本就不支持JOIN處理,各個數據都是獨立設計的,很容易把數據分散到多個伺服器上。由於數據被分散到了多個伺服器上,減少了每個伺服器上的數據量,即使要進行大量數據的寫入操作,處理起來也更加容易。同理,數據的讀入操作當然也同樣容易。
提升性能和增大規模
下面說一點題外話,如果想要使伺服器能夠輕松地處理更大量的數據,那麼只有兩個選擇:一是提升性能,二是增大規模。下面我們來整理一下這兩者的不同。
首先,提升性能指的就是通過提升現行伺服器自身的性能來提高處理能力。這是非常簡單的方法,程序方面也不需要進行變更,但需要一些費用。若要購買性能翻倍的伺服器,需要花費的資金往往不只是原來的2倍,可能需要多達5到10倍。這種方法雖然簡單,但是成本較高。
另一方面,增大規模指的是使用多台廉價的伺服器來提高處理能力。它需要對程序進行變更,但由於使用廉價的伺服器,可以控製成本。另外,以後只要依葫蘆畫瓢增加廉價伺服器的數量就可以了。
不對大量數據進行處理的話就沒有使用的必要嗎?
NoSQL資料庫基本上來說為了「使大量數據的寫入處理更加容易(讓增加伺服器數量更容易)」而設計的。但如果不是對大量數據進行操作的話,NoSQL資料庫的應用就沒有意義嗎?
答案是否定的。的確,它在處理大量數據方面很有優勢。但實際上NoSQL資料庫還有各種各樣的特點,如果能夠恰當地利用這些特點將會是非常有幫助。具體的例子將會在第2章和第3章進行介紹,這些用途將會讓你感受到利用NoSQL的好處。
希望順暢地對數據進行緩存(Cache)處理
希望對數組類型的數據進行高速處理
希望進行全部保存
多樣的NoSQL資料庫
NoSQL資料庫存在著「key-value存儲」、「文檔型資料庫」、「列存儲資料庫」等各種各樣的種類,每種資料庫又包含各自的特點。下一節讓我們一起來了解一下NoSQL資料庫的種類和特點。
NoSQL資料庫是什麼
NoSQL說起來簡單,但實際上到底有多少種呢?我在提筆的時候,到NoSQL的官方網站上確認了一下,竟然已經有122種了。另外官方網站上也介紹了本書沒有涉及到的圖形資料庫和對象資料庫等各個類別。不知不覺間,原來已經出現了這么多的NoSQL資料庫啊。
本節將為大家介紹具有代表性的NoSQL資料庫。
key-value存儲
這是最常見的NoSQL資料庫,它的數據是以key-value的形式存儲的。雖然它的處理速度非常快,但是基本上只能通過key的完全一致查詢獲取數據。根據數據的保存方式可以分為臨時性、永久性和兩者兼具三種。
臨時性
memcached屬於這種類型。所謂臨時性就是 「數據有可能丟失」的意思。memcached把所有數據都保存在內存中,這樣保存和讀取的速度非常快,但是當memcached停止的時候,數據就不存在了。由於數據保存在內存中,所以無法操作超出內存容量的數據(舊數據會丟失)。
在內存中保存數據
可以進行非常快速的保存和讀取處理
數據有可能丟失
永久性
Tokyo Tyrant、Flare、ROMA等屬於這種類型。和臨時性相反,所謂永久性就是「數據不會丟失」的意思。這里的key-value存儲不像memcached那樣在內存中保存數據,而是把數據保存在硬碟上。與memcached在內存中處理數據比起來,由於必然要發生對硬碟的IO操作,所以性能上還是有差距的。但數據不會丟失是它最大的優勢。
在硬碟上保存數據
可以進行非常快速的保存和讀取處理(但無法與memcached相比)
數據不會丟失
兩者兼具
Redis屬於這種類型。Redis有些特殊,臨時性和永久性兼具,且集合了臨時性key-value存儲和永久性key-value存儲的優點。Redis首先把數據保存到內存中,在滿足特定條件(默認是15分鍾一次以上,5分鍾內10個以上,1分鍾內10000個以上的key發生變更)的時候將數據寫入到硬碟中。這樣既確保了內存中數據的處理速度,又可以通過寫入硬碟來保證數據的永久性。這種類型的資料庫特別適合於處理數組類型的數據。
同時在內存和硬碟上保存數據
可以進行非常快速的保存和讀取處理
保存在硬碟上的數據不會消失(可以恢復)
適合於處理數組類型的數據
面向文檔的資料庫
MongoDB、CouchDB屬於這種類型。它們屬於NoSQL資料庫,但與key-value存儲相異。
不定義表結構
面向文檔的資料庫具有以下特徵:即使不定義表結構,也可以像定義了表結構一樣使用。關系型資料庫在變更表結構時比較費事,而且為了保持一致性還需修改程序。然而NoSQL資料庫則可省去這些麻煩(通常程序都是正確的),確實是方便快捷。
可以使用復雜的查詢條件
跟key-value存儲不同的是,面向文檔的資料庫可以通過復雜的查詢條件來獲取數據。雖然不具備事務處理和JOIN這些關系型資料庫所具有的處理能力,但除此以外的其他處理基本上都能實現。這是非常容易使用的NoSQL資料庫。
不需要定義表結構
可以利用復雜的查詢條件
面向列的資料庫
Cassandra、Hbase、HyperTable屬於這種類型。由於近年來數據量出現爆發性增長,這種類型的NoSQL資料庫尤其引人注目。
面向行的資料庫和面向列的資料庫
普通的關系型資料庫都是以行為單位來存儲數據的,擅長進行以行為單位的讀入處理,比如特定條件數據的獲取。因此,關系型資料庫也被稱為面向行的資料庫。相反,面向列的資料庫是以列為單位來存儲數據的,擅長以列為單位讀入數據。
高擴展性
面向列的資料庫具有高擴展性,即使數據增加也不會降低相應的處理速度(特別是寫入速度),所以它主要應用於需要處理大量數據的情況。另外,利用面向列的資料庫的優勢,把它作為批處理程序的存儲器來對大量數據進行更新也是非常有用的。但由於面向列的資料庫跟現行資料庫存儲的思維方式有很大不同,應用起來十分困難。
高擴展性(特別是寫入處理)
應用十分困難
最近,像Twitter和Facebook這樣需要對大量數據進行更新和查詢的網路服務不斷增加,面向列的資料庫的優勢對其中一些服務是非常有用的,但是由於這與本書所要介紹的內容關系不大,就不進行詳細介紹了。
總結:
NoSQL並不是No-SQL,而是指Not Only SQL。
NoSQL的出現是為了彌補SQL資料庫因為事務等機制帶來的對海量數據、高並發請求的處理的性能上的欠缺。
NoSQL不是為了替代SQL而出現的,它是一種替補方案,而不是解決方案的首選。
絕大多數的NoSQL產品都是基於大內存和高性能隨機讀寫的(比如具有更高性能的固態硬碟陣列),一般的小型企業在選擇NoSQL時一定要慎重!不要為了NoSQL而NoSQL,可能會導致花了冤枉錢又耽擱了項目進程。
NoSQL不是萬能的,但在大型項目中,你往往需要它!
㈧ nosql解決方案為什麼需要固態硬碟
Membase
Membase 是 NoSQL 家族的一個新的重量級的成員。Membase是開源項目,源代碼採用了Apache2.0的使用許可。該項目託管在GitHub.Source tarballs上,可以下載beta版本的Linux二進制包。該產品主要是由North Scale的memcached核心團隊成員開發完成,其中還包括Zynga和NHN這兩個主要貢獻者的工程師,這兩個組織都是很大的在線游戲和社區網路空間的供應商。
Membase容易安裝、操作,可以從單節點方便的擴展到集群,而且為memcached(有線協議的兼容性)實現了即插即用功能,在應用方面為開發者和經營者提供了一個比較低的門檻。做為緩存解決方案,Memcached已經在不同類型的領域(特別是大容量的Web應用)有了廣泛的使用,其中 Memcached的部分基礎代碼被直接應用到了Membase伺服器的前端。
通過兼容多種編程語言和框架,Membase具備了很好的復用性。在安裝和配置方面,Membase提供了有效的圖形化界面和編程介面,包括可配置 的告警信息。
Membase的目標是提供對外的線性擴展能力,包括為了增加集群容量,可以針對統一的節點進行復制。 另外,對存儲的數據進行再分配仍然是必要的。
這方面的一個有趣的特性是NoSQL解決方案所承諾的可預測的性能,類准確性的延遲和吞吐量。通過如下方式可以獲得上面提到的特性:
◆ 自動將在線數據遷移到低延遲的存儲介質的技術(內存,固態硬碟,磁碟)
◆ 可選的寫操作一一非同步,同步(基於復制,持久化)
◆ 反向通道再平衡[未來考慮支持]
◆ 多線程低鎖爭用
◆ 盡可能使用非同步處理
◆ 自動實現重復數據刪除
◆ 動態再平衡現有集群
◆ 通過把數據復制到多個集群單元和支持快速失敗轉移來提供系統的高可用性。
MongoDB
MongoDB是一個介於關系資料庫和非關系資料庫之間的產品,是非關系資料庫當中功能最豐富,最像關系資料庫的。他支持的數據結構非常鬆散,是類似json的bjson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關系資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。它的特點是高性能、易部署、易使用,存儲數據非常方便。
主要功能特性:
◆ 面向集合存儲,易存儲對象類型的數據
「面向集合」(Collenction-Oriented),意思是數據被分組存儲在數據集中,被稱為一個集合(Collenction)。每個 集合在資料庫中都有一個唯一的標識名,並且可以包含無限數目的文檔。集合的概念類似關系型資料庫(RDBMS)里的表(table),不同的是它不需要定 義任何模式(schema)。
◆ 模式自由
模式自由(schema-free),意味著對於存儲在mongodb資料庫中的文件,我們不需要知道它的任何結構定義。如果需要的話,你完全可以把不同結構的文件存儲在同一個資料庫里。
◆支持動態查詢
◆支持完全索引,包含內部對象
◆支持查詢
◆支持復制和故障恢復
◆使用高效的二進制數據存儲,包括大型對象(如視頻等)
◆自動處理碎片,以支持雲計算層次的擴展性
◆支持RUBY,PYTHON,JAVA,C++,PHP等多種語言
◆文件存儲格式為BSON(一種JSON的擴展)
BSON(Binary Serialized document Format)存儲形式是指:存儲在集合中的文檔,被存儲為鍵-值對的形式。鍵用於唯一標識一個文檔,為字元串類型,而值則可以是各種復雜的文件類型。
◆可通過網路訪問
MongoDB服務端可運行在Linux、Windows或OS X平台,支持32位和64位應用,默認埠為27017。推薦運行在64位平台,因為MongoDB在32位模式運行時支持的最大文件尺寸為2GB。
MongoDB把數據存儲在文件中(默認路徑為:/data/db),為提高效率使用內存映射文件進行管理。
Hypertable
Hypertable是一個開源、高性能、可伸縮的資料庫,它採用與Google的Bigtable相似的模型。在過去數年中,Google為在PC集群 上運行的可伸縮計算基礎設施設計建造了三個關鍵部分。第一個關鍵的基礎設施是Google File System(GFS),這是一個高可用的文件系統,提供了一個全局的命名空間。它通過跨機器(和跨機架)的文件數據復制來達到高可用性,並因此免受傳統 文件存儲系統無法避免的許多失敗的影響,比如電源、內存和網路埠等失敗。第二個基礎設施是名為Map-Rece的計算框架,它與GFS緊密協作,幫 助處理收集到的海量數據。第三個基礎設施是Bigtable,它是傳統資料庫的替代。Bigtable讓你可以通過一些主鍵來組織海量數據,並實現高效的 查詢。Hypertable是Bigtable的一個開源實現,並且根據我們的想法進行了一些改進。
Apache Cassandra
Apache Cassandra是一套開源分布式Key-Value存儲系統。它最初由Facebook開發,用於儲存特別大的數據。Facebook在使用此系統。
主要特性:
◆ 分布式
◆ 基於column的結構化
◆ 高伸展性
Cassandra的主要特點就是它不是一個資料庫,而是由一堆資料庫節點共同構成的一個分布式網路服務,對Cassandra 的一個寫操作,會被復制到其他節點上去,對Cassandra的讀操作,也會被路由到某個節點上面去讀取。對於一個Cassandra群集來說,擴展性能 是比較簡單的事情,只管在群集裡面添加節點就可以了。
Cassandra是一個混合型的非關系的資料庫,類似於Google的BigTable。其主要功能比 Dynomite(分布式的Key-Value存 儲系統)更豐富,但支持度卻不如文檔存儲MongoDB(介於關系資料庫和非關系資料庫之間的開源產品,是非關系資料庫當中功能最豐富,最像關系資料庫 的。Cassandra最初由Facebook開發,後轉變成了開源項目。它是一個網路社交雲計算方面理想的資料庫。以Amazon專有的完全分布式的Dynamo為基礎,結合了Google BigTable基於列族(Column Family)的數據模型。P2P去中心化的存儲。很多方面都可以稱之為Dynamo 2.0。
CouchDB
所用語言: Erlang
特點:DB一致性,易於使用
使用許可: Apache
協議: HTTP/REST
雙向數據復制,持續進行或臨時處理,處理時帶沖突檢查,因此,採用的是master-master復制
MVCC – 寫操作不阻塞讀操作
可保存文件之前的版本
Crash-only(可靠的)設計
需要不時地進行數據壓縮
視圖:嵌入式 映射/減少
格式化視圖:列表顯示
支持進行伺服器端文檔驗證
支持認證
根據變化實時更新
支持附件處理
因此, CouchApps(獨立的 js應用程序)
需要 jQuery程序庫
最佳應用場景:適用於數據變化較少,執行預定義查詢,進行數據統計的應用程序。適用於需要提供數據版本支持的應用程序。
例如:CRM、CMS系統。 master-master復制對於多站點部署是非常有用的。
和其他資料庫比較,其突出特點是:
◆ 模式靈活 :使用Cassandra,像文檔存儲,你不必提前解決記錄中的欄位。你可以在系統運行時隨意的添加或移除欄位。這是一個驚人的效率提升,特別是在大型部 署上。
◆ 真正的可擴展性 :Cassandra是純粹意義上的水平擴展。為給集群添加更多容量,可以指向另一台電腦。你不必重啟任何進程,改變應用查詢,或手動遷移任何數據。
◆ 多數據中心識別 :你可以調整你的節點布局來避免某一個數據中心起火,一個備用的數據中心將至少有每條記錄的完全復制。
◆ 范圍查詢 :如果你不喜歡全部的鍵值查詢,則可以設置鍵的范圍來查詢。
◆ 列表數據結構 :在混合模式可以將超級列添加到5維。對於每個用戶的索引,這是非常方便的。
◆ 分布式寫操作 :有可以在任何地方任何時間集中讀或寫任何數據。並且不會有任何單點失敗。
問度娘,啥都有。
㈨ NoSQL 資料庫和對象雲存儲的區別
1、使用冗餘,每個人的好友信息都在資料庫中有存儲,就是你說的記錄一對一關系
2、數據緩存到內存,數據訪問很快
3、狀態信息修改非同步,比如一個人登陸了,他的好友不是馬上就知道,中間間隔幾秒也沒有關系
4、數據可能不放在關系資料庫中,可能使用nosql資料庫,比如mongodb,bigtable,cassandra等