分布式存儲與對象存儲
① 塊存儲、文件存儲、對象存儲這三者的本質差別是什麼
一、概念及區別
針對不同的應用場景,選擇的分布式存儲方案也會不同,因此有了對象存儲、塊存儲、文件系統存儲。這三者的主要區別在於它們的存儲介面:
1. 對象存儲:
也就是通常意義的鍵值存儲,其介面就是簡單的GET,PUT,DEL和其他擴展,
2. 塊存儲:
這種介面通常以QEMU Driver或者Kernel Mole的方式存在,這種介面需要實現Linux的BlockDevice的介面或者QEMU提供的BlockDriver介面,如Sheepdog,AWS的EBS,青雲的雲硬碟和阿里雲的盤古系統,還有Ceph的RBD(RBD是Ceph面向塊存儲的介面)
3. 文件存儲:
通常意義是支持POSIX介面,它跟傳統的文件系統如Ext4是一個類型的,但區別在於分布式存儲提供了並行化的能力,如Ceph的CephFS(CephFS是Ceph面向文件存儲的介面),但是有時候又會把GFS,HDFS這種非POSIX介面的類文件存儲介面歸入此類。
二、IO特點
按照這三種介面和其應用場景,很容易了解這三種類型的IO特點,括弧里代表了它在非分布式情況下的對應:1. 對象存儲(鍵值資料庫):
介面簡單,一個對象我們可以看成一個文件,只能全寫全讀,通常以大文件為主,要求足夠的IO帶寬。
2. 塊存儲(硬碟):
它的IO特點與傳統的硬碟是一致的,一個硬碟應該是能面向通用需求的,即能應付大文件讀寫,也能處理好小文件讀寫。但是硬碟的特點是容量大,熱點明顯。因此塊存儲主要可以應付熱點問題。另外,塊存儲要求的延遲是最低的。
3. 文件存儲(文件系統):
支持文件存儲的介面的系統設計跟傳統本地文件系統如Ext4這種的特點和難點是一致的,它比塊存儲具有更豐富的介面,需要考慮目錄、文件屬性等支持,實現一個支持並行化的文件存儲應該是最困難的。但像HDFS、GFS這種自己定義標準的系統,可以通過根據實現來定義介面,會容易一點。
因此,這三種介面分別以非分布式情況下的鍵值資料庫、硬碟和文件系統的IO特點來對應即可。至於冷熱、快慢、大小文件而言更接近於業務。但是因為存儲系統是通用化實現,通常來說,需要盡量滿足各種需求,而介面定義已經一定意義上就砍去了一些需求,如對象存儲會以冷存儲更多,大文件為主。
② Hadoop分布式文件系統和OpenStack對象存儲有何不同
最近在Quora上有人提到一個問題,有關Hadoop分布式文件系統和OpenStack對象存儲的不同。
問題原文如下:
「HDFS (Hadoop分布式文件系統)和OpenStack對象存儲(OpenStack Object Storage)似乎都有著相似的目的:實現冗餘、快速、聯網的存儲。什麼樣的技術特性讓這兩種系統因而不一樣?這兩種存儲系統最終趨於融合是否大有意義?」
問題提出之後,很快有OpenStack的開發者進行了回復。本文在此摘抄了前兩名回復進行翻譯,以供各位參考。
排名第一的答案來自RackSpace的OpenStack Swift開發者Chuck Their:
雖然HDFS與Openstack對象存儲(Swift)之間有著一些相似之處,但是這兩種系統的總體設計卻大不一樣。
1. HDFS使用了中央系統來維護文件元數據(Namenode,名稱節點),而在Swift中,元數據呈分布式,跨集群復制。使用一種中央元數據系統對HDFS來說無異於單一故障點,因而擴展到規模非常大的環境顯得更困難。
2. Swift在設計時考慮到了多租戶架構,而HDFS沒有多租戶架構這個概念。
3. HDFS針對更龐大的文件作了優化(這是處理數據時通常會出現的情況),Swift被設計成了可以存儲任何大小的文件。
4. 在HDFS中,文件寫入一次,而且每次只能有一個文件寫入;而在Swift中,文件可以寫入多次;在並發操作環境下,以最近一次操作為准。
5. HDFS用Java來編寫,而Swift用Python來編寫。
另外,HDFS被設計成了可以存儲數量中等的大文件,以支持數據處理,而Swift被設計成了一種比較通用的存儲解決方案,能夠可靠地存儲數量非常多的大小不一的文件。
排名第二的答案來自Joshua McKenty,他是美國宇航局Nebula雲計算項目的首席架構師,是OpenStack Nova軟體的早期開發者之一,目前是OpenStack項目監管委員會的成員,還是Piston.cc這家基於OpenStack的公司的創始人。
Chuck剛才詳細介紹了兩者的技術差異,但是沒有討論兩者可想而知的融合,OpenStack設計峰會上拋出了融合這個話題。簡而言之,HDFS被設計成可以使用Hadoop,跨存儲環境裡面的對象實現MapRece處理。對於許多OpenStack公司(包括我自己的公司)來說,支持Swift裡面的處理是路線圖上面的一個目標,不過不是每個人都認為MapRece是解決之道。
我們已討論過為HDFS編寫包裝器,這將支持OpenStack內部存儲應用編程介面(API),並且讓用戶可以針對該數據來執行Hadoop查詢。還有一個辦法就是在Swift裡面使用HDFS。但是這些方法似乎沒有一個是理想的。
OpenStack社區方面也在開展研究開發方面的一些工作,認真研究其他替代性的MapRece框架(Riak和CouchDB等)。
最後,現在有別的一些存儲項目,目前「隸屬於」OpenStack社區(SheepDog和HC2)。充分利用數據局部性,並且讓對象存儲變得「更智能」,這是預計會取得進步的一個領域。
③ 分布式文件/對象存儲系統
分布式存儲系統面向海量數據的存儲訪問與共享需求,提供基於多存儲節點的高性能,高可靠和可伸縮性的數據存儲和訪問能力,實現分布式存儲節點上多用戶的訪問共享。 目前業界比較流行的分布式存儲系統如下:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS。
④ Hadoop分布式文件系統和對象存儲有何不同
分布式文件系統(Distributed File System)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網路與節點相連。 Hadoop是Apache軟體基金會所研發的開放源碼並行運算編程工具和分散式檔案系統,與MapRece和Google檔案系統的概念類似。 HDFS(Hadoop 分布式文件系統)是其中的一部分。
⑤ 求 分布式對象存儲 原理 架構及Go語言實現 pdf
分布式存儲架構由三個部分組成:客戶端、元數據伺服器和數據伺服器。客戶端負責發送讀寫請求,緩存文件元數據和文件數據。元數據伺服器負責管理元數據和處理客戶端的請求,是整個系統的核心組件。數據伺服器負責存放文件數據,保證數據的可用性和完整性。該架構的好處是性能和容量能夠同時拓展,系統規模具有很強的伸縮性。
對象存儲最常用的方案,就是多台伺服器內置大容量硬碟,再裝上對象存儲軟體,然後再額外搞幾台服務作為管理節點,安裝上對象存儲管理軟體。管理節點可以管理其他伺服器對外提供讀寫訪問功能。
之所以出現了對象存儲這種東西,是為了克服塊存儲與文件存儲各自的缺點,發揚它倆各自的優點。簡單來說塊存儲讀寫快,不利於共享,文件存儲讀寫慢,利於共享。能否弄一個讀寫快,利 於共享的出來呢。於是就有了對象存儲。
⑥ 從分布式存儲系統遷移至對象存儲系統有哪些難點
雖然HDFS與Openstack對象存儲(Swift)之間有著一些相似之處,但是這兩種系統的總體設計卻大不一樣。 1這家基於OpenStack的公司的創始人。 Chuck剛才詳細介紹了兩者的技術差異,但是沒有討論兩者可想而知的融合,OpenStack設計峰會上拋出了融合這個話題。簡而言之,HDFS被設計成可以使用Hadoop,跨存儲環境裡面的對象實現MapRece處理。對於許多OpenStack公司(包括我自己的公司)來說,支持Swift裡面的處理是路線圖上面的一個目標,不過不是每個人都認為MapRece是解決之道。 我們已討論過為HDFS編寫包裝器,這將支持OpenStack內部存儲應用編程介面(API),並且讓用戶可以針對該數據來執行Hadoop查詢。還有一個辦法就是在Swift裡面使用HDFS。但是這些方法似乎沒有一個是理想的。 OpenStack社區方面也在開展研究開發方面的一些工作,認真研究其他替代性的MapRece框架(Riak和CouchDB等)。 最後,現在有別的一些存儲項目,目前「隸屬於」OpenStack社區(SheepDog和HC2)。充分利用數據局部性,並且讓對象存儲變得「更智能」,這是預計會取得進步的一個領域。
⑦ 目前主要三種數據存儲方式
三種存儲方式:DAS、SAN、NAS
三種存儲類型:塊存儲、文件存儲、對象存儲
塊存儲和文件存儲是我們比較熟悉的兩種主流的存儲類型,而對象存儲(Object-based Storage)是一種新的網路存儲架構,基於對象存儲技術的設備就是對象存儲設備(Object-based Storage Device)簡稱OSD。
本質是一樣的,底層都是塊存儲,只是在對外介面上表現不一致,分別應用於不同的業務場景。
分布式存儲的應用場景相對於其存儲介面,現在流行分為三種:
對象存儲: 也就是通常意義的鍵值存儲,其介面就是簡單的GET、PUT、DEL和其他擴展,如七牛、又拍、Swift、S3
塊存儲: 這種介面通常以QEMU Driver或者Kernel Mole的方式存在,這種介面需要實現Linux的Block Device的介面或者QEMU提供的Block Driver介面,如Sheepdog,AWS的EBS,青雲的雲硬碟和阿里雲的盤古系統,還有Ceph的RBD(RBD是Ceph面向塊存儲的介面)
文件存儲: 通常意義是支持POSIX介面,它跟傳統的文件系統如Ext4是一個類型的,但區別在於分布式存儲提供了並行化的能力,如Ceph的CephFS(CephFS是Ceph面向文件存儲的介面),但是有時候又會把GFS,HDFS這種非POSIX介面的類文件存儲介面歸入此類。
⑧ 分布式存儲是什麼東西
關於分布式存儲實際上並沒有一個明確的定義,甚至名稱上也沒有一個統一的說法,大多數情況下稱作 Distributed Data Store 或者 Distributed Storage System。
其中維基網路中給 Distributed data store 的定義是:分布式存儲是一種計算機網路,它通常以數據復制的方式將信息存儲在多個節點中。
在網路中給出的定義是:分布式存儲系統,是將數據分散存儲在多台獨立的設備上。分布式網路存儲系統採用可擴展的系統結構,利用多台存儲伺服器分擔存儲負荷,利用位置伺服器定位存儲信息,它不但提高了系統的可靠性、可用性和存取效率,還易於擴展。
盡管各方對分布式存儲的定義並不完全相同,但有一點是統一的,就是分布式存儲將數據分散放置在多個節點中,節點通過網路互連提供存儲服務。這一點與傳統集中式存儲將數據集中放置的方式有著明顯的區分。
⑨ 分布式存儲是什麼
分布式存儲系統,是將數據分散存儲在多台獨立的設備上。傳統的網路存儲系統採用集中的存儲伺服器存放所有數據,存儲伺服器成為系統性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規模存儲應用的需要。分布式網路存儲系統採用可擴展的系統結構,利用多台存儲伺服器分擔存儲負荷,利用位置伺服器定位存儲信息,它不但提高了系統的可靠性、可用性和存取效率,還易於擴展。
分布式和集中式存儲
集中存儲的優缺點是,物理介質集中布放;視頻流上傳到中心對機房環境要求高,要求機房空間大,承重、空調等都是需要考慮的問題。
分布存儲,集中管理的優缺點是,物理介質分布到不同的地理位置;視頻流就近上傳,對骨幹網帶寬沒有什麼要求;可採用多套低端的小容量的存儲設備分布部署,設備價格和維護成本較低;小容量設備分布部署,對機房環境要求低。
鏈喬教育在線旗下學碩創新區塊鏈技術工作站是中國教育部學校規劃建設發展中心開展的「智慧學習工場2020-學碩創新工作站 」唯一獲準的「區塊鏈技術專業」試點工作站。專業站立足為學生提供多樣化成長路徑,推進專業學位研究生產學研結合培養模式改革,構建應用型、復合型人才培養體系。