大數據存儲性能
① 大數據、高性能環境對存儲的需求
大數據、高性能環境對存儲的需求
一直以來,高性能計算的主要目的就是提高運算速度,來解決大規模科學計算和海量數據的處理問題。高性能計算每秒萬億次級的強大計算能力,使其成為石油、生物勘探、氣象預測、生命科學研究等領域的重要技術選擇。但是隨著數據量以及數據價值的不斷增長,金融、電信、互聯網等領域對高性能計算的需求不斷加大。隨著技術的發展,高性能計算系統的處理能力越來越強,任務的計算時間越來越短,對業務的價值不斷提高。但是,要想實現快速的任務計算處理,高性能計算系統的存儲能力是關鍵。因為在計算開始,要從存儲系統中讀取數據;計算結束時,要向存儲系統中寫入計算後的結果。如果這之間的讀取和寫入速度不匹配,不僅會拖延高性能項目的完成周期,低延遲還會嚴重影響高性能創造價值的能力。通常,高性能計算要求存儲系統能夠滿足性能、可擴展性要求,保護投資回報:吞吐量達到幾個甚至幾十個GB/s,容量能擴展至PB級;透明的訪問和數據共享;集中式的智能化管理,高性價比;可按需獨立擴展容量和性能等。中橋分析師在深圳華大基因研究院實地測試了EMC Isilon 產品在其HPC 環境下的運行情況,並記錄下其結果。
背景
高性能計算(High Performance Computing—HPC )指通常使用很多處理器(作為單個機器的一部分)或者某一集群組織中幾台計算機(作為單個計算資源操作)的計算系統和環境。長期以來,高性能計算應用的主要領域是科學與工程計算,諸如高能物理、核爆炸模擬、氣象預報、石油勘探、地震預報、地球模擬、葯品研製、CAD 設計中的模擬與建模、流體力學的計算等。如今,像金融證券、政府信息化、電信行業、教育、企業、網路游戲等領域對HPC的需求也在迅猛增長。
高性能計算的應用
高性能計算有著廣泛的行業應用基礎,下面列舉幾個行業對高性能計算的應用需求:
1. 航空航天行業
在航空航天行業,隨著中國航空航天事業的快速發展,尤其是載人航天技術的巨大成功,我國科技人員對空氣動力學的數值模擬研究提出了越來越多的需求,常規的計算能力遠遠無法滿足復雜的大型飛行器設計所帶來的巨大需求。在航空航天企業的設計過程中,研究人員往往需要把飛機表面分成幾百萬甚至幾千萬個離散型的網格點,然後通過高性能計算平台求解方程,得出每個網格點的溫度、速度、摩擦力等各種參數,並模擬出連續型的曲線,進而為飛機設計提供寶貴的參考資料。對這類計算來說,網格點分割得越細密,計算結果的精確度也就越好。但是這些大規模設計計算問題不但單個作業計算量龐大,且需不斷調整、重復計算,因此高性能在航天航空行業中占據著舉足輕重的地位。
2. 能源行業
石油能源作為國家戰略資源,對於國家經濟、安全、軍事等各方面都具有非常重要的戰略意義。石油勘探承擔著尋找儲油構造、確定井位的重要任務。目前的主流做法就是人為的製造相應規模的地震(視勘探地區面積與深度不同),同時在相應的地層遍布若干震波收集點。由於不同材料的地質環境對地震波的影響是有規可循的,所以藉助這一點,通過相關的演算法,即可以通過對地震波的傳遞演算來「計算出」地質結構,從而找出我們所需要的能源位置。這種計算量無疑是異常龐大的,由於地震波法勘探收集的數據通常都以TB計,近年來海洋油氣勘探所採集的數據甚至開始向PB規模發展。為此,只有藉助高性能計算,才能在最短的時間內處理這些海量數據。
3. 生命科學
在現代生命科學領域,以數據為驅動力的改變正引發著巨大的變革。海量生物數據的分析將會增強疾病的實時監控能力和對潛在流行病做出反應的能力,但海量數據的挖掘、處理、存儲卻面臨著前所未有的挑戰。特別是隨著新一代測序技術的迅猛發展,基因組學研究產生的海量數據正以每12- 18個月10倍的速度增長,已遠超越著名的摩爾定律,這使得眾多生物企業和科研機構面臨強大的數據分析和存儲需求。
在國內,生物基因行業的發展勢頭也不可小覷。2011年1 月30日,國家發改委已批復同意深圳依託華大基因研究院組建國家基因庫,這是中國首次建立國家級基因庫,首期投資為1500萬元。深圳國家基因庫是一個服務於國家戰略需求的國家級公益性創新科研及產業基礎設施建設項目,是目前我國唯一一個獲批籌建的國家級基因庫,是全球僅次美國、日本和歐洲三個國家級基因庫之後的世界第四個國家級基因庫。現在,該國家基因庫已經收集了100萬GB的生物數據,包含基因組、轉錄組、蛋白質組、代謝組及表型的數據,同時也積累了約四十萬份生物樣本。預計該基因庫最終將達到10億GB級別的數據容量。深圳國家基因庫和國際上已有的基因庫相比,它的特點是既有「濕庫」也有「干庫」:前者把千萬種實體的動植物、微生物和人類組織細胞等資源和樣本納入網路;後者匯集巨量的核酸、基因表達、蛋白、表型等多類數據信息,成為「大數據」生物學時代研究生物生長發育、疾病、衰老、死亡以及向產業化推廣的利器。
4. 金融行業
金融說到底就是數據。在金融市場中,擁有速度就意味著更高的生產力和更多的市場份額。金融計算模型相當復雜,數據收集越多,計算結果越精確。金融分析師都迫切地需要一個能模擬復雜現實環境,並進行精確處理的金融計算程序,以便對每個投資產品及時地評估投資收益,衡量投資風險,以期獲得更好的投資回報。也正因此,高性能計算已經越來越多地應用到全球資本市場,以期在最短時間內實現對市場的動態響應與轉換。
5. 氣象預報
世紀二十年代初,天氣預報方程已基本建立。但只有在計算機出現以後,數值天氣預報才成為可能。而在使用並行計算機系統之前,由於受處理能力的限制,只能做到24小時天氣預報。高性能計算是解決數值預報中大規模科學計算必要手段。採用高性能計算技術,可以從提高解析度來提高預報精度。
6. 游戲動漫和影視產業
隨著3D、4D電影的興起和高清動漫趨熱,由高性能計算(HPC )集群構成的「渲染農場」已經成為三維動畫、影視特效公司不可或缺的生產工具。動漫渲染基於一套完整的程序進行計算,從而通過模型、光線、材質、陰影等元素的組合設定,將動漫設計轉化為具體圖像。以《玩具總動員》為例,如果僅使用單台工作站(單一處理器)進行動畫渲染,這部長達77分鍾的影片的渲染時間將會是43年,而採用集群渲染系統,只需約80天。
② 大數據對存儲平台有哪些特殊要求
伴隨著安防大數據時代的來臨,安防行業原有的存儲技術已經無法滿足行業發展新需求,尤其是公共安全視頻監控建設聯網應用工作對數據聯網共享提出了更高的要求,同時以「實戰」為根本的公安業務中,大數據深度挖掘極度依賴數據存儲系統對非結構化數據分析再處理。雲存儲技術的出現,在安防行業大數據發展時代無異於革命性的應用,不斷地解決了安防存儲難題,同時也為視頻監控的深度應用與發展提供強大的驅動力。
當今世界,每個人的一言一行都在產生著數據,並且被記錄著。各行各業爆炸式增長的數據,正推動人類進入大數據時代。根據相關統計,2017年全球的數據總量為21.6ZB,目前全球數據的增長速度在每年40%左右,預計到2020年全球的數據總量將達到40ZB。數據增長在安防行業表現得尤為明顯,在近兩年「平安城市」、「 智能交通」、「 雪亮工程」等不斷開展和深入的過程中,以視頻監控為核心代表的行業發展正朝著超高清、智能化和融合應用的方向邁進,系統性工程中現有視頻監控系統數據採集量正在呈線性增長。海量數據的出現對高效、及時的存儲和處理的要求不斷提升。
從目前行業來看,大數據時代的到來,系統性工程中視頻監控系統對存儲主要有以下幾方面的需求:
一是海量數據及時高效存儲,根據現行的技防法規及標准,一般應用領域視頻監控系統數據採集是7x24小時不間斷的,系統採集的音視頻信息資料留存時限不得少於30日,針對案(事)件信息以及一些特殊應用領域視音頻資料存放時間更長,甚至長期保留,數據量隨時間增加呈線性增長。
二是監控數據存儲系統需要具備可擴展性,不但滿足海量數據持續增加,還需要滿足採集更高解析度或更多採集點的數據需要。
三是對存儲系統的性能要求高。與其他領域不同,視頻監控主要是視頻碼流的存儲,在多路並發存儲的情況下,對帶寬、數據能力、緩存等都有很高的要求,需要有專門針對視頻性能的優化處理。
四是大數據應用需要數據存儲的集中管理分析。但現實情況卻恰恰相反,一方面是系統性工程在分期建設的過程中,采購的設備並不能保證為同一品牌,實際項目中多種品牌、多種型號比比皆是,給視頻監控的存儲集中管理帶來很大難度。同時,在一些大型的項目中,例如特大城市「天網工程」,高速公路中道路監控所跨區域較大,集中存儲較為困難。另外,受網路帶寬及老舊設備影響,系統難以形成統一存儲、統一監控的中心體系架構,導致數據在應用中調取不及時。
總體來看,隨著系統性安防項目的深入開展以及物聯網建設初露崢嶸,大規模聯網監控的建設和高清監控的逐步普及,海量視頻數據已經呈現井噴式地增長,並沖擊著傳統的存儲系統,遺憾的是原有的存儲系統無法滿足大數據時代提出的新要求,亟需新的存儲技術支撐現有業務模式,同時為人工智慧技術在安防領域施展拳腳拓展新的空間。
③ 大數據 存儲技術必須跟上
大數據:存儲技術必須跟上
「大數據」 通常指的是那些數量巨大、難於收集、處理、分析的數據集,亦指那些在傳統基礎設施中長期保存的數據。這里的「大」有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業中IT基礎設施的規模。業內對大數據應用寄予了無限的期望 商業信息積累的越多價值也越大 只不過我們需要一個方法把這些價值挖掘出來。
也許人們對大數據的印象主要從存儲容量的廉價性而來,但實際上,企業每天都在創造大量的數據,而且越來越多,而人們正在努力的從浩如煙海的數據中尋覓有價值的商業情報。另一方面,用戶還會保存那些已經分析過的數據,因為這些舊數據可以與未來收集的新數據進行對照,依然有潛在的利用可能。
為什麼要大數據?為什麼是現在?
與以往相比,我們除了有能力存儲更多的數據量之外,還要面對更多的數據類型。這些數據的來源包括網上交易、網路社交活動、自動感測器、移動設備以及科學儀器等等。除了那些固定的數據生產源,各種交易行為還可能加快數據的積累速度。比如說,社交類多媒體數據的爆炸性增長就源於新的網上交易和記錄行為。數據永遠都在增長之中,但是,只有存儲海量數據的能力是不夠的,因為這並不能保證我們能夠成功地從中搜尋出商業價值。
數據是重要的生產要素
信息時代,數據儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限於某些特殊行業的應用。各行各業的公司都在收集並利用大量的數據分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創造新的產品。例如,通過分析直接從產品測試現場收集的數據,能夠幫助企業改進設計。此外,一家公司還可以通過深入分析客戶行為,對比大量的市場數據,從而超越他的競爭對手。
存儲技術必須跟上
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。
容量問題
這里所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。[page] 延遲問題
「大數據」應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網路成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,並准確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送「過期」的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基於對象的存儲系統則能夠支持並發的數據流,從而進一步提高數據吞吐量。
有很多「大數據」應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
並發訪問 一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。
安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標准和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。
成本問題
「大」,也可能意味著代價不菲。而對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控製成本,就意味著我們要讓每一台設備都實現更高的「效率」,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少後端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。[page] 很多大數據存儲系統都包括歸檔組件,尤其對那些需要分析歷史數據或需要長期保存數據的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經濟的存儲介質,事實上,在許多企業中,使用支持TB級大容量磁帶的歸檔系統仍然是事實上的標准和慣例。
對成本控制影響最大的因素是那些商業化的硬體設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定製他們自己的「硬體平台」而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟體的形式,可以直接安裝在用戶已有的、通用的或者現成的硬體設備上。此外,很多存儲軟體公司還在銷售以軟體產品為核心的軟硬一體化裝置,或者與硬體廠商結盟,推出合作型產品。
數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟體一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發出了一些針對應用的定製的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用伺服器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。
小用戶怎麼辦?
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的「大數據」存儲系統,主要吸引那些對成本比較敏感的用戶。
④ 大數據時代下的存儲形態
大數據時代下的存儲形態
大數據時代,移動互聯、社交網路、數據分析、雲服務等應用的迅速普及,對數據中心提出革命性的需求,存儲基礎架構已經成為IT核心之一。政府、軍隊軍工、科研院所、航空航天、大型商業連鎖、醫療、金融、新媒體、廣電等各個領域新興應用層出不窮。數據的價值日益凸顯,數據已經成為不可或缺的資產。作為數據載體和驅動力量,存儲系統成為大數據基礎架構中最為關鍵的核心。
傳統的數據中心無論是在性能、效率,還是在投資收益、安全,已經遠遠不能滿足新興應用的需求,數據中心業務急需新型大數據處理中心來支撐。除了傳統的高可靠、高冗餘、綠色節能之外,新型的大數據中心還需具備虛擬化、模塊化、彈性擴展、自動化等一系列特徵,才能滿足具備大數據特徵的應用需求。這些史無前例的需求,讓存儲系統的架構和功能都發生了前所未有的變化。
基於大數據應用需求,「應用定義存儲」概念被提出。存儲系統作為數據中心最核心的數據基礎,不再僅是傳統分散的、單一的底層設備。除了要具備高性能、高安全、高可靠等特徵之外,還要有虛擬化、並行分布、自動分層、彈性擴展、異構資源整合、全局緩存加速等多方面的特點,才能滿足具備大數據特徵的業務應用需求。
尤其在雲安防概念被熱炒的時代,隨著高清技術的普及,720P、1080P隨處可見,智能和高清的雙向需求、動輒500W、800W甚至上千萬更高解析度的攝像機面市,大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。
目前市場上的存儲架構如下:
(1) 基於嵌入式架構的存儲系統
節點NVR架構主要面向小型高清監控系統,高清前端數量一般在幾十路以內。系統建設中沒有大型的存儲監控中心機房,存儲容量相對較小,用戶體驗度、系統功能集成度要求較高。在市場應用層面,超市、店鋪、小型企業、政法行業中基本管理單元等應用較為廣泛。
(2)基於X86架構的存儲系統
平台SAN架構主要面向中大型高清監控系統,前端路數成百上千甚至上萬。一般多採用IP SAN或FC SAN搭建高清視頻存儲系統。作為監控平台的重要組成部分,前端監控數據通過錄像存儲管理模塊存儲到SAN中。
此種架構接入高清前端路數相對節點NVR有了較高提升,具備快捷便利的可擴展性,技術成熟。對於IP SAN而言,雖然在ISCSI環節數據並發讀寫傳輸速率有所消耗,但其憑借擴展性良好、 硬體平台通用、海量數據可充分共享等優點,仍然得到很多客戶的青睞。FC SAN在行業用戶、封閉存儲系統中應用較多,比如縣級或地級市高清監控項目,大數據量的並發讀寫對千兆網路交換提出了較大的挑戰,但應用FC SAN構建相對獨立的存儲子系統,可以有效解決上述問題。
面對視頻監控系統大文件、隨機讀寫的特點,平台SAN架構系統不同存儲單元之間的數據共享冗餘方面還有待提高;從高性能伺服器轉發視頻數據到存儲空間的策略,從系統架構而言也增加了隱患故障點、ISCSI帶寬瓶頸導致無法充分利用硬體數據並發性能、接入前端數據較少。上述問題催生了平台NVR架構解決方案。
該方案在系統架構上省去了存儲伺服器,消除了上文提到的性能瓶頸和單點故障隱患。大幅度提高存儲系統的寫入和檢索速度;同時也徹底消除了傳統文件系統由於供電和網路的不穩定帶來的文件系統損壞等問題。
平台NVR中存儲的數據可同時供多個客戶端隨時查詢,點播,當用戶需要查看多個已保存的視頻監控數據時,可通過授權的視頻監控客戶端直接查詢並點播相應位置的視頻監控數據進行歷史圖像的查看。由於數據管理伺服器具有監控系統所有監控點的錄像文件的索引,因此通過平台CMS授權,視頻監控客戶端可以查詢並點播整個監控系統上所有監控點的數據,這個過程對用戶而言也是透明的。
(3)基於雲技術的存儲方案
當前,安防行業可謂「雲」山「物」罩。隨著視頻監控的高清化和網路化,存儲和管理的視頻數據量已有海量之勢,雲存儲技術是突破IP高清監控存儲瓶頸的重要手段。雲存儲作為一種服務,在未來安防監控行業有著客觀的應用前景。
與傳統存儲設備不同,雲存儲不僅是一個硬體,而是一個由網路設備、存儲設備、伺服器、軟體、接入網路、用戶訪問介面以及客戶端程序等多個部分構成的復雜系統。該系統以存儲設備為核心,通過應用層軟體對外提供數據存儲和業務服務。
一般分為存儲層、基礎管理層、應用介面層以及訪問層。存儲層是雲存儲系統的基礎,由存儲設備(滿足FC協議、iSCSI協議、NAS協議等)構成。基礎管理層是雲存儲系統的核心,其擔負著存儲設備間協同工作,數據加密,分發以及容災備份等工作。應用介面層是系統中根據用戶需求來開發的部分,根據不同的業務類型,可以開發出不同的應用服務介面。訪問層指授權用戶通過應用介面來登錄、享受雲服務。其主要優勢在於:硬體冗餘、節能環保、系統升級不會影響存儲服務、海量並行擴容、強大的負載均衡功能、統一管理、統一向外提供服務,管理效率高,雲存儲系統從系統架構、文件結構、高速緩存等方面入手,針對監控應用進行了優化設計。數據傳輸可採用流方式,底層採用突破傳統文件系統限制的流媒體數據結構,大幅提高了系統性能。
高清監控存儲是一種大碼流多並發寫為主的存儲應用,對性能、並發性和穩定性等方面有很高的要求。該存儲解決方案採用獨特的大緩存順序化演算法,把多路隨機並發訪問變為順序訪問,解決了硬碟磁頭因頻繁尋道而導致的性能迅速下降和硬碟壽命縮短的問題。
針對系統中會產生PB級海量監控數據,存儲設備的數量達數十台上百台,因此管理方式的科學高效顯得十分重要。雲存儲可提供基於集群管理技術的多設備集中管理工具,具有設備集中監控、集群管理、系統軟硬體運行狀態的監控、主動報警,圖像化系統檢測等功能。在海量視頻存儲檢索應用中,檢索性能尤為重要。傳統文件系統中,文件檢索採用的是「目錄->子目錄->文件->定位」的檢索步驟,在海量數據的高清視頻監控,目錄和文件數量十分可觀,這種檢索模式的效率就會大打折扣。採用序號文件定位可以有效解決該問題。
雲存儲可以提供非常高的的系統冗餘和安全性。當在線存儲系統出現故障後,熱備機可以立即接替服務,當故障恢復時,服務和數據回遷;若故障機數據需要調用,可以將故障機的磁碟插入到冷備機中,實現所有數據的立即可用。
對於高清監控系統,隨著監控前端的增加和存儲時間的延長,擴展能力十分重要。市場中已有友商可提供單純針對容量的擴展櫃擴展模式和性能容量同步線性擴展的堆疊擴展模式。
雲存儲系統除上述優點之外,在平台對接整合、業務流程梳理、視頻數據智能分析深度挖掘及成本方面都將面臨挑戰。承建大型系統、構建雲存儲的商業模式也亟待創新。受限於寬頻網路、web2.0技術、應用存儲技術、文件系統、P2P、數據壓縮、CDN技術、虛擬化技術等的發展,未來雲存儲還有很長的路要走。
結語
高清視頻監控對存儲系統的性能、可靠性、擴展性、管理效能、節能環保和開放性都提出了很高的要求。新一代的雲存儲解決方案,可為用戶提供智能存儲、分析等服務,特別適合大規模的視頻監控部署。針對不同的市場應用場合,如何選擇切實可行且高效的存儲解決方案,是擺在安防行業眾多建設者面前的一道難題。相信隨著時間的推移和技術的演變,高清視頻數據存儲會得到更加完美的解決。
⑤ 大數據時代,數據的存儲與管理有哪些要求
數據時代的到來,數據的存儲有以下主要要求:
首先,海量數據被及時有效地存儲。根據現行技術和預防性法規和標准,系統採集的信息的保存時間不少於30天。數據量隨時間的增加而線性增加。
其次,數據存儲系統需要具有可擴展性,不僅要滿足海量數據的不斷增長,還要滿足獲取更高解析度或更多採集點的數據需求。
第三,存儲系統的性能要求很高。在多通道並發存儲的情況下,它對帶寬,數據容量,高速緩存等有很高的要求,並且需要針對視頻性能進行優化。
第四,大數據應用需要對數據存儲進行集中管理分析。
⑥ 大數據和傳統數據存儲的區別
主要區別在於,現在的大數據包括非結構化數據,並且可以從各種數據中提取有用的信息,比如郵件、日誌文件、社交多媒體、商業交易及其他數據。比如,保存在資料庫里的一家連鎖零售商店的某商品的銷售圖表數據。對這些數據的獲取就不是大數據范疇的問題。大數據應用的一個主要特點是實時性或者近實時性。大數據比傳統數據存儲更需要非常高性能、高吞吐率、大容量的基礎設備。
⑦ 大數據需突破存儲、性能瓶頸
大數據需突破存儲、性能瓶頸
大數據的核心是大量數據的分析能力
在亟待優先解決的IT問題千頭萬緒的情況下,在大數據價值日益凸顯的背景下,企業需要首先提高數據中心的成本效益,以滿足不斷變化的業務需求,加大大數據的應用和相關基礎設施的構建,滿足對於大數據環境下數據中心高性能、高可擴展性、高安全性和高可用性的要求。
大數據核心分析能力需要強大的後台支撐
所謂大數據,最為核心的就要看對於大量數據的核心分析能力。但是,大數據核心分析能力的影響不僅存在於數據管理策略、數據可視化與分析能力等方面,從根本上也對數據中心IT基礎設施架構甚至機房設計原則等提出了更高的要求。為了達到快速高效的處理大量數據的能力,整個IT基礎設施需要進行整體優化設計,應充分考量後台數據中心的高節能性、高穩定性、高安全性、高可擴展性、高度冗餘,基礎設施建設這五個方面,同時更需要解決大規模節點數的數據中心的部署、高速內部網路的構建、機房散熱以及強大的數據備份等問題。
大數據離不開效益型數據中心的構建
深入了解大數據應用的數據中心經濟學對於提高企業的實際利潤率,具有十分重要的價值。數據中心經濟學能夠提供一個框架,幫助IT管理者認識存儲的總體擁有成本(TCO)的長期價值影響。利用數據中心經濟學確定存儲決策、計算資源的准確支出,將能夠幫助企業系統化地持續降低成本,並更好的支持企業採用大數據技術。
大數據更需要突破存儲、性能瓶頸
大數據應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。此外,大數據應用還存在實時性的問題,特別是涉及到與網上交易或者金融類相關的應用。
⑧ 大數據時代需要什麼樣的存儲
眾多專家認為,大數據時代的存儲,應當是分布式的存儲,並呈現出與計算融合的趨勢。當然,不同專家對融合的理解也有所區別。 SNIA-China技術委員會主席雷濤表示,在當前的大數據時代,由於數據量TB、PB級的急劇膨脹,傳統的數據搬移工作已經不現實,因而存儲伺服器出現新的融合趨勢。在這樣的架構中,數據不再移動,寫入以後分散在STORAGE,它的計算節點融合在數據旁邊的CPU,數據越來越貼近計算。 雷濤補充說,大數據只談商業分析的數據支持,這是小數據思維,從金融、運營商、政府行業我們做的項目裡面發現,大數據是嵌入到整個行業裡面,替換以前的存儲和計算的系統架構的過程。 華為存儲產品線Marketing部長經寧認為,大數據帶來的三大變化,包括從集中式走向分布式,從水平走向縱向,從計算為中心轉向以數據為中心,總結一句話,即在大數據下架構方向走向分布式存儲的架構。 2013年,華為存儲產品線把理念進行升級,變成「存以致用,融以致遠」。經寧表示,融合架構是我們面對大數據挑戰一個很好的選擇。華為更多的希望把數據智能用起來產生價值,通過融合架構實現計算存儲融合,可以帶來更高的管理效率更高效能,大大降低我們管理上的開銷。 中橋國際調研咨詢公司首席分析師王叢女士則從虛擬化、雲計算數據保護和融合架構三個維度談了中國數據中心的發展變化。她表示,具有高可移動性的虛擬機用於生產,掉了鏈子就很難判斷是哪個物理環境,這就驅動了融合架構。融合架構避免了整合的時間和網路問題判斷的時間,能夠實現統一集中透明管理,可以根據工作負載去實時動態配置資源,也可以實時監控哪裡出了問題,怎麼解決問題。 王叢還指出,融合架構有不同的形態,其中一種是在原來硬體基礎上用一個軟體罩上,然後形成融合架構,實現目的是可以在線擴展,所有動態可以負載均衡,在最大限度提高部署效率前提下,又能夠降低因為硬體問題而導致的應用性能降低和應用的不穩定。 老牌存儲廠商NetApp同樣對存儲架構很有體會。NetApp公司北方區及電信事業部技術總監劉煒表示,在今天把數據存起來不是很難的問題,買一個移動硬碟就可以存儲數據,但是在上面存儲享受的服務級別不同的,不同於放在數據中心和網路雲上面的服務級別的。 為了不讓數據成為整個企業發展的負擔,而是成為真正的價值點,從資料變成資產,基礎架構需要快速、安全地支持一些新的技術手段。劉煒認為,應用級別和服務級別怎麼定義需要有很好存儲架構。NetApp集群存儲系統,並不是簡單地迎合新概念,而是面向實際的應用設計。NetApp做了很多IT架構的設計,滿足應用分級、資源分層的需求,你可以用虛擬化,也可以不用。 Fusion-io大中國區技術總監Tonny Ai與英特爾公司通信和存儲基礎架構事業部存儲部市場總監 Christine M Rice女士談到了SSD在大數據時代數據中心的應用。Tonny Ai表示,讓包括非結構化數據的大量數據快速變成信息,不僅僅是伺服器要快,存儲速度也要跟上CPU的速度,快閃記憶體正是針對當前網路存儲速度落後的解決方案,能夠有效提高存儲的性能。 同時,Tonny Ai認為,在雲計算、大數據時代,集中式存儲需要的管理和維護非常困難,分布式存儲模型是大勢所趨。在這其中,Fusion-io提供了PCIe快閃記憶體卡、全快閃記憶體陣列以及SDK工具,支持提升各種應用的性能。 Christine M Rice女士指出,SSD不只是讓數據變快。她認為,通過SSD在數據中心的使用,能夠幫助節約成本,降低延遲,加快訪問數據的速度,同時還能夠提供非常高的可靠性和管理級別,結合了DRM的使用進行軟體分層管理。 戴爾亞太存儲技術總監許良謀則強調了SSD的利用要在成本和性能之間的平衡,如何更好地應對大數據——快閃記憶體的成本和壽命讓很多企業對它愛恨交加。許良謀認為,大數據需要一個高容量高速度的共享存儲,戴爾的流動數據架構就是一個讓數據平滑遷移的平台。 戴爾實現了一個新的技術突破,即快速SLC和eMLC大容量盤可以用到流動架構裡面,再加上普通的大容量盤,兩級固態盤優化和流動數據架構的配合,這種方案可以比普通純快閃記憶體的方式實現75%以上的成本節約。 許良謀介紹到,戴爾一直通過收購、合作等方式,在自身產品線中不斷引入新的存儲技術,力圖把最好的存儲產品以最經濟的方式提供給用戶。
⑨ 大數據存儲需要具備什麼
大數據之大 大是相對而言的概念。例如,對於像SAPHANA那樣的內存資料庫來說,2TB可能就已經是大容量了;而對於像谷歌這樣的搜索引擎,EB的數據量才能稱得上是大數據。 大也是一個迅速變化的概念。HDS在2004年發布的USP存儲虛擬化平台具備管理32PB內外部附加存儲的能力。當時,大多數人認為,USP的存儲容量大得有些離譜。但是現在,大多數企業都已經擁有PB級的數據量,一些搜索引擎公司的數據存儲量甚至達到了EB級。由於許多家庭都保存了TB級的數據量,一些雲計算公司正在推廣其文件共享或家庭數據備份服務。有容乃大 由此看來,大數據存儲的首要需求存儲容量可擴展。大數據對存儲容量的需求已經超出目前用戶現有的存儲能力。我們現在正處於PB級時代,而EB級時代即將到來。過去,許多企業通常以五年作為IT系統規劃的一個周期。在這五年中,企業的存儲容量可能會增加一倍。現在,企業則需要制定存儲數據量級(比如從PB級到EB級)的增長計劃,只有這樣才能確保業務不受干擾地持續增長。這就要求實現存儲虛擬化。存儲虛擬化是目前為止提高存儲效率最重要、最有效的技術手段。它為現有存儲系統提供了自動分層和精簡配置等提高存儲效率的工具。擁有了虛擬化存儲,用戶可以將來自內部和外部存儲系統中的結構化和非結構化數據全部整合到一個單一的存儲平台上。當所有存儲資產變成一個單一的存儲資源池時,自動分層和精簡配置功能就可以擴展到整個存儲基礎設施層面。在這種情況下,用戶可以輕松實現容量回收和容量利用率的最大化,並延長現有存儲系統的壽命,顯著提高IT系統的靈活性和效率,以滿足非結構化數據增長的需求。中型企業可以在不影響性能的情況下將HUS的容量擴展到近3PB,並可通過動態虛擬控制器實現系統的快速預配置。此外,通過HDSVSP的虛擬化功能,大型企業可以創建0.25EB容量的存儲池。隨著非結構化數據的快速增長,未來,文件與內容數據又該如何進行擴展呢?不斷生長的大數據 與結構化數據不同,很多非結構化數據需要通過互聯網協議來訪問,並且存儲在文件或內容平台之中。大多數文件與內容平台的存儲容量過去只能達到TB級,現在則需要擴展到PB級,而未來將擴展到EB級。這些非結構化的數據必須以文件或對象的形式來訪問。基於Unix和Linux的傳統文件系統通常將文件、目錄或與其他文件系統對象有關的信息存儲在一個索引節點中。索引節點不是數據本身,而是描述數據所有權、訪問模式、文件大小、時間戳、文件指針和文件類型等信息的元數據。傳統文件系統中的索引節點數量有限,導致文件系統可以容納的文件、目錄或對象的數量受到限制。HNAS和HCP使用基於對象的文件系統,使得其容量能夠擴展到PB級,可以容納數十億個文件或對象。位於VSP或HUS之上的HNAS和HCP網關不僅可以充分利用模塊存儲的可擴展性,而且可以享受到通用管理平台HitachiCommandSuite帶來的好處。HNAS和HCP為大數據的存儲提供了一個優良的架構。大數據存儲平台必須能夠不受干擾地持續擴展,並具有跨越不同時代技術的能力。數據遷移必須在最小范圍內進行,而且要在後台完成。大數據只要復制一次,就能具有很好的可恢復性。大數據存儲平台可以通過版本控制來跟蹤數據的變更,而不會因為大數據發生一次變更,就重新備份一次所有的數據。HDS的所有產品均可以實現後台的數據移動和分層,並可以增加VSP、HUS數據池、HNAS文件系統、HCP的容量,還能自動調整數據的布局。傳統文件系統與塊數據存儲設備不支持動態擴展。大數據存儲平台還必須具有彈性,不允許出現任何可能需要重建大數據的單點故障。HDS可以實現VSP和HUS的冗餘配置,並能為HNAS和HCP節點提供相同的彈性。
⑩ 大數據存儲與應用特點及技術路線分析
大數據存儲與應用特點及技術路線分析
大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,一方面,對數據的存儲量的需求越來越大;另一方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。
大數據存儲與應用的特點分析
「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基於雲計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。
大數據具有數據規模大(Volume)且增長速度快的特性,其數據規模已經從PB級別增長到EB級別,並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容,飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例,根據淘寶網的數據顯示,至2011年底,淘寶網最高單日獨立用戶訪問量超過1.2億人,比2010年同期增長120%,注冊用戶數量超過4億,在線商品數量達到8億,頁面瀏覽量達到20億規模,淘寶網每天產生4億條產品信息,每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求,更需要有很強的可擴展性以滿足快速增長的需求。
(1)大數據的存儲及處理不僅在於規模之大,更加要求其傳輸及處理的響應速度快(Velocity)。
相對於以往較小規模的數據處理,在數據中心處理大規模數據時,需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求,更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物,網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦,這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞,為商家提供推薦的貨物關鍵字,面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦,否則就丟失了其失效性;更或者是計程車行駛在城市的道路上,通過GPS反饋的信息及監控設備實時路況信息,大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度,最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面,海量數據存儲管理系統與傳統的資料庫管理系統,或者基於磁帶的備份系統之間也在發生數據交換,雖然這種交換實時性不高可以離線完成,但是由於數據規模的龐大,較低的數據傳輸帶寬也會降低數據傳輸的效率,而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。
(2)大數據由於其來源的不同,具有數據多樣性的特點。
所謂多樣性,一是指數據結構化程度,二是指存儲格式,三是存儲介質多樣性。對於傳統的資料庫,其存儲的數據都是結構化數據,格式規整,相反大數據來源於日誌、歷史數據、用戶行為記錄等等,有的是結構化數據,而更多的是半結構化或者非結構化數據,這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式,也正是由於其數據來源不同,應用演算法繁多,數據結構化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲,有的則是網頁文件,有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容,大數據應用需要滿足不同的響應速度需求,因此其數據管理提倡分層管理機制,例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上,有的可以存放在傳統的SAN或者NAS網路存儲設備上,而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。
大數據存儲技術路線最典型的共有三種:
第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本 PC Server,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。
這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP資料庫。
第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型資料庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平台更擅長。
第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品,由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成,高性能大數據一體機具有良好的穩定性和縱向擴展性。
以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容,更多信息可以關注環球青藤分享更多干貨