多模資料庫
㈠ 對話阿里雲李飛飛:關於雲原生資料庫的五大預判
作者:王慧賢
數據存儲、數據分析、數據安全......如今,圍繞「數據」的話題越來越多,離人們的生活也越來越近。
從陌生到熟悉,數據不僅「出圈」,甚至已然站在了C位。去年,中央發布的《關於構建更加完善的要素市場化配置體制機制的意見》中明確表示,繼土地、勞動力、資本、技術後,數據成為第五大生產要素。
步入信息化時代後,資料庫、操作系統與中間件作為計算機最基礎的三大軟體,支撐著企業的正常運行。
當數據成為生產要素後,必然會迎來爆發式增長,企業的數據存儲和處理需求將進一步釋放。更重要的是,疫情加快了數字化轉型的腳步,更加速了企業的上雲速度。
從信息化到數字化,時代的變革,總會帶來商業世界的變化。如何在雲原生架構下使用資料庫,成為企業的痛點和雲廠商的機會,亞馬遜AWS的CTO Werner Vogels曾多次強調:「資料庫是雲計算的終極之戰。」
在數智化時代,雲原生到底意味著什麼?雲原生資料庫和傳統資料庫相比,核心優勢是什麼?是否把資料庫搬上雲就是雲原生?基於這些問題,雷鋒網與阿里巴巴集團副總裁、阿里雲資料庫產品事業部負責人李飛飛展開一場對話。
國產雲原生資料庫,擺脫「切膚之痛」
如今,資料庫的商業世界,因為雲的出現與發展,分成了兩大派系。
一派是以Oracle為代表的傳統商用資料庫,一派是以國外AWS、國內阿里雲為代表的雲原生資料庫,去「IOE革命」下的產物。
其實,早期較為火熱的資料庫種類有三種,層次式資料庫、網路式資料庫和關系型資料庫。
在《浪潮之巔》一書中,作者吳軍寫下了這樣的觀點:「Oracle 的興起很大程度上靠的是它最早看到關系型資料庫的市場前景,並且在商業模式上優於 IBM。」
因此,在雲原生資料庫「入世」之前,資料庫的天下一直是Oracle的,國內大部分互聯網公司都不得不採用Oracle+IBM小型機+EMC的模式來維持正常運營。
高昂的費用,使得對於資料庫需求較大的互聯網巨頭「忍無可忍」。
2009年,阿里巴巴的Oracle RAC 集群節點數達到了創記錄的20個。可由於Oracle並沒有彈性擴展的功能,只能按照峰值流量購買小型機和資料庫,導致阿里將業務上漲帶來的大部分利潤,都支付給了Oracle。
第二年,阿里便開始走上了去「IOE」之路,根據開源MySQL搭建了AliSQL,並順利經過了淘寶雙11的考驗,國產雲原生資料庫算是正式擺脫了「切膚之痛」,逐漸受到市場的真正認可。
另一邊,國外的AWS在2015年公布了基於雲計算的自研資料庫Amazon Aurora。Aurora是一個關系型資料庫,可以跨3個可用區域復制6份數據,其最大的特性就是高性能和高可用性。
雲計算巨頭的入局,讓雲原生資料庫在國內外一步步成為主流。據Gartner預測,到了2021年,雲資料庫在整個資料庫市場中的佔比將首次達到50%,到2023年,75%的資料庫都要跑在雲平台之上。
關於雲原生資料庫,隨著逐步的出圈,也讓人們關心的焦點從「是啥?」轉變為「還能解決哪些問題?」
但雲原生資料庫存在著數據孤島的問題,無法打通多個數據系統的情況下,企業在數據加工和數據管理上就會「壓力較大」,甚至在數據安全方面還存在隱患。
傳統數據倉庫一般基於T+1數據集成構建離線數倉,以支撐企業各項分析與服務。傳統方案不但會影響線上業務穩定性,且難以支持企業的實時需求。
因此,在李飛飛看來,雲原生資料庫已經走到2.0階段。這個階段要解決的問題,就是上述存在的痛點。
9月26日,在阿里雲資料庫創新上雲峰會上,阿里雲發布了首個一站式敏捷數據倉庫解決方案。該方案結合一站式數據管理平台DMS及雲原生數據倉庫AnalyticDB(簡稱:ADB),實現了庫倉一體的技術架構,提供在線數據實時入倉、T+1周期性快照、按需建倉等能力,數據延時低至秒級,持續賦能業務在線化,使企業的在線數據可以釋放出更大的價值。
相較於傳統方案,阿里雲一站式敏捷數據倉庫解決方案有4大核心優勢:
1、對業務側影響小,不會因為數據匯聚集中和實時加工影響業務側正常運行,CPU、內存佔用低於5%;
2、事務順序和數據准確性有保障,且處理鏈路短,支持在線數據實時處理落倉,效率更高。數據傳輸效率100m/s,數據延時在10秒內;
3、支持復雜實時數據加工、計算邏輯;
4、低代碼操作,能夠大大降低實時數倉的構建難度,提升構建效率的同時,支撐企業數字化轉型過程中的各類實時場景。
除了實時統計分析場景外,企業為滿足周期性數據分析需求,需建設周期性全量快照。
傳統數倉的周期性全量集成方案會對生產業務造成穩定性影響、全量集成時效性差、且無法滿足客戶針對任意時間點進行數據回溯的業務訴求。
針對T+1周期性集成場景,一站式敏捷數據倉庫解決方案支持基於拉鏈表的T+1全量數據快照,用戶通過簡單幾個步驟,即可按需生成各種周期的全量或增量快照。
此外,業務還可按需進行任意時間點的數據回溯,以快速解決數據異常問題。
談起未來資料庫的發展趨勢,李飛飛提到以下五點:
1、雲原生+分布式一定是資料庫的標配,分布式已經是必選項。分布式資料庫由多個相互連接的資料庫組合而成,面向用戶則是以單個資料庫的形態出現。雲原生分布式資料庫具備易用性、高擴展性、快速迭代、節約成本等特徵,從資源池化到彈性擴展,再到智能運維,再到離在線一體化,解決企業用戶的核心訴求。
2、AI for DB(database,指資料庫)和 DB for AI 將是主流趨勢。用AI將資料庫運維管控智能化,尤其在雲原生+分布式這個前提下更重要,因為資料庫不僅是內核的能力彈性高可用、可拓展性,更重要的是部署後應用和運維的復雜度要大大降低。在資料庫里,面對越來越多非結構化的數據,分析能力十分重要。
3、數據的安全可信,在今天這個大環境下變得愈發重要,如何確保整個資料庫系統,在處理數據全鏈路過程中提供加密能力、多方安全計算能力、隱私保護的能力,也是很重要的趨勢。
4、多模數據處理能力將越來越重要。比如,新型資料庫多模態的處理能力,在新能源 汽車 企業打標簽、智能電池化預測等應用場景中,將發揮越來越重要的作用。
5、一份數據,多個數據處理引擎:實現倉庫一體、倉庫聯動、倉庫打通,數據之間無縫流轉。
以上判斷,也從側面反映出阿里雲資料庫的走向,這點毋庸置疑。但除此之外,業界最關心的,還有開源。
近半年,國內很多廠商相繼提出開源戰略,背後緣由顯而易見,為了打造生態。就在今年的阿里雲峰會上,阿里雲智能總裁、達摩院院長張建鋒(花名行癲)將2021年阿里雲的發展關鍵詞歸納為:做好服務、做深基礎、做厚中台、做強生態。
做好服務與生態,成為如今廠商們不約而同的目標,而開源,就是最好的選擇。
當雷鋒網問到:「未來,阿里雲資料庫會不會把所有能力都開源?」這一問題時,李飛飛給到的回答是:「不會。」
之所以有這樣的回答,是因為對於開源,他有著一些判斷和看法。
李飛飛表示,這些部分,本就是阿里雲資料庫的商業化版本。
事實上,業界大多數的資料庫廠商都不會針對自身的核心能力開源,如TiDB的核心管控組件、TiFlash。
與像MongoDB,、Cassandra、CouchDB這些以開源起家的資料庫廠商不同,開源只是阿里雲資料庫的戰略,不是阿里雲資料庫的命脈。
前幾年,有業內人士表示,在面向開源時,國產資料庫首先需要解決信任以及開源知識產權等問題。「開源會讓廠商更加認真思考版權還有專利的問題,事實上,選擇開源後,對於資料庫廠商提出了更高的要求。」
李飛飛認為,開源只是一種選擇,資料庫開源成功並不代表著商業化就能夠成功,不開源也不能代表廠商不先進。
更准確的說,開源只是一種有效手段。
最終,阿里雲資料庫希望客戶能夠通過開源版本把阿里雲資料庫產品技術快速用起來,並能夠參與到技術產品的迭代過程中,在一些高階能力上,借鑒團隊專業能力和阿里雲的服務能力,成為良好的商業合作夥伴,這是李飛飛以及阿里雲資料庫對於開源的一些基本思考。雷鋒網雷鋒網雷鋒網
㈡ 資料庫未來的發展趨勢有並行化嗎
資料庫的未來發展趨勢可以總結為以下四點:
1.產品架構與技術創新:雲原生 + 分布式 ( 彈性、高可用 )。架構上分布式共享 存儲、存儲計算分離,雲原生架構 +Shared Nothing 分布式架構,滿足彈性、 高可用、水平拓展的能力。
2.數據挑戰:多模,結構化與非結構化數據 ( 多源異構數據 )。結構化與非結構化 數據如何融合異構處理,比如數據湖的概念、ADB 裡面用向量處理引擎把非 結構化數據變成結構化數據,高維向量、多源異構數據處理的技術。
3.數據處理與分析:海量數據分析在線化 ( 實時在線互動式分析 )。如何對海量數 據進行在線分析和計算,支持實時在線互動式分析,需要做並行處理(DSP 模 型、MPP 模型等等),對並行調度計算進行優化。
4.系統能力提升:智能化 + 安全 ( 使用方便可靠、運維簡易 )。如在管控平台的 層面如何做智能化的調度、監控以及自動修復,怎樣去做數據的安全處理、隱 私保護、加密處理等等,使得整個資料庫的使用更加方便可靠、運維簡易。