大數據存儲和治理
❶ 大數據採集與存儲的基本步驟有哪些
數據抽取
針對大數據分析平台需要採集的各類數據,分別有針對性地研製適配介面。對於已有的信息系統,研發對應的介面模塊與各信息系統對接,不能實現數據共享介面的系統通過ETL工具進行數據採集,支持多種類型資料庫,按照相應規范對數據進行清洗轉換,從而實現數據的統一存儲管理。
數據預處理
為使大數據分析平台能更方便對數據進行處理,同時為了使得數據的存儲機制擴展性、容錯性更好,需要把數據按照相應關聯性進行組合,並將數據轉化為文本格式,作為文件存儲下來。
數據存儲
除了Hadoop中已廣泛應用於數據存儲的HDFS,常用的還有分布式、面向列的開源資料庫Hbase,HBase是一種key/value系統,部署在HDFS上,與Hadoop一樣,HBase的目標主要是依賴橫向擴展,通過不斷的增加廉價的商用伺服器,增加計算和存儲能力。
關於大數據採集與存儲的基本步驟有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
❷ 如何藉助大數據提升政府治理和服務能力
在前不久公布的《促進大數據發展行動綱要》中,大數據發展與「提升政府治理能力現代化」緊緊相連,受到各方關注。大數據將助力政府治理,以改善百姓民生、社會服務
❸ 大數據的存儲和搜索麵臨很大挑戰
大數據的存儲和搜索麵臨很大挑戰
大數據並非是一個全新的概念,早在1980年,阿爾文托夫勒就在《第三次浪潮》一書中預言了由數據構成的「碎片化未來」,並將海量數據贊頌為「第三次浪潮的華彩樂章」。然而,大數據真正流行起來是在2011年之後,數據量呈幾何指數上升,物聯網、雲計算等技術的日漸成熟使得數據的獲取、存儲和處理的成本急劇下降,促使大數據一時間成為了各方視線的焦點。
首先,伴隨著移動終端、感測器的迅速普及以及社會化媒體等互聯網應用的日益多樣化,數據量呈現出爆發式的增長,數據集的規模已經達到了TB甚至是PB的級別。這些海量的、碎片化的數據不僅能夠較為完整地刻畫出人們在線行為,還可以通過各類感測設備的數據來記錄實體經濟的運行狀況。
其次,數據的種類也愈發豐富,不僅包含文本內容,還包括圖片、音頻、視頻等非結構化數據,為數據的存儲和搜索帶來了很大挑戰,這意味著傳統意義上適用於文本內容存儲和分析的資料庫關聯演算法、語義分析等手段已經漸漸失效。
第三,大數據蘊含著巨大的價值,但相比於龐大的數據規模,其價值密度卻是非常稀疏的,可謂是「浪里淘沙、彌足珍貴」。例如,公安視頻監控系統需要7×24小時的記錄,但用於犯罪證據獲取的也許只是短短數秒;對於零售產業的推薦系統,也只有通過海量數據的分析,才能進行較為精準的預測。
第四,大數據需要實時的記錄與響應,如動態的股價、路況信息以及電子商務的交易數據等,都需要實時的調用和處理,才能夠充分體現出數據的價值所在。此外,社會化媒體、社交網站中的關系數據成為了大數據的價值倍增器,這是因為人們已經不可避免地鑲嵌於人際關系網路中,個體的影響力會經由社交網路快速蔓延。
不久前,作為全球最大零售商的沃爾瑪也充分意識到了關系數據的重要性,在其社交基因組(Social Genome)計劃中整合了用戶在Facebook、Twitter中的關系數據,用以更精準地推測消費者的偏好。 綜上所述,大數據的基本特徵可以概括為規模化(Volume)、多樣性(Variety)、高價值(Value)、速度快(Velocity)以及社會化(Social)等五個特點,即「4V 1S」的特點。這樣的大數據浪潮,也深刻的影響了各個傳統行業的發展軌跡,變革一觸即發。
❹ 數據科學與大數據技術和大數據管理與應用有什麼區別
1、關注點不同:大數據管理和應用這一塊主要是偏整體數據管控,數據治理方面更多的關注的也是對於這個大數據技術在實際場景中的落地與運用;
但是它並不會對技術的具體底層進行深入的研究,關注點還是在整個大數據行業的趨勢方面,以及數據的管理流程方面。大數據科學與技術關注的是底層技術的具體實現。
2、具體內容不同:舉一個簡單的例子吧,比方說大數據機器學習,大數據應用專業,會關注不同的應用場景下使用什麼樣的演算法,參數如何設置。
而大數據科學與技術專業呢,則是會關注這個底層的演算法具體實現,比方說決策樹如何實現這些的,另外,如何進行數據清洗,數據存儲,這一塊怎麼去開發,開發的具體邏輯,這一塊都是大數據科學與技術專業需要去實施的。
3、目標不同:大數據應用的目標是普適智能要學好大數據,首先要明確大數據應用的目標,大數據就好比萬金油,像網路幾年前提的框計算,這個框什麼都能往裡裝。
大數據這個框太大,其終極目標是利用一系列信息技術實現海量數據條件下的人類深度洞察和決策智能化,最終走向普適的人機智能融合,這不僅是傳統信息化管理的擴展延伸,也是人類社會發展管理智能化的核心技術驅動力。
數據科學可以理解為一個跨多學科領域的,從數據中獲取知識的科學方法,技術和系統集合,其目標是從數據中提取出有價值的信息;
它結合了諸多領域中的理論和技術,包括應用數學,統計,模式識別,機器學習,人工智慧,深度學習,數據可視化,以及高性能計算等。
(4)大數據存儲和治理擴展閱讀:
大數據管理與應用旨在培養掌握管理學基本理論,熟悉現代信息管理技術與方法,善於利用商務數據去定量化分析,並能最終實現智能化商業決策的綜合型人才。
大數據管理與應用專業以互聯網+和大數據時代為背景,主要研究大數據分析理論和方法在經濟管理中的應用以及大數據管理與治理方法。
專業堅持「厚基礎、寬知識、重思想、重創新、重實戰」的培養理念,採取因材施教的模式,採用全新的課程教學體系,培養具有國際視野、創新意識、創新能力及領導潛質的高級管理人才。
❺ 大數據的數據的存儲方式是什麼
大數據有效存儲和管理大數據的三種方式:
1.
不斷加密
任何類型的數據對於任何一個企業來說都是至關重要的,而且通常被認為是私有的,並且在他們自己掌控的范圍內是安全的。然而,黑客攻擊經常被覆蓋在業務故障中,最新的網路攻擊活動在新聞報道不斷充斥。因此,許多公司感到很難感到安全,尤其是當一些行業巨頭經常成為攻擊目標時。
隨著企業為保護資產全面開展工作,加密技術成為打擊網路威脅的可行途徑。將所有內容轉換為代碼,使用加密信息,只有收件人可以解碼。如果沒有其他的要求,則加密保護數據傳輸,增強在數字傳輸中有效地到達正確人群的機會。
2.
倉庫存儲
大數據似乎難以管理,就像一個永無休止統計數據的復雜的漩渦。因此,將信息精簡到單一的公司位置似乎是明智的,這是一個倉庫,其中所有的數據和伺服器都可以被充分地規劃指定。然而,有些報告指出了反對這種方法的論據,指出即使是最大的存儲中心,大數據的指數增長也不再能維持。
然而,在某些情況下,企業可能會租用一個倉庫來存儲大量數據,在大數據超出的情況下,這是一個臨時的解決方案,而LCP屬性提供了一些很好的機會。畢竟,企業不會立即被大量的數據所淹沒,因此,為物理機器租用倉庫至少在短期內是可行的。這是一個簡單有效的解決方案,但並不是永久的成本承諾。
3.
備份服務
-
雲端
當然,不可否認的是,大數據管理和存儲正在迅速脫離物理機器的范疇,並迅速進入數字領域。除了所有技術的發展,大數據增長得更快,以這樣的速度,世界上所有的機器和倉庫都無法完全容納它。
因此,由於雲存儲服務推動了數字化轉型,雲計算的應用越來越繁榮。數據在一個位置不再受到風險控制,並隨時隨地可以訪問,大型雲計算公司(如谷歌雲)將會更多地訪問基本統計信息。數據可以在這些服務上進行備份,這意味著一次網路攻擊不會消除多年的業務增長和發展。最終,如果出現網路攻擊,雲端將以A遷移到B的方式提供獨一無二的服務。
❻ 大數據 存儲技術必須跟上
大數據:存儲技術必須跟上
「大數據」 通常指的是那些數量巨大、難於收集、處理、分析的數據集,亦指那些在傳統基礎設施中長期保存的數據。這里的「大」有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業中IT基礎設施的規模。業內對大數據應用寄予了無限的期望 商業信息積累的越多價值也越大 只不過我們需要一個方法把這些價值挖掘出來。
也許人們對大數據的印象主要從存儲容量的廉價性而來,但實際上,企業每天都在創造大量的數據,而且越來越多,而人們正在努力的從浩如煙海的數據中尋覓有價值的商業情報。另一方面,用戶還會保存那些已經分析過的數據,因為這些舊數據可以與未來收集的新數據進行對照,依然有潛在的利用可能。
為什麼要大數據?為什麼是現在?
與以往相比,我們除了有能力存儲更多的數據量之外,還要面對更多的數據類型。這些數據的來源包括網上交易、網路社交活動、自動感測器、移動設備以及科學儀器等等。除了那些固定的數據生產源,各種交易行為還可能加快數據的積累速度。比如說,社交類多媒體數據的爆炸性增長就源於新的網上交易和記錄行為。數據永遠都在增長之中,但是,只有存儲海量數據的能力是不夠的,因為這並不能保證我們能夠成功地從中搜尋出商業價值。
數據是重要的生產要素
信息時代,數據儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限於某些特殊行業的應用。各行各業的公司都在收集並利用大量的數據分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創造新的產品。例如,通過分析直接從產品測試現場收集的數據,能夠幫助企業改進設計。此外,一家公司還可以通過深入分析客戶行為,對比大量的市場數據,從而超越他的競爭對手。
存儲技術必須跟上
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。
容量問題
這里所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。[page] 延遲問題
「大數據」應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網路成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,並准確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送「過期」的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基於對象的存儲系統則能夠支持並發的數據流,從而進一步提高數據吞吐量。
有很多「大數據」應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
並發訪問 一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。
安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標准和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。
成本問題
「大」,也可能意味著代價不菲。而對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控製成本,就意味著我們要讓每一台設備都實現更高的「效率」,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少後端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。[page] 很多大數據存儲系統都包括歸檔組件,尤其對那些需要分析歷史數據或需要長期保存數據的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經濟的存儲介質,事實上,在許多企業中,使用支持TB級大容量磁帶的歸檔系統仍然是事實上的標准和慣例。
對成本控制影響最大的因素是那些商業化的硬體設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定製他們自己的「硬體平台」而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟體的形式,可以直接安裝在用戶已有的、通用的或者現成的硬體設備上。此外,很多存儲軟體公司還在銷售以軟體產品為核心的軟硬一體化裝置,或者與硬體廠商結盟,推出合作型產品。
數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟體一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發出了一些針對應用的定製的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用伺服器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。
小用戶怎麼辦?
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的「大數據」存儲系統,主要吸引那些對成本比較敏感的用戶。
❼ 大數據和傳統數據存儲的區別
主要區別在於,現在的大數據包括非結構化數據,並且可以從各種數據中提取有用的信息,比如郵件、日誌文件、社交多媒體、商業交易及其他數據。比如,保存在資料庫里的一家連鎖零售商店的某商品的銷售圖表數據。對這些數據的獲取就不是大數據范疇的問題。大數據應用的一個主要特點是實時性或者近實時性。大數據比傳統數據存儲更需要非常高性能、高吞吐率、大容量的基礎設備。
❽ 大數據治理的圖書目錄
第一部分 開篇 第1章 大數據治理概述 第2章 大數據治理的框架 2.1 大數據類型 2.2 信息治理准則 2.3 大數據治理的產業和功能場景 第3章 成熟度評估 3.1 IBM信息治理委員會的成熟度模型 3.2 評估成熟度的示例問題 第4章 業務案例 4.1 通過大數據治理,提高運營實時性和旅客安全度 4.2 量化大數據治理對客戶隱私的財務影響 4.3 通過治理大數據生命周期,降低IT成本 4.4 評估數據質量和主數據對大數據計劃的影響 4.5 計算大數據質量的價值 第5章 路線圖 5.1 路線圖案例研究 第二部分 大數據治理准則 第6章 大數據治理的組織 6.1 繪制關鍵流程圖並建立職責分配模型,以識別大數據治理中的利益攸關者 6.2 確定新角色和既有角色的適當組合 6.3 酌情任命大數據主管 6.4 在傳統信息治理角色的基礎上,酌情增加大數據責任 6.5 建立承擔包括大數據在內的責任混合式信息治理組織 第7章 元數據 7.1 創建一個體現關鍵大數據術語的業務定義的詞庫 7.2 理解對ApacheHadoop中元數據的持續支持 7.3 對業務詞庫中的敏感大數據進行標記 7.4 從相關的大數據存儲中輸入技術元數據 7.5 將相關的數據源與業務詞庫中的術語進行鏈接 7.6 使用運營元數據監測大數據的流動 7.7 保留技術元數據,以支持數據血統和影響分析 7.8 從非結構化文件中採集元數據,支持企業搜索 7.9 擴展既有的元數據角色,將大數據納入其中 第8章 大數據隱私 8.1 識別敏感的大數據 8.2 對元資料庫中的敏感大數據進行標記 8.3 應對國家、州(省)層面的隱私立法和隱私限制 8.4 管理個人數據跨國界流動的情況 8.5 監控特權用戶對敏感大數據的訪問 第9章 大數據質量 9.1 與商業上的利益攸關者協作,建立並測度大數據質量的置信區間 9.2 利用准結構化和非結構化數據,提高人口稀疏的結構化數據的質量 9.3 使用流數據分析技術解決內存中的數據質量問題,無須將中間結果輸入硬碟 9.4 任命對信息治理委員會負責的數據主管,由其負責提高測度的質量 第10章 業務流程整合 10.1 識別將會受到大數據治理影響的關鍵流程 10.2 建立關鍵活動的流程圖 10.3 針對業務流程中的關鍵步驟,制定大數據治理政策 第11章 主數據整合 11.1 提高主數據的質量,以支持大數據分析 11.2 利用大數據提高主數據的質量 11.3 提高關鍵參考數據的質量和一致性,以支持大數據治理計劃 11.4 審視社交媒體平台政策,以確定與主數據管理整合的程度 11.5 從非結構化文本中挖掘有用信息,以豐富主數據 第12章 管理大數據的生命周期 12.1 基於規制和業務要求,擴展保留時間表,將大數據包含其中 12.2 提供法律保留區,並支持電子證據展示(eDiscovery) 12.3 壓縮大數據並將其存檔,降低IT成本,提高應用績效 12.4 管理實時流數據的生命周期 12.5 保留社交媒體記錄,以符合規制要求,並支持電子證據展示 12.6 基於規制和業務要求,正當合理地處置不再需要的大數據 第三部分 大數據的類型 第13章 Web和社交媒體數據 13.1 在制定有關客戶社交媒體數據的可接受使用的政策時,考慮不斷變化的規制和習俗 13.2 制定有關雇員和求職者社交媒體數據的可接受使用的政策 13.3 利用置信區間評估社交媒體數據的質量 13.4 制定有關Cookies與其他Web跟蹤裝置的可接受使用的政策 13.5 在不侵犯隱私並遵從規制要求的基礎上,定義連接在線和離線數據的政策 13.6 確保網路統計數據的一致性 第14章 機器對機器的數據 14.1 評估目前可用的地理位置數據 14.2 制定關於客戶地理位置數據的可接受使用的政策 14.3 制定關於雇員地理位置數據的可接受使用的政策 14.4 保證RFID數據的隱私安全 14.5 制定與其他類型M2M數據的隱私相關的政策 14.6 處理元數據和M2M數據的質量問題 14.7 制定與M2M數據的保留期有關的政策 14.8 提高主數據的質量,以支持M2M計劃 14.9 確保SCADA設施免遭網路攻擊 第15章 大體量交易數據 第16章 生物計量學數據 16.1 評估與生物計量學數據的可接受使用相關的隱私含義 16.2 與法律顧問通力合作,確定演進中的規制對使用客戶和雇員生物計量學數據的影響 第17章 人工生成的數據 17.1 制定屏蔽敏感的人工生成數據的政策 17.2 使用非結構化的人工生成數據,提高結構化數據的質量 17.3 管理人工生成數據的生命周期,降低成本並遵循規制要求 17.4 從非結構化的人工生成數據中獲得洞察力,以豐富MDM 第四部分 行業視角 第18章 醫療保健機構 18.1 利用非結構化數據,提高人口稀疏的結構化數據的質量 18.2 提取從結構化數據中無法獲得的更多臨床因素 18.3 設定關鍵業務術語的一致性定義 18.4 確保跨科室的患者主數據的一致性 18.5 與美國HIPAA的規定一致,符合受保護的健康信息的隱私要求 18.6 創造性管理參考數據,以獲得更多臨床洞察 第19章 公用事業部門 19.1 復制儀表讀數 19.2 主關鍵字的參照完整性 19.3 異常的儀表讀數 19.4 客戶地址的數據質量 19.5 信息生命周期管理 19.6 資料庫監測 19.7 技術架構 第20章 通信服務提供商 20.1 大數據類型 20.2 將大數據與主數據進行整合 20.3 大數據隱私 20.4 大數據質量 20.5 大數據生命周期管理 第五部分 大數據技術 第21章 大數據的參考架構 21.1 大數據源 21.2 開源基礎組件 21.3 Hadoop發行版 21.4 流數據分析 21.5 資料庫 21.6 大數據整合 21.7 文本分析 21.8 大數據發現 21.9 大數據質量 21.10 大數據的元數據 21.11 信息政策管理 21.12 主數據管理 21.13 數據倉庫與數據集市 21.14 大數據分析與報告 21.15 大數據安全與隱私 21.16 大數據生命周期管理 21.17 雲 第22章 大數據平台 22.1 IBM 22.2 甲骨文 22.3 SAP 22.4 微軟 22.5 HP 22.6 Informatica 22.7 SAS 22.8 Teradata 22.9 EMC 22.10 Amazon 22.11 谷歌 22.12 Pentaho 22.13 Talend 附錄 縮略語列表 譯者後記
❾ 大數據治理和數據治理的區別概述
1、什麼是數據治理
數據治理(Data Governance)是組織中涉及數據使用的一整套管理行為。由企業數據治理部門發起並推行,關於如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。
數據的質量直接影響著數據的價值,並且直接影響著數據分析的結果以及我們以此做出的決策的質量。我們常說,用數據說話,用數據支撐決策管理,但低質量的數據、甚至存在錯誤的數據,必然會"說假話"!!! 數據治理即提高數據的質量,發揮數據資產價值。
2、數據治理的目的
降低風險
建立數據使用內部規則
實施合規要求
改善內部和外部溝通
增加數據價值
方便數據管理
降低成本
通過風險管理和優化來幫助確保公司的持續生存
3、數據治理的方法
從技術實施角度看,數據治理包含「理」「采」「存」「管」「用」這五個步驟,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
4、數據治理流程
基本流程:發現數據質量問題 > 定義數據質量規則 > 質量控制 > 質量評估 > 質量優化