數據倉庫之數據存儲
A. 數據倉庫是什麼啊
數據倉庫是在企業管理和決策中面向主題的、集成的、與猛數時間相關的、不可修改的數據集合
數據倉庫,英文名稱為Data Warehouse,可簡寫為DW。
數據倉庫之父Bill Inmon在1991年出版的「Building the Data Warehouse」一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、亮仿反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。
◆面向主題:操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。
◆集成的:數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
◆相對穩定的:數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
◆反映歷史變化:數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
數據倉庫是一個過程而不是一個項目。
數據倉庫系統是一個信息提供平台,他從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,並為用戶提供各種手段從數據中獲取信息和知識。
從功能結構化分,數據倉庫系統至少應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、敬知纖數據訪問(Data Access)三個關鍵部分
B. 資料庫與數據倉庫的區別
資料庫是面向事務的設計,數據倉庫是面向主題設計的。資料庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。
「與時間相關」:資料庫保存信息的時候,並不強調一定有時間信息。數據倉庫則不同,出於決策的需要,數據倉庫中的數據都要標明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對於決策者意義是不同的。
「不可修改」:數據倉庫中的數據並不是最新的,而是來源於其它數據源。數據倉庫反映的是歷史信息,並不是很多資料庫處理的那種日常事務數據(有的資料庫例如電信計費資料庫甚至處理實時信息)。因此,數據倉庫中的數據是極少或根本不修改的;當然,向數據倉庫添加數據是允許的。
拓展資料:
數據倉庫的出現,並不是要取代資料庫。數據倉庫,是在資料庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的「大型資料庫」。
目前,大部分數據倉庫還是用關系資料庫管理系統來管理的。可以說,資料庫、數據倉庫相輔相成、各有千秋。
C. 14.數據倉庫常見的存儲優化方法有哪些
存儲優化管理的方式包括數據壓縮、數據重分布、存儲治理項優化、生命周期管理等方法。
數據壓縮
在分布式文件系統中,會將數據存儲3份,這意味著存儲1TB的邏輯數據,實際上會佔用3TB的物理空間。使用盤古RAIDfile格式的文件,將存儲比從1:3提高至1:1.5。這樣做的缺點是數據塊損壞時的修復時間比原來更長,讀的性能也有損失。數據重分布
由於每個表的數據分布不同,插入順序不同,導致壓縮效果有很大的差異,通過修改表的數據重分布(distributeby,sortby欄位)進行數據重分布,能夠對表進行優化處理。存儲治理項優化:
存儲治理項優化是指在元數據的基礎上,診斷、加工成多個存儲治理優化項。目前已有的存儲治理優化項有未管理表、空表、最近62天未訪問表、數據無更新無任務表等。生命周期管理策略
根本目的:用最少的存儲成本滿足最大的業務需求,使數據價值最大化。
a)周期性刪除策略:針對無效的歷史數據進行定期清理。
b)徹底刪除策略:無用表數據或者ETL過程產生的臨時數據,以及不需要保留的數據,可以進行及時刪除,包括刪除元數據。
c)永久保留策略:重要且不可恢復的底層數據和應用數據需要永久保留。
d)極限存儲策略:超高壓縮重復鏡像數據。
e)冷數據管理策略:永久保留策略的擴展。永久保留的數據需要遷移到冷數據中心進行永久保存。一般將重要且不可恢復的、佔用存儲空間大於100TB,且訪問頻次較低的數據進行冷備,例如3年以上的日誌數據。
D. 什麼是數據倉庫,數據倉庫在哪裡保存數據。BI項目需要用到哪些技術
數據倉庫還是資料庫,數據還是在資料庫里放著呢,不過是按照數據倉庫的理念去設計架構和開發資料庫.BI項目主要運用數據倉庫,OLAP,和數據挖掘的技術,細分下來又有主流資料庫的開發,如oracle,db2,sqlserver, java,cognos,bo,biee,sas,spss,clementine,weka等等
E. 數據倉庫的數據存儲量能達到多少
mysql的最大數據存儲量是多少
一般沒有最大限制,最多也就是單欄位的長度有限制,那跟欄位的數據類型有關,而對於數據表的大小一般不要超過2g,超過了效率會比較慢,建議分開多表存。
F. 數據挖掘 數據倉庫中數據存儲方式
數據倉庫是採用關系模型存儲的原始的數據信息,數據是按照一定的主題域進行組織的
而OLAP是由數據倉庫中的數據經過一定的模型抽取得到的,為數據分析提供支持的數據存儲,因此相對於底層日誌形式的數據倉庫,其存儲結構發生了變化。ROLAP伺服器中數據雖然以關系表存儲,但其關系結構可能與數據倉庫中不同,而MOLAP則採用了更加利於數據分析的數據立方結構存儲數據。
G. 數據倉庫中包含哪些數據存儲,各種數據存儲的作用是什麼
也只有中國這種肥鵝填食的大學教育 才能問出這種問題。。。
數據倉庫中 的數據存儲 ,你們的老師他到底是問 物理上的存儲設計,還是邏輯上的大乎存儲設計;
你門這門課程用的那些書籍做教材的。。。 這樣我才能喊辯知道你們老師是怎麼問出這個問題的
數據倉庫裡面很多東西 都是在某種情況下才是正確的,不同情況要鄭仿缺使用不同的設計和實現方式
H. 典型的數據倉庫系統包括哪幾部分
1.數據源-> 2.ETL -> 3.數據倉庫存儲與管理-> 4.OLAP -> 5.BI工具
**數據源:**是數據倉庫系統的數據源泉,通常包括企業各類信息,包括存放於RDBMS中的各種業務處理數據和各類文檔數據;各類法律法規、市場信息和競爭對手的信息等判世等;
ETL工具(informatica,ssis,owb,datastage),以及該工具簡單講述特點。
DataStage是一套專門對多種操作數據源的數據抽取、轉換和維護過程進行簡化和自動化,並將其輸入數據集市或數據倉庫目標資料庫的集成工具。
它有四個組件:Administrator:用來管理project和環境變數。Manager:用於job表定義的引導引出。Designer:用來設計job。Direct:用運查看job運行日誌。
數據的存儲與管理:數據的存儲和管理是整個數據倉庫的核心,是關鍵。數據倉庫的組織管理方式決定了它有別於傳統資料庫,同時也決定了其對外部數據的表現形式。從數據倉庫的技術特點著手分析,來決定採用什麼產品和技術來建立數據倉庫,然後針對現有各業務系統的數據,進行抽取、清理,並有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
OLAP伺服器:
對需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層辯耐次的分析,並發現趨勢。其具體實現可以分為:ROLAP(關系型在線分析處理)、MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放於多維資料庫中;HOLAP基本數據存放於RDBMS之中,聚合數據存放於多維資料庫中。
前端工具:主要包括各查詢工具、數據分析工具、數據挖掘工具、種報表工具以及各種攜沖春基於數據倉庫或數據集市的應用開發工具。
數據分析工具主要針對OLAP伺服器。報表工具、數據挖掘工具主要針對數據倉庫。