數據倉庫存儲
1. 14.數據倉庫常見的存儲優化方法有哪些
存儲優化管理的方式包括數據壓縮、數據重分布、存儲治理項優化、生命周期管理等方法。
數據壓縮
在分布式文件系統中,會將數據存儲3份,這意味著存儲1TB的邏輯數據,實際上會佔用3TB的物理空間。使用盤古RAIDfile格式的文件,將存儲比從1:3提高至1:1.5。這樣做的缺點是數據塊損壞時的修復時間比原來更長,讀的性能也有損失。數據重分布
由於每個表的數據分布不同,插入順序不同,導致壓縮效果有很大的差異,通過修改表的數據重分布(distributeby,sortby欄位)進行數據重分布,能夠對表進行優化處理。存儲治理項優化:
存儲治理項優化是指在元數據的基礎上,診斷、加工成多個存儲治理優化項。目前已有的存儲治理優化項有未管理表、空表、最近62天未訪問表、數據無更新無任務表等。生命周期管理策略
根本目的:用最少的存儲成本滿足最大的業務需求,使數據價值最大化。
a)周期性刪除策略:針對無效的歷史數據進行定期清理。
b)徹底刪除策略:無用表數據或者ETL過程產生的臨時數據,以及不需要保留的數據,可以進行及時刪除,包括刪除元數據。
c)永久保留策略:重要且不可恢復的底層數據和應用數據需要永久保留。
d)極限存儲策略:超高壓縮重復鏡像數據。
e)冷數據管理策略:永久保留策略的擴展。永久保留的數據需要遷移到冷數據中心進行永久保存。一般將重要且不可恢復的、佔用存儲空間大於100TB,且訪問頻次較低的數據進行冷備,例如3年以上的日誌數據。
2. 在資料庫中存儲的是什麼
資料庫是「按照數據結構來組織、存儲和管理數據的倉庫」。是一個長期存儲在計算機內的、有組織的、可共享的、統一管理的大量數據的集合。
資料庫是一個按數據結構來存儲和管理數據的計算機軟體系統。資料庫的概念實際包括兩層意思:資料庫是一個實體,它是能夠合理保管數據的「倉庫」,用戶在該「倉庫」中存放要管理的事務數據,「數據」和「庫」兩個概念結合成為資料庫。
資料庫系統,是由資料庫及其管理軟體組成的系統。資料庫系統是為適應數據處理的需要而發展起來的一種較為理想的數據處理系統,也是一個為實際可運行的存儲、維護和應用系統提供數據的軟體系統,是存儲介質 、處理對象和管理系統的集合體。