数据仓库存储
1. 14.数据仓库常见的存储优化方法有哪些
存储优化管理的方式包括数据压缩、数据重分布、存储治理项优化、生命周期管理等方法。
数据压缩
在分布式文件系统中,会将数据存储3份,这意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。使用盘古RAIDfile格式的文件,将存储比从1:3提高至1:1.5。这样做的缺点是数据块损坏时的修复时间比原来更长,读的性能也有损失。数据重分布
由于每个表的数据分布不同,插入顺序不同,导致压缩效果有很大的差异,通过修改表的数据重分布(distributeby,sortby字段)进行数据重分布,能够对表进行优化处理。存储治理项优化:
存储治理项优化是指在元数据的基础上,诊断、加工成多个存储治理优化项。目前已有的存储治理优化项有未管理表、空表、最近62天未访问表、数据无更新无任务表等。生命周期管理策略
根本目的:用最少的存储成本满足最大的业务需求,使数据价值最大化。
a)周期性删除策略:针对无效的历史数据进行定期清理。
b)彻底删除策略:无用表数据或者ETL过程产生的临时数据,以及不需要保留的数据,可以进行及时删除,包括删除元数据。
c)永久保留策略:重要且不可恢复的底层数据和应用数据需要永久保留。
d)极限存储策略:超高压缩重复镜像数据。
e)冷数据管理策略:永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。
2. 在数据库中存储的是什么
数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
数据库是一个按数据结构来存储和管理数据的计算机软件系统。数据库的概念实际包括两层意思:数据库是一个实体,它是能够合理保管数据的“仓库”,用户在该“仓库”中存放要管理的事务数据,“数据”和“库”两个概念结合成为数据库。
数据库系统,是由数据库及其管理软件组成的系统。数据库系统是为适应数据处理的需要而发展起来的一种较为理想的数据处理系统,也是一个为实际可运行的存储、维护和应用系统提供数据的软件系统,是存储介质 、处理对象和管理系统的集合体。