数据仓库之数据存储
A. 数据仓库是什么啊
数据仓库是在企业管理和决策中面向主题的、集成的、与猛数时间相关的、不可修改的数据集合
数据仓库,英文名称为Data Warehouse,可简写为DW。
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、亮仿反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
◆面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
◆集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
◆相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
◆反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库是一个过程而不是一个项目。
数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、敬知纤数据访问(Data Access)三个关键部分
B. 数据库与数据仓库的区别
数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。
拓展资料:
数据仓库的出现,并不是要取代数据库。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。
C. 14.数据仓库常见的存储优化方法有哪些
存储优化管理的方式包括数据压缩、数据重分布、存储治理项优化、生命周期管理等方法。
数据压缩
在分布式文件系统中,会将数据存储3份,这意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。使用盘古RAIDfile格式的文件,将存储比从1:3提高至1:1.5。这样做的缺点是数据块损坏时的修复时间比原来更长,读的性能也有损失。数据重分布
由于每个表的数据分布不同,插入顺序不同,导致压缩效果有很大的差异,通过修改表的数据重分布(distributeby,sortby字段)进行数据重分布,能够对表进行优化处理。存储治理项优化:
存储治理项优化是指在元数据的基础上,诊断、加工成多个存储治理优化项。目前已有的存储治理优化项有未管理表、空表、最近62天未访问表、数据无更新无任务表等。生命周期管理策略
根本目的:用最少的存储成本满足最大的业务需求,使数据价值最大化。
a)周期性删除策略:针对无效的历史数据进行定期清理。
b)彻底删除策略:无用表数据或者ETL过程产生的临时数据,以及不需要保留的数据,可以进行及时删除,包括删除元数据。
c)永久保留策略:重要且不可恢复的底层数据和应用数据需要永久保留。
d)极限存储策略:超高压缩重复镜像数据。
e)冷数据管理策略:永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。
D. 什么是数据仓库,数据仓库在哪里保存数据。BI项目需要用到哪些技术
数据仓库还是数据库,数据还是在数据库里放着呢,不过是按照数据仓库的理念去设计架构和开发数据库.BI项目主要运用数据仓库,OLAP,和数据挖掘的技术,细分下来又有主流数据库的开发,如oracle,db2,sqlserver, java,cognos,bo,biee,sas,spss,clementine,weka等等
E. 数据仓库的数据存储量能达到多少
mysql的最大数据存储量是多少
一般没有最大限制,最多也就是单字段的长度有限制,那跟字段的数据类型有关,而对于数据表的大小一般不要超过2g,超过了效率会比较慢,建议分开多表存。
F. 数据挖掘 数据仓库中数据存储方式
数据仓库是采用关系模型存储的原始的数据信息,数据是按照一定的主题域进行组织的
而OLAP是由数据仓库中的数据经过一定的模型抽取得到的,为数据分析提供支持的数据存储,因此相对于底层日志形式的数据仓库,其存储结构发生了变化。ROLAP服务器中数据虽然以关系表存储,但其关系结构可能与数据仓库中不同,而MOLAP则采用了更加利于数据分析的数据立方结构存储数据。
G. 数据仓库中包含哪些数据存储,各种数据存储的作用是什么
也只有中国这种肥鹅填食的大学教育 才能问出这种问题。。。
数据仓库中 的数据存储 ,你们的老师他到底是问 物理上的存储设计,还是逻辑上的大乎存储设计;
你门这门课程用的那些书籍做教材的。。。 这样我才能喊辩知道你们老师是怎么问出这个问题的
数据仓库里面很多东西 都是在某种情况下才是正确的,不同情况要郑仿缺使用不同的设计和实现方式
H. 典型的数据仓库系统包括哪几部分
1.数据源-> 2.ETL -> 3.数据仓库存储与管理-> 4.OLAP -> 5.BI工具
**数据源:**是数据仓库系统的数据源泉,通常包括企业各类信息,包括存放于RDBMS中的各种业务处理数据和各类文档数据;各类法律法规、市场信息和竞争对手的信息等判世等;
ETL工具(informatica,ssis,owb,datastage),以及该工具简单讲述特点。
DataStage是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。
它有四个组件:Administrator:用来管理project和环境变量。Manager:用于job表定义的引导引出。Designer:用来设计job。Direct:用运查看job运行日志。
数据的存储与管理:数据的存储和管理是整个数据仓库的核心,是关键。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。从数据仓库的技术特点着手分析,来决定采用什么产品和技术来建立数据仓库,然后针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
OLAP服务器:
对需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层辩耐次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
前端工具:主要包括各查询工具、数据分析工具、数据挖掘工具、种报表工具以及各种携冲春基于数据仓库或数据集市的应用开发工具。
数据分析工具主要针对OLAP服务器。报表工具、数据挖掘工具主要针对数据仓库。