大数据库系统
1. Oracle大型数据库系统的前言
风,紧,
夜,深沉,
剑,已出鞘,
影,飘然前行!
本书的立意和内容
在服务器领域,IBM p系列服务器与AIX操作系统毫无疑问是UNIX服务器领域中的佼佼者,它代表着UNIX深刻的技术内涵和广泛的用户基础。同样地,Oracle是数据库领域事实上的市场领导者,众多IT应用系统采用了Oracle构架,运行Oracle数据库作为其数据支撑节点。目前Oracle用户已经可以升级其数据库到Oracle Database 11g Release 2版本。
实践上,运行在AIX上的Oracle数据库系统是诸多大中型系统的典型配置方式——用户得益于IBM AIX的坚固支撑,受惠于Oracle的可用性保证!
但凡事都有两面性,AIX是一套复杂的UNIX系统,Oracle则是一种“最难”的数据库。对于任何用户而言,了解、熟悉、运用、掌握两者的平台特征和工程技术手段,需要进行大量的学习、培训、实践以及长时间的磨练!广大数据库用户需要一种快捷的学习路径以及可参考资料来帮助他们构建、运行、维护乃至优化自己的系统!
本书的立意即在于此!本书以AIX UNIX平台为主线,以其他UNIX系统为参照,描述了数据库系统Oracle 10g、Oracle 11g的构架方法,说明了该数据库在AIX平台常用的诸多管理方面,提供了在AIX上实施Oracle集群的环境要素说明和实施方法,分析了服务器综合容灾的工程手段和技术方法,综合了在AIX系统上优化Oracle运行环境的诸多做法和要点。最后,本书还以AIX上Sybase ASE数据库系统为对比,论述了Oracle在AIX上的独到特征。
基于上述出发点,本书力争面向工程实践,并面向用户的实际需求展开论述。因此,本书并未刻意在学术上进行高、精、尖的探索,而是力争将复杂的事情简单化,把各技术要点以最简单的形式和大家能了解的方法摆在用户面前!
本书的读者群体
本书的目标读者是那些在UNIX上进行数据库开发、维护、管理、优化任务和高可用设置的工程技术人员,以及从事于这个尖端行业的人群。
从技术角度看,本书所涉及的内容全部是生产实践中必要的过程和阶段。因此,本书并没有试图去描绘一些新鲜热辣的炒作概念或遥不可及的无用内容,而是作为一种可以放在手边的技术专着面向大众,服务于系统用户95%的日常工作需求。正因如此,本书注重细节描述和过程说明,读者无须拥有非常深厚的专业技术基础。
当然,学习的热情和探索的精神是必不可少的!
本书的内容安排
本书共分为五篇,按照数据库项目实施中工作内容的不同方向进行了分组,各篇的内容分述如下。
第一篇 构架篇
本篇侧重在于系统的构架,以及构架中的相关要素和重点。 第1章 了解服务器运行环境
本章力图使读者站到一个足够高的层次和高度来看待服务器技术框架。站得高,则看得必远!
第2章 管理和维护服务器设备和服务
Oracle运行在AIX上,Oracle将使用AIX资源、调用AIX服务,受AIX的运行状态影响。
第3章 管理服务器存储
数据库服务器的一个典型特征就是大量使用磁盘空间来存储数据库数据。Oracle需要AIX提供的存储介质来存储数据。
第4章 构建Oracle环境
Oracle的环境构架相对复杂。用户需要掌握Oracle系统构架的具体工程细节,并获得动手能力。
第二篇 管理篇
本篇结合了AIX系统的诸多特点,综合论述了Oracle在AIX上管理的具体方法和实践行为规范。 第5章 在AIX中Oracle数据库管理
日常管理是一个管理员工作的大部分内容。本章描述了常用的管理内容和做法。
第6章 使用ASM跳过AIX卷空间管理
ASM是Oracle提出的存储管理最新的实施方法。Oracle推荐使用ASM来进行磁盘空间的管理。
第7章 管理AIX下Oracle的空间使用
空间管理是系统管理的重点。Oracle需要各种不同的空间要素,需要管理和维护。
第三篇 灾备篇
本篇站在服务器的层面,综合讲述了在AIX运行Oracle系统所需进行的备份管理工作,以及灾难恢复实施方法。 第8章 设计和实施AIX系统备份
服务器系统的备份工作必须能够兼顾操作系统、应用系统、数据库数据备份的各方面。AIX是备份中重要的一环。
第9章 设计Oracle系统备份
Oracle作为数据库系统,其备份方法和恢复手段与操作系统备份截然不同。按照规范的方法进行备份对恢复有着不言而喻的意义。
续表
第三篇 灾备篇
本篇站在服务器的层面,综合讲述了在AIX运行Oracle系统所需进行的备份管理工作,以及灾难恢复实施方法。 第10章 实施Oracle系统备份
工程上实施数据库备份的方法是百花齐放的。这里讨论了若干种具体实施方法和手段。
第11章 恢复崩溃的系统
防患于未然!好的备份系统是经过恢复测试的系统。让我们看看如何用备份进行系统恢复的!
第四篇 集群篇
在AIX平台上RAC集群是一种广泛使用的结构。本篇即针对集群展开讨论。 第12章 构建AIX下的Oracle集群环境
集群是实现Oracle系统网格与高可用的主要技术手段,尤其在AIX承担的关键业务系统中。
第13章 在AIX中管理Oracle集群环境
集群的管理有其自身特色,包括集群件管理、集群服务的管理。
第五篇 优化篇
好的系统需要进行预先的优化结构设计,并在系统运行中进行渐近的再优化。本篇以项目周期为阶段,描述了系统优化的各个过程和方面。 第14章 在AIX上综合设置Oracle环境
系统在构建时,要综合考虑可用性和性能之间的关系,并设置和优化系统。
第15章 AIX上Oracle系统的运行优化
在系统运行过程中,应用性能会随时变化,性能的检查和优化也需随时进行。动态地、渐进式地分析与调整也就十分必要。
第六篇 扩展篇
通过与Sybase ASE的对比来了解什么是Oracle。 第16章 AIX上Oracle与Sybase的比较
Sybase ASE与Oracle同为可在AIX上运行的数据库系统。两种产品中各有特点、各有优势、同样优秀。
本书从构思到最终完成,历时两年时间,其间更改数十稿。单独讲述UNIX不难,单独讲述Oracle不难,但把二者结合起来,站在整个系统的高度来说明问题,却让本书作者难以着手——千头万绪,该写的内容太多!
致谢
本书内容来源于实践,用户即是最佳的实践来源。感谢山东海化集团王凤鸣先生、中国电信青海公司陈宇峰先生、福建公司陈亮先生等人的鼎力支持。本书中若干技术观点和实践总结来源于作者为该单位提供数据库顾问服务的工作现场。感谢他们和作者在工作与技术领域上的不断探讨,这促进了本书内容的不断完善!
在本书编写过程中,很多复杂的、结构性的实验在北京时代朝阳数据库技术中心Trail实验室完成。北京时代朝阳数据库技术中心是一家有着17年企业历史的数据库专业技术机构,精于数据库产品与服务。这里有多样化的UNIX平台、各种集群构架、不同容灾环境等,这为本书所涉及的各项结构性实践提供了可能。感谢Trail实验室各位同事的配合。另外,考虑到本书在部分章节上存在一定难度,为保证本书的可读性,作者也请Trail实验室中参加Oracle职业/就业课程的若干学员试读了本书,感谢他们提出的诸多意见!
感谢本书策划编辑胡辛征先生的热心鼓励和积极推动,感谢文字编辑江立女士的细心编审和中肯点评。没有他们的细致工作和鼓励,本书不能顺利出版。
最后,感谢博文视点以知识传播的方式对中国IT产业的支持——以其广博文字选题,以其超然视点出版!
祝博文视点从成功走向辉煌!
本书作者:文平
2009-09-20于北京
目录第一篇构架篇
第1章了解服务器运行环境
1.1 AIX:一种成熟的UNIX
1.1.1 AIX系统构成要素
1.1.2登录AIX系统
1.1.3 RS6000服务器结构
1.1.4 AIx系统管理界面
1.1.5 AIX中使用的Shell
1.1.6 AJx存储组织结构
1.1.7 AJx换页空间(交换区)
1.1.8 AIX文件系统结构
1.1.9 AJx对象数据管理
1.1.10 AIX当前进程运行
1.1.11 AIX用户访问过程
1.1.12 AIX各种服务提供
1.1.13 AIX网络通信设置
1.1.14 AIX中的常用操作
1.2 Oracle与AIx系统
1.2.1 Oracle与AIX的角色
1.2.2 Oracle系统典型特征
1.2.3系统全局区SGA
1.2.4程序全局区PGA
1.2.5 Oracle后台进程
1.2.6 Oracle数据库物理结构
1.2.7数据库数据存放
1.2.8数据库的用户访问
第2章管理和维护服务器设备和服务
2.1管理AIX中的设备
2.1.1 AIX使用设备类型
2.1.2 AIX的设备分层管理
2.1.3 ODM对象数据库
2.1.4设备的状态特征查看
2.1.5设备的配置和检测
2.1.6设备属性信息查看
2.1.7创建主机硬件配置档案
2.2管理AIX中的服务
2.2.1系统资源控制器的启动
2.2.2系统资源的启动和关闭
2.2.3系统资源的刷新
2.2.4通常启动的资源
2.3 AIX系统错误处理
2.4 AIX系统硬件诊断
2.5 AIX系统日志查看
第3章管理服务器存储
3.1 AIX存储基本框架
3.2 AIX的存储概念要素
3.2.1物理卷和卷组
3.2.2逻辑卷和逻辑分区
3.2.3AIX日志文件系统
3.2.4文件系统挂载和目录树
3.3系统存储结构的管理
3.3.1系统中的卷组定义信息
3.3.2增加、删除和设置卷组
3.3.3卷组中物理磁盘的改变
3.3.4卷组重组提高磁盘性能
3.3.5卷组的活动状态管理
3.3.6卷组的导入导出管理
3.3.7逻辑卷的创建和维护
3.3.8通过镜像保护逻辑卷
3.3.9通过条带优化逻辑卷
3.3.10物理卷的设置和管理
第4章构建Oracle环境
第二篇管理篇
第5章在AIX中Oracle数据库管理
第6章使用ASM跳过AIX卷空间管理
第7章管理AIX下Oracle的空间使用
第三篇灾备篇
第8章设计和实施AIX系统备份
第9章设计Oracle系统备份
第10章实施Oracle系统备份
第11章恢复崩溃的系统
第四篇集群篇
第12章构建AIX下的Oracle集群环境
第13章在AIX中管理Oracle集群环境
第五篇优化篇
第14章在AIX上综合设置Oracle环境
第15章AIX上Oracle系统的运行优化
第六篇扩展篇
第16章AIX上Oracle与Sybase的比较
2. 大数据数据库有哪些
问题一:大数据技术有哪些 非常多的,问答不能发link,不然我给你link了。有譬如Hadoop等开源大数据项目的,编程语言的,以下就大数据底层技术说下。
简单以永洪科技的技术说下,有四方面,其实也代表了部分通用大数据底层技术:
Z-Suite具有高性能的大数据分析能力,她完全摒弃了向上升级(Scale-Up),全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据:
跨粒度计算(In-Databaseputing)
Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于跨粒度计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,我们称之为库内计算(In-Database)。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。
并行计算(MPP puting)
Z-Suite是基于MPP架构的商业智能平台,她能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。作为横向扩展的大数据平台,Z-Suite能够充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。
列存储 (Column-Based)
Z-Suite是列存储的。基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O 的效率,从而大大提高查询性能。另外,列存储能够更好地压缩数据,一般压缩比在5 -10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术,节省了存储设备和内存的开销,却大大了提升计算性能。
内存计算
得益于列存储技术和并行计算技术,Z-Suite能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。
问题二:大数据使用的数据库是什么数据库 ORACLE、DB2、sql SERVER都可以,关键不是选什么数据库,而是数据库如何优化! 需要看你日常如何操作,以查询为主或是以存储为主或2者,还要看你的数据结构,都要因地制宜的去优化!所以不是一句话说的清的!
问题三:什么是大数据和大数据平台 大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。
问题四:常用大型数据库有哪些 FOXBASE
MYSQL
这俩可算不上大型数据库管理系统
PB 是数据库应用程序开发用的ide,根本就不是数据库管理系统
Foxbase是dos时代的产品了,进入windows时代改叫foxpro,属于桌面单机级别的小型数据库系统,mysql是个中轻量级的,但是开源,大量使用于小型网站,真正重量级的是Oracle和DB2,银行之类的关键行业用的多是这两个,微软的MS SQLServer相对DB2和Oracle规模小一些,多见于中小型企业单位使用,Sybase可以说是日薄西山,不行了
问题五:几大数据库的区别 最商业的是ORACLE,做的最专业,然后是微软的SQL server,做的也很好,当然还有DB2等做得也不错,这些都是大型的数据库,,,如果掌握的全面的话,可以保证数据的安全. 然后就是些小的数据库access,mysql等,适合于中小企业的数据库100万数据一下的数据.如有帮助请采纳,谢!
问题六:全球最大的数据库是什么 应该是Oracle,第一,Oracle为商业界所广泛采用。因为它规范、严谨而且服务到位,且安全性非常高。第二,如果你学习使用Oracle不是商用,也可以免费使用。这就为它的广泛传播奠定了在技术人员中的基础。第三,Linux/Unix系统常常作为服务器,服务器对Oracle的使用简直可以说极其多啊。建议楼梗多学习下这个强大的数据库
问题七:什么是大数据? 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托・迈尔-舍恩伯格及肯尼斯・库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[2])大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
说起大数据,就要说到商业智能:
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
商业智能作为一个工具,是用来处理企业中现有数据,并将其转换成知识、分析和结论,辅助业务或者决策者做出正确且明智的决定。是帮助企业更好地利用数据提高决策质量的技术,包含了从数据仓库到分析型系统等。
商务智能的产生发展
商业智能的概念经由Howard Dresner(1989年)的通俗化而被人们广泛了解。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。
商务智能是20世纪90年代末首先在国外企业界出现的一个术语,其代表为提高企业运营性能而采用的一系列方法、技术和软件。它把先进的信息技术应用到整个企业,不仅为企业提供信息获取能力,而且通过对信息的开发,将其转变为企业的竞争优势,也有人称之为混沌世界中的智能。因此,越来越多的企业提出他们对BI的需求,把BI作为一种帮助企业达到经营目标的一种有效手段。
目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。
为了将数据转化为知识,需要利用数据仓库、线上分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是ETL、数据仓库、OLAP、数据挖掘、数据展现等技术的综合运用。
把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
企业导入BI的优点
1.随机查询动态报表
2.掌握指标管理
3.随时线上分析处理
4.视觉化之企业仪表版
5.协助预测规划
导入BI的目的
1.促进企业决策流程(Facilitate the Business Decision-Making Process):BIS增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质。
......>>
问题八:数据库有哪几种? 常用的数据库:oracle、sqlserver、mysql、access、sybase 2、特点。 -oracle: 1.数据库安全性很高,很适合做大型数据库。支持多种系统平台(HPUX、SUNOS、OSF/1、VMS、 WINDOWS、WINDOWS/NT、OS/2)。 2.支持客户机/服务器体系结构及混合的体系结构(集中式、分布式、 客户机/服务器)。 -sqlserver: 1.真正的客户机/服务器体系结构。 2.图形化用户界面,使系统管理和数据库管理更加直观、简单。 3.具有很好的伸缩性,可跨越从运行Windows 95/98的膝上型电脑到运行Windows 2000的大型多处理器等多种平台使用。 -mysql: MySQL是一个开放源码的小型关系型数据库管理系统,开发者为瑞典MySQL AB公司,92HeZu网免费赠送MySQL。目前MySQL被广泛地应用在Internet上的中小型网站中。提供由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。 -access Access是一种桌面数据库,只适合数据量少的应用,在处理少量数据和单机访问的数据库时是很好的,效率也很高。 但是它的同时访问客户端不能多于4个。 -
问题九:什么是大数据 大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 大数据首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(putational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显着性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
要理解大数据这一概念,首先要从大入手,大是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
第一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的......>>
问题十:国内真正的大数据分析产品有哪些 国内的大数据公司还是做前端可视化展现的偏多,BAT算是真正做了大数据的,行业有硬性需求,别的行业跟不上也没办法,需求决定市场。
说说更通用的数据分析吧。
大数据分析也属于数据分析的一块,在实际应用中可以把数据分析工具分成两个维度:
第一维度:数据存储层――数据报表层――数据分析层――数据展现层
第二维度:用户级――部门级――企业级――BI级
1、数据存储层
数据存储设计到数据库的概念和数据库语言,这方面不一定要深钻研,但至少要理解数据的存储方式,数据的基本结构和数据类型。SQL查询语言必不可少,精通最好。可从常用的selece查询,update修改,delete删除,insert插入的基本结构和读取入手。
Access2003、Access07等,这是最基本的个人数据库,经常用于个人或部分基本的数据存储;MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。
SQL Server2005或更高版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。
DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台。
BI级别,实际上这个不是数据库,而是建立在前面数据库基础上的,企业级应用的数据仓库。Data Warehouse,建立在DW机上的数据存储基本上都是商业智能平台,整合了各种数据分析,报表、分析和展现!BI级别的数据仓库结合BI产品也是近几年的大趋势。
2、报表层
企业存储了数据需要读取,需要展现,报表工具是最普遍应用的工具,尤其是在国内。传统报表解决的是展现问题,目前国内的帆软报表FineReport已经算在业内做到顶尖,是带着数据分析思想的报表,因其优异的接口开放功能、填报、表单功能,能够做到打通数据的进出,涵盖了早期商业智能的功能。
Tableau、FineBI之类,可分在报表层也可分为数据展现层。FineBI和Tableau同属于近年来非常棒的软件,可作为可视化数据分析软件,我常用FineBI从数据库中取数进行报表和可视化分析。相对而言,可视化Tableau更优,但FineBI又有另一种身份――商业智能,所以在大数据处理方面的能力更胜一筹。
3、数据分析层
这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;
Excel软件,首先版本越高越好用这是肯定的;当然对excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;
SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件;
SAS软件:SAS相对SPSS其实功能更强大,SAS是平台化的,EM挖掘模块平台整合,相对来讲,SAS比较难学些,但如果掌握了SAS会更有价值,比如离散选择模型,抽样问题,正交实验设计等还是SAS比较好用,另外,SAS的学习材料比较多,也公开,会有收获的!
JMP分析:SAS的一个分析分支
XLstat:Excel的插件,可以完......>>