hdp存储计算分离大数据
1. 大数据分析技术生态圈一览
大数据分析技术生态圈一览
大数据领域让人晕头转向。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。
这是一款面向Hadoop的自助服务式、无数据库模式的大数据分析应用软件。
Platfora
这是一款大数据发现和分析平台。
Qlikview
这是一款引导分析平台。
Sisense
这是一款商业智能软件,专门处理复杂数据的商业智能解决方案。
Sqream
这是一款快速、可扩展的大数据分析SQL数据库。
Splunk
这是一款运维智能平台。
Sumologic
这是一项安全的、专门定制的、基于云的机器数据分析服务。
Actian
这是一款大数据分析平台。
亚马逊Redshift
这是一项PB级云端数据仓库服务。
CitusData
可扩展PostgreSQL。
Exasol
这是一种用于分析数据的大规模并行处理(MPP)内存数据库。
惠普Vertica
这是一款SQL on Hadoop大数据分析平台。
Mammothdb
这是一款与SQL兼容的MPP分析数据库。
微软SQL Server
这是一款关系数据库管理系统。
甲骨文Exadata
这是一款计算和存储综合系统,针对甲骨文数据库软件进行了优化。
SAP HANA
这是一款内存计算平台。
Snowflake
这是一款云数据仓库。
Teradata
这是企业级大数据分析和服务。
数据探查
Apache Drill
这是一款无数据库模式的SQL查询引擎,面向Hadoop、NoSQL和云存储。
Cloudera Impala
这是一款开源大规模并行处理SQL查询引擎。
谷歌BigQuery
这是一项全面托管的NoOps数据分析服务。
Presto
这是一款面向大数据的分布式SQL查询引擎。
Spark
这是一款用于处理大数据的快速通用引擎。
平台/基础设施
亚马逊网络服务(AWS)
提供云计算服务
思科云
提供基础设施即服务
Heroku
为云端应用程序提供平台即服务
Infochimps
提供云服务的大数据解决方案
微软Azure
这是一款企业级云计算平台。
Rackspace
托管专业服务和云计算服务
Softlayer(IBM)
提供云基础设施即服务
数据基础设施
Cask
这是一款面向Hadoop解决方案的开源应用程序平台。
Cloudera
提供基于Hadoop的软件、支持和服务。
Hortonworks
管理HDP――这是一款开源企业Apache Hadoop数据平台。
MAPR
这是面向大数据部署环境的Apache Hadoop技术。
垂直领域应用/数据挖掘
Alpine Data Labs
这是一种高级分析平台,可处理Apache Hadoop和大数据。
R
这是一种免费软件环境,可处理统计计算和图形。
Rapidminer
这是一款开源预测分析平台
SAS
这是一款软件套件,可以挖掘、改动、管理和检索来自众多数据源的数据。
提取、转换和加载(ETL)
IBM Datastage
使用一种高性能并行框架,整合多个系统上的数据。
Informatica
这是一款企业数据整合和管理软件。
Kettle-Pentaho Data Integration
提供了强大的提取、转换和加载(ETL)功能。
微软SSIS
这是一款用于构建企业级数据整合和数据转换解决方案的平台。
甲骨文Data Integrator
这是一款全面的数据整合平台。
SAP
NetWeaver为整合来自各个数据源的数据提供了灵活方式。
Talend
提供了开源整合软件产品
Cassandra
这是键值数据库和列式数据库的混合解决方案。
CouchBase
这是一款开源分布式NoSQL文档型数据库。
Databricks
这是使用Spark的基于云的大数据处理解决方案。
Datastax
为企业版的Cassandra数据库提供商业支持。
IBM DB2
这是一款可扩展的企业数据库服务器软件。
MemSQL
这是一款分布式内存数据库。
MongoDB
这是一款跨平台的文档型数据库。
MySQL
这是一款流行的开源数据库。
甲骨文
这是一款企业数据库软件套件。
PostgresSQL
这是一款对象关系数据库管理系统。
Riak
这是一款分布式NoSQL数据库。
Splice Machine
这是一款Hadoop关系数据库管理系统。
VoltDB
这是一款内存NewSQL数据库。
Actuate
这是一款嵌入式分析和报表解决方案。
BiBoard
这是一款交互式商业智能仪表板和可视化工具。
Chart.IO
这是面向数据库的企业级分析工具。
IBM Cognos
这是一款商业智能和绩效管理软件。
D3.JS
这是一种使用HTML、SVG和CSS可视化显示数据的JavaScript库。
Highcharts
这是面向互联网的交互式JavaScirpt图表。
Logi Analytics
这是自助服务式、基于Web的商业智能和分析应用软件。
微软Power BI
这是交互式数据探查、可视化和演示工具。
Microstrategy
这是一款企业商业智能和分析软件。
甲骨文Hyperion
这是企业绩效管理和商业智能系统。
Pentaho
这是大数据整合和分析解决方案。
SAP Business Objects
这是商业智能解决方案。
Tableau
这是专注于商业智能的交互式数据可视化产品系列。
Tibco Jaspersoft
这是商业智能套件。
2. 华为存储HDP和VTL,有什么不同和相同
总的来说,vtl 是磁带,HDP是备份软件。
1.DP3500E一体化备份产品(以下简称HDP3500E)是华为向客户提供的一款集备份服务器、备份介质、备份软件于一体的高性价比备份产品,集成NetBackup备份软件。
2.L6900是一款中高端的虚拟磁带库系统,它将磁盘阵列仿真成物理磁带库,无需更改原有的备份软件和备份策略,即可无缝部署到已有备份系统中。备份数据存储在硬盘存储系统中,很好地解决了传统备份系统的机械故障、共享维护困难、备份窗口无法满足应用需求等问题。
3. 技术落地性成大数据竞争赛点,鲲鹏大数据解决方案凭何领先
文 | 曾响铃
来源 | 科技 向令说(xiangling0815)
新基建浪潮下,作为底层支撑力量的数据与计算正变得越来越重要。
最近,由中国大数据与智能计算产业联盟主办,以“新算力 新基建 新经济”为主题的第二届中国超级算力大会ChinaSC在北京召开,包括国内外院士、知名学者和产业大咖在内的600多人参加,探讨了超级计算、新基建、云计算、大数据、人工智能、区块链等前沿技术进展。
这个奖项的颁出,官方给出的标准是,“能够把当前的各种技术有机的整合在一起,以满足不同应用场景下的各种综合的软硬件及系统方案,集科学性、先进性、稳定性、经济性等众多实际指标于一身,是技术转变为实际应用的关键环节。”
显然,这个权威奖项最关心的,是大数据解决方案在推动技术向实际应用转变的能力,而这也正是当下市场环境对大数据的核心需求。笔者尝试拆解鲲鹏大数据解决方案从宏观到操作层面的布局,希望能给予相关从业者这方面的行业借鉴。
技术竞赛不停, 但大数据需求转向应用落地
数据的价值越来越明显,更好地释放数据价值的技术在不断演化,但是,随着更多政企组织开始着手利用大数据能力帮助现实业务提升,其需求也开始更多倾向于技术能否更好地实现应用落地,大数据解决方案正是为此而生。
以鲲鹏为案例,在推动技术落地的过程中,其大数据解决方案表现出符合时代需要的三大特征,让它在新趋势下占据领先优势,受到客户广泛欢迎并获得ChinaSC权威认可。
1、超高性能仍然是应用落地的最有力支撑
大数据解决方案要推动技术实现各种场景的落地,其前提和支撑,是底层软硬件性能本身要足够强悍,否则,再完善和深度的解决方案,没有性能支撑也只能是空中楼阁。
而也只有性能足够强悍,在应用落地阶段才能够尽可能去满足客户各类数据价值需求。
得益于底层软硬件能力的深度开发,鲲鹏大数据解决方案就拥有超高性能,为应用做好了充分的准备以及支撑。
例如,硬件方面,采用自主研发高性能鲲鹏920处理器,软件方面,则拥有在大数据场景下获得倍级性能提升的独创IO智能预取和Spark机器学习&图增强算法。
以鲲鹏与浙江移动的合作为例,2019年,浙江移动相继完成了IT云鲲鹏服务器测试,营业厅前台系统、CRM、计费、大数据、CDN等系统的验证及上线商用。这其中,浙江移动的CRM&BOSS系统在鲲鹏大数据方案支撑下,整体得到了较大提升,在规模承载网络运营支撑业务的情况下,该系统现在已经稳定运行一年。
目前,浙江移动围绕网络云,IT云和移动云,已经打造了全球首个运营商领域ICT全场景样板点。
2、全栈方案才能推动技术全面落地
解决方案本身并不是一种具体的技术,其价值在于各种技术的有效融汇,作为统一的输出方式面向政企客户。而在政企客户需求日益加深的情况下,尽可能满足多种场景、多种技术诉求的解决方案,就必须建立一套尽可能完善的全栈体系,将各种技术有机地、系统地、全面地整合在一起。
这正是华为鲲鹏大数据解决方案的体系构成,其基于鲲鹏处理器,构建了端到端打通硬件、操作系统、中间件、大数据软件的全栈体系,并对应进行了全栈性能优化,推动各类技术汇聚成高性能解决方案:
可以看到,这套全栈体系,一方面通过有机整合,能够较为容易地同时满足科学性、先进性、稳定性、经济性等需求(例如,加速特性和大数据组件能够帮助方案更有效率同时成本更低);另一方面,作为全面、完整、一体化的信息化解决方案,也更容易去适应政府、金融、电信、互联网、大企业等不同行业应用需求。
从技术到应用落地,“全栈”成为重要的中间转换环节,不但“无损”,而且“增益”。
3、符合政企个性化需求让技术落地更具现实价值
在最终面向单个客户落地时,大数据解决方案还需要真正贴合这个客户的实际需要,这是从技术到应用落地的“临门一脚”,毕竟,不论性能如何强悍,全栈体系如何完善灵活,落实到客户头上,最终还是需要符合业务实际,产生现实价值。
既要有能力,更需要契合,鲲鹏大数据解决方案就是这么做的。
2019年,江苏省基于鲲鹏架构打造了全国首个省区市县三级政务大数据,未来将有越来越多的政务系统可以由自主可靠的鲲鹏计算平台来承载;
在广西,区内首个鲲鹏产业生态云项目——“壮美广西·玉林政务云(鲲鹏云)”已于不久前上线,这是该市全面推广应用广西数字政务一体化平台的体现,而其推出的广西首个市级公共数据开放管理办法,就与鲲鹏的大数据解决方案紧密相关;
目光转到浙江,在鲲鹏生态落子浙江的过程中,浙江推动形成“用鲲鹏”的共识,城市被当成鲲鹏生态的“试验场”,杭州市政务云已经选用鲲鹏作为算力底座,基于鲲鹏技术架构的解决方案和应用在政府服务场景中得到广泛应用。
总得看来,仅有高高在上的技术而无法产生实际价值的大数据玩法已经行不通,鲲鹏大数据解决方案跨越技术与应用的鸿沟,已经在众多行业、场景和企业中实现落地。
电信行业三巨头中,中国移动已实现鲲鹏大数据解决方案规模商用,中国电信则基于鲲鹏打造了天翼云,中国联通则基于鲲鹏构建了天宫IT系统;政务方面,北京、广东、江苏、浙江、广西等政务云都出现鲲鹏身影,当下其已经成为首选技术路线;在金融行业,鲲鹏正在帮助银行系统加速完成国产化。
可以说,鲲鹏大数据解决方案有力推动了中国数字经济发展,尤其是信息技术应用创新的落地。
领先优势下, 鲲鹏三个角度出发为大数据技术落地“铺路”
1、走得更稳——回应数字时代重要的安全关切
因此,鲲鹏大数据解决方案在安全方面一直加大投入,最典型的,是在底层硬件而非软件层面进行安全保障——鲲鹏920处理器内置硬件加速器、业界首创支持国密算法加速,这种CPU内置加速模块的做法,被称作“内生安全”,配合国密算法在技术上更为安全。
而与通常的大数据解决方案为了保证安全不得不让渡较多的性能随时监控系统运行不同,华为鲲鹏大数据解决方案内生安全的做法,做到了加密对业务性能的损耗低于5%——既解决安全痛点问题,也解决“为了安全需要”本身导致的痛点问题。
2、走得更顺——用兼容性保护既有数据软硬件投资
前文提到政务云大数据解决方案中,与现有的服务器的混合部署,这其中有一个十分重要的兼容性做法——由于鲲鹏大数据解决方案建立在鲲鹏处理器基础之上,而很多政企组织原有的软硬件投资都基于X86架构,所以鲲鹏要让技术的应用落地走得更顺,还需要在技术上完成对X86在部署层面的兼容,这样还能保护政企客户现有的数字化投资。
可以看到,当下的鲲鹏方案已经支持大数据组件TaiShan服务器与其他架构服务器混合部署。
以江苏电信为例,去年7月,其宣布成功上线全球首个基于鲲鹏处理器的运营商大数据平台。作为核心的业务系统,该大数据平台基于鲲鹏处理器的华为TaiShan服务器和开源Hadoop软件构建,承载着江苏电信所有生产系统的运行数据、存储及分析:
在项目进行过程中,双方携手完成基于鲲鹏处理器的开源Hadoop源代码编译,让关键的大数据业务组件在华为TaiShan服务器上的成功部署和运行,在原有集群上实现了传统架构服务器和TaiShan服务器融合部署。
这种兼容的做法,有效结合了江苏电信大数据业务特点和未来演进趋势,且充分发挥鲲鹏处理器的性能,提高了数据存储、计算等资源的使用效率。
3、走得更宽——生态开放才能让大数据拥有内生动力
鲲鹏生态的主要推动者华为一直强调的理念是“硬件开放、软件开源、使能合作伙伴”,在大数据解决方案中,这种理念同样得到了应用。
例如,在鲲鹏全栈方案中,顶层大数据平台就支持华为自研的FusionInsight大数据平台以及开源Apache、开源HDP/CDH、星环大数据平台,可以有效对接各类场景需要。今年8月,星环 科技 就发布了基于鲲鹏的大数据平台软硬件联合解决方案,由星环 科技 的TDH大数据平台提供软件层面优异的功能,由鲲鹏芯片提供硬件层面强大的性能,拥有极致性能、平滑迁移、丰富的场景支持以及快速部署多重优势,为行业创造价值。
此外,鲲鹏主导的数据虚拟化引擎openLooKeng开源,就支持跨数据格式、跨数据源、跨数据中心的海量分析,最终帮助方案的性能大幅度提升,典型的如北明数据资产管理平台V4.0就基于openLooKeng技术,解决了数据资产管理数据冗杂、标准不一、难以管理等痛点问题,为企业守护和挖掘数据的价值。
开放的生态,将帮助更多合作伙伴发展服务器和PC等计算产品,帮助构建高质量的基础软件生态,也让更多生态伙伴获得端、边、云的全场景开发能力,最终促进鲲鹏计算生态的繁荣,也加速大数据行业应用创新。
打好基础、做好标杆, 鲲鹏进入“强者恒强”周期
弥合技术与应用落地的鸿沟后,鲲鹏大数据解决方案拥有越来越多的政企实践,它们中大多数都是行业典型客户,本身既是大数据发展过程中的优质案例。
拥有这些客户资源的鲲鹏,实际上已经进入了强者恒强的发展周期,这不仅仅是因为它获得了诸多标杆合作案例、领先于行业,更重要的还在于,技术到应用实践的通路打通后,实践也将不断反馈技术,不断帮助鲲鹏锤炼自身的技术能力,从而形成有效的正反馈循环。
一旦这种循环形成,大数据解决方案就会进入“飞轮”式发展进程,越转越快、越难以停下,也很难以被后进者追赶,逐步成为政企客户最有竞争优势的选择。
更进一步来看,大数据服务从来都不是孤立存在的,在计算需求多样化的时代,鲲鹏计算产业生态的主要推动者华为在物联网、5G、AI等方面的能力和生态布局,无疑将帮助鲲鹏大数据解决方案有更多横向技术连接和融合的想象空间,满足更多政企客户潜在的创新业务需求。
总而言之,在以鲲鹏大数据解决方案为代表的优质案例引领下,数据与计算的时代正在加速到来,最终,“新算力”将推动“新基建”全面落地,带来“新经济”动能,更多政企客户将享受到技术带来的价值红利。
*本文图片均来源于网络
【完】
曾响铃
1钛媒体、品途、人人都是产品经理等多家创投、 科技 网站年度十大作者;
2虎啸奖评委;
3作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;
4《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;
5钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;
6“脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;
7腾讯全媒派荣誉导师、多家 科技 智能公司传播顾问。