福州数据分布式存储平台
A. 区块链分布式存储:生态大数据的存储新模式
区块链,当之无愧的2019最靓的词,在 科技 领域闪闪发亮,在实体行业星光熠熠。
2019年的1024讲话,让区块链这个词焕然一新,以前它总是和传销和诈骗联系在一起,“区块链”这个词总是蒙上一层灰色。但是如今,区块链则是和实体经济融合紧密相连,成为国家的战略技术, 这个词瞬间闪耀着热情的红色和生意盎然的绿色 。
“产业区块链”在这个时代背景下应运而生, 是继“互联网”后的又一大热门词汇,核心就是区块链必须和实体产业融合,脱虚向实,让区块链技术找到更多业务场景才是正道。
区块链的本质就是一个数据库,而且是采用的分布式存储的方式。作为一名区块链从业者,今天就来讲讲 区块链的分布式存储和生态大数据 结合后,碰撞产生的火花。
当前的存储大多为中心化存储,存储在传统的中心化服务器。如果服务器出现宕机或者故障,或者服务器停止运营,则很多数据就会丢失。
比如我们在微信朋友圈发的图片,在抖音上传的视频等等,都是中心化存储。很多朋友会把东西存储在网上,但是某天打开后,网页呈现404,则表示存储的东西已经不见了。
区块链,作为一个分布式的数据库,则能很好解决这方面的问题。这是由区块链的技术特征决定了的。 区块链上的数字记录,不可篡改、不可伪造,智能合约让大家更高效地协同起来,从而建立可信的数字经济秩序,能够提高数据流转效率,打破数据孤岛,打造全新的存储模式。
生态大数据,其实和我们每天的生活息息相关,比如每天的天气预报,所吃的农产品的溯源数据等等,都是生态大数据的一部分。要来谈这个结合,首先咱们来看看生态大数据存储的特点。
伴随着互联网的发展,当前,生态大数据在存储方面有具有如下特点:
从数据规模来看,生态数据体量很大,数据已经从TB级跃升到了PB级别。
随着各类传感器技术、卫星遥感、雷达和视频感知等技术的发展,数据不仅来源于传统人工监测数据,还包括航空、航天和地面数据,他们一起产生了海量生态环境数据。近10年以来,生态数据以每年数百个TB的数据在增长。
生态环境大数据需要动态新数据和 历史 数据相结合来处理,实时连续观测尤为重要。只有实时处理分析这些动态新数据,并与已有 历史 数据结合起来分析,才能挖掘出有用信息,为解决有关生态环境问题提供科学决策。
比如在当前城市建设中,提倡的生态环境修复、生态模型建设中,需要大量调用生态大数据进行分析、建模和制定方案。但是目前很多 历史 数据因为存储不当而消失,造成了数据的价值的流失。
既然生态大数据有这些特点,那么它有哪些存储需求呢?
当前,生态大数据面临严重安全隐患,强安全的存储对于生态大数据而言势在必行。
大数据的安全主要包括大数据自身安全和大数据技术安全,比如在大数据的数据存储中,由于黑客外部网络攻击和人为操作不当造成数据信息泄露。外部攻击包括对静态数据和动态数据的数据传输攻击、数据内容攻击、数据管理和网络物理攻击等。
例如,很多野外生态环境监测的海量数据需要网络传输,这就加大了网络攻击的风险。如果涉及到军用的一些生态环境数据,如果被黑客获得这些数据,就可能推测到我国军方的一些信息,或者获取敏感的生态环境数据,后果不堪设想。
生态大数据的商业化应用需要整合集成政府、企业、科研院所等 社会 多来源的数据。只有不同类型的生态环境大数据相互连接、碰撞和共享,才能释放生态环境大数据的价值。
以当前的智慧城市建设为例,很多城市都在全方位、多维度建立知识产权、种质资源、农资、农产品、病虫害疫情等农业信息大数据中心,为农业产供销提供全程信息服务。建设此类大数据中心,离不开各部门生态大数据的共享。
但是,生态大数据共享面临着巨大挑战。首先,我国生态环境大数据包括气象、水利、生态、国土、农业、林业、交通、 社会 经济等其他部门的大数据,涉及多领域多部门和多源数据。虽然目前这些部门已经建立了自己的数据平台,但这些平台之间互不连通,只是一个个的数据孤岛。
其次,相关部门因为无法追踪数据的轨迹,担心数据的利益归属问题,便无法实现数据的共享。因此,要想挖掘隐藏在生态大数据背后的潜在价值,实现安全的数据共享是关键,也是生态大数据产生价值的前提和基础。
生态大数据来之不易,是研究院所、企业、个人等 社会 来源的集体智慧。
其中,很多生态大数据涉及到了知识产权的保护。但是目前的中心化存储无法保证知识产权的保护,无法对数据的使用进行溯源管理,容易造成知识产权的侵犯和隐私数据的泄露。
这些就是生态大数据在存储方面的需求。在当前产业区块链快速发展的今天,区块链的分布式存储是可以为生态大数据存储提供全新的存储方式的。 这个核心前提就是区块链的分布式存储、不可篡改和数据追踪特性 。
把区块链作为底层技术,搭建此类平台,专门存储生态大数据,可以设置节点管理、存储管理、用户管理、许可管理、业务通道管理等。针对上层业务应用提供高可用和动态扩展的区块链网络底层服务的实现。在这个平台的应用层,可以搭建API接口,让整个平台的使用灵活可扩展。区块链分布式存储有如下特点:
利用区块链的分布式存储,能够实现真正的生态大数据安全存储。
首先,数据永不丢失。这点对于生态大数据的 历史 数据特别友好,方便新老数据的调用和对比。
其次,数据不易被泄露或者攻击。因为数据采取的是分布式存储,如果遭遇攻击,也只能得到存储在部分节点里的数据碎片,无法完全获得完整的数据信息或者数据段。
区块链能够实现生态数据的存储即确权,这样就能够避免知识产权被侵害,实现安全共享。毕竟生态大数据的获取,是需要生态工作者常年在野外驻守,提取数据的。
生态大数据来之不易,是很多生态工作者的工作心血和结晶,需要得到产权的保护,让数据体现出应用价值和商业价值,保护生态工作者的工作动力,让他们能够深入一线,采集出更多优质的大数据。
同时,利用区块链的数据安全共享机制,也能够打破气象、林业、湿地等部门的数据壁垒,构建安全可靠的数据共享机制,让数据流转更具价值。
现在有部分生态工作者,为了牟取私利,会将生态数据篡改。如果利用区块链技术,则没有那么容易了。
利用加密技术,把存储的数据放在分布式存储平台进行加密处理。如果生态大数据发生变更,平台就可以记录其不同版本,便于事后追溯和核查。
这个保护机制主要是利用了数据的不可篡改,满足在使用生态大数据的各类业务过程中对数据的安全性的要求。
区块链能够对数据提供安全监控,记录应用系统的操作日志、数据库的操作日志数据,并加密存储在系统上,提供日志预警功能,对于异常情况通过区块链浏览器展示出来,便于及时发现违规的操作和提供证据。
以上就是区块链的分布式存储能够在生态大数据方面所起的作用。未来,肯定会出现很多针对生态大数据存储的平台诞生。
生态大数据是智慧城市建设的重要基础资料 ,引用区块链技术,打造相关的生态大数据存储和管理平台,能够保证生态大数据的安全存储和有效共享,为智慧城市建设添砖加瓦,推动产业区块链的发展。
作者:Justina,微信公众号:妙译生花,从事于区块链运营,擅长内容运营、海外媒体运营。
题图来自Unsplash, 基于CC0协议。
B. 国内一流的分布式存储厂商有哪些
杉岩数据是其中之一。
作为一款国产分布式存储软件产品,技术架构上采用业内领先的全分布式高可用设计,全平台无单点故障,并且可以提供文件存储、块存储和对象存储三种不同类型的存储模块。
这些存储模块可以灵活的组合搭配,提供快速简便的访问方式,满足新一代应用的敏捷开发需求,能够根据应用的发展进行灵活的弹性扩展。
提供了全语义、跨协议数据访问,帮助企业打通数据孤岛、实现传统应用间的数据共享,一体化极简架构与分钟级扩容、秒级数据检索,加速企业上云转型。在数据安全和价值发掘领域,采用全国密算法,确保数据绝对的安全。
(2)福州数据分布式存储平台扩展阅读:
杉岩数据优势
1、多种数据冗余模式
杉岩数据提供多副本和纠删码两种数据冗余策略,多副本策略以数据镜像的方式提供数据冗余,确保冗余数据的完整性,同时也缩短了数据读取路径。
2、完善的容灾体系
存储系统支持多站点容灾机制、数据跨地域存放、延展集群、异步灾备,保证数据的安全性和最高空间利用率,极大的降低RPO和RTO。
3、数据脱敏
USP采用数据脱敏技术,帮助企业提高安全性和保密等级,防止数据被滥用。同时帮助企业符合安全性规范要求,以及由管理/审计机关所要求的隐私标准。
C. 分布式存储排名前十名有哪些
一、 Ceph
Ceph最早起源于Sage就读博士期间的工作、成果于2004年发表,并随后贡献给开源社区。经过多年的发展之后,已得到众多云计算和存储厂商的支持,成为应用最广泛的开源分布式存储平台。
二、 GFS
GFS是google的分布式文件存储系统,是专为存储海量搜索数据而设计的,2003年提出,是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加,如大文件的读写。注重大文件的持续稳定带宽,而不是单次读写的延迟。
三、 HDFS
HDFS(Hadoop Distributed File System),是一个适合运行在通用硬件(commodity hardware)上的分布式文件系统,是Hadoop的核心子项目,是基于流数据模式访问和处理超大文件的需求而开发的。该系统仿效了谷歌文件系统(GFS),是GFS的一个简化和开源版本。
D. 国内的分布式存储公司有哪些
瑞驰凭借自主可控、成熟、稳定的大数据及云计算产品,提供丰富、完善、应需而变的全套解决方案。vCluster分布式存储系列采用先进的分布式架构,将一个任务分给多个存储节点并行处理,大大提高了存储效率。我的答案能否帮你解决问题,如果能希望能采纳下
E. 国内的分布式存储公司有哪些
杉岩数据,专注软件定义存储,目前,杉岩数据软件定义存储系列产品主要为统一存储平台(SandStoneUSP)、海量对象存储(SandStoneMOS)、超融合一体机(SandStoneHyperCube),已经在政府、企业、医疗、教育、金融和运营商等多个行业近百家用户中成功部署。杉岩数据与Intel、Mellanox和三星等基础架构技术领导厂商均有紧密的研发合作关系,在产品创新、用户体验、性能及可靠性等方面将不断提升和优化,力争成为中国领先的软件定义存储领导厂商。
F. 国内知名的数据存力供应商有哪些浪潮存储是不是
当然是,浪潮存储是中国最大的数据存力供应商,基于存储平台战略,浪潮存储可提供分布式存储、集中式存储、备份和归档存储四大平台型产品,目前已经助力能源行业提升生产运营效率,并赢得了客户的广泛好评。
G. 分布式数据平台Data Mesh
自 2010 年左右兴起到现在,微服务(Microservices)已经成为事实上的软件架构范式,被企业广泛采用,并引发了围绕面向领域设计模式优缺点的激烈讨论。如今,这股浪潮开始席卷数据领域。
Data Mesh 是一种基于领域驱动和自服务的数据架构设计新模式,借鉴了微服务和 Service Mesh 的分布式架构思想,最初源于 ThoughtWorks 首席技术顾问 Zhamak Dehghani 发表在 MartinFowler 官网上的两篇文章《How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh》和《Data Mesh Principles and Logical Architecture》。
ThoughtWorks 在 2020 年 10 月发布的技术雷达中,将 Data Mesh 从“评估”调升到了“试验”(ThoughtWorks 对“试验”阶段的技术的建议是:“值得一试。了解为何要构建这一能力是很重要的。企业应当在风险可控的前提下在项目中尝试应用此项技术。”),这意味着 Data Mesh 已经通过可行性验证,转而进入建议采纳阶段。据了解,包括 Zalando、Intuit、Netflix、JPMorgan Chase 等公司都已经在尝试实践 Data Mesh 这个概念。
但对于国内开发者来说,很多人听过 Service Mesh,甚至有不少人已经在实践 Service Mesh 了,对 Data Mesh 却知之甚少。围绕 Data Mesh 的理念和架构设计、它能解决现有数据架构的哪些问题、现在是不是采用 Data Mesh 的好时机等话题,InfoQ 记者在 2021 ThoughtWorks 技术雷达峰会现场采访了 ThoughtWorks 数据智能团队技术负责白发川,一探 Data Mesh 究竟。
1从微服务的视角看数据架构
没有一个概念是无缘无故凭空冒出来的,Data Mesh 的诞生也是基于对企业数据平台架构现状和弊端的反思而提出来的。
企业数据平台的演进大致可以分为三个重要阶段:
第一阶段,专有的企业数据仓库和商业智能平台;第二阶段,以数据湖为代表的大数据生态系统;第三阶段,云上数据平台,也是当前主流的混合实践模式,包含实时数据流处理架构、整合批处理与流处理的框架,以及完全采用基于云的存储托管服务、数据流水线执行引擎和机器学习平台。而这些数据平台架构存在一些共性的挑战:
难以启动:缺少用例支持,无法获得业务支持;长时间的数据湖设计与技术评估;需要统一组织内多个业务或技术部门;数据源难以规模化:缺少手段对错综复杂的源数据物迹系统进行疏浚与管理;难以跟上不断增长的数据源系统规模;数据消费难以规模化:数据平台项目跟不上企业创新要求;用例过窄,难以满足规模化需求;平台能力跟不上错综复杂的用例需求;数据难以商业化:极高的开发和运营成本;难以将数据平台真正转化为商业竞争力;难以形成创新文化。这背后的根本原因在于,从业务的视角来看,企业数据平台架构从第一到第三阶段的演进其实一直延续着黑盒、集中式、单体架构的核心模式,由独立且专业化的数据工程师团队维护,业务方的可操控性非常弱,数据团队很容易成为响应的瓶颈。
实际上,当前数据架构面临的挑战,与微服务架构之前的单体软件所面临的挑战非常类似:
基唤友础设施法响应业务弹性需和蚂槐求:单体数据架构下,基础设施资源所有业务共享,进集中式的管理和维护,法基于业务需求灵活进资源调整;数据商业化成本:加数据以产品思路对数据进处理,因此部分数据处理结果集法以商品的形式度量其业务价值;数据处理流线复成本:每个数据流线为独的数据作空间上下,跨流线的 数据结果或者中间结果需要进复时成本较,难度较;数据处理成本较:单体数据架构模式下,部分的数据处理作进集中统管理,在涉及更多业务场景持、更多团队协作下,数据处理的成本较。Data Mesh 试图基于微服务的架构思想设计数据架构,来解决上述问题。
2Data Mesh 核心思路和架构逻辑
Data Mesh 实际上是一组数据平台架构原则,融合了分布式领域驱动的架构(Distributed Domain Driven Architecture)、自助平台设计(Self-serve Platform Design)以及将数据视为产品(Thinking Data as a Proct)的思维。
有别于数据仓库 / 数据湖的集中式单体架构,Data Mesh 是高度分散的数据架构。
对于 Data Mesh 的核心设计思路,白发川将其总结为以下几点:
从业务域视角出发,将业务解耦之后映射到数据视角,再将数据解耦,减少数据冗余度;将数据作为产品,使数据服务端到端完备,就像一个微服务一样,可以被直接访问和调用;自服务的基础设施,微服务的成功很大程度上归功于它有非常成熟的基础设施,比如 Spring Cloud、K8s 等,而数据的基础设施相对于微服务的成熟架构还有所缺失,这也是未来需要持续发力的地方;生态治理,站在消费者使用数据的业务链调用看数据是怎么被消费的,制定数据治理规范,让数据更为透明和易于使用;通过网格编排的思想设计数据走向,使数据产品能够支持不同模块、不同域的衔接。
在 Data Mesh 架构下,治理的始终是具有业务价值的数据服务,而不是一个个的原始数据文件。Data Mesh 的架构逻辑如上图:底层需要可自服务的数据基础设施,至少具备稳定性和可伸缩性两项能力;基础设施之上,面向域构建一个个端到端的数据消费服务提供给上层业务,可以认为每一个服务对应的就是一个数据产品,比如某个数据仓库可能抽象成 Data Mesh 中的一个 Data Service,每一个 Data Service 会包含算力、存储和服务这三项。不同的数据服务之间会有一个数据服务注册和调度中心,可以让不同的 Data Service 形成业务所需要的一系列数据服务编排。另外,围绕数据服务中心会形成数据授信访问申请、元数据管理、数据服务管理等一系列能力。
如果从软件架构的视角来理解 Data Mesh,则微服务映射过来就是 Data Service,基于微服务编排设计出来的 Application 映射过来就是 Data Proct,基于很多 Application 编排生成的网格 Service Mesh 映射过来就是 Data Mesh。
Data Mesh 目前有两种落地形态,一种是闭环服务,也就是一个平台提供工具的同时还提供结果管理服务,并且只能在平台内部完成全生命周期的管理,即 Data as a Service;另一种形态则是平台提供数据和工具能力,但是工具能力为可选项,业务可以使用自己的工具,也可以使用平台的工具,即 Data Platform as a Service。
3会改变数据团队的工作吗?
同为大数据领域近几年诞生的新概念,Data Mesh、数据中台、湖仓一体可能会让很多人感到困惑:这三者有什么本质区别呢?
针对 Data Mesh 和数据中台的区别,白发川认为,数据中台是一个概念而非架构形态,它更多强调的是站在业务视角思考企业数据消费的形态,在通过数据中台理念梳理完数据的消费模式、业务场景之后,最终还需要用一个架构来承载和实现。而 Data Mesh 可以作为数据中台的一种实践形态。
针对 Data Mesh 和湖仓一体的区别,白发川则表示,湖仓一体主要是基于数据仓库、数据湖这样的成熟架构做整合,从体验和交互上来说减少了做一件事情需要完成的步骤,属于优化式架构,但它解决的问题只在于技术维度,解决不了业务团队瓶颈问题,也解决不了基础设施和业务解耦的问题。而 Data Mesh 首先从基础设施层面对架构做了一些调整,同时还定义了在这个架构下的团队分工协作。从架构层面来看,数据湖、数据仓库、湖仓一体跟 Data Mesh 实际上是可以并存的,而非对立或替代关系,在 Data Mesh 架构中,数据湖、数仓可能被包含在一个个 Data Service 中。
从另一个维度来看,数据湖、数据仓库或者湖仓一体架构的主要受众是企业的数据团队,只有数据团队需要关注这些架构。但 Data Mesh 的受众是数据团队和业务团队,他们都需要关心这个架构,这也是一个明显的差别。
Data Mesh 将数据所有权上移给了负责某一项功能的业务团队,他们可以按照自己更便于使用的方式去创建、接触元数据,对数据进行分类和存储。对应 Data Mesh 的架构来看,业务团队负责创建自己需要的 Data Service,而数据团队的工作更聚焦于底层数据基础设施,包括为 Data Service 初始化工作空间、将云厂商的组件和企业自己的底层平台能力组合包装成业务可用的方式(可以理解为迷你版的云)、Data Service 之间的调用能力封装等等。
这是否意味着 Data Mesh 改变了企业数据团队原有的工作内容呢?
白发川对此给出了否定答案,他认为,现在很多行业都在谈数字化转型,但当企业说数字化转型的时候,通常发生改变的只有数据团队,而业务团队却不受影响,这是有问题的。数字化并不等于数字团队,Data Mesh 实际上更好地定义了,当企业需要数据能力的时候,业务团队应该做什么样的改变。原来大家会笼统地认为凡是数据相关的都由数据团队做,导致整个数据团队从基础设施到业务完全耦合在一起。Data Mesh 其实是把数据团队和业务团队的职责边界做了更清晰的划分,使数据团队的职责更加聚焦和精简,从技术角度看对数据团队当前的工作不会有特别大的影响。不过过程中可能会涉及到一些人员的调整,比如原来数据团队中负责业务相关数据分析工作的人员会直接划到业务团队去,而关注业务无关的基础设施的人员则继续留在数据团队中。
4现在是采用 Data Mesh 的好时机吗?
前文提到,包括 Zalando、Intuit、Netflix、JPMorgan Chase 等公司都已经在尝试实践 Data Mesh,但 Data Mesh 还不是一个适合所有企业广泛采纳的架构模式。尽管 ThoughtWorks 推荐“采纳”Data Mesh,但这一推荐有一个重要前提,即“风险可控”。
白发川表示,当下企业落地 Data Mesh 主要的难点和风险可以从两个角度来看:一是规划视角,需要评估对数据架构做改造的投入产出比;二是技术视角,过去从数据仓库到数据湖的转变可以认为是替代式架构(不是从数据仓库演进到数据湖,而是造一个全新的),而 Data Mesh 属于演进式架构,改造的模式和设计的思维方式都与从前不同,目前行业内在大数据演进式架构改造的人才和经验方面相对都是有缺失的。
其中,性价比是企业在考虑是否采用 Data Mesh 时首先要考虑的。不管是微服务也好,Data Mesh 也好,都存在一个最基本的底线成本。回顾前文提过的 Data Mesh 架构,它需要基于底层弹性基础设施来打造,可以认为云是做 Data Mesh 的起点,如果企业当前的数据架构不是基于云来做的,那从当前架构迭代到 Data Mesh 架构的过程中就需要更多改造步骤,比如要先做弹性化改造,这样初步投入的成本就会变高。此外,构建 Data Mesh 需要的投资还包括构建自服务的数据平台、支持对领域进行组织结构变更以长期维护其数据产品,以及一个激励机制,来奖励将数据作为产品提供和使用的领域团队等等。如果企业衡量改造的投入产出比之后,发现收益无法超过成本,可能 Data Mesh 就不适合。
除了考虑性价比问题,白发川建议企业基于三个维度来评估自己是否应该采用 Data Mesh,分别是规模化、常态化和高门槛。其中,规模化指的是企业存在大量的领域且数据接入、数据消费规模都非常庞大,比如有大量产生数据的系统和团队,或者多种数据驱动的用户场景和访问模式;常态化指的是数据的使用频率很高,而不是一次性的;高门槛指的是企业需要非常精通大数据的技术人员来驾驭自己的数据架构。如果这三点都符合,就意味着企业需要考虑数据团队和业务团队之间的分工问题了,Data Mesh 可能是一个解决办法。同时企业也需要结合自身的业务现状来评估,如果企业已经做了数据仓库、做了数据湖,但在前述三个维度下业务仍然出现了明显的不可工作或协作瓶颈导致数据平台跟不上业务发展节奏,那这可能就是一个考虑采用 Data Mesh 的比较好的时机点;反之,如果业务本身毫无问题,也就没有改造的必要了。
据白发川介绍,目前国内外有很多企业都已经在尝试实践 Data Mesh 的架构理念,尤其是一些数据规模特别庞大的企业,他们已经碰到集中式单体数据架构的瓶颈,开始探索向面向域的分布式数据架构转变以解决问题,只是他们可能没有将这个概念抽象总结成 Data Mesh。
当提及 Data Mesh 未来应用推广道路上可能遇到的挑战时,白发川特别强调了组织架构方面可能存在挑战。如前文所述,Data Mesh 并不仅针对数据团队,也不是数据团队单独就能做好的,它其实对应探讨的是在企业的业务上下文里面一种比较好的协作方式是什么样子的,需要几个团队承担什么职责才能做好这件事,并延伸到现有的团队需要做什么样的调整,以及在这样的调整下需要一套什么样的基础设施或软件来支持他们的工作。在白发川看来,数据中台、Data Mesh 都属于所谓的“CXO 工程”,Data Mesh 也需要企业自顶向下达成共识、形成决策并通过组织结构调整提供支持,否则可能也会遭遇类似于中台战略无法在企业顺利落地的窘境。
Data Mesh 标志着大规模数据分析架构和组织范式的转变,但要加速 Data Mesh 的实现,在开源或商业工具上仍存在巨大的缺口。对比微服务有 K8s,Service Mesh 有 Istio、Linkerd,目前还没有一款合适的工具可以帮助企业快速应用 Data Mesh。虽然使用现有技术作为基本构建块也是可行的,但在成熟的基础设施工具出现之前,很多企业可能还是会选择继续观望。
From https://jiahao..com/s?id=1701002572280097452&wfr=spider&for=pc
H. 国内有哪些知名的分布式存储厂商
目前主流的分布式存储厂商主要分两类:
自主研发,比如国内的主要有 SmartX,华为,国外的主要有 vSAN ,Nutanix;
基于开源的 Ceph 研发,比如 XSKY,杉岩,深信服。
I. 国内做分布式存储研发的公司有哪些
做过一些集成项目,国内集群NAS(分布式文件系统)这块了解一些,随便说说,仅限于通用集群NAS
宣传自研集群NAS的公司不少,OEM居多,做研发的不多,完全自研就更少了
列一些接触过,完全自研,产品化程度相对高一些的吧
大一点的,华为(oceanstor9000),曙光(parastor)
市场上见的比较多了
小一点的,龙存,这个算是老牌子了
聚存,这个知道的人不多
基于ceph的公司这几年不少,用过其中一家的东西,块这块还行,文件这块还需要时间
分布式存储其实是一个比较大的领域
有分布式数据库、分布式文件如隐系统、分布式块(ServerSAN)、分布式对象存储渣粗厅之类
做的公司挺多,不过真正都凳亮自己的代码的挺少,很多都是开源改的
分布式数据来说一般互联网公司用的多,像阿里,腾讯、网络都有自己分布式数据库
国内做分布式文件系统来说,数中科院的一帮人做的最早
从中科院出来人基本的分为三家,曙光,龙存,达沃
这三家基本都属于自研并且应用时间都在国内来说时间最久了
也有像华为、淘宝、网络、腾讯的文件系统
J. 国内较好的分布式云存储产品有哪些
阿里云的分布式存储系统盘古是自主研发的代表,支撑了大多数阿里云的存储和计算产品。
网络,github上有个开源的分布式文件系统,但是感觉跟工业级差别比较大。
腾讯,PaxosStore应该算一个。
华为,好多做存储的团队,有使用开源的,有自研的。
云科数据,YK4000及YK6000的两款超融合一体机的市场前景颇为看好,这与其行业领先、与世界同步的技术优势不无关系,采用了核心分布式存储软件EMC ScaleIO,搭建起与谷歌、Facebook、亚马逊等 Web大规模的公有云相同的基础架构。
大公司应该都有能力和资源自己写分布式存储系统,就看如何打磨得更适合自己的业务特点了。