中云存储
1. 云存储的发展历程
云存储是在云计算(cloud computing)概念上延伸和衍生发展出来的一个新的概念。云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和”超级计算机”同样强大的网络服务。
各类云存储图册(2张)
云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,保证数据的安全性,并节约存储空间[1]。如果这样解释还是难以理解,那我们可以借用广域网和互联网的结构来解释云存储。
云状的网络结构
相信大家对局域网、广域网和互联网都已经非常了解了。在常见的局域网系统中,我们为了能更好地使用局域网,一般来讲,使用者需要非常清楚地知道网络中每一个软硬件的型号和配置,比如采用什么型号交换机,有多少个端口,采用了什么路由器和防火墙,分别是如何设置的。系统中有多少个服务器,分别安装了什么操作系统和软件。各设备之间采用什么类型的连接线缆,分配了什么 xml:lang=IP地址和子网掩码。
但当我们使用广域网和互联网时,我们只需要知道是什么样的接入网和用户名、密码就可以连接到广域网和互联网,并不需要知道广域网和互联网中到底有多少台交换机、路由器、防火墙和服务器,不需要知道数据是通过什么样的路由到达我们的电脑,也不需要知道网络中的服务器分别安装了什么软件,更不需要知道网络中各设备之间采用了什么样的连接线缆和端口。广域网和互联网对于具体的使用者是完全透明的,我们经常用一个云状的图形来表示广域网和互联网,如下图:
虽然这个云图中包含了许许多多的交换机、路由器、防火墙和服务器,但对具体的广域网、互联网用户来讲,这些都是不需要知道的。这个云状图形代表的是广域网和互联网带给大家的互联互通的网络服务,无论我们在任何地方,都可以通过一个网络接入线缆和一个用户、密码,就可以接入广域网和互联网,享受网络带给我们的服务。
参考云状的网络结构,创建一个新型的云状结构的存储系统系统,这个存储系统由多个存储设备组成,通过集群功能、分布式文件系统或类似网格计算等功能联合起来协同工作,并通过一定的应用软件或应用接口,对用户提供一定类型的存储服务和访问服务。
当我们使用某一个独立的存储设备时,我们必须非常清楚这个存储设备是什么型号,什么接口和传输协议,必须清楚地知道存储系统中有多少块磁盘,分别是什么型号、多大容量,必须清楚存储设备和服务器之间采用什么样的连接线缆。为了保证数据安全和业务的连续性,我们还需要建立相应的数据备份系统和容灾系统。除此之外,对存储设备进行定期地状态监控、维护、软硬件更新和升级也是必须的。如果采用云存储,那么上面所提到的一切对使用者来讲都不需要了。云状存储系统中的所有设备对使用者来讲都是完全透明的,任何地方的任何一个经过授权的使用者都可以通过一根接入线缆与云存储连接,对云存储进行数据访问。
希望对您有用
2. 云存储架构分哪些层次,各自实现了什么功能
(1)存储层
云存储系统对外提供多种不同的存储服务,各种服务的数据统一存放在云存储系统中,形成一个海量数据池。从大多数网络服务后台数据组织方式来看,传统基于单服务器的数据组织难以满足广域网多用户条件下的吞吐性能和存储容量需求;基于P2P架构的数据组织需要庞大的节点数量和复杂编码算法保证数据可靠性。相比而言,基于多存储服务器的数据组织方法能够更好满足在线存储服务的应用需求,在用户规模较大时,构建分布式数据中心能够为不同地理区域的用户提供更好的服务质量。
云存储的存储层将不同类型的存储设备互连起来,实现海量数据的统一管理,同时实现对存储设备的集中管理、状态监控以及容量的动态扩展,实质是一种面向服务的分布式存储系统。
(2)基础管理层
云存储系统架构中的基础管理层为上层提供不同服务间公共管理的统一视图。通过设计统一的用户管理、安全管理、副本管理及策略管理等公共数据管理功能,将底层存储与上层应用无缝衔接起来,实现多存储设备之间的协同工作,以更好的性能对外提供多种服务。
(3)应用接口层
应用接口层是云存储平台中可以灵活扩展的、直接面向用户的部分。根据用户需求,可以开发出不同的应用接口,提供相应的服务。比如数据存储服务、空间租赁服务、公共资源服务、多用户数据共享服务、数据备份服务等。
(4)访问层
通过访问层,任何一个授权用户都可以在任何地方,使用一台联网的终端设备,按照标准的公用应用接口来登录云存储平台,享受云存储服务。
2云存储技术的优势
作为新兴的存储技术,与传统的购买存储设备和部署存储软件相比,云存储方式存在以下优点:
(1)成本低、见效快
传统的购买存储设备或软件定制方式下,企业根据信息化管理的需求,一次性投入大量资金购置硬件设备、搭建平台。软件开发则经过漫长的可行性分析、需求调研、软件设计、编码、测试这一过程。往往在软件开发完成以后,业务需求发生变化,不得不对软件进行返工,不仅影响质量,提高成本,更是延误了企业信息化进程,同时造成了企业之间的低水平重复投资以及企业内部周期性、高成本的技术升级。在云存储方式下,企业除了配置必要的终端设备接收存储服务外,不需要投入额外的资金来搭建平台。企业只需按用户数分期租用服务,规避了一次性投资的风险,降低了使用成本,而且对于选定的服务,可以立即投入使用,既方便又快捷。
(2)易于管理
传统方式下,企业需要配备专业的IT人员进行系统的维护,由此带来技术和资金成本。云存储模式下,维护工作以及系统的更新升级都由云存储服务提供商完成,企业能够以最低的成本享受到最新最专业的服务。
(3)方式灵活
传统的购买和定制模式下,一旦完成资金的一次性投入,系统无法在后续使用中动态调整。随着设备的更新换代,落后的硬件平台难以处置;随着业务需求的不断变化,软件需要不断地更新升级甚至重构来与之相适应,导致维护成本高昂,很容易发展到不可控的程度。而云存储方式一般按照客户数、使用时间、服务项目进行收费。企业可以根据业务需求变化、人员增减、资金承受能力,随时调整其租用服务方式,真正做到“按需使用”。
3云存储技术趋势
随着宽带网络的发展,集群技术、网格技术和分布式文件系统的拓展,CDN内容分发、P2P、数据压缩技术的广泛运用,以及存储虚拟化技术的完善,云存储在技术上已经趋于成熟,以“用户创造内容”和“分享”为精神的Web2.0推动了全网域用户对在线服务的认知。
3. 什么是云存储技术
云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
云存储的两个层面
云存储的两个层面是作为云计算支撑的存储计算,主要涉及分布式存储(如分布式文件系统、IPSAN、数据同步、复制)、数据存储(如重复数据删除、数据压缩、数据编码)和数据保护(如RAID、CDP、快照、备份与容灾)等技术领域,如图8-30所示,这在第6章中已有所介绍。和云安全技术一样,云存储技术也需要利用现有的所有存储技术针对云计算三层架构的各个环节采用适当的存储技术,才能取得最佳效果,例如,对应不同需求,有时应该使用数据库技术但有时却应该使用LDAP技术,有些性能要求高的系统不能使用SAN或NAS,需直接使用基于RPC或Socket技术的并发文件系统,有些应用使用SAN成本太高等,这里不再做深入介绍。如图8-31所示是一个采用NetApp FAS、思科 UCS和 VMWare vShpere 4技术打造的存储系统,对上述两种云存储技术和应用都有促进作用。云存储架构
分为两类:一种是通过服务来架构;另一种是通过软件或硬件设备来架构。
传统的系统利用紧耦合对称架构,这种架构的设计旨在解决HPC(高性能计算、超级运算)问题,现在其正在向外扩展成为云存储从而满足快速呈现的市场需求。下一代架构已经采用了松弛耦合非对称架构,集中元数据和控制操作,这种架构并不非常适合高性能HPC,但是这种设计旨在解决云部署的大容量存储需求。各种架构的摘要信息如下:
紧耦合对称(TCS)架构
构建TCS系统是为了解决单一文件性能所面临的挑战,这种挑战限制了传统NAS系统的发展。HPC系统所具有的优势迅速压倒了存储,因为它们需要的单一文件I/O操作要比单一设备的I/O操作多得多。业内对此的回应是创建利用TCS架构的产品,很多节点同时伴随着分布式锁管理(锁定文件不同部分的写操作)和缓存一致性功能。这种解决方案对于单文件吞吐量问题很有效,几个不同行业的很多HPC客户已经采用了这种解决方案。这种解决方案很先进,需要一定程度的技术经验才能安装和使用。
松弛耦合非对称(LCA)架构
LCA系统采用不同的方法来向外扩展。它不是通过执行某个策略来使每个节点知道每个行动所执行的操作,而是利用一个数据路径之外的中央元数据控制服务器。集中控制提供了很多好处,允许进行新层次的扩展:
● 存储节点可以将重点放在提供读写服务的要求上,而不需要来自网络节点的确认信息。
● 节点可以利用不同的商品硬件CPU和存储配置,而且仍然在云存储中发挥作用。
● 用户可以通过利用硬件性能或虚拟化实例来调整云存储。
● 消除节点之间共享的大量状态开销也可以消除用户计算机互联的需要,如光纤通道或infiniband,从而进一步降低成本。
● 异构硬件的混合和匹配使用户能够在需要的时候在当前经济规模的基础上扩大存储,同时还能提供永久的数据可用性。
● 拥有集中元数据意味着,存储节点可以旋转地进行深层次应用程序归档,而且在控制节点上,元数据经常都是可用的。
4. 云存储为什么可以做到大容量
云存储实现技术(一)
——云存储理解
在当今风起“云”涌的时代,云存储作为“云”的基础架构和最广泛的应用得到了极大的重视。万丈高楼平地起,只有将底层的基础打牢,才有可能实现云中的摩天大楼。
实现的前提在于理解,到底应该如何理解云存储呢?没有一个放之四海皆准的概念,不同的角度,不同的背景得到的答案肯定不同。这里我想从广义和狭义的角度分别来理解。广义上来说,云存储发展于分布式存储,融合了并行与网格技术,延伸了虚拟化概念,通过对网络中大量异构存储设备的统一协调处理,最终实现了远程存储服务的提供。狭义上要从三种视角出发来理解:云制造商,云使用商,个人。
1.对于云制造商来说,云存储是一种架构。是对底层异构存储服务器的整合,对网络存储技术的创新,对硬件存储芯片升级。现在被各大厂商应用的底层云模式主要有两种:网络存储架构,分布式集群存储技术。
网络存储模式是在分散的基础存储设备上,实现一个统一管理存储设备系统。存储设备可以是FC光纤通道存储设备,可以是NAS和 iSCSI等IP存储设备,也可以是 SCSI或SAS等 DAS存储设备。而管理系统主要实现设备虚拟化管理,冗余链路管理,设备监控及安全备份处理。来看看IBM和色卡司公司提出的存储系统。色卡司推出的新一代的5-bay NAS,融合了NAS/DAS/iSCSI三为一体,提供iSCSI的堆叠扩充功能以及多重RAID技术,为底层存储提供了极大的应用弹性和数据保护机制。而IBM XIV存储系统则通过转架单个磁盘的转速瓶颈,将性能提升了一大步,但是基于硬件的网络存储模式终究还是存在容量与性能的扩展瓶颈。
分布式集群存储技术能够很好的解决上述瓶颈,不需要构建SAN模型,所依托的只是分布式文件系统,不但能够很好的支持异构机的搭建,还很容易扩充,高效的算法实现也带来了性能的突破。如Googal的GFS,Hadoop架构中的HDFS以及一些轻型的如FastDFS等。这种模型的前景一片明亮,只要人的脑袋足够聪明,高效的算法性能的提升终究要快于硬件的提升。
2.对于云使用商来说,云存储是一种服务。这里理解为提供服务与使用服务。提供的服务包括:原始的存储服务器,透明的大容量存储服务,存储机器与上层应用的综合体。相对于制造者而言,提供服务商亟需解决的是云服务的安全性,如何保证商业数据不泄密,如何实现企业数据冗余备份。还有一些细节方面的诸如可定制性,可扩展性,透明性,简易性,可靠性等都是云存储面临的困难。
对于使用服务者来说,云存储就是一个低成本,远端控制,安全的企业存储应用平台,他们不用再为高昂的硬件设备发愁,也不用为后期数据扩展空间担忧,只要专注与基于服务接口的开发即可。这里存储面对的最大问题是网络带宽与数据安全的问题。如何实现远端数据的高访问性,如何避免传输过程的数据损失及窃听。云存储需要的是各方面技术的支撑。
3.一切技术的发展都源于人对更高品质生活的需求,云存储也不例外。未来存储最大的应用应该是个人存储。即一切轻型移动设备之间信息互通,个人信息的最终云端化。最近UIT和Inter的合作也在向个人存储进军,通过与电信服务商的合作,将个人存储放在云上,实现随时随地的访问。可以想象不久的将来,信息的整合将在云中孕育。
云存储实现技术(二)
——云存储遐想
对于云存储来说,异构平台的的设备整合是最大的问题。既然称之为“云”,就不是某一单台服务器或一个机群提供的单一的硬盘数据存储功能。而是分布在全球多台设备之间的虚拟化管理。如何协调设备之间的统一部署,统一访问,这将成为巨大的瓶颈,如得不到实现,云将无法成型,终究只是广阔互联网中零星散落的水蒸气。现在的解决方案多是基于集群技术,分布式文件系统及网格计算技术。
如果不打破现有的观念,瓶颈终究是瓶颈,技术的发展也只是拖长了瓶颈的到来时间。以下让我们抛弃传统的架构模型,遐想下云存储。
1.高维度信息的存储
根据常识,我们在知道维度的大小可以决定存储容量的大小。传统我们对数据的存储都是基于二维结构的。现在我们跌入了二维瓶颈无法自拔,那么为何不放弃二维存储而转向高维呢?
维度的理解可以从宏观与微观两方面理解。
(1)微观方面,即存储介质本身的维扩展,令人欣喜的是澳大利亚科学家已经开发了一种新的能够感知激光波长和偏振材料,可以实现五个维度上的存储数据。这对于云存储容量扩展提供了不可估量的技术支持。
(2)宏观方面可以考虑存储数据的三维结构。可以这样理解,网络是种极其松散的空间拓扑结构,我们可以在其中设定一个笛卡儿坐标系,坐标中规定单位信息元数据。信息的存储就可以演变为坐标的存储。这里需要考虑的是单位数据的大小。对于结构数据,可以设置为一个字母,一个汉字或一个数据;对于非结构数据,可以是一个频繁词,一个tag 。但是对于庞大的信息而言,这又会造成更严重的维灾难。
考虑下我们现实世界中的信息冗余部分:
每一天,多少人在转载,复制,粘贴别人的信息。
每一分钟,有多少人在记录同一句话,计算同一数据。
以上这些占用了我们大量的存储设备而毫无意义。所以如何设置高效的单位元数据,如何利用已有的单位数据是亟需考虑的。
(3)笛卡儿坐标的引入对于数据安全方面也有所帮助,我们可以通过数据加密来改变每个用户的参考坐标系。
(4)在三维结构的基础上,我们还可以考虑引入时间的四维空间,因为计算机处理每个人的存储命令时间肯定是不同的,这一维的利用可以加快检索及访问速度。
2.人工智能的云存储
这里的人工智能是有别与冯诺依曼计算机体系的人工智能。
想想我们的大脑,一个1350立方米的空间容纳了无法估量的信息,仅这一条就足可以推翻容量与存储的关系。我们脑中的信息可以动态的加强和减弱(除了一些主观因素),可以快速检索而不需要索引表。这些靠的是什么?联想,记忆,信号的刺激与传导。那么我们是否可以考虑硬件的仿神经突触的设计。
我们好象也有过多的考虑冗余备份,在需要时,我们只需拿张纸记录就好。那么我们是否可以考虑减轻存储服务器的任务,将备份问题交给某些固定的外设就好。
人工智能这条路也许还有好长路要走,但我们坚信,创新就会有发展
5. 云存储的隐患
从功能实现上来讲,异地文件存取与文件分享共步技术早在互联网形成之初就已经得到应用,上个世纪互联网刚刚进入国内时就有厂商提供过网盘服务,当时所谓的网盘并不是大家所熟知的网络虚拟磁盘,当时的网盘更像是一个SVN 或FTP 的客户端,而今十多年的发展以后,融入了移动互联网营销理念与新技术的“网盘”被包装成了“云存储”高调的出现在大众面前,据相关统计数据显示国内一线的云存储服务商每天的用户数据新增量已经达PB为单位,可见每天都有数以亿计的用户正在向自己云存储空间中上传下载着各种文件,在这种环境下排除网络带宽消耗之外,我们是否应该反思一下云存储下的未来隐患。 从数据安全上分两个方面分析,
1.用户的操作安全:大多数的云存储都设计了多客户端数据同步机制,一般以最后一次更新为标准,其他客户端开启时自动同步,这点与SVN的设计有很大的差别,当一个用户在公司编辑某个文件后,回到家中再次编辑,那么当他再次回到公司时文件已是昨晚在家更新过的,这是理想状态下的,在很多时候用户编辑一个文件后,会发现编辑有误,想取回存在公司的文件版本时,可能在没有支持版本管理云存储中你的附本也已经被错误的更新了,同样的道理你删除一个文件时候,如果没有额外的备份,也许你到网盘回收站中再找了,版本管理技术上并不存在问题,但是会加大用户的操作难度,云存储服务商只有少数的私有云提供商有限的支持,多数情况下这种覆盖是时常发生的。
2.服务端的安全操作:云存储服务器早已经成为了黑客入侵的目标,因为服务器上不仅有无穷用户数据,对此类大用户群服务的劫持更加是黑色收入的重要来源,也就是说服务器的安全性直接影响着用户上传数据的安全,在服务器虚拟化技术的支撑下V2V迁移的可靠性相当高,多数的云存储厂商都预备安全防护方案,但是不能忽视的永远人的操作。 自动同步
Windows客户端在指定目录下添加、修改、删除文件或目录,这种状态将会自动同步到云端。如果云端任意一个文件被添加、修改、删除,也会自动同步到当前Windows电脑。
选择性同步
用户不需要把云端所有的文件都同步到Windows电脑中,可根据需要,在Windows客户端进行选择性同步。选择一个或多个子目录进行同步。
文件共享
提供目录共享,企业成员可在共享目录编辑文件后,可自动同步到对方目录中。提供文件外链与文件分享,成员可将文件进行外部分享。
快速部署
通过单一安装文件完成,自动获取安装所需信息,无需用户干预。
历史版本恢复.
用户多次编辑文件后,可根据时间找到以前的版本,并可恢复。 软件架构
采用元/流分开技术模型,原数据存储在数据库中、流数据加密并混淆存在的硬盘介质上和信云盘采用Nginx服务器负载均衡方案以及Mysql冗余备份方案,确保系统高可靠性与数据库的高可用性。
多终端支持
提供多终端支持,包括:Windows PC客户端、Android手机客户端、iPhone手机客户端、适配多款浏览器等。
完善后台管理
提供完善的管理后台。包括系统是否开放注册、Logo修改、用户管理、文件管理、用户统计、文件统计等操作。
运行环境
具有很好的兼容性和信云存储支持主流机型。包括:Windows XP、Windows 7、Android手机、iPhone手机、IE8浏览器、Chrome浏览器、Firefox浏览器等。
节点配置
CPU 支持ACPI规范中P-State,内存1G以上,硬盘空余空间1G以上,百兆及以上以太网,显示器屏幕分辩率1024×768及以上,使用IE 8和Firefox 4.0及更高版本的浏览器。
性能
千兆网络情况下,每秒可达50M传输速度。单节点数据规模达到1千万,系统可正常运转。
结合等保管理的需求,在私有云存储的设计,还应该考虑到员工个人私钥加解密的功能,即员工根据工作权限分级的不同存放在企业私云上的文件应该是加密保存的,信息管理人员无法直接从服务端数据库中获取到明文的文件,只有分发了特定密钥的客户端下载文件后,才能在系统后台完成透明还原。 1、节约成本
云存储从短期和长期来看,最大的特点就是可以为小企业减少成本。因为如果小企业想要放在他们自己的服务器上存储,那就必须购买硬件和软件,要知道它是多么昂贵的。接着,企业还要聘请专业的IT人士,管理这些硬件和软件的维护工作,并且还要更新这些设备和软件。
通过云存储,服务器商可以服务成千上万的中小企业,并可以划分不同消费群体服务。它可以担负起一个初创公司拥有最新、最好的存储成一部分成本,来帮助初创公司减少不必要的成本预算。相比传统的存储扩容,云存储架构采用的是并行扩容方式,当客户需要增加容量时,可按照需求采购服务器,简单增加即可实现容量的扩展:新设备仅需安装操作系统及云存储软件后,打开电源接上网络,云存储系统便能自动识别,自动把容量加入存储池中完成扩展。扩容环节无任何限制。
2、更好的备份本地数据并可以异地处理日常数据
如果你的所在办公场所发生自然灾害,由于你的数据是异地存储,因此是它非常安全的。即使自然灾害让你不能通过网络访问到数据,但是数据依然存在。如果问题只出现在你的办公室或者你所在的公司,那么可以你可以随便去一个地方用你的笔记本来访问重要数据和更新数据。它可以让你保持在恶劣条件下依然让你保持工作。
在以往的存储系统管理中,管理人员需要面对不同的存储设备,不同厂商的设备均有不同的管理界面,使得管理人员要了解每个存储的使用状况(容量、负载等)的工作复杂而繁重。而且,传统的存储在硬盘或是存储服务器损坏时,可能会造成数据丢失,而云存储则不会,如果硬盘坏掉,数据会自动迁移到别的硬盘,大大减轻了管理人员的工作负担。对云存储来说,再多的存储服务器,在管理人员眼中也只是一台存储器,每台存储服务器的使用状况,通过一个统一管理界面监控,使得维护变得简单和易操作。
当然,这不是意味你应该忘记备份数据。云存储提供给大多数的公司备份自己重要数据和保护个人数据。
3、更多的访问和更好的竞争
公司员工不在需要通过本地网络来访问公司信息。这就可以让公司员工甚至是合作商在任何地方访问他们需要的数据。
因为中小企业不需要花费上千万美元来打造最新技术和最新应用来创造最好的系统,所以云存储为中小企业和大公司竞争铺平道路。事实上,对于很多企业来说,云存储利于小企业比大企业更多,原因就是大企业已经花重金打造自己的数据存储中心。