研究网络存储
❶ 网络存储技术的工作原理是什么有图解释么
网络存储技术(Network Storage Technologies)是基于数据存储的一种通用网络术语。网络存储结构大致分为三种:直连式存储(DAS:Direct Attached Storage)、网络存储设备(NAS:Network Attached Storage)和存储网络(SAN:Storage Area Network)。
网络存储技术
直连式存储(DAS):这是一种直接与主机系统相连接的存储设备,如作为服务器的计算机内部硬件驱动。到目前为止,DAS 仍是计算机系统中最常用的数据存储方法。 DAS即直连方式存储,英文全称是Direct Attached Storage。中文翻译成“直接附加存储”。顾名思义,在这种方式中,存储设备是通过电缆(通常是SCSI接口电缆)直接到服务器的。I/O(输入/输入)请求直接发送到存储设备。DAS,也可称为SAS(Server-Attached Storage,服务器附加存储)。它依赖于服务器,其本身是硬件的堆叠,不带有任何存储操作系统。
DAS的适用环境为:
1) 服务器在地理分布上很分散,通过SAN(存储区域网络)或NAS(网络直接存储)在它们之间进行互连非常困难时(商店或银行的分支便是一个典型的例子); 2) 存储系统必须被直接连接到应用服务器(如Microsoft Cluster Server或某些数据库使用的“原始分区”)上时; 3) 包括许多数据库应用和应用服务器在内的应用,它们需要直接连接到存储器上,群件应用和一些邮件服务也包括在内。 典型DAS结构如图所示: 典型DAS结构如图所示
对于多个服务器或多台PC的环境,使用DAS方式设备的初始费用可能比较低,可是这种连接方式下,每台PC或服务器单独拥有自己的存储磁盘,容量的再分配困难;对于整个环境下的存储系统管理,工作烦琐而重复,没有集中管理解决方案。所以整体的拥有成本(TCO)较高。目前DAS基本被NAS所代替。下面是DAS与NAS的比较。 DAS与NAS的比较图
网络存储设备(NAS):NAS 是一种采用直接与网络介质相连的特殊设备实现数据存储的机制。由于这些设备都分配有 IP 地址,所以客户机通过充当数据网关的服务器可以对其进行存取访问,甚至在某些情况下,不需要任何中间介质客户机也可以直接访问这些设备。
NAS网络存储器
1. 最大存储容量
最存储大存储容量是指NAS存储设备所能存储数据容量的极限,通俗的讲,就是NAS设备能够支持的最大硬盘数量乘以单个硬盘容量就是最大存储容量。这个数值取决于NAS设备的硬件规格。不同的硬件级别,适用的范围不同,存储容量也就有所差别。通常,一般小型的NAS存储设备会支持几百GB的存储容量,适合中小型公司作为存储设备共享数据使用,而中高档的NAS设备应该支持T级别的容量(1T=1000G)。
2. 处理器
同普通电脑类似,NAS产品也都具有自己的处理器(CPU)系统,来协调控制整个系统的正常运行。其采用的处理器也常常与台式机或服务器的CPU大体相同。目前主要有以下几类。 (1)Intel系列处理器 (4)AMD系列处理器 (5)PA-RISC型处理器 (6)PowerPC处理器 (7)MIPS处理器 一般针对中小型公司使用NAS产品采用AMD的处理器或Intel PIII/PIV等处理器。而大规模应用的NAS产品则使用Intel Xeon处理器、或者RISC型处理器等。但是也不能一概而论,视具体应用和厂商规划而定。
3. 内存
NAS从结构上讲就是一台精简型的电脑,每台NAS设备都配备了一定数量的内存,而且大多用户以后可以扩充。在NAS设备中,常见的内存类型由SDRAM(同步内存)、FLASH(闪存)等。不同的NAS产品出厂时配备的内存容量不同,一般为几十兆到数GB(1GB=1000MB)容量不等,这取决于NAS产品的应用范围,一般来讲,应用在小规模的局域网当中的NAS,如果只是应付几台设备的访问,64M以下内存容量即可。如果是上百个节点以上的访问,就得需要上G容量的内存。当然,这不是绝对的因素,NAS产品的综合性能发挥还取决于它的处理器能力、硬盘速度及其网络实际环境等因素的制约。总之,选购NAS产品时,应该综合考虑各个方面的性能参数。
4. 接口
NAS产品的外部接口比较简单,由于只是通过内置网卡与外界通讯,所以一般只具有以太网络接口,通常是RJ45规格,而这种接口网卡一般都是100M网卡或1000M网卡。另外,也有部分NAS产品需要与SAN(存储区域网络)产品连接提供更为强大的功能,所以也可能会有FC(Fiber Channel光纤通道)接口。
5. 预置软件系统
预制操作系统是指NAS产品出厂时随机带的操作系统或者管理软件。目前NAS产品一般带有以下几种系统软件。 精简的WINDOWS2000系统 这类系统只是保留了WINDOWS2000 SERVER系统核心网络中最重要的部分,能够驱动NAS产品正常工作。我们可以把它理解为WINDOWS2000的“精简版”。 FreeBSD嵌入式系统 FreeBSD是类UNIX系统,在网络应用方面具备极其优异的性能。 Linux嵌入式系统 Linux系统类似于UNIX操组系统,但相比之下具有界面友好、内核升级迅速等特点。常常用来作为电器等产品的嵌入式控制系统。
6. 网络管理
网络管理,是指网络管理员通过网络管理程序对网络上的资源进行集中化管理的操作,包括配置管理、性能和记账管理、问题管理、操作管理和变化管理等。一台设备所支持的管理程度反映了该设备的可管理性及可操作性。 一般的网络满足SNMP MIB I / MIB II统计管理功能。常见的网络管理方式有以下几种: (1)SNMP管理技术 (2)RMON管理技术 (3)基于WEB的网络管理 SNMP是英文“Simple Network Management Protocol”的缩写,中文意思是“简单网络管理协议”。SNMP首先是由Internet工程任务组织(Internet Engineering Task Force)(IETF)的研究小组为了解决Internet上的路由器管理问题而提出的。 SNMP是目前最常用的环境管理协议。SNMP被设计成与协议无关,所以它可以在IP,IPX,AppleTalk,OSI以及其他用到的传输协议上被使用。SNMP是一系列协议组和规范(见下表),它们提供了一种从网络上的设备中收集网络管理信息的方法。SNMP也为设备向网络管理工作站报告问题和错误提供了一种方法。 目前,几乎所有的网络设备生产厂家都实现了对SNMP的支持。领导潮流的SNMP是一个从网络上的设备收集管理信息的公用通信协议。设备的管理者收集这些信息并记录在管理信息库(MIB)中。这些信息报告设备的特性、数据吞吐量、通信超载和错误等。MIB有公共的格式,所以来自多个厂商的SNMP管理工具可以收集MIB信息,在管理控制台上呈现给系统管理员。 通过将SNMP嵌入数据通信设备,如交换机或集线器中,就可以从一个中心站管理这些设备,并以图形方式查看信息。目前可获取的很多管理应用程序通常可在大多数当前使用的操作系统下运行,如Windows3.11、Windows95 、Windows NT和不同版本UNIX的等。 一个被管理的设备有一个管理代理,它负责向管理站请求信息和动作,代理还可以借助于陷阱为管理站提供站动提供的信息,因此,一些关键的网络设备(如集线器、路由器、交换机等)提供这一管理代理,又称SNMP代理,以便通过SNMP管理站进行管理。
7. 网络协议
网络协议即网络中(包括互联网)传递、管理信息的一些规范。如同人与人之间相互交流是需要遵循一定的规矩一样,计算机之间的相互通信需要共同遵守一定的规则,这些规则就称为网络协议。 一台计算机只有在遵守网络协议的前提下,才能在网络上与其他计算机进行正常的通信。网络协议通常被分为几个层次,每层完成自己单独的功能。通信双方只有在共同的层次间才能相互联系。常见的协议有:TCP/IP协议、IPX/SPX协议、NetBEUI协议等。在局域网中用得的比较多的是IPX/SPX.。用户如果访问Internet,则必须在网络协议中添加TCP/IP协议。 TCP/IP是“transmission Control Protocol/Internet Protocol”的简写,中文译名为传输控制协议/互联网络协议)协议, TCP/IP(传输控制协议/网间协议)是一种网络通信协议,它规范了网络上的所有通信设备,尤其是一个主机与另一个主机之间的数据往来格式以及传送方式。TCP/IP是INTERNET的基础协议,也是一种电脑数据打包和寻址的标准方法。在数据传送中,可以形象地理解为有两个信封,TCP和IP就像是信封,要传递的信息被划分成若干段,每一段塞入一个TCP信封,并在该信封面上记录有分段号的信息,再将TCP信封塞入IP大信封,发送上网。在接受端,一个TCP软件包收集信封,抽出数据,按发送前的顺序还原,并加以校验,若发现差错,TCP将会要求重发。因此,TCP/IP在INTERNET中几乎可以无差错地传送数据。 对普通用户来说,并不需要了解网络协议的整个结构,仅需了解IP的地址格式,即可与世界各地进行网络通信。 IPX/SPX是基于施乐的XEROX’S Network System(XNS)协议,而SPX是基于施乐的XEROX’S SPP(Sequenced Packet Protocol:顺序包协议)协议,它们都是由novell公司开发出来应用于局域网的一种高速协议。它和TCP/IP的一个显着不同就是它不使用ip地址,而是使用网卡的物理地址即(MAC)地址。在实际使用中,它基本不需要什么设置,装上就可以使用了。由于其在网络普及初期发挥了巨大的作用,所以得到了很多厂商的支持,包括microsoft等,到现在很多软件和硬件也均支持这种协议。 NetBEUI即NetBios Enhanced User Interface ,或NetBios增强用户接口。它是NetBIOS协议的增强版本,曾被许多操作系统采用,例如Windows for Workgroup、Win 9x系列、Windows NT等。NETBEUI协议在许多情形下很有用,是WINDOWS98之前的操作系统的缺省协议。总之NetBEUI协议是一种短小精悍、通信效率高的广播型协议,安装后不需要进行设置,特别适合于在“网络邻居”传送数据。所以建议除了TCP/IP协议之外,局域网的计算机最好也安上NetBEUI协议。另外还有一点要注意,如果一台只装了TCP/IP协议的WINDOWS98机器要想加入到WINNT域,也必须安装NetBEUI协议。
8. 网络文件协议
网络文件系统是基于网络的分布式文件系统,其文件系统树的各节点可以存在于不同的联网计算机甚至不同的系统平台上,可以用来提供跨平台的信息存储与共享。 当今最主要的两大网络文件系统是Sun提出的NFS(Network File System)以及由微软、EMC和NetApp提出的CIFS(Common Internet File System),前者主要用于各种Unix平台,后者则主要用于Windows平台,我们熟悉的“网上邻居”的文件共享方式就是基于CIFS系统的。其他着名的网络文件系统还有Novell公司的NCP(网络控制协议)、Apple公司的AFP以及卡内基-梅隆大学的Coda等,NAS的主要功能之一便是通过各种网络文件系统提供存储服务。
9. 网络备份软件
目前在数据存储领域可以完成网络数据备份管理的软件产品主要有Legato公司的NetWorker、IBM公司 的Tivoli、Veritas公司 的NetBackup等。另外有些操作系统,诸如Unix的tar/cpio、Windows2000/NT的Windows Backup、Netware的Sbackup也可以作为NAS的备份软件。
NetBackup
NetBackup是Veritas公司推出的适用于中型和大型的存储系统的备份软件,可以广泛的支持各种开放平台。另外该公司还推出了适合低端的备份软件Backup Exec。
NetWorker
NetWorker是Legato公司推出的备份软件,它适用于大型的复杂网络环境,具有各种先进的备份技术机制,广泛的支持各种开放系统平台。值得一提的是, NetWorker中的Cellestra技术第一个在产品上实现了Serverless Backup(无服务器备份)的思想。
IBM Tivoli
IBM Tivoli是IBM公司推出的备份软件,与Veritas的NetBackup和Legato的NetWorker相比,Tivoli Storage Manager更多的适用于IBM主机为主的系统平台,其强大的网络备份功能可以胜任大规模的海量存储系统的备份需要。 此外,CA公司原来的备份软件ARCServe,在低端市场具有相当广泛的影响力。其新一代备份产品--BrightStor,定位直指中高端市场,也具有不错的性能。 选购备份软件时,应该根据不同的用户需要选择合适的产品,理想的网络备份软件系统应该具备以下功能:
集中式管理
网络存储备份管理系统对整个网络的数据进行管理。利用集中式管理工具的帮助,系统管理员可对全网的备份策略进行统一管理,备份服务器可以监控所有机器的备份作业,也可以修改备份策略,并可即时浏览所有目录。所有数据可以备份到同备份服务器或应用服务器相连的任意一台磁带库内。
全自动的备份
备份软件系统应该能够根据用户的实际需求,定义需要备份的数据,然后以图形界面方式根据需要设置备份时间表,备份系统将自动启动备份作业,无需人工干预。这个自动备份作业是可自定的,包括一次备份作业、每周的某几日、每月的第几天等项目。设定好计划后,备份作业就会按计划自动进行。
数据库备份和恢复
在许多人的观念里,数据库和文件还是一个概念。当然,如果你的数据库系统是基于文件系统的,当然可以用备份文件的方法备份数据库。但发展至今,数据库系统已经相当复杂和庞大,再用文件的备份方式来备份数据库已不适用。是否能够将需要的数据从庞大的数据库文件中抽取出来进行备份,是网络备份系统是否先进的标志之一。
在线式的索引
备份系统应为每天的备份在服务器中建立在线式的索引,当用户需要恢复时,只需点取在线式索引中需要恢复的文件或数据,该系统就会自动进行文件的恢复。
归档管理
用户可以按项目、时间定期对所有数据进行有效的归档处理。提供统一的Open Tape Format 数据存储格式从而保证所有的应用数据由一个统一的数据格式作为永久的保存,保证数据的永久可利用性。
有效的媒体管理
备份系统对每一个用于作备份的磁带自动加入一个电子标签,同时在软件中提供了识别标签的功能,如果磁带外面的标签脱落,只需执行这一功能,就会迅速知道该磁带的内容。
满足系统不断增加的需求
备份软件必须能支持多平台系统,当网络上连接上其它的应用服务器时,对于网络存储管理系统来说,只需在其上安装支持这种服务器的客户端软件即可将数据备份到磁带库或光盘库中。
10. 网站浏览器支持
网站浏览器支持是指能否够通过WEB(就是WWW,俗称互联网)手段对NAS产品进行管理,以及管理时使用的浏览器类型。绝大部分的NAS产品都支持WEB管理,这样的好处是管理方便,用户在任何地方只要能够上网就可以轻松的管理NAS设备。 目前NAS产品支持的常用浏览器有微软的IE(Internet Explorer)浏览器以及网景公司的Netscape浏览器。
11. 网络服务
网络服务是指NAS产品在运行时系统能够提供何种服务。典型的网络服务有DHCP、DNS、FTP、Telnet、WINS、SMTP等。
DHCP
DHCP的全名是“Dynamic Host Configuration Protocol”,即动态主机配置协议。在使用DHCP的网络里,用户的计算机可以从DHCP服务器那里获得上网的参数,几乎不需要做任何手工的配置就可以上网。 一般情况下,DHCP服务器会尽量保持每台计算机使用同一个IP地址上网。如果计算机长时间没有上网或配置为使用静态地址上网,DHCP服务器就会把这个地址分配给其他计算机。
WINS
WINS是“Windows Internet Name Service”的简称,中文为Windows网际命名服务,WINS服务器主要用于NetBIOS名字(计算机名称)服务,它处理的是NetBIOS计算机名(Computer Name),所以也被称为NetBIOS名字服务器(NBNS,NetBIOS Name Server)。WINS服务器可以登记WINS-enabled工作站(下面简称为“WINS工作站”)的计算机名、IP地址、DNS域名等数据,当工作站查询名字时,它又可以将这些数据提供给工作站。
DNS
DNS,Domain Name System或者Domain Name Service(域名系统或者余名服务)。域名系统为Internet上的主机分配域名地址和IP地址。用户使用域名地址,该系统就会自动把域名地址转为IP地址。域名服务是运行域名系统的Internet工具。执行域名服务的服务器称之为DNS服务器,通过DNS服务器来应答域名服务的查询。
FTP
文件传输协议FTP(File Transfer Protocol)是Internet传统的服务之一。FTP使用户能在两个联网的计算机之间传输文件,它是Internet传递文件最主要的方法。使用匿名(Anonymous)FTP, 用户可以免费获取Internet丰富的资源。除此之外,FTP还提供登录、目录查询、文件操作及其他会话控制功能。
SMTP
SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP协议属于TCP/IP协议族,它帮助每台计算机在发送或中转信件时找到下一个目的地。通过SMTP协议所指定的服务器,我们就可以把E-mail寄到收信人的服务器上了,整个过程只要几分钟。SMTP服务器则是遵循SMTP协议的发送邮件服务器,用来发送或中转你发出的电子邮件。
Telnet
有的时候我们需要运行一些很大的程序,而自己的PC又达不到运行这个程序所必须的配置,在这种情况下,我们可以通过网络连接上一台功能强大的计算机,并且把自己的PC模拟成那台计算机的终端,进而达到在该计算机上运行程序的目的。这种利用网络远程登录到其他计算机上,并且以虚拟终端方式遥控程序运行的做法就是TELNET。随着计算机硬件的发展,目前TELNET在一般网络用户中已经不是很普遍了,但是对于网络管理员来说,它仍然是个得力助手。
12. 网络安全
网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。 网络安全实际上包括两部分:网络的安全和主机系统的安全。网络安全主要通过设置防火墙来实现,也可以考虑在路由器上设置一些数据包过滤的方法防止来自Internet上的黑客的攻击。至于系统的安全则需根据不同的操作系统来修改相关的系统文件,合理设置用户权限和文件属性。 NAS产品的网络安全应具有以下四个方面的特征: 保密性:信息不泄露给非授权用户、实体或过程,或供其利用的特性。 完整性: 数据未经授权不能进行改变的特性。即信息在存储或传输过程中保持不被修 改、不被破坏和丢失的特性。 可用性:可被授权实体访问并按需求使用的特性。即当需要时能否存取所需的信息。例 如网络环境下拒绝服务、破坏网络和有关系统的正常运行等都属于对可用性的攻击; 可控性:对信息的传播及内容具有控制能力。
13. NAS
NAS是英文“Network Attached Storage”的缩写, 中文意思是“网络附加存储”。按字面简单说就是连接在网络上, 具备资料存储功能的装置,因此也称为“网络存储器”或者“网络磁盘阵列”。 从结构上讲,NAS是功能单一的精简型电脑,因此在架构上不像个人电脑那么复杂,在外观上就像家电产品,只需电源与简单的控制钮, 结构图如下: NAS是一种专业的网络文件存储及文件备份设备,它是基于LAN(局域网)的,按照TCP/IP协议进行通信,以文件的I/O(输入/输出)方式进行数据传输。在LAN环境下,NAS已经完全可以实现异构平台之间的数据级共享,比如NT、UNIX等平台的共享。 一个NAS系统包括处理器,文件服务管理模块和多个硬盘驱动器(用于数据的存储)。 NAS 可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地在NAS上存取任意格式的文件,包括SMB格式(Windows)NFS格式(Unix, Linux)和CIFS(Common Internet File System)格式等等。典型的NAS的网络结构如下图所示: 存储网络(SAN):SAN 是指存储设备相互连接且与一台服务器或一个服务器群相连的网络。其中的服务器用作 SAN 的接入点。在有些配置中,SAN 也与网络相连。SAN 中将特殊交换机当作连接设备。它们看起来很像常规的以太网络交换机,是 SAN 中的连通点。SAN 使得在各自网络上实现相互通信成为可能,同时并带来了很多有利条件。 SAN英文全称:Storage Area Network,即存储区域网络。它是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网。 SAN由三个基本的组件构成:接口(如SCSI、光纤通道、ESCON等)、连接设备(交换设备、网关、路由器、集线器等)和通信控制协议(如IP和SCSI等)。这三个组件再加上附加的存储设备和独立的SAN服务器,就构成一个SAN系统。SAN提供一个专用的、高可靠性的基于光通道的存储网络,SAN允许独立地增加它们的存储容量,也使得管理及集中控制(特别是对于全部存储设备都集群在一起的时候)更加简化。而且,光纤接口提供了10 km的连接长度,这使得物理上分离的远距离存储变得更容易.
❷ 浅谈网络存储技术在校园网络中的应用论文
浅谈网络存储技术在校园网络中的应用论文
1网络存储技术
1.1概述
网络存储基于标准的网络协议实现数据传输,从而使网络中的其他设备可以对数据进行读取、备份等操作。网络存储技术包括:直连式存储(CDAS)、网络依附式存储CNAS)和存储区域网络(CSAN)。在校园网络中,我们主要应用安全性能更好、稳定性更高的存储区域网络。
1.2存储区域网络
存储区域网络即Storage Area Network,它采用光纤通道作为媒介,整个存储系统和服务器相互独立。对存储系统的升级、维护等操作不会影响服务器的正常运行。这样,安全性、可扩展性得到了有效的保障,而光纤通道的运用则大大提高了数据传输效率。
在存储区域网络中,网络设备和数据均采用中心化管理,可随时调配存储空间用于网络服务并通过“独立磁盘冗余阵列”技术,保障数据的安全性。
1.3光纤通道
光纤通道是一种分层的高速通信协议,它包括物理层,编码解码层,帧中继/流量控制层,通用服务层和上层协议层五层,并支持1-10 Gbp、的数据速率,可以保障存储区域网的数据信息高效传输。
1.4独立磁盘冗余阵列(CRAID)
RAID技术可以把多块独立的磁盘按不同的方式组合成一个逻辑硬盘,这样就可以提高存储设备的存储性能和冗余性。经过不断发展RAID已经有了0到6七种RADI级别。其中RAID 0为无冗余无校验磁盘阵列,读写最快但安全性不高;RAID 1为镜像磁盘阵列,1对1镜像备份,是最为安全的'。
在校园网络存储中,通常采用最为高效的RAID 5 0RAID 5兼顾了存储性能、数据安全和存储成本,具有和RAID 0相近的读写速度。RAID 5由多个数据对应一个奇偶校验信息,可允许一个物理磁盘出现故障,相比RAID1,大大提高了磁盘利用率。
2构建校园网络存储
2.1必要性
高校通常会集中运维大量的应用系统:邮件系统,数据库服务器,OA服务器、网络教学平台、网络试题平台等。通过构建网络存储,可提高存储利用率、降低硬件成本、简化管理维护工作,并可实现数据集中备份。
2.2组建存储区域网络
部署一台具有4个8Gbp、光纤通道接口的终端存储系统,并配置16块6006 lOK转高速磁盘,以及16块3TB7.2K转大容量磁盘。
为终端存储系统配置支持热插拔的双存储控制器。这样,就可在不中断业务的情况下扩展磁盘容量,或对磁盘进行更换。两个控制器之间相互热备,无缝对接。当一个控制器出现故障时,另一个控制器可以接管故障控制器的业务。故障修复后,可自动切回原有业务。
部署配备万兆模块的数据交换机,将此交换机联入应用服务系统的网络,并通过存储服务器上的光纤通道接口将交换机和存储系统相连。通过配置使所需存储的应用服务系统与存储系统形成通路。
2.3相关服务端使用网络存储的方法
在存储控制器上为需要连接存储的应用服务创建相应的逻辑单元号(CLUN),同时为该逻辑单元号划分合理的存储空间。在应用服务端通过启动器寻址找到目标器,关联相应的逻辑单元号并建立连接。通过查找新硬件可发现网络磁盘,格式化后即可将其当作本地磁盘使用。
3结论
物联网、云存储、大数据等一系列先进技术,都离不开数据。数据无疑是未来校园网络的核心。而网络存储技术则支撑着数据安全、稳定的存储或传输。运用好网路存储技术,不但为现有的网络信息资源,教学、科研平台等提供了稳定、安全的服务,更为学校将来在信息技术方向的研究与发展储备了必要的技术支持。
;❸ 求网络数据包存储研究的意义。
存储——第三个主角登场
20年前,我们开始以计算为核心谈论PC浪潮。10年前,我们开始以网络为中心谈论网络浪潮。今天,我们开始谈论存储浪潮,并且已经过渡到以数据为中心了。
存储是数据的“家”。处理、传输、存储是信息技术最基本的三个概念,任何信息基础设施、设备都是这三者的组合。
历史学家发现:每当存储技术有一个划时代的发明,在这之后的300年内就会有一个大的社会进步和繁荣高峰。
存储的昨天
存储是信息跨越时间的传播。几千年前的岩画、古书,以及近代的照相技术、留声机技术、电影技术等的发明,极大丰富了我们的信息获取渠道。这些都是和存储技术的发明分不开的。从20世纪开始信息技术发生了历史性的转移,“万物皆可数”,这对人类历史将具有深刻的意义。
存储的今天
可以将当代信息技术的总轮廓归纳为以下三部曲。
第一步:把现实各种各样信息形式的现实域转化为数字域;第二步:在数字域中进行三种简单的操作,即处理、传输、存储;第三步:再把数字域转化为现实域。
存储技术特点
对于半导体存储(RAM、ROM、Flash)技术,其特点是存储速度快,但是容量小;而磁存储(硬盘、软盘、磁带)容量大,速度慢;光存储(CD、DVD、MO、PC、BD、全息)综合了两者的优点,容量大,速度快,但是还是达不到我们所希望的容量和速度。一种理想的存储技术正在探索之中,设计思想是由一种具有绝对优势的存储技术来统一现有技术,采用“固态RAM”,容量将像硬盘那样大,速度像内存那样快,掉电后信息不丢失。
各种存储系统组合
任何单一的存储器件和设备都无法满足目前网络对存储的需求,存储资源单元一定要组合起来,以提供大容量、高性能、低价格、高可用、高安全的存储系统为目的的存储资源(注:存储资源不是数据资源)组合。
最经典的组合是Cache和虚拟存储器(VM)的组合。Cache是指SRAM与DRAM的组合,VM是指DRAM与DISK的组合,它们看起来是又大又快又便宜的存储器,这是教科书中常提到的。
目前用得最多的是磁盘阵列,是多个硬盘的组合,特点是容量大、速度快,而且最好的特点是可用性增加,即使有硬盘坏了,信息仍可用。这里把通信中的纠错理论用到磁盘中来,利用奇偶校验技术恢复数据,保证了信息的安全。这一点很重要。
若把多个磁盘阵列通过网络连接起来,用存储虚拟化软件把它们作为大的存储池,这样就有了更大规模的存储资源,存储成为中心,虚拟存储池好比是水库,服务器好比是抽水器,网络就成为水管,为我们提供信息。
还有一种新的技术,就是大规模的集群存储,是大量机器内硬盘的组合,不同于前面所讲的存储系统。如Google的存储信息系统0.5s就可以把信息提取出来。它的实现是通过多个PC内部硬盘空间的组合,拥有899个机架,每架80台PC的规模,共79112台PC机,每台2个硬盘,就有158224个硬盘,6180TB容量。
对等存储(P2P)是把各用户的PC机当作存储系统,大量加盟的PC机和服务器中的存储器组合成的存储系统,提供高带宽的视频服务和其他共享服务。
其他组合还包括虚拟磁带库等技术。
各种组合的目的都是为了形成虚拟的大容量、高性能、低成本、高可靠、高安全的存储器。空间分布和性能相比,空间分布越小性能越高、越近性能越高;控制权与安全性相比,越集中控制安全性最高。不同的组合有不同的用途,如P2P存储很适合公共共享资源(电影、电视、音乐),对关键的、私有的、保密的信息不适用;反之,EMC、IBM、HDS、HP等的大型阵列可提供高可靠、高性能、集中控制,用来存储一般人接触不到的关键数据。
存储技术的发展
硬件发展存在6个规律,分别两、两关于处理、传输和存储。
(1)Moore定律:微处理器内晶体管数每18个月翻一翻。
(2)Bell定律:如果保持计算能力不变,微处理器的价格每18个月减少一半。
(3)Gilder定律:未来25年(1996年与预言)里,主干网的带宽将每6个月增加1倍。
(4)Metcalfe定律:网络价值同网络用户数的平方成正比。
(5)半导体存储器发展规律:DRAM的密度每年增加60%,每3年翻4倍。
(6)硬盘存储技术发展规律:硬盘的密度每年增加约1倍。
存储本身又有一个新摩尔定律(1998年由图灵奖获得者Jim Gray提出):从现在起,每18个月,新增的存储量等于有史以来存储量之和。数据量信息如此爆炸性增长,对存储就有了非常大的需求的刺激。
存储技术从原理层、器件层、设备层到系统层都有了很大进步。硬盘是发展最快的存储介质。是最重要的大容量存储设备,20世纪50年代由IBM发明以来密度增加了100万倍,到目前为止还没有找到能与之竞争的对手。最近硬盘的产品密度超过每平方英寸100Gb,实验室密度已超过每平方英寸1Tb;主要采用了超低飞行磁头10nm、加钌超稳定介质、PRML读通道、垂直磁记录(硬盘将在2006年全面转为垂直磁记录)等技术,再下一代还有光磁混合纪录等技术。硬盘存储还会进一步提高。
例如微硬盘,可以应用在移动计算、数码相机、数码摄像机和智能手机等领域。
光存储技术也有很大的进展。目前主要有CD-ROM、DVD-ROM、DVD机 DVD-RW(DVR)等。最近要产品化的技术在向高密度进军,已有蓝光DVD上市,每片可达25G的容量,还有多层多阶光存储、近场光存储(1片可以存250G)、全息光存储(1片可以存1T)等。磁光混合存储技术成熟之后密度会进一步增加。
前面提到的理想的存储器固态RAM(Dream Memory),理论上可以达到每平方英寸400T,实现掉电不丢失信息,既可以代替硬盘也可以代替内存,和CPU结合在一起,将使计算机系统在一个单芯片上得以实现。目前在技术上已经实现了,只是存储容量还比较低。
存储系统结构的发展思路
从处理的发展思路来看,是从单处理器-多处理器-多计算机-网格的路线进行的。对于存储也类似,遵从硬盘-阵列-存储网-数据网格的路线发展,由软件和硬件共同实现,系统结构必须和软件相配合,如存储虚拟化软件(单一逻辑映像)、存储资源管理软件(容量、级别、性能)、存储备份、异地容灾、数据迁移软件、数据生命周期管理软件等。
对解决可用性也有了新的思路,如借鉴生物学心脏工作的原理,提出具有耗散结构的存储系统。包括美国和我国在内正在研究这样一种系统,系统中有很多硬盘,具有监测硬盘是否有坏的可能性的功能,一旦监测到硬盘可能会坏,则立刻转移数据,即在数据丢失之前就已经备份,没有数据恢复时间,系统总是保持新鲜的不停机的状态,可用性很强。
随着异构的存储系统规模越来越大,系统越来越难以管理,人为错误越来越多,管理成本越来越高。现在产生一种新的技术叫对象技术,旨在把管理下移,令存储设备包含更多的智能,使得管理大为简化。华中科技大学提出的进化存储系统,就使得存储在物理上进化,数据分布得到进化,解决管理复杂性问题。
另外,也要考虑数据生命周期问题。一切都存下来不是一个好的办法。无限扩大容量,成本无谓增加。管理和保存无用的数据是巨大的浪费,无用信息干扰当前信息存取的性能。
解决途径是向大脑学习遗忘机制,重要的信息深层记忆,不重要的浅层记忆,无用的信息忘掉。
存储的明天
存储需求量还是在急剧增加。目前的视频通信还只能用在小窗口中,如果要是大窗口通信,就会有很大的数据量,现在还没有实现。
麻省理工学院实验室已经成功实现了立体的影像,可以通过全息投影技术,在空间透过玻璃看到立体的影像(图3)。若用超级计算机数据压缩技术计算以后,每秒钟动起来,就可以看到立体的栩栩如生的影像。若将此技术应用在宽带通信上,则通信就会发生革命性的变化,以后就不只是听声音开一个小窗口,而是实现一个活生生的人在你面前和你通话。
You Life bit项目是微软正在开展的非常有意思项目。通过将存储和人的视觉神经连接起来,利用人自己的眼睛在硬盘中把一生中的任何细节的图像存下来。这是个庞大的工程。
信息技术改变了我们的生活,还将不断使社会发生深刻变化。