存储基础技术
1. 信息资源存储有哪些主要技术
1.印刷技术。采用各种印刷技术把文字图像记录在纸上,便于阅读流通。存储密度低,加工难以自动化。
2.光学缩微技术,利用光学缩微技术将文字图像记录在感光材料上,存储密度高,便于收藏,但是阅读设备投资高。
3.磁录光录技术,利用磁录光录技术将声音和图像记录在磁性和光学材料,存储密度高内容直观。表达力强。
4.计算机存储技术,将文字图像音视频转为数字化信息,以磁光盘和网络载体等,密度高,读取快高,速远距传输。
(1).数据压缩技术。数据压缩可以分为无损压缩和有损压缩两大类 。
(2).数据库技术。数据库技术是计算机处理与存储数据的最有效最成功的技术。
(3)文字、图像和语音的识别技术
(4)图像扫描与处理技术
(5)信息数字化技术,将模拟信号形式的音视频转化为数字化音视频的音视频信息数字化技术
2. 大数据的存储
⼤数据的存储⽅式是结构化、半结构化和⾮结构化海量数据的存储和管理,轻型数据库⽆法满⾜对其存储以及复杂的数据挖掘和分析操作,通常使⽤分布式⽂件系统、No sql 数据库、云数据库等。
结构化、半结构化和⾮结构化海量数据的存储和管理,轻型数据库⽆法满⾜对其存储以及复杂的数据挖掘和分析操作,通常使⽤分布式⽂件系统、No SQL 数据库、云数据库等。
1 分布式系统:分布式系统包含多个⾃主的处理单元,通过计算机⽹络互连来协作完成分配的任务,其分⽽治之的策略能够更好的处理⼤规模数据分析问题。
主要包含以下两类:
1)分布式⽂件系统:存储管理需要多种技术的协同⼯作,其中⽂件系统为其提供最底层存储能⼒的⽀持。分布式⽂件系统 HDFS 是⼀个⾼度容错性系统,被设计成适⽤于批量处理,能够提供⾼吞吐量的的数据访问。
2)分布式键值系统:分布式键值系统⽤于存储关系简单的半结构化数据。典型的分布式键值系统有 Amazon Dynamo,以及获得⼴泛应⽤和关注的对象存储技术(Object Storage)也可以视为键值系统,其存储和管理的是对象⽽不是数据块。
2 Nosql 数据库:关系数据库已经⽆法满⾜ Web2.0 的需求。主要表现为:⽆法满⾜海量数据的管理需求、⽆法满⾜数据⾼并发的需求、⾼可扩展性和⾼可⽤性的功能太低。No SQL 数据库的优势:可以⽀持超⼤规模数据存储,灵活的数据模型可以很好地⽀持 Web2.0 应⽤,具有强⼤的横向扩展能⼒等,典型的 No SQL 数据库包含以下⼏种:
3 云数据库:云数据库是基于云计算技术发展的⼀种共享基础架构的⽅法,是部署和虚拟化在云计算环境中的数据库。
3. 存储基础3 存储阵列NAS SAN
存储阵列在IT架构下主要有两种:
盘控一体化架构和盘控分离化架构
管理口的默认IP地址是A控 192.168.128.101 B控 192.168.128.102
存储结构:直接连接存储(DAS)、网络连接存储(NAS)、存储区域网络(SAN)
通过存储的通道不同分为IP SAN 和FC SAN
而无论是IP SAN还是FC SAN都有三种组网结构:
1、直连组网
主机和存储之间通过专用的通道去连接,这个通道可以基于是IP的,也可以是FC。这种通道的实现方式主要是把存储资源通过这个通道提供给上层服务器使用
缺点:所有的存储资源只能为一台服务器提供存储
2、单交换组网
它可以通过网络侧的交换机或者说FC的交换机实现把存储资源共享给多台服务器提供存储
缺点在于应用服务器和交换机以及存储 资源之间只有一条承载链路,任何一条链路出现问题都会导致服务器和应用之间连接失败
3、双交换组网
采用的是两台或主备的方式去实现交换机的连接,所有的应用服务器和存储之间也是通过两条链路去连接,中间断开任何一条链路都不影响整个存储和应用服务之间应用的访问
注意:提到SAN存储,默认指的是FC SAN
无论是IP SAN 还是FC SAN都有以下四个组件:
采用的是光纤作为承载通道。
FC协议栈
我们大多用的是FC-0 FC-1 FC-2这三层,也可以称FC是大二层架构
FC-0主要是定义了物理层的介质,比如:光纤或者铜线、相应的标准、距离等
FC-1主要是定义了协议的编解码的过程
FC-2主要是定义了帧、流控制以及质量控制方面
FC-3主要是加密
FC-4主要是上层协议的封装,比如SCSI,完成SCSI协议到FC协议的转换传输
FC的三种拓扑架构
1、点对点
通过主机侧安装的hub卡以及光纤线缆和设备去连接
缺点:所有的存储只能为一台应用服务器提供服务
2、仲裁环
通过光纤集线器去完成把存储资源共享给多台服务器,提供存储。
缺点:它们都在环路上工作,任何环路上的设备出问题都会导致环路出问题,安全性不高
3、FC-SW
采用交换式的方式去实现FC的组网,这种方式采用FC交换机去实现为更多的上层服务器提供存储资源,同时也可以实现双交换组网的一种方式
它的承载通道采用TCP/IP协议进行承载
实现IP SAN有三种方式:
第一种:
软件主要实现的是从SCSI协议封装成iSCSI的过程
以太网卡主要实现的是把数据传输到外界
第二种:
与第一种的区别就是TOE网卡分担了网卡的一些功能
第三种:
iSCSI卡即完成了数据的封装也完成了数据的发放
不占用任何的主机资源
FC SAN与IP SAN的区别
FC SAN因为距离原因,大多只能在数据中心去做
IP SAN因为是TCP/IP做承载,所以可用于大区域数据
FC SAN速度快,传输效率高
FC SAN成本高
FC SAN采用的是专用的HBA卡 不会被外界攻击
FC SAN更多用在容灾备份的场景
NAS(Network Attached Storage)网络附加存储 :是一种将分布、独立的数据进行整合,集中化管理,以便与对不同主机和应用服务器进行访问的技术。
SAN的所有文件存储都是在主机这侧完成的。
而NAS是把自己的文件系统和自己的操作系统都是在内部实现的,也就是说NAS有自己的文件系统和自己的操作系统去管理自己的内部数据。
NAS对不同操作系统开放的协议不同
Windows是CIFS
Linux是NFS
NAS还支持FTP和HTTP,对外提供文件共享
CIFS(Common Internet File System),通用Internet文件系统,NAS对Windows系统提供文件共享所用的一个协议。
它使程序可以访问远程Internet计算机上的文件并要求此计算机的服务,CIFS可以看做是应用程序协议,如文件传输协议和超文本传输协议的一个实现
架构:C/S
应用:Windows系统共享文件的环境
传输协议:TCP/IP
对网络性能要求较高,如果丢包高的话,会访问失败
NFS (Network File System)网络文件系统。
应用在Linux/Unix文件系统中,通过使用NFS,用户和程序可以像访问本地文件一样访问远端系统上的文件。
架构:C/S
传输:TCP或者UDP
因为支持两种传输协议,所以网络的可靠性安全性方面比CIFS要低
因为Windows上的软件是集成的所以不需要安装,而Linux和Unix则需要安装软件
NAS内部的组成:
NAS文件系统IO与性能影响
主机、网络、NAS本身内部的性能
NAS和SAN的区别:
4. 大数据核心技术有哪些
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
一、数据采集与预处理
对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息。
NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各种工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵循了单元化和平台化的设计哲学。
Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapRece 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式计算是行业研究的一个热点,流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流分析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker因为错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
当使用上游模块的数据进行计算、统计、分析时,就可以使用消息系统,尤其是分布式消息系统。Kafka使用Scala进行编写,是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心,Kafka可以有许多的生产者和消费者分享多个主题,将消息以topic为单位进行归纳;Kafka发布消息的程序称为procer,也叫生产者,预订topics并消费消息的程序称为consumer,也叫消费者;当Kafka以集群的方式运行时,可以由一个服务或者多个服务组成,每个服务叫做一个broker,运行过程中procer通过网络将消息发送到Kafka集群,集群向消费者提供消息。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Procer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作,如果需要将流式数据从Kafka转移到hadoop,可以使用Flume代理agent,将Kafka当做一个来源source,这样可以从Kafka读取数据到Hadoop。
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了手动拷贝配置的繁琐,还很好的保证了数据的可靠和一致性,同时它可以通过名字来获取资源或者服务的地址等信息,可以监控集群中机器的变化,实现了类似于心跳机制的功能。
二、数据存储
Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。
Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。
Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来,Atlas相当于连接它的客户端,在前端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通讯,它实现了MySQL的客户端和服务端协议,同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节,同时为了降低MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责监听所有的客户端连接请求,工作线程只监听主线程的命令请求。
Ku是围绕Hadoop生态圈建立的存储引擎,Ku拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Ku不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。Ku的应用场景很广泛,比如可以进行实时的数据分析,用于数据可能会存在变化的时序数据应用等。
在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显着减少磁盘上的存储。
三、数据清洗
MapRece作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Rece(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。
Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业),然后向Oozie提交Workflow,Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因,用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式,再将workflow对应的Action提交给hadoop执行。
Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务,记录工作流或者任务的日志。
流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台,其特点是易用、实时、可靠,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。
四、数据查询分析
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapRece。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapRece jobs,然后在hadoop上面运行。Hive支持标准的SQL语法,免去了用户编写MapRece程序的过程,它的出现可以让那些精通SQL技能、但是不熟悉MapRece 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈 。Hive 将执行计划分成map->shuffle->rece->map->shuffle->rece…的模型。如果一个Query会被编译成多轮MapRece,则会有更多的写中间结果。由于MapRece执行框架本身的特点,过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中,用户只需要创建表,导入数据,编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapRece批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala将整个查询分成一执行计划树,而不是一连串的MapRece任务,相比Hive没了MapRece启动时间。
Hive 适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证想法的大数据分析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用像Hive那样把它组合成管道型的map->rece模式,以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。
Spark拥有Hadoop MapRece所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等,常用的机器学习算法比如,贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。
五、数据可视化
对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可点击这里免费试用)等。
在上面的每一个阶段,保障数据的安全是不可忽视的问题。
基于网络身份认证的协议Kerberos,用来在非安全网络中,对个人通信以安全的手段进行身份认证,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。
5. 名词解释:存储技术
卡片式存储设备
卡片式存储设备算来算去只有几种,而且都是利用半导体技术来储存资料。存储卡的原理和RAM一样,区别只在于是否使用“Volatile"或“Non-volatile"(后者在没有电源时,存储设备内的资料也能永久保存)技术。
卡片式存储器的应用领域有:
1.数字相机 要算使用存储卡最多的IT产品,数字相机绝对是头一个。由于数字相机需要有一定的容量来储存相片,而且质量越高的相片要求越大的容量,所以数字相机足以保障存储卡有一定的市场。
2.MP3随身听因特网使MP3音乐垂手可得,也使MP3随身听有可能取代MD或CD随身听。而MP3随身听想要保存MP3歌曲文件,办法就是使用存储卡。通常,一部MP3随身听内置的是32MB的存储卡(只能存放约10首歌曲),消费者往往会多买一张64MB的存储卡来保存歌曲。这样就会增大存储卡的销售。
8mm磁带
8mm磁带:是一种由Exabyte公司开发、适合于大中型网络和多用户系统的大容量磁带。8mm磁带驱动器也采用螺旋扫描技术,而且磁带较宽,因而存储容量极高,一盒磁带的最高容量可达150GB
存储卡
这里说的存储卡是用来储存数据资料并且可以在电脑上使用的数据存储卡!
1.CF卡CF卡是最早推出的存储卡,也是大家都比较青睐的存储卡。CF卡得以普及的原因很多,其中比较重要的一点就是物美价廉。比起其他数码存储卡,CF卡单位容量的存储成本差不多是最低的,速度也比较快,而且大容量的CF卡比较容易买到。
我们可以接触的到CF卡分为CFType I/CF Type II两种类型。由于CF存储卡的插槽可以向下兼容,因此TypeII插槽既可以使CF TypeII卡又可以使用CFType I卡;而Type I插槽则只能使用CFType I卡,而不能使用CFType II卡,朋友们在选购和使用的时候一定要注意。
2.SD卡 SD卡体积小巧,广泛应用在数码相机上,是由日本的松下公司、东芝公司和SanDisk公司共同开发的一种全新的存储卡产品,最大的特点就是通过加密功能,保证数据资料的安全保密。SD卡在外形上同MultiMedia Card卡保持一致,并且兼容MMC卡接口规范。不过注意的是,在某些产品例如手机上,SD卡和MMS卡是不能兼容的。SD 卡在售价方面要高于同容量的MultiMedia Card卡。
3.MS卡在5年前,索尼公司生产了它自己的闪存记忆卡,就是记忆棒—MemoryStick。其应用于索尼公司出的数码产品,掌上电脑、MP3、数码相机、数码摄像机等等数码设备。由Memory Stick所衍生出来的Memory Stick PRO和Memory Stick DUO也是索尼记忆棒向高容量和小体积发展的产物。
4.SM卡SM卡最早是由东芝公司推出的,它仅仅是将存储芯片封装起来,自身不包含控制电路,所有的读写操作安全依赖于使用它的设备。尽管由于结构简单可以做得很薄,在便携性方面优于CF卡,但兼容性差是其致命之伤,一张SM卡一旦在MP3播放器上使用过,数码相机就可能不能再读写。其市场表现已呈龙钟之态,不会再有更多新的设备支持它。
5.MMC卡MMC卡是由Sandisk和西门子于1997年联手推出的,它普及还沾了点SD卡的光。后来推出的SD卡标准中保留了设备对MMC卡的兼容,就是说虽然使用MMC卡的设备无法使用SD卡,而使用SD卡的设备却可以毫无障碍地使用MMC卡,在某些时候使得MMC顺利成为SD卡的代替品。MMC卡的大小和SD基本一样,比SD卡要薄一点,不过在读取速度上还是SD强。因此价格也是MMC比较便宜。
6.xD图像卡xD图像卡是继上面几种存储卡而后生的存储卡产品,是由富士胶卷和奥林巴斯光学工业为SM卡的后续产品成功开发的产品。它的特点是集体积更小、容量更大于一身,xD图像卡设计只有一张邮票那么大,未来图像存储能力高达令人惊叹的8GB。
数字线性磁带
DLT(Digital Linear Tape,数字线性磁带)源于1/2英寸磁带机,它出现很早,主要用于数据的实时采集。DLT每盒容量高达40GB以上,成本较低,主要定位于中、高级的服务器市场与磁带库系统。
先进的智能型磁带
AIT(先进的智能型磁带)是SONY公司在快速访问高密度磁带录制技术方面的最新创新,现已成为磁带机工业标准。AIT使用一种磁带盒上含有记忆体晶片的磁带,通过在微型晶片上记录磁带上文件的位置,大大减少了存取时间。
数字音频磁带
ST(Digital Audio Tape:数字音频磁带)磁带:该磁带宽为0.15英寸(4mm),又叫4毫米磁带。ST磁带盒较小,体积仅为73mm×54mm×10.5mm,比一般录音机磁带盒还小。但由于该磁带存储系统采用了螺旋扫描技术,使得该磁带具有很高的存储容量。
差分备份
差分备份(Differential Backup) 就是每次备份的数据是相对于上一次全备份之后新增加的和修改过的数据。差分备份无需每天都做系统完全备份,因此备份所需时间短,并节省磁带空间,它的灾难恢复也很方便,系统管理员只需两盘磁带,即系统全备份的磁带与发生灾难前一天的备份磁带,就可以将系统完全恢复。
映像备份
映像备份(Image copies)不压缩、不打包、直接COPY独立文件(数据文件、归档日志、控制文件),类似操作系统级的文件备份。而且只能COPY到磁盘,不能到磁带。
差异备份
复制自上一次普通备份或增量备份以来被创建或更改的文件的备份。它不将文件标记为已经备份(换句话说,没有清除存档属性)。如果您要执行普通备份和差异备份的组合,则还原文件和文件夹将需要上次已执行过普通备份和差异备份。
SAN
SAN(Storage Area Network―存储区域网络)一类专门用于提供企业商务数据或运营商数据的存储和备份管理的网络。因为是基于网络化的存储,SAN比传统的存储和备份技术拥有更大的容量和更强的性能。通过专门的存储管理软件,可以直接在SAN里的大型主机、服务器或其它服务端电脑上添加硬盘和磁带设备。现在大多数的SAN是基于光纤信道交换机和集线器的。通常SAN被配置成网络的后端部分,存在于数据中心或者服务器场之后
Failover(故障恢复
Failover(故障恢复):功能相当的系统组件替代故障组件的一种自动替代系统。经常使用于连接到相同存储设备和主机计算机的智能控制器。如果其中之一的控制器故障,故障恢复开始启用,其他正常的控制器将负担其I/O工作。
备份记录
备份记录(plicated record)文件记录的复制品。保存在文件库中,与原文件分开存放,是为了防止关键性文件或数据丢失而备制的。也称复制记录。
备份集
备份集(Backup sets)顾名思义就是一次备份的集合,它包含本次备份的所有备份片。一个备份集根据备份的类型不同,可能构成一个完全备份或增量备份。
Backup(备份)
Backup(备份):存储在非易失性存储介质上的数据集合,这些数据用来进行原始数据丢失或者不可访问条件下的数据恢复。为了保证恢复时备份的可用性,备份必须一致性状态下通过拷贝原始数据来实现。
容错
容错:系统在其某一组件故障时仍继续正常工作的功能。容错功能一般通过冗余组件设计来实现。
iSCSI
iSCSI:连接到一个TCP/IP网络的直接寻址的存储库,通过块I/O SCSI指令对其进行访问。ISCSI是一种基于开放的工业标准,通过它可以用TCP/IP对SCSI(小型计算机系统接口--一种数据传输的公共协议)指令进行封装,这样就可以使这些指令能够通过基于IP(以太网或千兆位以太网)“网络”进行传输。这一标准的目的是允许使用现有的以太网网络传输SCSI指令和数据,而这一过程完全不依赖于地点。对这一产品的另外一种描述是,它是连接到TCP/IP网络的存储,但可以使用与DAS和SAN存储一样的I/O指令对其进行访问。
6. 瀹炵幇铏氭嫙瀛桦偍鎶链镄勭墿璐ㄥ熀纭鍖呮嫭
瀹炵幇铏氭嫙瀛桦偍鎶链镄勭墿璐ㄥ熀纭鍖呮嫭浠ヤ笅鍑犱釜鏂归溃锛
- 楂橀熶俊鎭瀛桦彇鎶链锛氲櫄𨰾熷瓨鍌ㄦ妧链闇瑕佸揩阃熷湴瀛桦彇鏁版嵁锛屼互渚垮揩阃熷搷搴旂敤鎴风殑璇锋眰銆傞珮阃熶俊鎭瀛桦彇鎶链鍖呮嫭楂橀熺紦瀛樸侀珮阃熺绣缁溿侀珮阃熷瓨鍌ㄥ櫒绛夈
- 楂橀熶俊鎭浼犺緭鎶链锛氲櫄𨰾熷瓨鍌ㄦ妧链闇瑕佸揩阃熷湴浼犺緭鏁版嵁锛屼互渚垮疄鐜拌櫄𨰾熷瓨鍌ㄧ殑蹇阃熷搷搴斻傞珮阃熶俊鎭浼犺緭鎶链鍖呮嫭楂橀熺绣缁溿侀珮阃熷瓨鍌ㄥ櫒绛夈
- 楂橀熶俊鎭澶勭悊鎶链锛氲櫄𨰾熷瓨鍌ㄦ妧链闇瑕佸揩阃熷湴澶勭悊鏁版嵁锛屼互渚垮疄鐜拌櫄𨰾熷瓨鍌ㄧ殑蹇阃熷搷搴斻傞珮阃熶俊鎭澶勭悊鎶链鍖呮嫭楂橀熻$畻链恒侀珮阃熸带鍒跺櫒绛夈
- 楂橀熶俊鎭浜ゆ崲鎶链锛氲櫄𨰾熷瓨鍌ㄦ妧链闇瑕佸揩阃熷湴浜ゆ崲鏁版嵁锛屼互渚垮疄鐜拌櫄𨰾熷瓨鍌ㄧ殑蹇阃熷搷搴斻傞珮阃熶俊鎭浜ゆ崲鎶链鍖呮嫭楂橀熶氦鎹㈡満銆侀珮阃熻矾鐢卞櫒绛夈
浠ヤ笂杩欎簺鎶链閮芥槸瀹炵幇铏氭嫙瀛桦偍鎶链镄勭墿璐ㄥ熀纭锛屽畠浠鍏卞悓浣灭敤锛屼娇寰楄櫄𨰾熷瓨鍌ㄦ妧链鑳藉熷揩阃熷搷搴旂敤鎴风殑璇锋眰锛屾彁楂樼郴缁熺殑镐ц兘鍜屾晥鐜囥
7. 鏁版嵁搴撴妧链镄勫熀纭鏄()
鏁版嵁搴撴妧链镄勫熀纭鏄鏁版嵁绠$悊鎶链銆
鏁版嵁绠$悊鎶链鍏蜂綋灏辨槸鎸囦汉浠瀵规暟鎹杩涜屾敹闆嗐佺粍缁囥佸瓨鍌ㄣ佸姞宸ャ佷紶鎾鍜屽埄鐢ㄧ殑涓绯诲垪娲诲姩镄勬诲拰锛岀粡铡嗕简浜哄伐绠$悊銆佹枃浠剁$悊銆佹暟鎹搴撶$悊涓変釜阒舵点傛疮涓阒舵电殑鍙戝𪾢浠ユ暟鎹瀛桦偍鍐椾綑涓嶆柇鍑忓皬銆佹暟鎹镫绔嬫т笉鏂澧炲己銆佹暟鎹镎崭綔镟村姞鏂逛究鍜岀亩鍗曚负镙囧织锛屽悇链夊悇镄勭壒镣广
20涓栫邯60骞翠唬钖庢湡浠ユ潵锛屽嚭鐜颁简澶у归噺纾佺洏锛屽瓨鍌ㄥ归噺澶уぇ澧炲姞銆傚湪姝ゅ熀纭涓婏纴镓嶆湁鍙鑳藉厠链嶆枃浠剁郴缁熺$悊鏁版嵁镞剁殑涓嶈冻锛岃屾弧瓒冲拰瑙e喅瀹为檯搴旂敤涓澶氢釜鐢ㄦ埛銆佸氢釜搴旂敤绋嫔簭鍏变韩鏁版嵁镄勮佹眰锛屼粠钥屼娇鏁版嵁鑳戒负灏藉彲鑳藉氱殑搴旂敤绋嫔簭链嶅姟锛岃繖灏卞嚭鐜颁简鏁版嵁搴撹繖镙风殑鏁版嵁绠$悊鎶链銆
8. 信息存储技术的信息存储技术的三大支柱
磁储存技术、缩微技术与光盘技术已成为现代信息存储技术的三大支柱。现代信息存储技术不仅使信息存储高密度化,而且使信息存储与快速检索结合起来,已成为信息工作发展的基础。
1.磁存储技术
磁储存系统,尤其是硬磁盘存储系统是当今各类计算机系统的最主要的存储设备,在信息存储技术中占据统治地位。
(1)磁储存介质磁介质都是在带状或盘状的带基上涂上磁性薄膜制成的,常用的磁存介质有计算机磁带、计算机磁盘(软盘、硬盘)、录音机磁带、录像机磁带等。
(2)磁存的特点
磁能存储声音、图像和热机械振动等一切可以转换成电信号的信息,它具有以下一些特点:存储频带宽广,可以存储从直流到2兆赫以上的信号;信息能长久保持在磁带中,可以在需要的时候重放;能同时进行多路信息的存储:具有改变时基的能力。磁存储技术被广泛地应用于科技信息工作,信息服务之中。磁存储技术为中小文献信息机构建立较大的数据库或建立信息管理系统提供了物质基础,为建立分布式微机信息网络创造了条件。
2.缩微存储技术
是缩微摄影技术的简称,是现代高技术产业之一。缩微存储是用缩微摄影机采用感光摄影原理,将文件资料缩小拍摄在胶片上,经加工处理后作为信息载体保存起来,供以后拷贝、发行、检索和阅读之用。
(1)缩微制品的类型
缩微制品按其类型可分为卷式胶片与片式胶片两大类。卷式胶片采用16mm和35mm的卤化银负片缩微胶卷作为记录介质,胶卷长一般30.48—60.96m,卷式胶片成本低存储容量大,安全可靠,适用于存储率低的大批量资料。片式胶片可分为缩微平片、条片、封套片、开窗卡片等。缩微制品按材料可以分为庙化银胶片、重氮胶片、微泡胶片三种。卤化银胶片是将含有感光溴化银或氯化银晶粒的乳胶涂在塑料片基上制成的,它是最早,也是目前使用广泛的胶片,一般用于制作母片。供用户使用的拷贝片一般采用价格较低的重氯胶片或微泡胶片。
(2)缩微存储技术的特点
20世纪70年代以来,缩微技术发展很快,应用相当广泛。其特点有:缩微品的信息存储量大,存储密度高:缩微品体积小、重量轻,可以节省大量的存储空间,需要的存储设备较少;缩微品成本低价格便宜:缩微品保存期长,在长温下可以保存50年,在适当的温度下可以保存100年以上;缩微品忠实于原件不易出差错;采用缩微技术储存信息,可以将非统一规格的原始文件规格化、标准化,便于管理,便于计算机检索。
(3)缩徽技术的应用缩微技术最引入注目的就是它与微电子、计算机和通信技术相结合而产生的许多性能优异的新技术和新设备。把微电子和复印技术与传统的缩微阅读器相结合,可以生成自动检索的阅读复印机:COM技术能将计算机输出的二进制信息转换成人读缩微影像,并直接把它们记录在缩微片上;CIM技术能将计算机输出的人读影像资料转换成计算机可读二进制信息介质,从而扩大缩微品的应用范围:CIR是一种能将计算机、缩微品和纸三者的长处融为一体的影像资料自动管理系统;CAR具有在一分钟内从一百万页以上的资料中检索出任意一页的能力;视频缩微系统是由缩微、视频和计算机三种技术结合在一起生成的影像资料全文存储检索系统,从中找出任意一页原文文献只需14秒;缩微技术与光盘技术相结合能生成复合系统。
3.光盘存储技术
光盘是用激光束在光记录介质上写入与读出信息的高密度数据存储载体,它既可以存储音频信息,又可以存储视频(图像、色彩、全文信息)信息,还可以用计算机存储与检索。
(1)光盘的种类
光盘产品的种类比较多,按其读写数据的性能可分为以下种类:一是只读式光盘(CD—ROM)已成为存放永久性多媒体信息的理想介质。二是一次写入光盘WORM),也称追记型光盘。用户可根据自己的需要自由地进行记录,但记录的信息无法抹去。WORM的存储系统由WORM光盘、光盘驱动器、计算机、文件扫描器、高分辨率显示器、磁带或磁盘驱动器、打印机、软件等部分组成。三是可擦重写光盘,这种光盘在写入信息之后,还可以擦掉重写新的信息。用于这类光盘的介质有晶相结构可变化的记录介质和磁光记录介质等。
(2)光盘技术的应用
在信息工作中,可以利用光盘技术建立多功能多形式的数据库,如建立二次文献数据库、专利文献数据库、声像资料数据库等:在信息检索中,用CD—ROM信息检索系统检索信息,可反复练习、反复修改检索策略,直到检索结果满意为止。利用光盘可以促进联机检索的发展,可以建立分布式的原文提供系统,节省通信费用,取得较好的经济效果。咨询服务人员也可以利用各类光盘数据库系统向用户提供多种信息检索与快速优质的咨询服务。
9. 存储技术的分类
网络存储技术(NetworkStorageTechnologies)是基于数据存储的一种通用网络术语。网络存储结构大致分为3种:直连式存储(DirectAttachedStorage,DAS)、网络存储设备(NetworkAttachedStorage,NAS)和存储网络(StorageAreaNetwork,SAN)。
1.DAS
DAS是一种直接与主机系统相连接的存储设备,如作为服务器的计算机内部硬件驱动。到目前为止,DAS仍是计算机系统中最常用的数据存储方法。DAS英文全称是DirectAttachedStorage,中文翻译成“直接附加存储”。顾名思义,在这种方式中,存储设备是通过电缆(通常是SCSI接口电缆)直接连接到服务器的。I/O(输入/输出)请求直接发送到存储设备。DAS也可称为服务器附加存储(Server-AttachedStorage,SAS)。它依赖于服务器,其本身是硬件的堆叠,不带有任何存储操作系统。
2.NAS
NAS的中文意思是“网络附加存储”。按字面意思简单地理解就是连接在网络上,具备资料存储功能的装置,因此也称为“网络存储器”或者“网络磁盘阵列”。从结构上讲,NAS是功能单一的精简型计算机,因此在架构上不像个人计算机那么复杂,在外观上就像家电产品,只需电源与简单的控制钮。
NAS是一种专业的网络文件存储及文件备份设备,它是基于LAN(局域网)的,按照TCP/IP协议进行通信,以文件的I/O方式进行数据传输。在LAN环境下,NAS已经完全可以实现异构平台之间的数据级共享,比如NT、Unix等平台的共享。
一个NAS系统包括处理器、文件服务管理模块和多个硬盘驱动器(用于数据的存储)。NAS可以应用在任何网络环境当中。主服务器和客户端可以非常方便地在NAS上存取任意格式的文件,包括SMB格式(Windows)、NFS格式(Unix,Linux)和CIFS(CommonInternetFileSystem)格式等。
3.SAN
SAN是指存储设备相互连接且与一台服务器或一个服务器群相连的网络。其中的服务器用作SAN的接入点。在有些配置中,SAN也与网络相连。SAN将特殊交换机当作连接设备,这些特殊交换机看起来很像常规的以太网络交换机,是SAN中的连通点。SAN使得在各自网络上实现相互通信成为可能,同时带来了很多有利条件。
具体来说,SAN是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网。SAN由3个基本的组件构成:接口(如SCSI、光纤通道、ESCON等)、连接设备(交换设备、网关、路由器、集线器等)和通信控制协议(如IP和SCSI等)。这3个组件再加上附加的存储设备和独立的SAN服务器,就构成一个SAN系统。SAN提供一个专用的、高可靠性的基于光通道的存储网络,SAN允许独立地增加存储容量,也使得管理及集中控制(特别是对于全部存储设备都集群在一起的时候)更加简化。而且,光纤接口提供了10km的连接长度,这使得物理上分离的远距离存储变得更容易。