音频视频存储技术

发布时间: 2022-07-12 02:18:06

① 音视频设备里的数字音频技术有什么特点

数字音频技术具有以下特点:
(1)数据量大
声音、图像以及视频和动画的数据量都十分庞大。1min立体声音采样频率为44.1kHz,16位量化精度的数据量大约为10 MB，存储b一首4min的歌曲约需40M；一副640x480的RGB彩色图像的存储量为900kB;1s(25帧/秒)的视频数据量为22MB,一张650 MB的CD-ROM光盘只能存储约30 s的视频。
(2)数据存在大量冗余
声音、图像以及视频和动画的大量数据中存在着大量的冗余。图像相邻像素之间、视频序列前后帧之间具有很大的相关性，人耳与人眼具有掩蔽效应等听觉和视觉特性，因此，可根据数据的内在联系将数据中的冗余信息去除，通过压缩编码减少数据量。
(3)数据存储容量大，传输效率较高
数字音视频数据量大，在存储与传输的过程中必须进行压缩编码。音视频数字信号经过压缩后,可以在6-8 MHz的传输信道传输2-4套标准清晰度电视(SDTV)节目或一套高清晰度电视( HDTV)节目，而一张压缩格式的DVD存储容量可达7-8CB。
(4)便于进行编辑加工
传统磁带重复听某段音乐或观看某段画面时需不停地倒带、快进,编辑过程也是顺序的线性。数字音视频则不同，它可以瞬时定位，非线性逻辑组织,还可以利用非线性编辑软件做特效。
(5)信息传输存储的可靠性高
数字信号不会产生噪声和失真的积累，便于存储、控制、修改。数字音视频可以不失真地进行无数次复制，而模拟音视频信号每转录一次，就会有一次误差积累，产生信号失真。模拟音视频长时间存放后质量会降低，而数字音视频可以长时间存放而没有任何失真。
(6)有效保护信息和进行版权管理
数字音视频可以方便地与密码及认证技术相结合，便于实现信息加密/解密以及加扰/解扰,适用于专业应用(军用、商用、民用)或条件接收、视频点播、双向互动传送等应用。
(7)具有可扩展性，便于与其他数字设备融合
数字音视频易于与其他系统配合使用，与其他数字设备融合,在各类通信信道和网络上进行传输。易于集成化和大规模生产,其性能一致性好，且成本低。xunwei

② 声音文件的存储格式及其区别

1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，采用44.1kHz的采样频率，16位量化位数，跟CD一样，对存储空间需求太大不便于交流和传播。
2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。把这些指令发送给声卡，由声卡按照指令将声音合成出来。
3. 大家都很熟悉CD这种音乐格式了，扩展名CDA，其取样频率为44.1kHz，16位量化位数，跟WAV一样，但CD存储采用了音轨的形式，又叫“红皮书”格式，记录的是波形流，是一种近似无损的格式。
4. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。MP3能够以高音质、低采样率对数字音频文件进行压缩。换句话说，音频文件(主要是大型文件，比如WAV文件）能够在音质丢失很小的情况下(人耳根本无法察觉这种音质损失)把文件压缩到更小的程度。
5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。
6. WMA (Windows Media Audio)是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的，其压缩率一般可以达到1:18。此外，WMA还可以通过DRM（Digital Rights Management）方案加入防止拷贝，或者加入限制播放时间和播放次数，甚至是播放机器的限制，可有力地防止盗版。
7. MP4采用的是美国电话电报公司（AT&T）所研发的以“知觉编码”为关键技术的a2b音乐压缩技术，由美国网络技术公司(GMO)及RIAA联合公布的一种新的音乐格式。MP4在文件中采用了保护版权的编码技术，只有特定的用户才可以播放，有效地保证了音乐版权的合法性。另外MP4的压缩比达到了1:15，体积较MP3更小，但音质却没有下降。不过因为只有特定的用户才能播放这种文件，因此其流传与MP3相比差距甚远。
8. SACD（SA＝SuperAudio）是由Sony公司正式发布的。它的采样率为CD格式的64倍，即2.8224MHz。SACD重放频率带宽达100kHz，为CD格式的5倍，24位量化位数，远远超过CD，声音的细节表现更为丰富、清晰。
9. QuickTime是苹果公司于1991年推出的一种数字流媒体，它面向视频编辑、Web网站创建和媒体技术平台，QuickTime支持几乎所有主流的个人计算平台，可以通过互联网提供实时的数字化信息流、工作流与文件回放功能。现有版本为QuickTime 1.0、2.0、3.0、4.0和5.0，在5.0版本中还融合了支持最高A/V播放质量的播放器等多项新技术。
10. VQF格式是由YAMAHA和NTT共同开发的一种音频压缩技术，它的压缩率能够达到1:18，因此相同情况下压缩后VQF的文件体积比MP3小30%～50%，更便利于网上传播，同时音质极佳，接近CD音质(16位44.1kHz立体声)。但VQF未公开技术标准，至今未能流行开来。
11. DVD Audio 是新一代的数字音频格式，与DVD Video尺寸以及容量相同，为音乐格式的DVD光盘，取样频率为“48kHz/96kHz/192kHz”和“44.1kHz/88.2kHz/176.4kHz”可选择，量化位数可以为16、20或24比特，它们之间可自由地进行组合。低采样率的192kHz、176.4kHz虽然是2声道重播专用，但它最多可收录到6声道。而以2声道192kHz/24b或6声道96kHz/24b收录声音，可容纳74分钟以上的录音，动态范围达144dB，整体效果出类拔萃
12. Sony公司的MD（MiniDisc）大家都很熟悉了。MD之所以能在一张小小的盘中存储60～80分钟采用44.1khz采样的立体声音乐，就是因为使用了ATRAC算法（自适应声学转换编码）压缩音源。这是一套基于心理声学原理的音响译码系统，它可以把CD唱片的音频压缩到原来数据量的大约1/5而声音质量没有明显的损失。ATRAC利用人耳听觉的心理声学特性（频谱掩蔽特性和时间掩蔽特性）以及人耳对信号幅度、频率、时间的有限分辨能力，编码时将人耳感觉不到的成分不编码，不传送，这样就可以相应减少某些数据量的存储，从而既保证音质又达到缩小体积的目的。
13. RealAudio是由Real Networks公司推出的一种文件格式，最大的特点就是可以实时传输音频信息，尤其是在网速较慢的情况下，仍然可以较为流畅地传送数据，因此RealAudio主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM（RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三种，这些文件的共同性在于随着网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较宽敞的听众获得较好的音质。
14. Liquid Audio是一家提供付费音乐下载的网站。它通过在音乐中采用自己独有的音频编码格式来提供对音乐的版权保护。Liquid Audio的音频格式就是所谓的LQT。如果想在PC中播放这种格式的音乐，你就必须使用Liquid Player和Real Jukebox其中的一种播放器。这些文件也不能够转换成MP3和WAV格式，因此这使得采用这种格式的音频文件无法被共享和刻录到CD中。如果非要把Liquid Audio文件刻录到CD中的话，就必须使用支持这种格式的刻录软件和CD刻录机。
15. Audible拥有四种不同的格式：Audible1、2、3、4。Audible.com网站主要是在互联网上贩卖有声书籍，并对它们所销售商品、文件通过四种Audible.com 专用音频格式中的一种提供保护。每一种格式主要考虑音频源以及所使用的收听的设备。格式1、2和 3采用不同级别的语音压缩，而格式4采用更低的采样率和MP3相同的解码方式，所得到语音吐辞更清楚，而且可以更有效地从网上进行下载。Audible 所采用的是他们自己的桌面播放工具，这就是Audible Manager，使用这种播放器就可以播放存放在PC或者是传输到便携式播放器上的Audible格式文件。
16．VOC文件，在DOS程序和游戏中常会遇到这种文件，它是随声霸卡一起产生的数字声音文件，与WAV文件的结构相似，可以通过一些工具软件方便地互相转换。
17．AU文件，在Internet上的多媒体声音主要使用该种文件。AU文件是UNIX操作系统下的数字声音文件，由于早期Internet上的Web服务器主要是基于UNIX的，所以这种文件成为WWW上唯一使用的标准声音文件。
18．AIFF(.AIF) 是苹果公司开发的声音文件格式，被Macintosh平台和应用程序所支持。
19． Amiga声音(.SVX)：Commodore所开发的声音文件格式，被Amiga平台和应用程序所支持，不支持压缩。
20．MAC声音(.snd) ：Apple计算机公司所开发的声音文件格式，被Macintosh平台和多种Macintosh应用程序所支持，支持某些压缩。
21.S48(stereo、48kHz)采用MPEG-1 layer 1、MPEG-1 layer 2（简称Mp1,Mp2）声音压缩格式，由于其易于编辑、剪切，所以在广播电台应用较广。
22．AAC实际上是高级音频编码的缩写。AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式，它是MPEG-2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同，AAC通过结合其他的功能来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法（比如MP3等）。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，AAC可以在比MP3文件缩小30%的前提下提供更好的音质。
23.数字音频以音质优秀、传播无损耗、可进行多种编辑和转换而成为主流，并且应用于各个方面。

③ 视频和音频的数据存储类型主要有哪些

音频:MP3、FLAC、APE、OGG、WAV、MPC、AC3 ABS AU CDA DAC M3U MID MIDI MP1 MP2 MP3 MP4 RA RAM VQF WAV
视频:ASF AVI DAT DIVX M1V M2V MOV MPC MPEG MPG MPV QT RM RMM RT SMT SMIL DVS VOB WMV AU CDA MIDI

④ 计算机是怎样通过硬件存储音视频

硬件存储设备分很多种。常见的光盘是将数据的高低电平“蚀刻”在光盘上对应的“坑坑洼洼”。刻完的光盘和没刻的光盘是有明显区别的，不信可以去看。其他存储介质同理，都是存储的数据的高低电平，或者说比特流，0和1。音视频存储的时候也都是转换成数据比特流存储的。

⑤ 请问视频，音频和图像都是以何种形式储存到电脑上的啊

在电脑上，所有文件（包括程序、游戏、操作系统、文字档案、图片、视频、声音文件等）都是以二进制存在电脑上的。作为文件，XP操作系统是这样做的，在硬盘中放置一个文件目录表和一个文件分配表（其实不止一个，有备份）里面存着每个文件的名称、大小、起始地址等等信息。（像不像派出所的户口信息？）不管找哪个文件，操作系统都帮你找到。而真正的文件（其实就是一大串01001011这样的信息）被存在硬盘的某一处。一般操作系统的文件靠前一些。

电脑是以二进制串描述东西的，比如一个32位串可以表示某一种颜色，那这种32位串可以表示多少种颜色啊？（世界上还有它表示不了的颜色吗？）但硬盘上某一处的0100111具体表示什么，只有电脑知道。

⑥ 音频，视频如何在计算机硬盘中存储原理是啥

声音是通过声音的编码储存的。主要介绍波形编码中的脉冲编码调制。PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

采样：一次振动中，必须有2个点的采样，关于为什么有2个点采样，我在视频课程中已经介绍了，这里不再赘述。人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。

量化：每个声音样本若用8位存储，样本只能存储0－255个信息，每个声音样本若用16位存储，则可以存储0－65535个信息，说明量化精度越高，声音质量越好。

编码：量化后的抽样信号十进制数字信号，应将十进制数字代码变换成二进制编码。

常用的采样率：

8kHz为电话采样。

11.025kHz能达到AM调幅广播的声音品质。

22.05kHzFM调频广播所用采样率。

44.1kHz音频CD，也常用于MPEG－1音频（VCD，SVCD，MP3）所用采样率。

48kHzminiDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率。

(6)音频视频存储技术扩展阅读

声音数字化过程：

比如用麦克风录下10秒的声音。声音的波形，是一条平滑的曲线，而电脑正试图在电脑上尽可能地模拟这条平滑的曲线。第一步是对曲线进行采样，假设计算机每秒对曲线进行一次采样，然后计算机在计算机上模拟10秒的声音。

但这一次我们发现模拟波形和离开原来的实际波形差异很大，可以提高计算机的采样频率，从1每秒每秒采样2次，采样频率越高，计算机模拟曲线更接近于原始声音，将恢复原来的声音。

然后第二步是量化模拟声音，和定量手段如考试成绩是51岁，60岁，65年，23岁，95年，78个这样的点，但在公布成绩，学校发现太多，成绩发布太麻烦的话，那么学校的规定，低于60点，作为一个合格的60－70分之间，71－100。

把这些不同的分数分为三个不同的年级，然后当学校公布成绩的时候，就会说，我校今年不合格的人数3人，合格的人数100人，优秀的人数500人，这是量化的。

一旦量化完成，最后一步就是编码。假设量化级别1（如不合格级别）等于0001，级别2（如合格级别）等于0011，以此类推，然后将这些级别记录为相应的0和1序列。在这里，计算机完成了将声音数字化的过程。

⑦ 视频,图片,音频这些格式的文件在内存中是以什么数据结构存储的呢

有很多的,具体点是:视频是mv
rm
rvb等等了,图片是jpg
很多的,音频是mp3
wmv等等格式了.具体的你得问编这些程序的人了

⑧ 网站上的图片、音频、视频等文件都以何种方式保存

存进电脑里的东西都是以二进制编码存放的，视频音频和图像都有各自的编码，以0、1为基础组成的一系列串。最终就是视频音频和图像了。

1、mp3

MP3一种音频压缩技术，其全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III），简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率。

2、wma

WMA(Windows Media Audio)，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质。

3、avi

AVI英文全称为Audio Video Interleaved，即音频视频交错格式，是微软公司于1992年11月推出、作为其Windows视频软件一部分的一种多媒体容器格式。

4、rm

RM格式是RealNetworks公司开发的一种流媒体视频文件格式，可以根据网络数据传输的不同速率制定不同的压缩比率，从而实现低速率的Internet上进行视频文件的实时传送和播放。

5、rmvb

RealMedia可变比特率（RMVB）是RealNetworks公司开发的RealMedia多媒体数字容器格式的可变比特率（VBR）扩展版本。

⑨ 音频视频压缩技术概述

数字技术的出现与应用为人类带来了深远的影响，人们如今已生活在一个几乎数字化的世界之中，而数字音频技术则称得上是应用最为广泛的数字技术之一，CD、 VCD等早已走进千家万户，数字化广播正在全球范围内逐步得到开展，正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题：数字音频压缩技术得以产生和发展的动力。

1、音频压缩技术的出现及早期应用

音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。

数字信号的优势是显而易见的，而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为44.1KHz，量化精度为16比特，则1分钟的立体声音频信号需占约10M字节的存储容量，也就是说，一张CD唱盘的容量只有1小时左右。当然，在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢？研究发现，直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声音至少可进行4：1压缩，即只用25％的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因而，为利用有限的资源，压缩技术从一出现便受到广泛的重视。

对音频压缩技术的研究和应用由来已久，如A律、u律编码就是简单的准瞬时压扩技术，并在ISDN话音传输中得到应用。对语音信号的研究发展较早，也较为成熟，并已得到广泛应用，如自适应差分PCM（ADPCM）、线性预测编码（LPC）等技术。在广播领域，NICAM（Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用）等系统中都使用了音频压缩技术。

2、音频压缩算法的主要分类及典型代表

一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。

（1）时域压缩（或称为波形编码）技术是指直接针对音频PCM码流的样值进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质> 400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。时域压缩技术主要包括 G.711、ADPCM、LPC、CELP，以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM（SB-ADPCM）技术如G.721、 G.722、Apt-X等。

（2）子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型（心理声学模型），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型（Perceptual）压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。

由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行压缩时引入了大量的量化噪声。然而，根据人类的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被限制在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量（EBU音质标准）。

子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有着名的MPEG-1层Ⅰ、层Ⅱ（MUSICAM），以及用于Philips DCC中的PASC（Precision Adaptive Subband Coding，精确自适应子带编码）等。

（3）变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT（离散余弦变换）、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显着改善，而相应付出的代价则是计算复杂度的提高。

变换域压缩具有一些不完善之处，如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步，这些缺陷正逐步被消除，同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。

有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC（Audio Spectral Perceptual Entropy Coding）、PAC（PerceptualAudioCoder）等。

3、音频压缩技术的标准化和MPEG-1

由于数字音频压缩技术具有广阔的应用范围和良好的市场前景，因而一些着名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT（现ITU-T）在语音信号压缩的标准化方面做了大量的工作，制订了如G.711、G.721、G.728等标准，并逐渐受到业界的认同。

在音频压缩标准化方面取得巨大成功的是MPEG-1音频（ISO/IEC11172-3）。在MPEG-1中，对音频压缩规定了三种模式，即层Ⅰ、层Ⅱ（即MUSICAM，又称MP2），层Ⅲ（又称MP3）。由于在制订标准时对许多压缩技术进行了认真的考察，并充分考虑了实际应用条件和算法的可实现性（复杂度），因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ；而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用；MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。可以说，MPEG-1音频标准的制订方式决定了它的成功，这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。

最新进展

1、多声道音频信号压缩与DolbyAC-3

随着技术的不断进步和生活水准的不断提高，原有的立体声形式已不能满足受众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。

更准确地说，环绕声应该是一种声音恢复形式，其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟，已日渐成为未来声音形式的主流。有鉴于此，1992年CCIR（ITU-R）以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准，即CCIR Recommendation 775。其中主要约定了大家熟知的5.1声道形式及7.1声道形式，而在对环绕声压缩的研究上也产生了许多专利技术，如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合，尤其是在影剧院、家庭影院系统，及将来的高清晰度电视（HDTV）等系统中得到广泛的应用。

（1）Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下，可将码率压缩至384kbps，压缩比约为10：1。Dolby AC-3最初是针对影院系统开发的，但目前已成为应用最为广泛的环绕声压缩技术之一。

Dolby AC-3是一种感知型压缩编码技术。

在Dolby AC-3中，音频输入以音频块为单位，块长度为512个样值，在48KHz采样率时即为10.66毫秒，各声道单独处理；音频输入在经过3Hz高通滤波器去除直流成分后，通过另一高频带通滤波器以检测信号的瞬变情况，并用它来控制TDAC变换的长度，以期在频域分辨率和时域分辨率之间得到最好的折中效果； TDAC变换的长度一般为512点，而数据块之间的重叠长度为256点，即TDAC每5.33毫秒进行一次；在瞬变条件下，TDAC长度被等分为256 点，这样DolbyAC-3的频域分辨率为93.75Hz，时域最小分辨率为2.67毫秒；在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用，主要是为了获得宽的动态范围，而在分离后的指数部分经编码后则构成了整个信号大致的频谱，又被称为频谱包络；比特分配主要是通过计算解码后的频谱包络（视为功率谱密度）和掩蔽曲线的相关性来进行的；由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术，因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配；在对尾数的量化过程中，可对尾数进行抖晃处理，抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果；AC -3的帧结构由同步字、CRC、同步信息（SI）、码流信息（BSI）、音频块和附加数据等组成，帧长度与TDAC变换的长度有关，在长度为512点时，帧长为32毫秒，即每秒31.25帧。

通过以上叙述可见，在Dolby AC-3中，使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。

可以说，AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶（从一定的角度来看，编码技术实际上就是降低编码噪声影响的技术），在技术上它具有很强的优势。因而即使作为一项专利技术，DolbyAC-3仍然在影院系统、HDTV、消费类电子产品（如LD、DVD）及直播卫星等方面获得了广泛的应用，得到了众多厂商的支持，成为业界事实上的标准。

（2）MPEG-2BC（后向兼容方式），即ISO/IEC13818- 3，是另一种多声道环绕声音频压缩技术。早在1992年初，该方面的讨论工作便已初步开展，并于94年11月正式获得通过。MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基础上发展起来的。与MPEG-1相比较，MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式，二是为某些低码率应用场合，如多语声节目、体育比赛解说等而进行的低采样率扩展。同时，标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容，并可依据CCIR Rec.775做到与双声道、单声道形式的向下兼容，还能够与Dolby Surround形式兼容。

在MPEG-2BC中，由于考虑到其前、后向兼容性以及环绕声音形式的新特点，在压缩算法中除承袭了MPEG-1的绝大部分技术外，为在低码率条件下进一步提高声音质量，还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(Phantom Coding of Center)、预编码(Predistortion)等。

然而，MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现，MPEG-2BC的编码框图在标准化过程中发生了重大的变化，上述的许多新技术都是在后期引入的。事实上，正是与 MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点，使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下，MPEG -2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快，其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。

（3）DVD（DigitalVersatileDisk）是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上，AC-3和MPEG-2BC之间的争夺十分激烈，最后达成的协议如表1 所示。可见，多声道环绕声音频压缩技术标准亟待统一。

⑩ 常见的音频、视频、图像文件格式及其特点

一、视频文件格式
（1）、AVI格式：
AVI它于1992年被Microsoft公司推出，AVI是非编中最常用的视音文件格式，可以被称为影音格式的鼻祖。它的英文全称为Audio Video Interleaved，即音频视频交错格式，所谓“音频视频交错”，就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好，可以跨越多平台使用，其缺点是体积过于庞大，而且更糟糕的是压缩标准不统一，最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频，而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频。在我们的非编中，不论早期的DVStorm还是现如今的EDIUS所使用的视频文件都是AVI格式，因为它兼容性好，调用方便，图像质量好。
另外还有DV-AVI格式（摄像机采集常用），DV的英文全称是Digital Video Format，是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的IEEE 1394端口传输视频数据到电脑，也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi，所以也叫DV-AVI格式。
（2）、MPEG格式：
它的英文全称为Moving Picture Expert Group，即运动图像专家组，家里常看的VCD、SVCD、DVD就是这种格式。MPEG文件格式是运动图像压缩算法的国际标准，它采用了有损压缩方法减少运动图像中的冗余信息而达到高压缩比的目的，当然这是在保证影像质量的基础上进行的。MPEG的平均压缩比为50∶1，最高可达200∶1，压缩效率之高由此可见一斑。MPEG已成功应用于电视节目存储、传输和播出领域。目前MPEG格式有三个压缩标准，分别是MPEG－1、MPEG－2、和MPEG－4。
MPEG－1：制定于1992年，它是针对1.5Mbps以下数据传输率的数字存储媒体运动图像及其伴音编码而设计的国际标准。也就是我们通常所见到的VCD制作格式。使用PEG-1的压缩算法，可把一部120分钟长的电影压缩到1.2GB左右大小。这种视频格式的文件扩展名包括.mpg、.mlv、.mpe、.mpeg及VCD光盘中的.dat文件等。
MPEG－2：制定于1994年，设计目标为高级工业标准的图像质量以及更高的传输率。这种格式主要应用在DVD/SVCD的制作(压缩)方面，同时在HDTV(高清数子电视)和一些要求比较高的视频编辑、处理方面有广泛应用，例如现用的数字卫星接收机就采用的PEG-2标准。使用MPEG-2的压缩算法，可以把一部120分钟长的电影压缩到4到8GB的大小（文件的大小和数据传输码流有关，规定的码流为4~8Mbps）。这种视频格式的文件扩展名包括.mpg、.mpe、.mpeg、.m2v、m2p及DVD光盘上的.vob文件等。其中m1v和m2v都表示该影音文件中不包含音频文件，只有视频部分。
MPEG－4：制定于1998年，MPEG－4是为了播放流式媒体的高质量视频而专门设计的，它可利用很窄的带度，通过帧重建技术，压缩和传输数据，以求使用最少的数据获得最佳的图像质量。目前MPEG-4最有吸引力的地方在于它能够保存接近于DVD画质的小体积视频文件。另外，这种文件格式还包含了以前MPEG压缩标准所不具备的比特率的可伸缩性、交互性甚至版权保护等一些特殊功能。这种视频格式的文件扩展名包括.asf、.mov和DivX AVI等。
(3)、DivX格式（DVDrip）
这是由MPEG－4衍生出的另一种视频编码(压缩)标准，也即我们通常所说的DVDrip格式，它采用了MPEG-4的压缩算法同时又综合了MPEG-4与MP3各方面的技术，说白了就是使用MPEG-4压缩技术对DVD盘片的视频图像进行高质量压缩，同时用MP3或AC3对音频进行压缩处理，然后再将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD并且体积只有DVD的1/10~1/12。这种编码对机器的要求也不高，所以DivX视频编码技术可以说是一种对DVD造成威胁最大的新生视频压缩格式。
（4）MOV格式（QuickTime）
MOV文件最早是Apple公司开发的一种音频、视频文件格式。很早微软就将该格式引入PC的windows操作系统，我们只需在PC机中安装QuickTime媒体播放软件就可播放MOV格式的影音文件。*．MOV文件支持25位彩色，支持领先的集成压缩技术，提供150多种视频效果，并配有提供了200多种MIDI兼容音响设备的声音装置。新版的QuickTime进一步扩展了原有功能，包含了基于Internet应用的关键特性。QuickTime因具有跨平台、存储空间要求小等技术特点，得到业界的广泛认可，目前已成为数字媒体软件技术领域的工业标准。现在一般非编中都安装有此软件。
（5）、ASF格式
它的英文全称为Advanced Streaming format，它是微软为了和现在的Real Player竞争而推出的一种视频格式，用户可以直接使用Windows自带的Windows Media
Player对其进行播放。其它视频播放器需安装相应插件才可正常播放。由于它使用了MPEG-4的压缩算法，所以压缩率和图像的质量都很不错(高压缩率有利于视频流的传输，但图像质量肯定会受损，所以有时候ASF格式的画面质量不如VCD是正常的)。
（6）WMV格式
它的英文全称为Windows Media Video，也是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。WMV文件主要优点包括：本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系以及扩展性等。
（7）RM格式
英文全称为Real Media。 RM格式是RealNetworks公司开发的一种新型流式视频文件格式，它麾下共有三员大将：RealAudio、RealVideo和RealFlash。，用户可以使用RealPlayer或RealOne Player对符合RealMedia技术标准的网络音、视频资源进行实况转播并且RealMedia可以根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放。RM和ASF格式可以说各有千秋，通常RM视频更柔和一些，而ASF视频则相对清晰一些。现在RealPlayer播放软件在网上都可以下载到，是上网浏览视频流文件的必备工具。
（8）SWF格式
SWF是基于微软公司Shockwave技术的流式动画格式，是用Flash软件制作成的格式。由于它体积小，功能强，交互能力好，现在很多移动播放器都支持SWF格式的文件，也越来越多地应用到网络动画中。
二、音频文件格式
（1）CD格式
CD格式是比较常见的，平常听的CD盘片，每一首歌就是以CDA音轨的格式存储在光盘中的，这种格式的音乐音质最好，但存储容量很大，一张650MB的光盘最多存储十几首歌曲，由于音质好，至今仍受到许多音乐爱好者的青睐。标准CD格式是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的。
（2）WAV格式
WAV是微软公司开发的一种声音文件格式，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，我们非编上用的配音文件就是这种各式，几乎所有的音频编辑软件都“认识”WAV格式。
这里顺便提一下由苹果公司开发的AIFF（Audio Interchange File Format）格式和为UNIX系统开发的AU格式，它们都和WAV非常相像，在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。
（3） MP3格式
所谓MP3也就是MPEG Audio Layer-3，指的是MPEG标准中的音频部分。需要注意的是，MPEG音频文件的压缩是一种有损压缩，它是牺牲了声音文件中12KHz~ 16KHz高音频部分的质量来换取文件的尺寸。相同长度的音乐文件，用*.mp3格式来储存，一般只有*.wav文件的1/10~1/15，而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小，音质好，直到现在，这种格式的音乐还作为主流音频格式地位存在。
（4）APE格式
APE是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同，APE是一种无损压缩技术，也就是说当你从CD上读取的音频数据文件压缩成APE格式后，你还可以再将APE格式的文件还原，而还原后的音频文件与压缩前几乎没有损失。APE的文件大小大概为CD的一半，也就是说一张普通的音乐CD（650MB左右）用APE格式保存后，只需用300左右的磁盘空间，随着宽带的普及，APE格式受到了许多音乐爱好者的喜爱，特别是对于希望通过网络传输音频CD的朋友来说，APE可以帮助他们节约大量的资源。
（5）MIDI格式
MIDI（Musical Instrument Digital Interface）的衍生格式有MID和RMI格式，MIDI文件与WAV文件有很大区别，它只是记录音频中的信息，然后再告诉声卡如何再现音乐的一组指令，故文件大小一般只有几十到几百K（1分钟的音乐只用大约5～10KB）。MIDI文件在用不同技术指标的声卡和音箱播放时其效果差别很大，重放的效果完全依赖声卡的档次。MIDI文件主要用于电子乐器的数据交互和乐曲创作等。
（6）WMA格式
WMA (Windows Media Audio) 格式来是自于微软的重量级选手，后台强硬，音质要强于MP3格式，更远胜于RA格式，它具有比MP3更高的压缩率，这种文件要在Windows媒体播放器8.0以上版本才可顺利播放。WMA在微软的大规模推广下已经得到了越来越多站点的承认和大力支持，在音乐领域中直逼mp3，在网络广播方面，也正在瓜分RealPlayer打下的天下。因此，几乎所有的音频格式都感受到了WMA格式的压力。
（7）RA(RealAudio)格式
RealAudio主要适用于网络上的在线音乐欣赏。现在real的文件格式主要有RA（RealAudio）、RM（RealMedia）、RMS（RealAudio Secured）、RMX等格式。它是RealNetworks公司开发的。特点是在极低的比特率环境下提供可听的音频质量。不适于网络传播之外的用途，因为音质不是太好。
（8）、OGG格式（OGG Vorbis）
Ogg Vorbis 是一种音频压缩格式，类似于MP3等现有的通过有损压缩算法进行音频压缩的音乐格式。现在创建的OGG文件可以在未来的任何播放器上播放，因为这种格式文件可以不断地进行大小和音质的改良，而不影响原有的编码器或播放器。在压缩技术上， Ogg Vorbis的最主要特点是使用了VBR（可变比特率）和ABR（平均比特率）方式进行编码，这种格式的文件是近年来在网上流行的一种音频格式。
三、常用图片文件格式解释
图像世界中不同的格式各自以不同的方式来表示图形信息，我们常用到的图形格式有：
⑴.BMP――(Bimap) 是Microsoft公司图形文件自身的点位图格式, 支持1~24bit色彩，在保存为这种格式时弹出的对话框会询问用于Windows或是0S/2系统。BMP格式保存的图像质量不变，文件也比较大，因为要保存每个像素的信息。
⑵.JPEG――是一种较常用的有损压缩方案，常用来压缩存储批量图片（压缩比达20倍），我们在相应程序中以"jpg"存储时，会进一步询问使用哪档图像品质来压缩，而在图形程序中打开时会自动解压。JPEG全部名称为：Joint photographic exptrs group。尽管它是一种主流格式，在需要输出高质量图像时不使用JPG 而应选EPS格式或TIF格式，特别是在以JPG格式进行图形编辑时，不要经常进行保存操作。
⑶.GIF―― (Graphics Interchange Format)是一种图像交换格式，可提供压缩功能，但只支持256色，很少用于照片级图像处理工作。在PhotoShop中把对颜色数要求不高的图片变为索引色，再以GIF格式保存，使文件缩小后用更快的速度在网上传输。
⑷.GIF89a――即89年的标准，以区别于87a。可以实现网上特殊效果图形的传送, 在PhotoShop中通过"文件"菜单的"Export"输出选项，指定某种颜色成为透明色或是制作出由模糊逐渐清晰的渐显效果。
⑸. PNG―― 是网景公司开发的支持新一代WWW标准而制定的较为新型的图形格式，它综合了JPG和GIF格式的优点，支持24bit色彩（256*256*256），压缩不失真并支持透明背景和渐显图像的制作，所以称它为传统GIF的替代格式。在Web页面中，浏览器支持的格式有JPG 、GIF和PNG。
⑹.TIF――是一种跨平台的位图格式, 全称为Tag Image File Format意为标签图像文件格式, 同时支持PC与苹果机，采用的LZW压缩算法是一种无损失的压缩方案，常用来存储大幅图片。此种格式也可以不压缩, 它支持24个通道，并可与"3DS"交换文件。
⑺.PCX――也是一种跨平台格式, 是Windows与DOS之间进行图形文件交换的桥梁, 在DOS下为256色, 在PhotoShop中有16兆色的PCX，当Windows普及后这种古老的格式已不受欢迎。
⑻.TGA――支持32位软件和8位α通道电视, 是Windows与3DS进行图形交换的格式。在实用中可以将动画通过视频软件转入电视。
⑼.WMF―― (Metafile) 是一种矢量图形格式, Word中内部存储的图片或绘制的图形对象属于这种格式。无论放大还是缩小，图形的清晰度不变，WMF是一种清晰简洁的文件格式。
⑽.EPS――Adobe公司矢量绘图软件Illustrator本身的向量图格式，EPS格式常用于位图与矢量图之间交换文件。在PhotoShop打开EPS格式时是通过"文件"菜单的"导入"命令来进行点阵化转换的。
总的来说, 目前计算机平面静态图形文件分为两大类：一类是位图，它是一种光栅图形，即点位图，在编辑位图时针对的是像素点而不是形状，位图放大会产生失真，存储时所以占有较大空间是因为要保留每个点坐标的信息；另一类是由Windows的函数集描述图像，占有少量空间及内存，因为是用数学函数描绘的，放大不会失真，但比较复杂的图像运算量非常大。在以矢量图保存一条曲线时，只要有起点位置及标示曲线的信息(曲率半径、颜色等)。

阅读全文

热点内容

极光大数据库发布：2025-03-15 10:11:48 浏览：582

智e付忘了登录密码在哪里修改发布：2025-03-15 10:05:20 浏览：650

手机热点密码忘了怎么办发布：2025-03-15 09:28:26 浏览：363

缓解压力锻炼方法发布：2025-03-15 09:23:01 浏览：426

impdp存储过程发布：2025-03-15 09:20:05 浏览：741

pythoniris 发布：2025-03-15 09:05:27 浏览：190

浪淘沙服务器怎么没有了发布：2025-03-15 09:05:26 浏览：100

ftprpm安装包下载发布：2025-03-15 09:03:53 浏览：723

如何判断背包配置发布：2025-03-15 09:03:00 浏览：900

淘宝api源码发布：2025-03-15 09:00:00 浏览：160

音频视频存储技术

与音频视频存储技术相关的资讯