音频压缩面
⑴ 怎么压缩MP3音乐格式的大小
1、下载WinMP3Shrink1.1软件,将下载的文件解压,并打开WinMP3Shrink.EXE。
⑵ 几种常见音频压缩格式频谱对比 [原创]
几种常见音频压缩格式频谱对比:
以下例举了两首不同风格歌曲压缩后频谱图示(这两首歌曲只是随便挑选的),两首歌均采用了四种常见压缩格式进行对比。
对压缩后的音频好坏,一种简单直观的方法就是看压缩后的图谱,还有一种方法当然就是用自己的耳朵来评判了(注意:这时你就应当有一套好音响了)。
WAV 1411kbps:
WAV图谱可看出非常的均匀、整齐,无杂乱现象,无削顶现象。而且频率点已经超过了20KHz(也就是超出了人耳极限)。
WV 320kbps (实际压缩后为330kbps)
WV的图谱可以看出与WAV基本保持不变,只是感觉好象稍稍稀疏了一点点,无削顶现象。频率点同样超过了20KHz。
WMA 320kbps CBR
WMA图谱可以看出与WAV发生了一些明显变化,出现了削顶现象,频率点稍低于20KHz。但是其余部份基本没有发生明显变化,仍然保持着均匀、整齐,无杂乱现象产生。
MP3 320kbps CBR
MP3图谱可以看出与WAV有了更加明显和强烈的变化,最为明显的就是削顶现象,非常的明显强烈,而且出现了杂乱不整齐的现象,频率点稍稍超过了16KHz。
下面是另一首歌曲的图频对比:
WAV 1411kbps
WAV图谱看上去整齐均匀,无杂乱现象,频率点基本持平20KHz。
WV 320kbps (实际压缩后为331kbps)
WV图谱看上去与WAV基本一致,无杂乱现象。但是感觉频率点反而超过了20KHz。
WMA 320kbps CBR
WMA图谱看上去与WAV发生了一些明显变化,出现了均匀的削顶,其余基本保持不变。频率点在18KHz上下。
MP3 320kbps CBR
MP3图谱看上去与WAV发生了更为明显强烈的变化,削顶现象严重,有杂乱现象产生。频率点在16KHz上下。
从上面的图谱中可以看出,WV是保持最好的格式,WMA稍有削顶现象,而表现最差的是MP3,削顶现象严重,不均匀,有杂乱现象产生。
对比中可以发现MP3是以损失大量高频部份为代价来对音频进行压缩的。而WV是表现最好的,WV是一种无损压缩格式,但同时也可以选择压缩码来进行压缩。上面的对比中已经看出虽然同时采用了相同的压缩码率对同一首歌曲进行压缩,但是最终WV表现仍然是最好的,压缩后的图谱仍然可以与WAV相媲美。同时我也做过更低码率(256kbps)的压缩对比,WV的图谱表现依然完美。WV可以说是兼顾了所有方面的因素,做到了尽可能的保持声音的完整性。这可能也是为什么WV与WAV在字面上只是少了个字母的差异的原因吧。
其它还有几种常见无损压缩方式,如:APE、FLAC等……。但是这几种无损压缩出来的文件体积会大一些,因此本人喜欢采用WV来压缩也正是因为如此。还有一种格式也可以采用,那就是OGG格式。这种格式也可以在尽可能保持声音完整性的前题下来得到小的文件体积,但是OGG的最终表现仍然没有WV好,并且压缩速度慢。
最终提示:有一点应该明确,那就是无论是有损或所谓的无损压缩算法其实都是有损压缩。
⑶ 常见的声音压缩标准有哪些它们分别采用什么压缩方法(试举3例)
mp3
MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III)。是当今较流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。
ape
APE是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩音频技术,也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后,你还可以再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失。APE的文件大小大概为CD的一半,但是随着宽带的普及,APE格式受到了许多音乐爱好者的喜爱,特别是对于希望通过网络传输音频CD的朋友来说,APE可以帮助他们节约大量的资源。
wma
WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。
在64kbps的数据速率时,在13000-20000Hz频率段就能保留了大部分信息。
但64kbps的WMA的低频表现实在有点令人失望,听上去比较硬,如同加入了哇声效果般,感觉非常不好,当然比同比特64K的mp3要好感觉声音更集中。听觉上64WMA的表现基本接近128kbps mp3的音质水平,但没有达到。96K的wma略好于128K的mp3,WMA在高于128以上的各种比特率表现相差不大,高频和泛音都很丰富,一般人听不出WMA128Kbps以上的音质和音色的差异,总体感觉WMA的声音偏硬,适合流行摇滚,如果是古典或者纯人声的话,感觉有点生硬,在低于128K时,WMA对于MP3拥有绝对优势!128以上的WMA相比MP3会有薄的感觉。
在128kbps及以下码流的试听中WMA完全超过了MP3格式,低码流之王不是浪得虚名的。但是当码流上升到128kbp以后,WMA的音质却并没有如MP3一样随着码流的提高而大大提升。
flac
FLAC即是Free Lossless Audio Codec的缩写,中文可解为无损音频压缩编码。FLAC是一套着名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3 及 AAC,它不会破任何原有的音频资讯,所以可以还原音乐光盘音质。现在它已被很多软件及硬件音频产品所支持。
简而言之,FLAC与MP3相仿,但是是无损压缩的,也就是说音频以FLAC方式压缩不会丢失任何信息。这种压缩与Zip的方式类似,但是FLAC将给你更大的压缩比率,因为FLAC是专门针对音频的特点设计的压缩方式,并且你可以使用播放器播放FLAC压缩的文件,就象通常播放你的MP3文件一样(现在已经有许多汽车播放器和家用音响设备支持FLAC,在FLAC的网站上你可以找到这些设备厂家的连接)。
FLAC是免费的并且支持大多数的操作系统,包括Windows,“unix” (Linux, *BSD,Solaris,OS X,IRIX),BeOS,OS/2,和Amiga。并且FLAC提供了在开发工具autotools,MSVC,Watcom C,和Project Builder上的build系统。
⑷ 无损压缩音频文件格式有哪些
作为数字音乐文件格式的标准, WAV 格式容量过大,因而使用起来很不方便。因此,一般情况下我们把它压缩为MP3或 WMA 格式。压缩方法有无损压缩,有损压缩,以及混成压缩。MPEG, JPEG就属于混成压缩,如果把压缩的数据还原回去,数据其实是不一样的。当然,人耳是无法分辨的。因此,如果把 MP3, OGG格式从压缩的状态还原回去的话,就会产生损失。然而, APE和FLAC格式即使还原,也能毫无损失地保留原有音质。所以, APE和FLAC可以无损失高音质地压缩和还原。在完全保持音质的前提下,APE的压缩容量有了适当的减小。 而要将APE这种音频无损压缩形式运用到MP3播放器上来是很多人很早以前就有的一个想法,比起CD来,MP3显得更为方便、实用!而此前对 MP3取代CD、MD的说法也正是由于音质原因成为最大的阻碍。 一、APE的基本知识: 1、APE源文件的获得: 早几年大家有个录音机听听磁带上的音乐就觉得不错了,现在有大量的CD与DVD,声音效果比磁带不知道要好到那里去了。但是,CD上的音乐在 windows中是不能够直接认出的,不能够直接拷贝到硬盘中(其它的格式windows是可以认识的,比如数据文件,VCD,DVD等,惟独CD是不能够直接认出的)。所以,为了把CD上的歌曲拷贝到硬盘中,就需要专门的软件来实现,这被叫做抓轨,有很多软件可以实现这个功能,最常见的、大家认为最好的、就是EAC(EAC.exe)这个软件,经过抓轨出来的音乐是以wav的形式保留在硬盘中。 2、APE格式的压缩: 当把CD上的歌曲拷贝到硬盘(即抓轨)以后,这个最原始的文件(WAV)通常是很大的,比如一盘CD上的音乐,就是700M左右,如果把它分离成每首歌曲,那每首歌曲文件的大小在20——60M。这样大的文件既占用硬盘空间,也不适合在网上进行传递。所以,通常要把这个原始的大文件进行压缩。其压缩方式有多种,可以分为两大类,一类是没有损失的压缩,比如用猴子(monkey.exe)这个软件就可以实现,它可以把这个原始的音乐文件(WAV文件)压缩到原来大小的50——60%,文件格式是APE。 另外一类压缩方式叫做有损失的压缩,优点是可以把文件压缩得更小,比如比ape文件还要小1倍以上,常见的音乐有损压缩形式是MP3。但缺点是声音质量下降,一般,文件被压缩得越小,声音质量就越差。 3、网上传递: 目前越来越多的人选择APE格式,网络传播是功不可灭的,众多的音乐发烧友在网上交流APE格式音乐,在网络搜索“APE音乐下载”竟然有 150多万多条链接,而且数量在每日俱增。现在流行BT也出现了APE音乐的踪迹,各大BT下载都开辟了APE音乐下载交流的地方,所以用户根本不用担心 APE音频的资源问题。 4、APE文件的播放: 如果在电脑的硬盘上播放,你只要安装winamp或者foobar2000这样的软件以后,就可以直接进行播放。特别是foobar2000效果很好,你从这里: http://foobar2000.hydrogenaudio.org/ ;下载这个很小的软件(选取installer这项下载,可以支持各种版本的windows,还支持各种声卡,包括ac97软声卡),安装到你的硬盘中,不需要做任何设置,就直接可以播放ape格式的音乐了。你只需要对你想听的那首歌曲用鼠标进行双击,就可以放出最高质量(最接近CD)的音乐。 二、FLAC的基本知识 1.FLAC概述 FLAC代表 Free Lossless Audio Codec - 免费的无损音频压缩。也就是说音频以FLAC方式压缩不会丢失任何信息。这种压缩与Zip的方式类似,但是FLAC将给你更大的压缩比率,因为FLAC是专门针对音频的特点设计的压缩方式,并且你可以使用播放器播放FLAC压缩的文件,就象通常播放你的MP3文件一样 2.FLAC系统支持 FLAC是免费的并且支持大多数的操作系统,包括Windows, " unix" (Linux, *BSD, Solaris, OS X, IRIX), BeOS, OS/2, 和Amiga。并且FLAC提供了在开发工具autotools, MSVC, Watcom C, 和Project Builder上的build系统。 3.FLAC项目内容 数据流的格式以库的形式提供的参考编码器和解码器FLAC, 一个以命令行方式工作的可以编解码FLAC文件的程序(译注:有些象Lame吧?) metaFLAC, 以命令行方式工作的FLAC文件的metadata编辑器不同音频播放器的输入插件 4.FLAC的特性: 无损失压缩:被编码的音频(PCM)数据没有任何信息损失,解码输出的音频与编码器的输入的每一个字节都是一样的。每个数据帧都有一个当前帧的 16-bit CRC 校验码,用于监测数据传输错误。对整段音频数据,在文件头中还保存有一个针对原始未压缩音频数据的MD5标记,用于在解码和测试时对数据进行校验。 快速:FLAC更看重解码的速度。解码只需要整数运算,并且相对于大多数编码方式而言,对计算速度要求很低。在很普通的硬件上就可以轻松实现实时解码。 硬件支持:由于FLAC提供了免费的解码范例,而且解码的复杂程度低,所以FLAC是目前唯一获得硬件支持的无损压缩编码。 可以流化:FLAC的每个数据帧都包含了解码所需的全部信息。解码当前帧无需参照它前面或后面的数据帧。FLAC使用了同步代码和CRC(类似于MPEG等编码格式),这样解码器在数据流中跳跃定位时可以有最小的时间延迟。 可以定位:FLAC支持快速采样精确定位。这不仅对于播放有益,更使得FLAC文件便于编辑。 富于弹性的metadata:可以定义和实现新类型的metadata数据块,而不会影响旧的数据流和解码器的使用。目前已有的metadata类型包括 tag,cue表,和定位表。 已经注册的应用程序可以定义自己专用的metadata类型(译注:这一点与MIDI标准相似)。 非常适合于存档应用:FLAC是一个开放的编码格式,并且没有任何数据的损失,你可以将它转换为你需要的任何其他格式。除了每个数据帧的CRC和MD5标记对数据完整性的保障,FLAC(译注:FLAC项目提供的命令行方式编码工具)还提供了一个verify(校验)选项,当使用该选项进行编码的时候,编码的同时就会立即对已编码数据进行解码并与原始输入数据进行比较,一旦发现不同就会退出并且报警提示。(译者:怎么样,这样压缩出来的东西还有什么不放心的?) 便于对CD进行备份:FLAC有一个“cue表”metadata数据块用于保存CD的内容列表和所有音轨的索引点。你可以将一张CD保存到一个单一文件,并导入CD的cue表格,这样一个FLAC文件就可以完整地记录整张CD的全部信息。当你的原来的CD损坏的时候,你就可以用这个文件恢复出与原来一模一样的CD副本。 抗损伤:由于FLAC的帧结构,使得一旦发生数据流的损坏,损失会被限制在受损伤的数据帧之内。一般只是会丢失很短的一个片段。而很多其他无损音频压缩格式在遇到损伤的时候,一个损伤就会造成后面所有数据的丢失。 5.FLAC不具有的特性: 数据缩水。FLAC是专门并且仅仅为无损压缩而设计的,您可以选用许多其他优秀的有损压缩方式如Vorbis, MPC, 和MP3(LAME提供了一个优秀的开放源代码的实现)。 SDMI(例如cetera)兼容。FLAC不准备支持任何复制保护方法,实际上这些手段最终都是在浪费数据。(从另一个角度看,由于所有这些手段最终都被证明是无效的,所以也可以说FLAC把这些无用数据压缩到了零!)当然我们不能阻止某些人利用专用的metablock进行复制保护,但是他们的保护只会在他们自己解码产品上有效,其他解码器会跳过这些专门的metablock的。 6 .如何播放FLAC文件? 1.FLAC是一种无损音频压缩格式..用foobar2000和winamp都可以播放...因为他们都带有FLAC解压插件的.如果你的播放器不能播放的话.建议你去以下地址下载插件并安装(这是winamp的flac播放插件) 2.用JetAudio,界面简单实用,直接支持播放FLAC文件;
⑸ 常用音频文件的压缩方式
得下软件压.比如LAME 图形界面 V1.8 正式版高保真MP3压缩软件.
⑹ 音频的动态压缩处理指的是什么在Adobe的软件中用什么软件做
要说清楚这些概念,需要极大的篇幅,甚至要写一本书。现在只能简要地做些通俗解释。
【正弦波】 我们知道正弦波是一种很 “平直” 的波形,它的正相位和负相位的能量值是相等的,因此它很 “平直” 。声音的正弦波,同样很 “平直” ,它会以恒续的同样能量来刺激你的耳鼓,这种具有 “恒续” 能量的声波,会产生极大的 “声压” 。
【非规则波】 相对于正弦波,非规则波的波形能量有大有小,不具有 ”恒续“ 和 ”平直“ 的性质。生活中,我们听到的声波,大多是非规则声波,由于它对你的耳鼓的刺激是有强有弱的(非 ”恒续“),因此,它的 ”声压“ 是不稳定的。
【声压】 当一种声音波形越接近正弦波,它的声压就越强,而人的听觉感到 “声压” 很强,是由于它对你的耳鼓的刺激是 “恒续” 的。举个例子,一块一百斤重的石板压在你的肚子上,持续 5 分钟,你肯定受不了;同样还是这块一百斤重的石板,它在你肚子上 “压一下 - 提一下 “ 、 “压一下 - 提一下 “ ,10 分钟,你会觉得没事,原因是,前者是 ”恒续“ 的,后者是 ”非恒续“ 的。
【”声压“ 与 ”音量“】。”声压“ 反映了声音在时间轴上的持续能量,而 ”音量“ 是指声音的总平均能量。因此,声压与音量没有直接联系。举例1:相信你用过 BP 机,它的信号声就是各种频率的正弦声波,当 BP 机电池电量低时,它会发出警告声 ------ 一种持续的正弦波长音,尽管他的【 ”音量“ 很小】,但如果你不切断它,我保证你一分钟内就会发狂(据说有用刑者给犯人听正弦波来使犯人招供)。举例2:你身处一条大瀑布前,瀑布发出巨大的轰鸣【”音量“ 极大】,你会觉得很舒服,听上半小时没问题。例1就是 ”声压“ 作用于人的效应,例2就是 ”音量“ 作用于人的效应。
【动态】 这里的 ”动态“ 是指声音的 ”能量差“ ,即 ”最小声“ 和 ”最大声“ 的差值。举例说,距离你 2 米处,一根针掉落地面和一颗鞭炮爆炸,它们的声音的能量(响度)的差别,就是这里说的 ”动态“ 。
【压缩】 压缩要做的,就是尽量把 ”动态“ 的 ”能量差“ 缩小,使其能量更接近 ”平均“ ,也就是利用 ”声压“ 的原理。举例说,你听到一段人声录音,感觉很 ”松散“ 、”软塌塌“ 的,那么这段声音经 ”压缩器“ 处理后,就会变得 ”结实而有力“ ,响度(声压)也会提高。其原理是,压缩器会把很小的声音(针掉落地面)进行 ”提升“ ,而把过强的声音(鞭炮爆炸)进行压衰,使不同动态能量的声音尽量接近 ”类正弦“ 运动。
----------------------------------------------------
在 Audition 中,”振幅和压限“ 菜单下的效果器,大多就是做这类工作的。
不过,最好系统地去了解 ”压缩器“ 的工作原理,才会更容易地来运用这些效果器。书店、网上,关于这些知识,多如牛毛,搜一搜就有了。
⑺ 音频压缩原理
音频压缩的原理
转自http://forums.dearhoney.idv.tw/viewtopic.php?t=24378
引用:
音讯资料因为其资料内容的特性,以传统的压缩法难达到很高的压缩率,不过我们人耳并没有无限的时间分辨率和频率分辨率,其实原始的音乐讯号中包含了很多我们听不到的资料,把这些对我们来讲其实无意义的资讯给去掉,这样就可以达到很高的压缩率。这种利用人类 感官知觉的特性作的失真压缩法,就叫做 perceptual coding。
人耳的生理结构,由外耳的耳壳收集外界的声波到达中耳的耳膜产生震动,经由三块小骨连接前庭窗传入内耳,其中由于耳壳的内凹形状,外耳道的长度和宽度.. 等等生理的构造,会对不同频率产生共振升压的效果,尤其是 2~5Khz 的频率,会在这个过程中被放大。人耳听觉频率的范围,大约是 20~20KHz,音量范围则是 130dB SPL,大于 130dB 会产生痛苦的感觉,小于 0dB 则会被当成是静音。如上所述,人耳对 2~5KHz 的频率最敏感,越往高频感觉越不敏锐,音量要超过一定的界限以上查能被我们人耳察觉,这个最低可以听闻的界限,叫做 ATH(absolute threshold of hearing)。内耳的耳蜗有许多绒毛细胞,分别会对不同的频率产生反应,将基底膜淋巴液的波动转换成神经的电流讯号,传达给大脑。也就是说耳蜗的作用就像一个频谱分析仪,把声波转换成不同频率的讯号,每一个特定位置的绒毛细胞会受特定频率的刺激,但是当基底膜传导波动时其邻近周围的绒毛细胞也会受到刺激。这也就是说如果有一个频率的音量很大,在它附近同时有一个比较弱的频率的话,比较弱的频率的声音就会被比较强的声音给遮蔽掉,我们人耳没有办法分办出有另一个比较弱的频率的声音存在。这个遮蔽的作用叫 frquency masking。另外从基底膜受到声音震动到达稳定状态,还有声音结束后完全停止,中间都需要一段时间。所以如果有一个很大声的声音出现,在这个声音开始之前,到这个声音结束之后,有一段时间我们是听不到其他声音的,这种遮蔽效应,我们称为 temporal masking,之前的叫 pre-masking,之后的叫 post-masking。
前面提到耳蜗就像一部频谱分析仪,或者说像一个 band pass filter,会把声音分成许多不同的次频带,每个频带里都有一个中心频率,越往两边遮蔽的效果就越弱,在同一个频带里面的频率会互相影响,我们对他们的感知特性也十分的接近,这种人耳知觉特性的频带,我们称为 critical band。critical band 的宽度并不是都相等的,低频的部分比较窄,高频的部分则比较宽,总共分成 26 个 critical band。
除了人耳的生理结构特性以外,大脑的作用也占了一个很重要的角色。我们都知道音高是由基音决定,而音色是由泛音决定,我们很惊讶的发现,人类的大脑会自动补上基音,即使这个基音并不存在。譬如说电话的频宽只有 300~3200Hz,但是当我们听一个基音在 120Hz 的男性讲电话的时候,我们还是可以听出他的正确的音高,不会把男生听成女生。大脑是如何运用复杂的计算去重建这个不存在的基音,我们目前尚无法得知。
经过长期的实验和观察,我们可将人耳的听觉特性定性,建立一个人耳的听觉模型,叫做 psychoacoustic model。有了这些对人耳知觉特性的了解,我们就可以根据这些理论来压缩音讯资料,把我们听不到的声音去掉。
说是去掉,实际上是怎么做的呢?
要将无限的连续的类比讯号转变为有限的离散的数位资料,中间必须经过取样和量化的手续。譬如说现在量化的位阶只有 0~8 九个数字,每一个位阶的间隔大小是一格,对一个 4.9 的讯号作量化,得到的数字是 5,和原来 4.9 相差 0.1,这个误差叫做量化噪音。假设我们把量化的位阶减少到 5 个,分别等于原来 0~8 的 0, 2, 4, 6, 8 这几个数字,位阶的间隔大小扩大变成二格,此时再对 4.9 量化,量化的结果是 4,误差扩大到 0.9,也就是说量化的位阶越少,量化的间隔就越大,量化噪音也就越大。
我们做一个实验,把 16bit 的声波档转为 8bit,当场丢掉一半的资讯,档案也就小了一半,最简单的失真压缩不过我们观察频谱发现,减少量化的 bit 数产生的量化噪音,会造成全频带都水平上升一定杂讯,你如果听这个 8bit 的声波档,会发现背景充满沙沙沙的噪音,这就是因为量化误差产生的量化噪音。
那我们会想,这样全频带都减少一定的 bit 数太没有效率,为什么不把他分成好几个频带(critical band),再根据人耳的心理声学模型的遮蔽效应,对不同频带分配不同的 bit 数,让各个频带产生的量化噪音低于遮蔽效应的曲线以下,这样这些产生的量化噪音我们就听不到,对知觉来说等于是无失真压缩,这样岂不更好?
所以我们就把压缩的工作分成两个部分,一个部分将原来的 PCM data 经过 band pass filter 分成好几个 subband 次频带,另一个部分就是心理声学模型,分析频谱,找出遮蔽效应的曲线,然后根据这个曲线,对每个 subband 分别量化,决定分配的 bit 数,让产生的量化噪讯低于遮蔽效应的曲线,使量化的失真不会被人耳听到,这样就大功告成了
然后接下来要说的就是这个最复杂的心理声学模型是怎么工作的.... ^^;
怎么讲一讲变成这麼长 ^^;;
都还没进入主题...
我是要解释什么是 scale factor,这个牵扯到量化的过程,还有 short block 和 long block,这个牵扯到心理声学模型的判断和 MDCT window 大小的转换,主要目的是解决 pre-echo 的问题,结果越讲越多... ><
看的人就忍耐一下吧... -_-;;;
前面说到心理声学模型是如何工作的。ISO MPEG1 Audio 提供了两个心理声学模型,分别是 psychoacoustic model 1 和 2,model 2 比 model 1 要来得复杂,但是判断的效果较好。两个声学模型可以用在任何一个 layer,layer 1~3(MPEG1 layer 3 = MP3)。不过我们通常是将 model 1 用在 MP1 和 MP2,model 2 用在 MP3。不过当然也有例外,譬如说有一个特殊版本的 toolame(压 MP1, MP2 最好的 encoder)就是改用 model 2 的心理声学模型而不用 model 1。
MPEG1 Audio 压缩的时候一边是用一个 polyphase filter bank,将 PCM data 分成好几个"等宽的" subband 等待进一步量化压缩,一边是 psychoacoustic model,使用 512(MP1)或 1024(MP2/MP3)point(取 512/1024 个 sample 计算,或者说 window size=512/1024)的 FFT 转换,将 PCM data 转换到频率域,进行频谱分析。之所以另外使用 FFT 来分析,是因为 FFT 有比较好的频率分辨率,计算各个频率的遮蔽效应时会比较精确。然后 psychoacoustic model 会将频率按照 critical band(人耳听觉特性的频带)分为好几组,计算各个 critical band 的遮蔽曲线。在计算遮蔽曲线时,第一件要做的工作是区分哪些频率的声音是 tone,哪些频率的声音是 noise。为什么要这麼区分呢?因为根据实验发现这两种声音的遮蔽能力不一样,noise 具有比 tone 更强的遮蔽效应。这边会提到两个名词,一个是 TMN(Tone Mask Noise),tone 遮蔽 noise 的能力,单位是 dB,比较弱,另一个是 NMT(Noise Mask Tone),noise 遮蔽 tone 的能力,比较强。这两个名词很眼熟吗?MP+/MPC 就有提供让使用者修改这两个参数的设定。调降这两个参数,会减低 tone 和 noise 的遮蔽能力,整个遮蔽曲线会往下降,可以容忍的量化噪音就比较低,量化噪音必须减少,分配的 bit 数就必须增加,所以 MP+/MPC 调低这两个参数,bitrate 会往上窜升,但是量化杂讯也会随之减少。
在判断哪些声音是 tone,哪些声音是 noise,model 1 和 model 2 采用不同的方法。model 1 是寻找区域范围内,音量最大的频率,把这个频率当作 tone,因为 tone 通常是一定的区域范围内音量最大的。其他剩下的部分就当成是 noise,加起来以一个单一的频率代表。
model 2 的作法则不是去区分 tone 和 non-tone(noise),而是给每个频率一个 tone index,由 0~1,index 数字越大,代表这个频率越像 tone,根据这个 index 的比例大小,分别计算他们的遮蔽影响力,这样是不是更精确呢。那要怎么判断某个频率有多像 tone 呢? model 2 是用 predict 的方法。predict 的意思是以现在的状态,去预测下一个状态是什么。在这里 model 2 会储存过去的两个分析过的 window 频谱,根据频谱的变化,来判断哪些频率有多像 tone。因为 tone 的声音会具有可预测性,前后的变化会有高度的关联性,不会随机的杂乱跳动。根据前后的频谱变化,model 2 更可以准确的分办出 tone 和 noise。
找出 tone 和 noise 以后,接着把不重要没有意义的 tone/noise 去掉,譬如说两个 tone 靠近,一强一弱,或是低于 ATH 绝对听觉极限以下的 tone/noise,都可以把他去掉。然后计算剩下来的 tone/noise 的遮蔽效应,求出每个 critical band 的遮蔽曲线,最后在合并这些曲线,找出全体的遮蔽曲线。
实际上 psychoacoustic model 会计算一个数值,然后把这个数值传给量化阶段的程式,让量化阶段的程式知道这个频带可以允许的量化噪音是多少,该分配多少的 bit 数。这个传给量化程式的参数叫做 SMR(Signal to Mask Ratio)。
很眼熟的名词对不对
SMR=SNR-NMR
MP+/MPC/Lame 可以让你自行设定 minimum SMR 的底线是多少。
前面提过,MPEG1 Audio 在分成好几个 subband 准备做量化的时候,用的是"等宽"的 filter bank,这和我们人耳特性的 critical band 不同,由下图可以看出,低频的部分一个 subband,包含了好几个 critical band。到了高频的时候,好几个 subband 包含在一个 critical band 里面。这样心理声学模型计算出来的各个 critical band 的 SMR 要怎么给呢?
model 1 是取 subband 涵盖的范围中,最小的 SMR。这麼做在低频的时候,会将好几个 critical band 的 SMR 取其最小的一个给 subband,因为 subband 包含了好几个 critical band,如果用这几个 critical band 中最大的 SMR,将会有部分频率的遮蔽效应会估计错误,所以为了妥协,只好取最小的。高频的时候则是好几个 subband 共用一个 SMR。model 1 有一个致命伤,就是高频的时候,前面我们说过 model 1 每个 critical band 的 noise 是以一个总和集中的频率代表,现在这个 critical band 横跨好几个 subband,以这个中央代表的 noise 频率计算出来的 SMR,就无法适用在每个 subband 里面。(距离中央越远的就越不正确)
model 2 低频的时候取最小的 SMR,和 model 1 一样,高频的时候则是取 critical band 好几个 SMR 的平均值给 subband。model 2 不用集中式的 noise,而是用 tone index 的方式来计算 tone 和 noise 的遮蔽效应,所以在高频的时候会比 model 1 精确。
好了,心理声学模型不能再讲下去了,头晕了... @_@
图... 有机会再补 ^^;
终于进入主题了:MDCT 和 Quantization(量化)。
前面提到我们将 PCM data 分成好几个 subband 等待心理声学模型的判断,做进一步的量化压缩,这种压缩法我们叫做 subband coding。这个 filter 我们用的是 polyphase filter bank,将 PCM data 分成 32 个等宽的 subband。这个 ployphase filter bank 有几个缺点:
1. 它是有失真的 filter,也就是说,还没有做会失真的量化步骤,经过 filtering 以后的 subsample 立刻将它还原回 PCM data,结果就已经和原来不一样了。不过这个失真很小(小于 0.07dB)所以对品质不会有太大的伤害。
2. 它是等宽的频带,不符合人耳听觉特性的 critical band,对后续量化阶段的处理不利
3. 它的截止点平缓,所以当输入频率很靠近截止点的时候,相邻的两个 subband 会发生 aliasing(或者说 overlap,.....请看图...有机会再补....-_-;;)
MP1 一个 frame 384 个 sample,MP2 和 MP3 用 1152 个 sample,而且 MP3 会将 polyphase filter bank 切出来的 32 个 subband 的 sample,再用 MDCT 转换,进一步划分成更细的频带,提高对频率的分辨率。这个将原本资料转换到另一个空间之后再进行压缩的方法,我们称为 transform coding。因为MP3 混合了 subband filterbank 和 MDCT,所以我们把 MP3 的这个 filtering 的过程称为 Hybird Filterbank。
MDCT 之后,可以运用 butterfly 的计算,消除 polyphase filter bank 产生的 aliasing。
不过成也 MDCT 败也 MDCT,经过这个 MDCT 转换之后,资料会完全丧失时间的资讯。什么是丧失时间资讯?我们回头来说 FFT。
做 FFT 计算的时候,window size 越大(取进来计算的 sample 越多),对频率的分解能越强,频率的计算越精确。但是这些 PCM data 的 sample 是照时间排列的,对 44.1KHz 的 PCM 一次取 32768 个 sample 进来计算,如果不用 overlap,则你的频率分辨率(ie. spectral line resolution)是 1.346Hz,而时间分辨率只有 1sec * 32768/44100 = 743.04msec,你看不到小于 735.61msec 的频率变化的过程。频率分辨率和时间分辨率两个量无法同时求得精确的值,时间越精确(取进来计算的 sample 越少),频率解析就越差,频率越精确(取进来计算的 sample 越多),时间解析就越差。
MP3 经由 polyphase filter bank 之后转 MDCT 的过程如下
1. 1152 个 PCM sample 分成两个部分,各 576 个 sample,称为一个 granule。
2. 这 576 个 sample 送进 polyphase filter bank,输出 32 sample(按频率顺序)x 18 组(按时间排序)
3. 重排为 18 个 sample(按时间排序)x 32 组(按频率排序)
4. 每一组中的 18 个 sample 为时间顺序,加上前面一次转换的 18 个 sample,总共 36 个 sample 送进去做 MDCT 转换(所以 MDCT window 有 50% 的 overlap 重叠)
5. 转出来为 18 个 sepctral line(按频率排序)x 32 组(按频率排序)
好复杂吗? ^^;
总之 MDCT 转换完以后,时间资讯就不见了(每一个都是 spectral line,都是频率资讯,不过频率资讯更细了)。
丢掉时间资讯会有什么影响呢?
假设现在转换的这一块声音区块前面是很微弱的声音,到后面突然出现音量急遽升高的情形,譬如说鼓手突然开始打鼓,这种波形我们称为“attack”:突然拉起的波形。遇到这种情况心理声学模型会很笨的认为这个区块里面有很强的 masker,可以提供很高的遮蔽曲线,所以可以允许较大的量化失真,因此量化的步骤就会给比较少的 bit。MDCT 一次转换就是取 576 个 sample,这个 block 的长度,同时也就是时间的长度,所以一次死就死全部的 block,量化失真产生的 noise 会扩散到整个 block 的长度范围(也就是时间范围),所以前面声音很微弱的区段,也会发生这些量化噪音,想当然尔,原来微弱的音量根本无法遮蔽掉这些量化噪音,如果后面大音量区段的 pre-masking 前遮蔽曲线也不够遮蔽这些 noise,我们就会听到这些量化噪音了,那么心理声学模型也就破功了。
这种压缩瑕疵叫做 pre-echo。
这个道理类似 JPEG 图档的压缩瑕疵,JPEG 一次转换是拿 8x8 的区块去做 DCT 转换,遇到区块内包含锐利的边缘、线条(有很多的高频成分)的时候,经过 DCT 转换,高频的量化失真会扩散到整个 8x8 的像素区块,所以我们常常看到 JPEG 或 MPEG 档案画面上锐利线条的周围(譬如说文字的周围)会有那种斑斑点点,破碎的压缩瑕疵,这就是因为一次死死全部,整个区块都完蛋的关系。
MP+/MPC 因为不用 transform coding,不做 MDCT 转换,所以他的 pre-echo 的问题比较小,观察 MPC 压出来的波形,几乎看不到 pre-echo 的压缩瑕疵。
一个相反的例子,MPEG2 AAC/MPEG4 AAC 完全不用 subband filterbank,直接做 MDCT 转换(前置有一个 gain-control),不过 AAC 有一套对付 pre-echo 的 tool(或者叫 mole)叫做 TNS,可以用来解决 pre-echo 的问题。
这个,越扯越远,写不完了 ><
解决 pre-echo 的方法下次继续....
⑻ 音频压缩方法
第一种方法:最简单的办法
推荐下载“千千静听”(最新版本是4.60,网站地址是http://ttplayer.com/),打开要转换格式的音乐文件,在播放列表中右击需要转换为MP3格式的歌曲,“转换格式”,在打开的“转换格式”对话框中,选择“编码格式”及保存位置,“立即转换”,很容易的,支持各种格式,而且在线自动下载歌词,功能太多了,而且是免费的,用过了就知道了,N合1的功能。强烈推荐。
降低码率就可以降低文件大小
Nero新版本除了可以将MP3录成CD外,还支持其它音乐文件,包括WAV、VDF档,但最出色的可算是把旧有的MP3利用Nero内设的File Encoding转码为新式MP3格式MP3Pro。这种引入最新压缩和编码制式的MP3Pro虽然采用旧有的格式名(即*.mp3),但效果截然不同。MP3Pro制式是利用低转送速率技术(bit per sec),即平常一首MP3的频率大多是128kbit,而MP3Pro则固定于80kbit,但仍能把MP3音质保持在一个最佳的程度,同时又把每首MP3所占空间减低到原有的5至6成;即将一首占1MB空间的MP3,转化成只有600KB的MP3Pro,但音质却丝毫无损。
用MP3PRO为MP3文件瘦身
MP3(Moving Picture Experts Group, Audio Layer III)是一种音频压缩格式,它可以使音乐文件在音质牺牲很小的情况下将文件大小压缩很多。MP3文件能以不同的比率压缩,但是压缩的越多,声音质量下降的也越多。标准的MP3压缩比是10 ∶ 1,一个三分钟长的音乐文件压缩后大约是4 MB。笔者在此介绍的是MP3PRO,它是 Thomson Multimedia多媒体公司(MP3音乐格式的开发者)推出的一个MP3格式的升级版本,MP3PRO可以把声音文件压缩到原有MP3格式的一半大小,但却可以保持相同的音质。
MP3PRO与MP3的异同
MP3PRO不但可以在原先MP3的尺寸上减小一半,而且经过MP3PRO压缩的文件,扩展名仍旧是.mp3。MP3PRO文件在播放上完全与MP3兼容,也就是说,老的MP3文件可以在新的MP3PRO播放器上进行播放,同时,新的MP3PRO可以在标准的MP3软件和设备上播放,但效果可能较差,因为两者录制方式不同。MP3PRO采用了两条分开的数据流来提高声音的质量:一条包含了和原先的MP3格式相同的一些记录信息,只有这一条信息可以被老的MP3播放器检测到;另外一条包含了高音频数据流,这条数据流能被新版本的MP3PRO播放器支持。两条数据流合起来,就创造出更高质量的声音。
制作MP3PRO格式文件
目前制作MP3PRO文件的软件较少,笔者在此介绍的两个软件。
1、MP3PRO Audio Player/Encoder
(1)下载和安装
Thomson Multimedia推出的MP3PRO Audio Player/Encoder既可以播放又可以压缩MP3PRO文件,最新版本是1.1.0 ,它能播放所有的MP3和MP3PRO文件,同时能将.wav文件以64kbps位速率压缩成MP3PRO文件,这个软件的安装非常简单,下载后,直接执行“Mp3proAudioPlayer_v1_1_0.exe”文件即可安装,安装完成后,单击“开始”按钮,选择“程序”,单击“THOMSON MP3PRO Audio Player”直接启动(如图1)。
图1 MP3PRO Audio Player的界面
(2)把WAV文件压缩成MP3PRO文件
压缩操作也非常容易,按下“encode”按钮,显示如图2所示,在“Input”输入框内输入要压缩的WAV文件,例如“E: estude.wav”,当然也可以单击右边的“Select Input File”按钮,然后进行选择,指定了WAV文件后,会显示该WAV文件一些信息及长度,在“Output”框内会自动显示压缩后MP3所存放的文件夹和文件名,当然也可以按右边的“Select Output File”按钮进行更改。以上内容选定后,单击“ENCODE”按钮,开始进行压缩。在压缩过程中,会显示压缩过程中已用时间、剩余时间及压缩速度等内容。压缩完成后,单击右上角的“X”按钮关闭即可。
图2 进行压缩设置
注意:此软件只能将WAV文件转换为MP3PRO,并且它压缩后输出文件只能是64kbps的MP3PRO声音文件。
2、Nero Wave Editor
使用MP3PRO Audio Player/Encoder只能WAV文件转换为MP3PRO,并且它的压缩后输出文件限制为64kbps,由于这方面的限制,使用MP3PRO Audio Player/Encoder会显得非常不方便,下面笔者介绍一个没有此限制的压缩软件,就是Nero公司推出的Nero Wave Editor。提到Nero公司,使用过刻录机的朋友都知道,它不是生产刻录软件的吗?对了,就是它。它提供的Nero Wave Editor是Nero 软件包的组成部分,不但可以对音频文件进行编辑,还可以将音频文件进行转换,不但可以将WAV文件转换为MP3PRO文件,它还可以直接把MP3文件转换为MP3PRO。
(1)安装Nero Wave Editor
因为Nero Wave Editor是Nero 软件包的组成部分,所以在安装Nero时,就自动安装了Wave Editor,不过Nero 软件必须是 Nero 5.5.4.0 或以上版本(注意:不是演示版)。
(2)压缩文件
从开始菜单中选择“Ahead Nero”,选择“Nero Wave Editor”,启动程序后,界面如图3。
图3 Nero Wave Editor的界面
单击“文件”菜单,选择“打开”,然后选择要压缩的文件,可以是WAV文件,也可以是MP3文件。打开后,单击“播放”按钮可以播放,在“文件”菜单中选择“另存为...”,在“保存类型”下拉列表中选择“MP3PRO(*.MP3)”,单击“选项”按钮(如图4),如果想转换为MP3PRO文件,则需要在“Settings”框内选中“Enable MP3PRO”复选框,想转换为MP3文件,不需选中此复选框,在此我们选中此复选框,在下拉列表中选择转换后音频文件的品质和位速率,单击“OK”按钮返回,然后单击“保存”按钮,系统开始转换,完成后返回主窗口并关闭即可。笔者将47MB的WAV文件转换为MP3后大小是4.2MB,而转换为MP3PRO后则为2.6MB。
只要后缀名是MP3,在随身MP3上和支持MP3的手机上都是可以使用的。
MP3的压缩推荐用Streambox Ripper软件,简体中文破解版下载地址
http://www.crsky.com/soft/2008.html
以下是该软件的介绍:
压缩MP3文件--Streambox Ripper
先来讲讲是什么是MP3, MP3 是利用 MPEG Audio Layer 3 的技术,将声音用 1:10 甚至 1:12 的压缩率,变成容量较小的文件,但是在人耳听起来,却没有什么不同。当然这是一种失真压缩,就像图形文件 JPG 一样,因为失真压缩,所以可以压得很多,也可以调整压缩比率,压得越多失真也越多。
如果大家使用过MP3播放器的话,就应该对MP3的文件大小有一定的了解,一般情况下,一首4分钟的MP3文件,需要4M的空间,这样的话,任何64M的存储卡,除了系统文件要占用一部分外,也就存15首歌曲,我们随机配送的RS-MMC卡,只有64M,如何在不花钱购大卡的情况下,来存储更多的歌曲,就需要用到MP3的压缩功能了,现在在网上,很多的歌曲,有MP3格式的、也有一部分是RM格式的,都可以通过下面的Streambox Ripper软件来搞定。
启动软件后,弹出的操作窗口非常的简单,我们可以将音频文件直接拖到这个操作窗口中,或是点右下角的载入命令打开文件。载入文件后,点右下角的转换命令,弹出窗口,从中选择要转换后的类型,及输出目的地就可以了。
⑼ 请问音频压缩方式:OggVorbis和g.726(adpcm)各自特点
OggVorbis作为一款全新的音乐压缩格式,不仅能够自由播放MP3,VQF,AAC,而且用vorbis制作的音效文件更加出色。转换到vorbis世界的另一个原因,或许会是因为MPEG是完全由Fraunhofer组织所控制,每一个需要解码MP3文件的应用程序都应该得到Fraunhofer的授权,相比之下,vorbis技术则是完全免费和自由的。在观看一些DVD转录成AVI的外国电影时,你或许会遇到只有图象没有声音的情况,这可能是因为音频的解码使用了vorbis技术,试一试安装OggVorbis问题就会解决 。
DS2164Q ADPCM处理器是一款专用数字信号处理(DSP)芯片,已被优化为执行三种不同速率的自适应差分脉冲编码调制(ADPCM)语音压缩功能。芯片可被编程为压缩(扩展)64kbps话音数据至(由)32kbps、24kbps或16kbps。32kbps压缩遵循CCITT推荐标准G.726规定的算法。DS2164Q可以动态切换压缩算法。这使用户能够以动态方式最大限度利用现有带宽。 按照CCITT/ITU G.726规范压缩/扩展64kbps PCM话音至/由32kbps、24kbps或16kbps 两个完全独立的通道结构;器件可以通过编程实现以下功能: 两路扩展 两路压缩 一路扩展和一路压缩 直接与CODEC组合器件互联 输入至输出延迟小于375µs 通过简单串行端口配置器件 片上时隙分配电路(TSAC)可以在不同的时隙输入/输出数据 支持随路信令 各通道可被独立闲置或旁路 硬件模式不需要主处理器,特别适合于语音存储应用 反向兼容于DS2165 ADPCM处理器 +5V单电源供电;低功耗CMOS技术 28引脚PLCC封装