音頻壓縮面
⑴ 怎麼壓縮MP3音樂格式的大小
1、下載WinMP3Shrink1.1軟體,將下載的文件解壓,並打開WinMP3Shrink.EXE。
⑵ 幾種常見音頻壓縮格式頻譜對比 [原創]
幾種常見音頻壓縮格式頻譜對比:
以下例舉了兩首不同風格歌曲壓縮後頻譜圖示(這兩首歌曲只是隨便挑選的),兩首歌均採用了四種常見壓縮格式進行對比。
對壓縮後的音頻好壞,一種簡單直觀的方法就是看壓縮後的圖譜,還有一種方法當然就是用自己的耳朵來評判了(注意:這時你就應當有一套好音響了)。
WAV 1411kbps:
WAV圖譜可看出非常的均勻、整齊,無雜亂現象,無削頂現象。而且頻率點已經超過了20KHz(也就是超出了人耳極限)。
WV 320kbps (實際壓縮後為330kbps)
WV的圖譜可以看出與WAV基本保持不變,只是感覺好象稍稍稀疏了一點點,無削頂現象。頻率點同樣超過了20KHz。
WMA 320kbps CBR
WMA圖譜可以看出與WAV發生了一些明顯變化,出現了削頂現象,頻率點稍低於20KHz。但是其餘部份基本沒有發生明顯變化,仍然保持著均勻、整齊,無雜亂現象產生。
MP3 320kbps CBR
MP3圖譜可以看出與WAV有了更加明顯和強烈的變化,最為明顯的就是削頂現象,非常的明顯強烈,而且出現了雜亂不整齊的現象,頻率點稍稍超過了16KHz。
下面是另一首歌曲的圖頻對比:
WAV 1411kbps
WAV圖譜看上去整齊均勻,無雜亂現象,頻率點基本持平20KHz。
WV 320kbps (實際壓縮後為331kbps)
WV圖譜看上去與WAV基本一致,無雜亂現象。但是感覺頻率點反而超過了20KHz。
WMA 320kbps CBR
WMA圖譜看上去與WAV發生了一些明顯變化,出現了均勻的削頂,其餘基本保持不變。頻率點在18KHz上下。
MP3 320kbps CBR
MP3圖譜看上去與WAV發生了更為明顯強烈的變化,削頂現象嚴重,有雜亂現象產生。頻率點在16KHz上下。
從上面的圖譜中可以看出,WV是保持最好的格式,WMA稍有削頂現象,而表現最差的是MP3,削頂現象嚴重,不均勻,有雜亂現象產生。
對比中可以發現MP3是以損失大量高頻部份為代價來對音頻進行壓縮的。而WV是表現最好的,WV是一種無損壓縮格式,但同時也可以選擇壓縮碼來進行壓縮。上面的對比中已經看出雖然同時採用了相同的壓縮碼率對同一首歌曲進行壓縮,但是最終WV表現仍然是最好的,壓縮後的圖譜仍然可以與WAV相媲美。同時我也做過更低碼率(256kbps)的壓縮對比,WV的圖譜表現依然完美。WV可以說是兼顧了所有方面的因素,做到了盡可能的保持聲音的完整性。這可能也是為什麼WV與WAV在字面上只是少了個字母的差異的原因吧。
其它還有幾種常見無損壓縮方式,如:APE、FLAC等……。但是這幾種無損壓縮出來的文件體積會大一些,因此本人喜歡採用WV來壓縮也正是因為如此。還有一種格式也可以採用,那就是OGG格式。這種格式也可以在盡可能保持聲音完整性的前題下來得到小的文件體積,但是OGG的最終表現仍然沒有WV好,並且壓縮速度慢。
最終提示:有一點應該明確,那就是無論是有損或所謂的無損壓縮演算法其實都是有損壓縮。
⑶ 常見的聲音壓縮標准有哪些它們分別採用什麼壓縮方法(試舉3例)
mp3
MP3全稱是動態影像專家壓縮標准音頻層面3(Moving Picture Experts Group Audio Layer III)。是當今較流行的一種數字音頻編碼和有損壓縮格式,它設計用來大幅度地降低音頻數據量,而對於大多數用戶來說重放的音質與最初的不壓縮音頻相比沒有明顯的下降。它是在1991年由位於德國埃爾朗根的研究組織Fraunhofer-Gesellschaft的一組工程師發明和標准化的。
ape
APE是目前流行的數字音樂文件格式之一。與MP3這類有損壓縮方式不同,APE是一種無損壓縮音頻技術,也就是說當你將從音頻CD上讀取的音頻數據文件壓縮成APE格式後,你還可以再將APE格式的文件還原,而還原後的音頻文件與壓縮前的一模一樣,沒有任何損失。APE的文件大小大概為CD的一半,但是隨著寬頻的普及,APE格式受到了許多音樂愛好者的喜愛,特別是對於希望通過網路傳輸音頻CD的朋友來說,APE可以幫助他們節約大量的資源。
wma
WMA的全稱是Windows Media Audio,它是微軟公司推出的與MP3格式齊名的一種新的音頻格式。由於WMA在壓縮比和音質方面都超過了MP3,更是遠勝於RA(Real Audio),即使在較低的采樣頻率下也能產生較好的音質。
在64kbps的數據速率時,在13000-20000Hz頻率段就能保留了大部分信息。
但64kbps的WMA的低頻表現實在有點令人失望,聽上去比較硬,如同加入了哇聲效果般,感覺非常不好,當然比同比特64K的mp3要好感覺聲音更集中。聽覺上64WMA的表現基本接近128kbps mp3的音質水平,但沒有達到。96K的wma略好於128K的mp3,WMA在高於128以上的各種比特率表現相差不大,高頻和泛音都很豐富,一般人聽不出WMA128Kbps以上的音質和音色的差異,總體感覺WMA的聲音偏硬,適合流行搖滾,如果是古典或者純人聲的話,感覺有點生硬,在低於128K時,WMA對於MP3擁有絕對優勢!128以上的WMA相比MP3會有薄的感覺。
在128kbps及以下碼流的試聽中WMA完全超過了MP3格式,低碼流之王不是浪得虛名的。但是當碼流上升到128kbp以後,WMA的音質卻並沒有如MP3一樣隨著碼流的提高而大大提升。
flac
FLAC即是Free Lossless Audio Codec的縮寫,中文可解為無損音頻壓縮編碼。FLAC是一套著名的自由音頻壓縮編碼,其特點是無損壓縮。不同於其他有損壓縮編碼如MP3 及 AAC,它不會破任何原有的音頻資訊,所以可以還原音樂光碟音質。現在它已被很多軟體及硬體音頻產品所支持。
簡而言之,FLAC與MP3相仿,但是是無損壓縮的,也就是說音頻以FLAC方式壓縮不會丟失任何信息。這種壓縮與Zip的方式類似,但是FLAC將給你更大的壓縮比率,因為FLAC是專門針對音頻的特點設計的壓縮方式,並且你可以使用播放器播放FLAC壓縮的文件,就象通常播放你的MP3文件一樣(現在已經有許多汽車播放器和家用音響設備支持FLAC,在FLAC的網站上你可以找到這些設備廠家的連接)。
FLAC是免費的並且支持大多數的操作系統,包括Windows,「unix」 (Linux, *BSD,Solaris,OS X,IRIX),BeOS,OS/2,和Amiga。並且FLAC提供了在開發工具autotools,MSVC,Watcom C,和Project Builder上的build系統。
⑷ 無損壓縮音頻文件格式有哪些
作為數字音樂文件格式的標准, WAV 格式容量過大,因而使用起來很不方便。因此,一般情況下我們把它壓縮為MP3或 WMA 格式。壓縮方法有無損壓縮,有損壓縮,以及混成壓縮。MPEG, JPEG就屬於混成壓縮,如果把壓縮的數據還原回去,數據其實是不一樣的。當然,人耳是無法分辨的。因此,如果把 MP3, OGG格式從壓縮的狀態還原回去的話,就會產生損失。然而, APE和FLAC格式即使還原,也能毫無損失地保留原有音質。所以, APE和FLAC可以無損失高音質地壓縮和還原。在完全保持音質的前提下,APE的壓縮容量有了適當的減小。 而要將APE這種音頻無損壓縮形式運用到MP3播放器上來是很多人很早以前就有的一個想法,比起CD來,MP3顯得更為方便、實用!而此前對 MP3取代CD、MD的說法也正是由於音質原因成為最大的阻礙。 一、APE的基本知識: 1、APE源文件的獲得: 早幾年大家有個錄音機聽聽磁帶上的音樂就覺得不錯了,現在有大量的CD與DVD,聲音效果比磁帶不知道要好到那裡去了。但是,CD上的音樂在 windows中是不能夠直接認出的,不能夠直接拷貝到硬碟中(其它的格式windows是可以認識的,比如數據文件,VCD,DVD等,惟獨CD是不能夠直接認出的)。所以,為了把CD上的歌曲拷貝到硬碟中,就需要專門的軟體來實現,這被叫做抓軌,有很多軟體可以實現這個功能,最常見的、大家認為最好的、就是EAC(EAC.exe)這個軟體,經過抓軌出來的音樂是以wav的形式保留在硬碟中。 2、APE格式的壓縮: 當把CD上的歌曲拷貝到硬碟(即抓軌)以後,這個最原始的文件(WAV)通常是很大的,比如一盤CD上的音樂,就是700M左右,如果把它分離成每首歌曲,那每首歌曲文件的大小在20——60M。這樣大的文件既佔用硬碟空間,也不適合在網上進行傳遞。所以,通常要把這個原始的大文件進行壓縮。其壓縮方式有多種,可以分為兩大類,一類是沒有損失的壓縮,比如用猴子(monkey.exe)這個軟體就可以實現,它可以把這個原始的音樂文件(WAV文件)壓縮到原來大小的50——60%,文件格式是APE。 另外一類壓縮方式叫做有損失的壓縮,優點是可以把文件壓縮得更小,比如比ape文件還要小1倍以上,常見的音樂有損壓縮形式是MP3。但缺點是聲音質量下降,一般,文件被壓縮得越小,聲音質量就越差。 3、網上傳遞: 目前越來越多的人選擇APE格式,網路傳播是功不可滅的,眾多的音樂發燒友在網上交流APE格式音樂,在網路搜索「APE音樂下載」竟然有 150多萬多條鏈接,而且數量在每日俱增。現在流行BT也出現了APE音樂的蹤跡,各大BT下載都開辟了APE音樂下載交流的地方,所以用戶根本不用擔心 APE音頻的資源問題。 4、APE文件的播放: 如果在電腦的硬碟上播放,你只要安裝winamp或者foobar2000這樣的軟體以後,就可以直接進行播放。特別是foobar2000效果很好,你從這里: http://foobar2000.hydrogenaudio.org/ ;下載這個很小的軟體(選取installer這項下載,可以支持各種版本的windows,還支持各種音效卡,包括ac97軟音效卡),安裝到你的硬碟中,不需要做任何設置,就直接可以播放ape格式的音樂了。你只需要對你想聽的那首歌曲用滑鼠進行雙擊,就可以放出最高質量(最接近CD)的音樂。 二、FLAC的基本知識 1.FLAC概述 FLAC代表 Free Lossless Audio Codec - 免費的無損音頻壓縮。也就是說音頻以FLAC方式壓縮不會丟失任何信息。這種壓縮與Zip的方式類似,但是FLAC將給你更大的壓縮比率,因為FLAC是專門針對音頻的特點設計的壓縮方式,並且你可以使用播放器播放FLAC壓縮的文件,就象通常播放你的MP3文件一樣 2.FLAC系統支持 FLAC是免費的並且支持大多數的操作系統,包括Windows, " unix" (Linux, *BSD, Solaris, OS X, IRIX), BeOS, OS/2, 和Amiga。並且FLAC提供了在開發工具autotools, MSVC, Watcom C, 和Project Builder上的build系統。 3.FLAC項目內容 數據流的格式以庫的形式提供的參考編碼器和解碼器FLAC, 一個以命令行方式工作的可以編解碼FLAC文件的程序(譯註:有些象Lame吧?) metaFLAC, 以命令行方式工作的FLAC文件的metadata編輯器不同音頻播放器的輸入插件 4.FLAC的特性: 無損失壓縮:被編碼的音頻(PCM)數據沒有任何信息損失,解碼輸出的音頻與編碼器的輸入的每一個位元組都是一樣的。每個數據幀都有一個當前幀的 16-bit CRC 校驗碼,用於監測數據傳輸錯誤。對整段音頻數據,在文件頭中還保存有一個針對原始未壓縮音頻數據的MD5標記,用於在解碼和測試時對數據進行校驗。 快速:FLAC更看重解碼的速度。解碼只需要整數運算,並且相對於大多數編碼方式而言,對計算速度要求很低。在很普通的硬體上就可以輕松實現實時解碼。 硬體支持:由於FLAC提供了免費的解碼範例,而且解碼的復雜程度低,所以FLAC是目前唯一獲得硬體支持的無損壓縮編碼。 可以流化:FLAC的每個數據幀都包含了解碼所需的全部信息。解碼當前幀無需參照它前面或後面的數據幀。FLAC使用了同步代碼和CRC(類似於MPEG等編碼格式),這樣解碼器在數據流中跳躍定位時可以有最小的時間延遲。 可以定位:FLAC支持快速采樣精確定位。這不僅對於播放有益,更使得FLAC文件便於編輯。 富於彈性的metadata:可以定義和實現新類型的metadata數據塊,而不會影響舊的數據流和解碼器的使用。目前已有的metadata類型包括 tag,cue表,和定位表。 已經注冊的應用程序可以定義自己專用的metadata類型(譯註:這一點與MIDI標准相似)。 非常適合於存檔應用:FLAC是一個開放的編碼格式,並且沒有任何數據的損失,你可以將它轉換為你需要的任何其他格式。除了每個數據幀的CRC和MD5標記對數據完整性的保障,FLAC(譯註:FLAC項目提供的命令行方式編碼工具)還提供了一個verify(校驗)選項,當使用該選項進行編碼的時候,編碼的同時就會立即對已編碼數據進行解碼並與原始輸入數據進行比較,一旦發現不同就會退出並且報警提示。(譯者:怎麼樣,這樣壓縮出來的東西還有什麼不放心的?) 便於對CD進行備份:FLAC有一個「cue表」metadata數據塊用於保存CD的內容列表和所有音軌的索引點。你可以將一張CD保存到一個單一文件,並導入CD的cue表格,這樣一個FLAC文件就可以完整地記錄整張CD的全部信息。當你的原來的CD損壞的時候,你就可以用這個文件恢復出與原來一模一樣的CD副本。 抗損傷:由於FLAC的幀結構,使得一旦發生數據流的損壞,損失會被限制在受損傷的數據幀之內。一般只是會丟失很短的一個片段。而很多其他無損音頻壓縮格式在遇到損傷的時候,一個損傷就會造成後面所有數據的丟失。 5.FLAC不具有的特性: 數據縮水。FLAC是專門並且僅僅為無損壓縮而設計的,您可以選用許多其他優秀的有損壓縮方式如Vorbis, MPC, 和MP3(LAME提供了一個優秀的開放源代碼的實現)。 SDMI(例如cetera)兼容。FLAC不準備支持任何復制保護方法,實際上這些手段最終都是在浪費數據。(從另一個角度看,由於所有這些手段最終都被證明是無效的,所以也可以說FLAC把這些無用數據壓縮到了零!)當然我們不能阻止某些人利用專用的metablock進行復制保護,但是他們的保護只會在他們自己解碼產品上有效,其他解碼器會跳過這些專門的metablock的。 6 .如何播放FLAC文件? 1.FLAC是一種無損音頻壓縮格式..用foobar2000和winamp都可以播放...因為他們都帶有FLAC解壓插件的.如果你的播放器不能播放的話.建議你去以下地址下載插件並安裝(這是winamp的flac播放插件) 2.用JetAudio,界面簡單實用,直接支持播放FLAC文件;
⑸ 常用音頻文件的壓縮方式
得下軟體壓.比如LAME 圖形界面 V1.8 正式版高保真MP3壓縮軟體.
⑹ 音頻的動態壓縮處理指的是什麼在Adobe的軟體中用什麼軟體做
要說清楚這些概念,需要極大的篇幅,甚至要寫一本書。現在只能簡要地做些通俗解釋。
【正弦波】 我們知道正弦波是一種很 「平直」 的波形,它的正相位和負相位的能量值是相等的,因此它很 「平直」 。聲音的正弦波,同樣很 「平直」 ,它會以恆續的同樣能量來刺激你的耳鼓,這種具有 「恆續」 能量的聲波,會產生極大的 「聲壓」 。
【非規則波】 相對於正弦波,非規則波的波形能量有大有小,不具有 」恆續「 和 」平直「 的性質。生活中,我們聽到的聲波,大多是非規則聲波,由於它對你的耳鼓的刺激是有強有弱的(非 」恆續「),因此,它的 」聲壓「 是不穩定的。
【聲壓】 當一種聲音波形越接近正弦波,它的聲壓就越強,而人的聽覺感到 「聲壓」 很強,是由於它對你的耳鼓的刺激是 「恆續」 的。舉個例子,一塊一百斤重的石板壓在你的肚子上,持續 5 分鍾,你肯定受不了;同樣還是這塊一百斤重的石板,它在你肚子上 「壓一下 - 提一下 「 、 「壓一下 - 提一下 「 ,10 分鍾,你會覺得沒事,原因是,前者是 」恆續「 的,後者是 」非恆續「 的。
【」聲壓「 與 」音量「】。」聲壓「 反映了聲音在時間軸上的持續能量,而 」音量「 是指聲音的總平均能量。因此,聲壓與音量沒有直接聯系。舉例1:相信你用過 BP 機,它的信號聲就是各種頻率的正弦聲波,當 BP 機電池電量低時,它會發出警告聲 ------ 一種持續的正弦波長音,盡管他的【 」音量「 很小】,但如果你不切斷它,我保證你一分鍾內就會發狂(據說有用刑者給犯人聽正弦波來使犯人招供)。舉例2:你身處一條大瀑布前,瀑布發出巨大的轟鳴【」音量「 極大】,你會覺得很舒服,聽上半小時沒問題。例1就是 」聲壓「 作用於人的效應,例2就是 」音量「 作用於人的效應。
【動態】 這里的 」動態「 是指聲音的 」能量差「 ,即 」最小聲「 和 」最大聲「 的差值。舉例說,距離你 2 米處,一根針掉落地面和一顆鞭炮爆炸,它們的聲音的能量(響度)的差別,就是這里說的 」動態「 。
【壓縮】 壓縮要做的,就是盡量把 」動態「 的 」能量差「 縮小,使其能量更接近 」平均「 ,也就是利用 」聲壓「 的原理。舉例說,你聽到一段人聲錄音,感覺很 」鬆散「 、」軟塌塌「 的,那麼這段聲音經 」壓縮器「 處理後,就會變得 」結實而有力「 ,響度(聲壓)也會提高。其原理是,壓縮器會把很小的聲音(針掉落地面)進行 」提升「 ,而把過強的聲音(鞭炮爆炸)進行壓衰,使不同動態能量的聲音盡量接近 」類正弦「 運動。
----------------------------------------------------
在 Audition 中,」振幅和壓限「 菜單下的效果器,大多就是做這類工作的。
不過,最好系統地去了解 」壓縮器「 的工作原理,才會更容易地來運用這些效果器。書店、網上,關於這些知識,多如牛毛,搜一搜就有了。
⑺ 音頻壓縮原理
音頻壓縮的原理
轉自http://forums.dearhoney.idv.tw/viewtopic.php?t=24378
引用:
音訊資料因為其資料內容的特性,以傳統的壓縮法難達到很高的壓縮率,不過我們人耳並沒有無限的時間解析度和頻率解析度,其實原始的音樂訊號中包含了很多我們聽不到的資料,把這些對我們來講其實無意義的資訊給去掉,這樣就可以達到很高的壓縮率。這種利用人類 感官知覺的特性作的失真壓縮法,就叫做 perceptual coding。
人耳的生理結構,由外耳的耳殼收集外界的聲波到達中耳的耳膜產生震動,經由三塊小骨連接前庭窗傳入內耳,其中由於耳殼的內凹形狀,外耳道的長度和寬度.. 等等生理的構造,會對不同頻率產生共振升壓的效果,尤其是 2~5Khz 的頻率,會在這個過程中被放大。人耳聽覺頻率的范圍,大約是 20~20KHz,音量范圍則是 130dB SPL,大於 130dB 會產生痛苦的感覺,小於 0dB 則會被當成是靜音。如上所述,人耳對 2~5KHz 的頻率最敏感,越往高頻感覺越不敏銳,音量要超過一定的界限以上查能被我們人耳察覺,這個最低可以聽聞的界限,叫做 ATH(absolute threshold of hearing)。內耳的耳蝸有許多絨毛細胞,分別會對不同的頻率產生反應,將基底膜淋巴液的波動轉換成神經的電流訊號,傳達給大腦。也就是說耳蝸的作用就像一個頻譜分析儀,把聲波轉換成不同頻率的訊號,每一個特定位置的絨毛細胞會受特定頻率的刺激,但是當基底膜傳導波動時其鄰近周圍的絨毛細胞也會受到刺激。這也就是說如果有一個頻率的音量很大,在它附近同時有一個比較弱的頻率的話,比較弱的頻率的聲音就會被比較強的聲音給遮蔽掉,我們人耳沒有辦法分辦出有另一個比較弱的頻率的聲音存在。這個遮蔽的作用叫 frquency masking。另外從基底膜受到聲音震動到達穩定狀態,還有聲音結束後完全停止,中間都需要一段時間。所以如果有一個很大聲的聲音出現,在這個聲音開始之前,到這個聲音結束之後,有一段時間我們是聽不到其他聲音的,這種遮蔽效應,我們稱為 temporal masking,之前的叫 pre-masking,之後的叫 post-masking。
前面提到耳蝸就像一部頻譜分析儀,或者說像一個 band pass filter,會把聲音分成許多不同的次頻帶,每個頻帶里都有一個中心頻率,越往兩邊遮蔽的效果就越弱,在同一個頻帶裡面的頻率會互相影響,我們對他們的感知特性也十分的接近,這種人耳知覺特性的頻帶,我們稱為 critical band。critical band 的寬度並不是都相等的,低頻的部分比較窄,高頻的部分則比較寬,總共分成 26 個 critical band。
除了人耳的生理結構特性以外,大腦的作用也佔了一個很重要的角色。我們都知道音高是由基音決定,而音色是由泛音決定,我們很驚訝的發現,人類的大腦會自動補上基音,即使這個基音並不存在。譬如說電話的頻寬只有 300~3200Hz,但是當我們聽一個基音在 120Hz 的男性講電話的時候,我們還是可以聽出他的正確的音高,不會把男生聽成女生。大腦是如何運用復雜的計算去重建這個不存在的基音,我們目前尚無法得知。
經過長期的實驗和觀察,我們可將人耳的聽覺特性定性,建立一個人耳的聽覺模型,叫做 psychoacoustic model。有了這些對人耳知覺特性的了解,我們就可以根據這些理論來壓縮音訊資料,把我們聽不到的聲音去掉。
說是去掉,實際上是怎麼做的呢?
要將無限的連續的類比訊號轉變為有限的離散的數位資料,中間必須經過取樣和量化的手續。譬如說現在量化的位階只有 0~8 九個數字,每一個位階的間隔大小是一格,對一個 4.9 的訊號作量化,得到的數字是 5,和原來 4.9 相差 0.1,這個誤差叫做量化噪音。假設我們把量化的位階減少到 5 個,分別等於原來 0~8 的 0, 2, 4, 6, 8 這幾個數字,位階的間隔大小擴大變成二格,此時再對 4.9 量化,量化的結果是 4,誤差擴大到 0.9,也就是說量化的位階越少,量化的間隔就越大,量化噪音也就越大。
我們做一個實驗,把 16bit 的聲波檔轉為 8bit,當場丟掉一半的資訊,檔案也就小了一半,最簡單的失真壓縮不過我們觀察頻譜發現,減少量化的 bit 數產生的量化噪音,會造成全頻帶都水平上升一定雜訊,你如果聽這個 8bit 的聲波檔,會發現背景充滿沙沙沙的噪音,這就是因為量化誤差產生的量化噪音。
那我們會想,這樣全頻帶都減少一定的 bit 數太沒有效率,為什麼不把他分成好幾個頻帶(critical band),再根據人耳的心理聲學模型的遮蔽效應,對不同頻帶分配不同的 bit 數,讓各個頻帶產生的量化噪音低於遮蔽效應的曲線以下,這樣這些產生的量化噪音我們就聽不到,對知覺來說等於是無失真壓縮,這樣豈不更好?
所以我們就把壓縮的工作分成兩個部分,一個部分將原來的 PCM data 經過 band pass filter 分成好幾個 subband 次頻帶,另一個部分就是心理聲學模型,分析頻譜,找出遮蔽效應的曲線,然後根據這個曲線,對每個 subband 分別量化,決定分配的 bit 數,讓產生的量化噪訊低於遮蔽效應的曲線,使量化的失真不會被人耳聽到,這樣就大功告成了
然後接下來要說的就是這個最復雜的心理聲學模型是怎麼工作的.... ^^;
怎麼講一講變成這麼長 ^^;;
都還沒進入主題...
我是要解釋什麼是 scale factor,這個牽扯到量化的過程,還有 short block 和 long block,這個牽扯到心理聲學模型的判斷和 MDCT window 大小的轉換,主要目的是解決 pre-echo 的問題,結果越講越多... ><
看的人就忍耐一下吧... -_-;;;
前面說到心理聲學模型是如何工作的。ISO MPEG1 Audio 提供了兩個心理聲學模型,分別是 psychoacoustic model 1 和 2,model 2 比 model 1 要來得復雜,但是判斷的效果較好。兩個聲學模型可以用在任何一個 layer,layer 1~3(MPEG1 layer 3 = MP3)。不過我們通常是將 model 1 用在 MP1 和 MP2,model 2 用在 MP3。不過當然也有例外,譬如說有一個特殊版本的 toolame(壓 MP1, MP2 最好的 encoder)就是改用 model 2 的心理聲學模型而不用 model 1。
MPEG1 Audio 壓縮的時候一邊是用一個 polyphase filter bank,將 PCM data 分成好幾個"等寬的" subband 等待進一步量化壓縮,一邊是 psychoacoustic model,使用 512(MP1)或 1024(MP2/MP3)point(取 512/1024 個 sample 計算,或者說 window size=512/1024)的 FFT 轉換,將 PCM data 轉換到頻率域,進行頻譜分析。之所以另外使用 FFT 來分析,是因為 FFT 有比較好的頻率解析度,計算各個頻率的遮蔽效應時會比較精確。然後 psychoacoustic model 會將頻率按照 critical band(人耳聽覺特性的頻帶)分為好幾組,計算各個 critical band 的遮蔽曲線。在計算遮蔽曲線時,第一件要做的工作是區分哪些頻率的聲音是 tone,哪些頻率的聲音是 noise。為什麼要這麼區分呢?因為根據實驗發現這兩種聲音的遮蔽能力不一樣,noise 具有比 tone 更強的遮蔽效應。這邊會提到兩個名詞,一個是 TMN(Tone Mask Noise),tone 遮蔽 noise 的能力,單位是 dB,比較弱,另一個是 NMT(Noise Mask Tone),noise 遮蔽 tone 的能力,比較強。這兩個名詞很眼熟嗎?MP+/MPC 就有提供讓使用者修改這兩個參數的設定。調降這兩個參數,會減低 tone 和 noise 的遮蔽能力,整個遮蔽曲線會往下降,可以容忍的量化噪音就比較低,量化噪音必須減少,分配的 bit 數就必須增加,所以 MP+/MPC 調低這兩個參數,bitrate 會往上竄升,但是量化雜訊也會隨之減少。
在判斷哪些聲音是 tone,哪些聲音是 noise,model 1 和 model 2 採用不同的方法。model 1 是尋找區域范圍內,音量最大的頻率,把這個頻率當作 tone,因為 tone 通常是一定的區域范圍內音量最大的。其他剩下的部分就當成是 noise,加起來以一個單一的頻率代表。
model 2 的作法則不是去區分 tone 和 non-tone(noise),而是給每個頻率一個 tone index,由 0~1,index 數字越大,代表這個頻率越像 tone,根據這個 index 的比例大小,分別計算他們的遮蔽影響力,這樣是不是更精確呢。那要怎麼判斷某個頻率有多像 tone 呢? model 2 是用 predict 的方法。predict 的意思是以現在的狀態,去預測下一個狀態是什麼。在這里 model 2 會儲存過去的兩個分析過的 window 頻譜,根據頻譜的變化,來判斷哪些頻率有多像 tone。因為 tone 的聲音會具有可預測性,前後的變化會有高度的關聯性,不會隨機的雜亂跳動。根據前後的頻譜變化,model 2 更可以准確的分辦出 tone 和 noise。
找出 tone 和 noise 以後,接著把不重要沒有意義的 tone/noise 去掉,譬如說兩個 tone 靠近,一強一弱,或是低於 ATH 絕對聽覺極限以下的 tone/noise,都可以把他去掉。然後計算剩下來的 tone/noise 的遮蔽效應,求出每個 critical band 的遮蔽曲線,最後在合並這些曲線,找出全體的遮蔽曲線。
實際上 psychoacoustic model 會計算一個數值,然後把這個數值傳給量化階段的程式,讓量化階段的程式知道這個頻帶可以允許的量化噪音是多少,該分配多少的 bit 數。這個傳給量化程式的參數叫做 SMR(Signal to Mask Ratio)。
很眼熟的名詞對不對
SMR=SNR-NMR
MP+/MPC/Lame 可以讓你自行設定 minimum SMR 的底線是多少。
前面提過,MPEG1 Audio 在分成好幾個 subband 准備做量化的時候,用的是"等寬"的 filter bank,這和我們人耳特性的 critical band 不同,由下圖可以看出,低頻的部分一個 subband,包含了好幾個 critical band。到了高頻的時候,好幾個 subband 包含在一個 critical band 裡面。這樣心理聲學模型計算出來的各個 critical band 的 SMR 要怎麼給呢?
model 1 是取 subband 涵蓋的范圍中,最小的 SMR。這麼做在低頻的時候,會將好幾個 critical band 的 SMR 取其最小的一個給 subband,因為 subband 包含了好幾個 critical band,如果用這幾個 critical band 中最大的 SMR,將會有部分頻率的遮蔽效應會估計錯誤,所以為了妥協,只好取最小的。高頻的時候則是好幾個 subband 共用一個 SMR。model 1 有一個致命傷,就是高頻的時候,前面我們說過 model 1 每個 critical band 的 noise 是以一個總和集中的頻率代表,現在這個 critical band 橫跨好幾個 subband,以這個中央代表的 noise 頻率計算出來的 SMR,就無法適用在每個 subband 裡面。(距離中央越遠的就越不正確)
model 2 低頻的時候取最小的 SMR,和 model 1 一樣,高頻的時候則是取 critical band 好幾個 SMR 的平均值給 subband。model 2 不用集中式的 noise,而是用 tone index 的方式來計算 tone 和 noise 的遮蔽效應,所以在高頻的時候會比 model 1 精確。
好了,心理聲學模型不能再講下去了,頭暈了... @_@
圖... 有機會再補 ^^;
終於進入主題了:MDCT 和 Quantization(量化)。
前面提到我們將 PCM data 分成好幾個 subband 等待心理聲學模型的判斷,做進一步的量化壓縮,這種壓縮法我們叫做 subband coding。這個 filter 我們用的是 polyphase filter bank,將 PCM data 分成 32 個等寬的 subband。這個 ployphase filter bank 有幾個缺點:
1. 它是有失真的 filter,也就是說,還沒有做會失真的量化步驟,經過 filtering 以後的 subsample 立刻將它還原回 PCM data,結果就已經和原來不一樣了。不過這個失真很小(小於 0.07dB)所以對品質不會有太大的傷害。
2. 它是等寬的頻帶,不符合人耳聽覺特性的 critical band,對後續量化階段的處理不利
3. 它的截止點平緩,所以當輸入頻率很靠近截止點的時候,相鄰的兩個 subband 會發生 aliasing(或者說 overlap,.....請看圖...有機會再補....-_-;;)
MP1 一個 frame 384 個 sample,MP2 和 MP3 用 1152 個 sample,而且 MP3 會將 polyphase filter bank 切出來的 32 個 subband 的 sample,再用 MDCT 轉換,進一步劃分成更細的頻帶,提高對頻率的解析度。這個將原本資料轉換到另一個空間之後再進行壓縮的方法,我們稱為 transform coding。因為MP3 混合了 subband filterbank 和 MDCT,所以我們把 MP3 的這個 filtering 的過程稱為 Hybird Filterbank。
MDCT 之後,可以運用 butterfly 的計算,消除 polyphase filter bank 產生的 aliasing。
不過成也 MDCT 敗也 MDCT,經過這個 MDCT 轉換之後,資料會完全喪失時間的資訊。什麼是喪失時間資訊?我們回頭來說 FFT。
做 FFT 計算的時候,window size 越大(取進來計算的 sample 越多),對頻率的分解能越強,頻率的計算越精確。但是這些 PCM data 的 sample 是照時間排列的,對 44.1KHz 的 PCM 一次取 32768 個 sample 進來計算,如果不用 overlap,則你的頻率解析度(ie. spectral line resolution)是 1.346Hz,而時間解析度只有 1sec * 32768/44100 = 743.04msec,你看不到小於 735.61msec 的頻率變化的過程。頻率解析度和時間解析度兩個量無法同時求得精確的值,時間越精確(取進來計算的 sample 越少),頻率解析就越差,頻率越精確(取進來計算的 sample 越多),時間解析就越差。
MP3 經由 polyphase filter bank 之後轉 MDCT 的過程如下
1. 1152 個 PCM sample 分成兩個部分,各 576 個 sample,稱為一個 granule。
2. 這 576 個 sample 送進 polyphase filter bank,輸出 32 sample(按頻率順序)x 18 組(按時間排序)
3. 重排為 18 個 sample(按時間排序)x 32 組(按頻率排序)
4. 每一組中的 18 個 sample 為時間順序,加上前面一次轉換的 18 個 sample,總共 36 個 sample 送進去做 MDCT 轉換(所以 MDCT window 有 50% 的 overlap 重疊)
5. 轉出來為 18 個 sepctral line(按頻率排序)x 32 組(按頻率排序)
好復雜嗎? ^^;
總之 MDCT 轉換完以後,時間資訊就不見了(每一個都是 spectral line,都是頻率資訊,不過頻率資訊更細了)。
丟掉時間資訊會有什麼影響呢?
假設現在轉換的這一塊聲音區塊前面是很微弱的聲音,到後面突然出現音量急遽升高的情形,譬如說鼓手突然開始打鼓,這種波形我們稱為「attack」:突然拉起的波形。遇到這種情況心理聲學模型會很笨的認為這個區塊裡面有很強的 masker,可以提供很高的遮蔽曲線,所以可以允許較大的量化失真,因此量化的步驟就會給比較少的 bit。MDCT 一次轉換就是取 576 個 sample,這個 block 的長度,同時也就是時間的長度,所以一次死就死全部的 block,量化失真產生的 noise 會擴散到整個 block 的長度范圍(也就是時間范圍),所以前面聲音很微弱的區段,也會發生這些量化噪音,想當然爾,原來微弱的音量根本無法遮蔽掉這些量化噪音,如果後面大音量區段的 pre-masking 前遮蔽曲線也不夠遮蔽這些 noise,我們就會聽到這些量化噪音了,那麼心理聲學模型也就破功了。
這種壓縮瑕疵叫做 pre-echo。
這個道理類似 JPEG 圖檔的壓縮瑕疵,JPEG 一次轉換是拿 8x8 的區塊去做 DCT 轉換,遇到區塊內包含銳利的邊緣、線條(有很多的高頻成分)的時候,經過 DCT 轉換,高頻的量化失真會擴散到整個 8x8 的像素區塊,所以我們常常看到 JPEG 或 MPEG 檔案畫面上銳利線條的周圍(譬如說文字的周圍)會有那種斑斑點點,破碎的壓縮瑕疵,這就是因為一次死死全部,整個區塊都完蛋的關系。
MP+/MPC 因為不用 transform coding,不做 MDCT 轉換,所以他的 pre-echo 的問題比較小,觀察 MPC 壓出來的波形,幾乎看不到 pre-echo 的壓縮瑕疵。
一個相反的例子,MPEG2 AAC/MPEG4 AAC 完全不用 subband filterbank,直接做 MDCT 轉換(前置有一個 gain-control),不過 AAC 有一套對付 pre-echo 的 tool(或者叫 mole)叫做 TNS,可以用來解決 pre-echo 的問題。
這個,越扯越遠,寫不完了 ><
解決 pre-echo 的方法下次繼續....
⑻ 音頻壓縮方法
第一種方法:最簡單的辦法
推薦下載「千千靜聽」(最新版本是4.60,網站地址是http://ttplayer.com/),打開要轉換格式的音樂文件,在播放列表中右擊需要轉換為MP3格式的歌曲,「轉換格式」,在打開的「轉換格式」對話框中,選擇「編碼格式」及保存位置,「立即轉換」,很容易的,支持各種格式,而且在線自動下載歌詞,功能太多了,而且是免費的,用過了就知道了,N合1的功能。強烈推薦。
降低碼率就可以降低文件大小
Nero新版本除了可以將MP3錄成CD外,還支持其它音樂文件,包括WAV、VDF檔,但最出色的可算是把舊有的MP3利用Nero內設的File Encoding轉碼為新式MP3格式MP3Pro。這種引入最新壓縮和編碼制式的MP3Pro雖然採用舊有的格式名(即*.mp3),但效果截然不同。MP3Pro制式是利用低轉送速率技術(bit per sec),即平常一首MP3的頻率大多是128kbit,而MP3Pro則固定於80kbit,但仍能把MP3音質保持在一個最佳的程度,同時又把每首MP3所佔空間減低到原有的5至6成;即將一首佔1MB空間的MP3,轉化成只有600KB的MP3Pro,但音質卻絲毫無損。
用MP3PRO為MP3文件瘦身
MP3(Moving Picture Experts Group, Audio Layer III)是一種音頻壓縮格式,它可以使音樂文件在音質犧牲很小的情況下將文件大小壓縮很多。MP3文件能以不同的比率壓縮,但是壓縮的越多,聲音質量下降的也越多。標準的MP3壓縮比是10 ∶ 1,一個三分鍾長的音樂文件壓縮後大約是4 MB。筆者在此介紹的是MP3PRO,它是 Thomson Multimedia多媒體公司(MP3音樂格式的開發者)推出的一個MP3格式的升級版本,MP3PRO可以把聲音文件壓縮到原有MP3格式的一半大小,但卻可以保持相同的音質。
MP3PRO與MP3的異同
MP3PRO不但可以在原先MP3的尺寸上減小一半,而且經過MP3PRO壓縮的文件,擴展名仍舊是.mp3。MP3PRO文件在播放上完全與MP3兼容,也就是說,老的MP3文件可以在新的MP3PRO播放器上進行播放,同時,新的MP3PRO可以在標準的MP3軟體和設備上播放,但效果可能較差,因為兩者錄制方式不同。MP3PRO採用了兩條分開的數據流來提高聲音的質量:一條包含了和原先的MP3格式相同的一些記錄信息,只有這一條信息可以被老的MP3播放器檢測到;另外一條包含了高音頻數據流,這條數據流能被新版本的MP3PRO播放器支持。兩條數據流合起來,就創造出更高質量的聲音。
製作MP3PRO格式文件
目前製作MP3PRO文件的軟體較少,筆者在此介紹的兩個軟體。
1、MP3PRO Audio Player/Encoder
(1)下載和安裝
Thomson Multimedia推出的MP3PRO Audio Player/Encoder既可以播放又可以壓縮MP3PRO文件,最新版本是1.1.0 ,它能播放所有的MP3和MP3PRO文件,同時能將.wav文件以64kbps位速率壓縮成MP3PRO文件,這個軟體的安裝非常簡單,下載後,直接執行「Mp3proAudioPlayer_v1_1_0.exe」文件即可安裝,安裝完成後,單擊「開始」按鈕,選擇「程序」,單擊「THOMSON MP3PRO Audio Player」直接啟動(如圖1)。
圖1 MP3PRO Audio Player的界面
(2)把WAV文件壓縮成MP3PRO文件
壓縮操作也非常容易,按下「encode」按鈕,顯示如圖2所示,在「Input」輸入框內輸入要壓縮的WAV文件,例如「E: estude.wav」,當然也可以單擊右邊的「Select Input File」按鈕,然後進行選擇,指定了WAV文件後,會顯示該WAV文件一些信息及長度,在「Output」框內會自動顯示壓縮後MP3所存放的文件夾和文件名,當然也可以按右邊的「Select Output File」按鈕進行更改。以上內容選定後,單擊「ENCODE」按鈕,開始進行壓縮。在壓縮過程中,會顯示壓縮過程中已用時間、剩餘時間及壓縮速度等內容。壓縮完成後,單擊右上角的「X」按鈕關閉即可。
圖2 進行壓縮設置
注意:此軟體只能將WAV文件轉換為MP3PRO,並且它壓縮後輸出文件只能是64kbps的MP3PRO聲音文件。
2、Nero Wave Editor
使用MP3PRO Audio Player/Encoder只能WAV文件轉換為MP3PRO,並且它的壓縮後輸出文件限制為64kbps,由於這方面的限制,使用MP3PRO Audio Player/Encoder會顯得非常不方便,下面筆者介紹一個沒有此限制的壓縮軟體,就是Nero公司推出的Nero Wave Editor。提到Nero公司,使用過刻錄機的朋友都知道,它不是生產刻錄軟體的嗎?對了,就是它。它提供的Nero Wave Editor是Nero 軟體包的組成部分,不但可以對音頻文件進行編輯,還可以將音頻文件進行轉換,不但可以將WAV文件轉換為MP3PRO文件,它還可以直接把MP3文件轉換為MP3PRO。
(1)安裝Nero Wave Editor
因為Nero Wave Editor是Nero 軟體包的組成部分,所以在安裝Nero時,就自動安裝了Wave Editor,不過Nero 軟體必須是 Nero 5.5.4.0 或以上版本(注意:不是演示版)。
(2)壓縮文件
從開始菜單中選擇「Ahead Nero」,選擇「Nero Wave Editor」,啟動程序後,界面如圖3。
圖3 Nero Wave Editor的界面
單擊「文件」菜單,選擇「打開」,然後選擇要壓縮的文件,可以是WAV文件,也可以是MP3文件。打開後,單擊「播放」按鈕可以播放,在「文件」菜單中選擇「另存為...」,在「保存類型」下拉列表中選擇「MP3PRO(*.MP3)」,單擊「選項」按鈕(如圖4),如果想轉換為MP3PRO文件,則需要在「Settings」框內選中「Enable MP3PRO」復選框,想轉換為MP3文件,不需選中此復選框,在此我們選中此復選框,在下拉列表中選擇轉換後音頻文件的品質和位速率,單擊「OK」按鈕返回,然後單擊「保存」按鈕,系統開始轉換,完成後返回主窗口並關閉即可。筆者將47MB的WAV文件轉換為MP3後大小是4.2MB,而轉換為MP3PRO後則為2.6MB。
只要後綴名是MP3,在隨身MP3上和支持MP3的手機上都是可以使用的。
MP3的壓縮推薦用Streambox Ripper軟體,簡體中文破解版下載地址
http://www.crsky.com/soft/2008.html
以下是該軟體的介紹:
壓縮MP3文件--Streambox Ripper
先來講講是什麼是MP3, MP3 是利用 MPEG Audio Layer 3 的技術,將聲音用 1:10 甚至 1:12 的壓縮率,變成容量較小的文件,但是在人耳聽起來,卻沒有什麼不同。當然這是一種失真壓縮,就像圖形文件 JPG 一樣,因為失真壓縮,所以可以壓得很多,也可以調整壓縮比率,壓得越多失真也越多。
如果大家使用過MP3播放器的話,就應該對MP3的文件大小有一定的了解,一般情況下,一首4分鍾的MP3文件,需要4M的空間,這樣的話,任何64M的存儲卡,除了系統文件要佔用一部分外,也就存15首歌曲,我們隨機配送的RS-MMC卡,只有64M,如何在不花錢購大卡的情況下,來存儲更多的歌曲,就需要用到MP3的壓縮功能了,現在在網上,很多的歌曲,有MP3格式的、也有一部分是RM格式的,都可以通過下面的Streambox Ripper軟體來搞定。
啟動軟體後,彈出的操作窗口非常的簡單,我們可以將音頻文件直接拖到這個操作窗口中,或是點右下角的載入命令打開文件。載入文件後,點右下角的轉換命令,彈出窗口,從中選擇要轉換後的類型,及輸出目的地就可以了。
⑼ 請問音頻壓縮方式:OggVorbis和g.726(adpcm)各自特點
OggVorbis作為一款全新的音樂壓縮格式,不僅能夠自由播放MP3,VQF,AAC,而且用vorbis製作的音效文件更加出色。轉換到vorbis世界的另一個原因,或許會是因為MPEG是完全由Fraunhofer組織所控制,每一個需要解碼MP3文件的應用程序都應該得到Fraunhofer的授權,相比之下,vorbis技術則是完全免費和自由的。在觀看一些DVD轉錄成AVI的外國電影時,你或許會遇到只有圖象沒有聲音的情況,這可能是因為音頻的解碼使用了vorbis技術,試一試安裝OggVorbis問題就會解決 。
DS2164Q ADPCM處理器是一款專用數字信號處理(DSP)晶元,已被優化為執行三種不同速率的自適應差分脈沖編碼調制(ADPCM)語音壓縮功能。晶元可被編程為壓縮(擴展)64kbps話音數據至(由)32kbps、24kbps或16kbps。32kbps壓縮遵循CCITT推薦標准G.726規定的演算法。DS2164Q可以動態切換壓縮演算法。這使用戶能夠以動態方式最大限度利用現有帶寬。 按照CCITT/ITU G.726規范壓縮/擴展64kbps PCM話音至/由32kbps、24kbps或16kbps 兩個完全獨立的通道結構;器件可以通過編程實現以下功能: 兩路擴展 兩路壓縮 一路擴展和一路壓縮 直接與CODEC組合器件互聯 輸入至輸出延遲小於375µs 通過簡單串列埠配置器件 片上時隙分配電路(TSAC)可以在不同的時隙輸入/輸出數據 支持隨路信令 各通道可被獨立閑置或旁路 硬體模式不需要主處理器,特別適合於語音存儲應用 反向兼容於DS2165 ADPCM處理器 +5V單電源供電;低功耗CMOS技術 28引腳PLCC封裝