當前位置:首頁 » 操作系統 » pcm演算法

pcm演算法

發布時間: 2023-07-05 03:09:51

⑴ 語音編解碼的ADPCM(自適應差分PCM)

類型:Audio
制定者:ITU-T
所需頻寬:32Kbps
特性:ADPCM(adaptive difference pulse code molation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼。它的核心想法是:
①利用自適應的思想改變數化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備註:ADPCM (ADPCM Adaptive Differential Pulse Code Molation), 是一種針對16bit (或者更高?) 聲音波形數據的一種有損壓縮演算法, 它將聲音流中每次采樣的 16bit 數據以 4bit 存儲, 所以壓縮比1:4. 而壓縮/解壓縮演算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。LPC(Linear Predictive Coding,線性預測編碼)類型:Audio
制定者:
所需頻寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
應用領域:voip
版稅方式:Free
備註:參數編碼又稱為聲源編碼,是將信源信號在頻率域或其它正交變換域提取特徵參數,並將其變換成數字代碼進行傳輸。解碼為其反過程,將收到的數字序列經變換恢復特徵參量,再根據特徵參量重建語音信號。具體說,參數編碼是通過對語音信號特徵參數的提取和編碼,力圖使重建語音信號具有盡可能高的准確性,但重建信號的波形同原語音信號的波形可能會有相當大的差別。如:線性預測編碼(LPC)及其它各種改進型都屬於參數編碼。該編碼比特率可壓縮到2Kbit/s-4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。CELP(Code Excited Linear Prediction,碼激勵線性預測編碼)類型:Audio
制定者:歐洲通信標准協會(ETSI)
所需頻寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差信號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
②用分數延遲改進基音預測,使濁音的表達更為准確,尤其改善了女性語音的質量;
③ 使用修正的MSPE准則來尋找 「最佳」的延遲,使得基音周期延遲的外形更為平滑;
④根據長時預測的效率,調整隨機激勵矢量的大小,提高語音的主觀質量; ⑤ 使用基於信道錯誤率估計的自適應平滑器,在信道誤碼率較高的情況下也能合成自然度較高的語音。
結論:
① CELP演算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
②使用快速演算法,可以有效地降低CELP演算法的復雜度,使它完全可以實時地實現;
③CELP可以成功地對各種不同類型的語音信號進行編碼,這種適應性對於真實環境,尤其是背景雜訊存在時更為重要。
優點:用很低的帶寬提供了較清晰的語音
缺點:
應用領域:voip
版稅方式:Free
備註:1999年歐洲通信標准協會(ETSI)推出了基於碼激勵線性預測編碼(CELP)的第三代移動通信語音編碼標准自適應多速率語音編碼器(AMR),其中最低速率為4.75kb/s,達到通信質量。CELP 碼激勵線性預測編碼是Code Excited LinearPrediction的縮寫。CELP是近10年來最成功的語音編碼演算法。
CELP語音編碼演算法用線性預測提取聲道參數,用一個包含許多典型的激勵矢量的碼本作為激勵參數,每次編碼時都在這個碼本中搜索一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼本中的序號。
CELP已經被許多語音編碼標准所採用,美國聯邦標准FS1016就是採用CELP的編碼方法,主要用於高質量的窄帶語音保密通信。CELP(Code-Excited Linear Prediction) 這是一個簡化的 LPC 演算法,以其低比特率著稱(4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。

⑵ PCM到底屬於無損音頻格式還是有損

屬於,無損格式是壓縮時候採用的演算法能夠精確地還原pcm信號,也就是說,而pcm就是最原始的數字信號。

無損失壓縮:被編碼的音頻(PCM)數據沒有任何信息損失,解碼輸出的音頻與編碼器的輸入的每一個位元組都是一樣的。每個數據幀都有一個當前幀的 16-bitCRC校驗碼,用於監測數據傳輸錯誤。對整段音頻數據,在文件頭中還保存有一個針對原始未壓縮音頻數據的MD5標記,用於在解碼和測試時對數據進行校驗。

(2)pcm演算法擴展閱讀:

音頻格式舉例:

WAVE(*.WAV)是微軟公司開發的一種聲音文件格式,它符合PIFF 「Resource Interchange File Format」 文件規范,用於保存Windows平台的音頻信息資源,被Windows平台及其應用程序所支持。

「*.WAV」格式支持MSADPCM、CCITT A LAW等多種壓縮演算法,支持多種音頻位數、采樣頻率和聲道,標准格式的WAV文件和CD格式一樣,也是44.1K的采樣頻率,速率1411K/秒,16位量化位數;

看到了吧,WAV格式的聲音文件質量和CD相差無幾,也是目前PC機上廣為流行的聲音文件格式,幾乎所有的音頻編輯軟體都「認識」WAV格式。

⑶ PCM編碼和MPEG編碼有何區別

PCM基本工作原理
脈沖調制就是把一個時間連續,取值連續的模擬信號變換成時間離散,取值離散的數字信號後在信道中傳輸.脈沖編碼調制就是對模擬信號先抽樣,再對樣值幅度量化,編碼的過程.
所謂抽樣,就是對模擬信號進行周期性掃描,把時間上連續的信號變成時間上離散的信號.該模擬信號經過抽樣後還應當包含原信號中所有信息,也就是說能無失真的恢復原模擬信號.它的抽樣速率的下限是由抽樣定理確定的.在該實驗中,抽樣速率採用8Kbit/s.
所謂量化,就是把經過抽樣得到的瞬時值將其幅度離散,即用一組規定的電平,把瞬時抽樣值用最接近的電平值來表示.
一個模擬信號經過抽樣量化後,得到已量化的脈沖幅度調制信號,它僅為有限個數值.
所謂編碼,就是用一組二進制碼組來表示每一個有固定電平的量化值.然而,實際上量化是在編碼過程中同時完成的,故編碼過程也稱為模/數變換,可記作A/D.
PCM的原理如圖5-1所示.話音信號先經防混疊低通濾波器,進行脈沖抽樣,變成8KHz重復頻率的抽樣信號(即離散的脈沖調幅PAM信號),然後將幅度連續的PAM信號用"四捨五入"辦法量化為有限個幅度取值的信號,再經編碼後轉換成二進制碼.對於電話,CCITT規定抽樣率為8KHz,每抽樣值編8位碼,即共有28=256個量化值,因而每話路PCM編碼後的標准數碼率是64kb/s.為解決均勻量化時小信號量化誤差大,音質差的問題,在實際中採用不均勻選取量化間隔的非線性量化方法,即量化特性在小信號時分層密,量化間隔小,而在大信號時分層疏,量化間隔大.
在實際中廣泛使用的是兩種對數形式的壓縮特性:A律和律.A律PCM用於歐洲和我國,律用於北美和日本.

MPEG編碼

一、國際電聯的H.261、H.263標准

1.H.261

H.261又稱為P*64,其中P為64kb/s的取值范圍,是1到30的可變參數,它最初是針對在ISDN上實現電信會議應用特別是面對面的可視電話和視頻會議而設計的。實際的編碼演算法類似於MPEG演算法,但不能與後者兼容。H.261在實時編碼時比MPEG所佔用的CPU運算量少得多,此演算法為了優化帶寬佔用量,引進了在圖像質量與運動幅度之間的平衡折中機制,也就是說,劇烈運動的圖像比相對靜止的圖像質量要差。因此這種方法是屬於恆定碼流可變質量編碼而非恆定質量可變碼流編碼。

2.H.263

H.263是國際電聯ITU-T的一個標准草案,是為低碼流通信而設計的。但實際上這個標准可用在很寬的碼流范圍,而非只用於低碼流應用,它在許多應用中可以認為被用於取代H.261。H.263的編碼演算法與H.261一樣,但做了一些改善和改變,以提高性能和糾錯能力。.263標准在低碼率下能夠提供比H.261更好的圖像效果,兩者的區別有:(1)H.263的運動補償使用半象素精度,而H.261則用全象素精度和循環濾波;(2)數據流層次結構的某些部分在H.263中是可選的,使得編解碼可以配置成更低的數據率或更好的糾錯能力;(3)H.263包含四個可協商的選項以改善性能;(4)H.263採用無限制的運動向量以及基於語法的算術編碼;(5)採用事先預測和與MPEG中的P-B幀一樣的幀預測方法;(6)H.263支持5種解析度,即除了支持H.261中所支持的QCIF和CIF外,還支持SQCIF、4CIF和16CIF,SQCIF相當於QCIF一半的解析度,而4CIF和16CIF分別為CIF的4倍和16倍。

1998年IUT-T推出的H.263+是H.263建議的第2版,它提供了12個新的可協商模式和其他特徵,進一步提高了壓縮編碼性能。如H.263隻有5種視頻源格式,H.263+允許使用更多的源格式,圖像時鍾頻率也有多種選擇,拓寬應用范圍;另一重要的改進是可擴展性,它允許多顯示率、多速率及多解析度,增強了視頻信息在易誤碼、易丟包異構網路環境下的傳輸。另外,H.263+對H.263中的不受限運動矢量模式進行了改進,加上12個新增的可選模式,不僅提高了編碼性能,而且增強了應用的靈活性。H.263已經基本上取代了H.261。

二、M-JPEG

M-JPEG(Motion- Join Photographic Experts Group)技術即運動靜止圖像(或逐幀)壓縮技術,廣泛應用於非線性編輯領域可精確到幀編輯和多層圖像處理,把運動的視頻序列作為連續的靜止圖像來處理,這種壓縮方式單獨完整地壓縮每一幀,在編輯過程中可隨機存儲每一幀,可進行精確到幀的編輯,此外M-JPEG的壓縮和解壓縮是對稱的,可由相同的硬體和軟體實現。但M-JPEG只對幀內的空間冗餘進行壓縮。不對幀間的時間冗餘進行壓縮,故壓縮效率不高。採用M-JPEG數字壓縮格式,當壓縮比7:1時,可提供相當於Betecam SP質量圖像的節目。

JPEG標准所根據的演算法是基於DCT(離散餘弦變換)和可變長編碼。JPEG的關鍵技術有變換編碼、量化、差分編碼、運動補償、霍夫曼編碼和遊程編碼等

M-JPEG的優點是:可以很容易做到精確到幀的編輯、設備比較成熟。缺點是壓縮效率不高。

此外,M-JPEG這種壓縮方式並不是一個完全統一的壓縮標准,不同廠家的編解碼器和存儲方式並沒有統一的規定格式。這也就是說,每個型號的視頻伺服器或編碼板有自己的M-JPEG版本,所以在伺服器之間的數據傳輸、非線性製作網路向伺服器的數據傳輸都根本是不可能的。

三、MPEG系列標准

MPEG是活動圖像專家組(Moving Picture Exports Group)的縮寫,於1988年成立,是為數字視/音頻制定壓縮標準的專家組,目前已擁有300多名成員,包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG組織最初得到的授權是制定用於「活動圖像」編碼的各種標准,隨後擴充為「及其伴隨的音頻」及其組合編碼。後來針對不同的應用需求,解除了「用於數字存儲媒體」的限制,成為現在制定「活動圖像和音頻編碼」標準的組織。MPEG組織制定的各個標准都有不同的目標和應用,目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21標准。

1.MPEG-1標准

MPEG-1標准於1993年8月公布,用於傳輸1.5Mbps數據傳輸率的數字存儲媒體運動圖像及其伴音的編碼。該標准包括五個部分:

第一部分說明了如何根據第二部分(視頻)以及第三部分(音頻)的規定,對音頻和視頻進行復合編碼。第四部分說明了檢驗解碼器或編碼器的輸出比特流符合前三部分規定的過程。第五部分是一個用完整的C語言實現的編碼和解碼器。

該標准從頒布的那一刻起,MPEG-1取得一連串的成功,如VCD和MP3的大量使用,Windows95以後的版本都帶有一個MPEG-1軟體解碼器,可攜式MPEG-1攝像機等等。

2.MPEG-2標准

MPEG組織於1994年推出MPEG-2壓縮標准,以實現視/音頻服務與應用互操作的可能性。 MPEG-2標準是針對標准數字電視和高清晰度電視在各種應用下的壓縮方案和系統層的詳細規定,編碼碼率從每秒3兆比特~100兆比特,標準的正式規范在ISO/IEC13818中。MPEG-2不是MPEG-1的簡單升級,MPEG-2在系統和傳送方面作了更加詳細的規定和進一步的完善。MPEG-2特別適用於廣播級的數字電視的編碼和傳送,被認定為SDTV和HDTV的編碼標准。

MPEG-2圖像壓縮的原理是利用了圖像中的兩種特性:空間相關性和時間相關性。這兩種相關性使得圖像中存在大量的冗餘信息。如果我們能將這些冗餘信息去除,只保留少量非相關信息進行傳輸,就可以大大節省傳輸頻帶。而接收機利用這些非相關信息,按照一定的解碼演算法,可以在保證一定的圖像質量的前提下恢復原始圖像。一個好的壓縮編碼方案就是能夠最大限度地去除圖像中的冗餘信息。

MPEG-2的編碼圖像被分為三類,分別稱為I幀,P幀和B幀。

I幀圖像採用幀內編碼方式,即只利用了單幀圖像內的空間相關性,而沒有利用時間相關性。P幀和B幀圖像採用幀間編碼方式,即同時利用了空間和時間上的相關性。P幀圖像只採用前向時間預測,可以提高壓縮效率和圖像質量。P幀圖像中可以包含幀內編碼的部分,即P幀中的每一個宏塊可以是前向預測,也可以是幀內編碼。B幀圖像採用雙向時間預測,可以大大提高壓縮倍數。

MPEG-2的編碼碼流分為六個層次。為更好地表示編碼數據,MPEG-2用句法規定了一個層次性結構。它分為六層,自上到下分別是:圖像序列層、圖像組(GOP)、圖像、宏塊條、宏塊、塊。

MPEG-2標准在廣播電視領域中的主要應用如下:

(1)視音頻資料的保存

一直以來,電視節目、音像資料等都是用磁帶保存的。這種方式有很多弊端:易損,佔地大,成本高,難於重新使用。更重要的是難以長期保存,難以查找、難以共享。隨著計算機技術和視頻壓縮技術的發展,高速寬頻計算機網路以及大容量數據存儲系統給電視台節目的網路化存儲、查詢、共享、交流提供了可能。

採用MPEG-2壓縮編碼的DVD視盤,給資料保存帶來了新的希望。電視節目、音像資料等可通過MPEG-2編碼系統編碼,保存到低成本的CD-R光碟或高容量的可擦寫DVD-RAM上,也可利用DVD編著軟體(如Daikin Scenarist NT、Spruce DVDMaestro等)製作成標準的DVD視盤,既可節約開支,也可節省存放空間。

(2)電視節目的非線性編輯系統及其網路

在非線性編輯系統中,節目素材是以數字壓縮方式存儲、製作和播出的, 視頻壓縮技術是非線性編輯系統的技術基礎。目前主要有M-JPEG和MPEG-2兩種數字壓縮格式。

M-JPEG技術即運動靜止圖像(或逐幀)壓縮技術,可進行精確到幀的編輯,但壓縮效率不高。

MPEG-2採用幀間壓縮的方式,只需進行I幀的幀內壓縮處理,B幀和P幀通過偵測獲得,因此 ,傳輸和運算的數據大多由幀之間的時間相關性得到,相對來說,數據量小,可以實現較高的壓縮比。隨著逐幀編輯問題的解決,MPEG-2將廣泛應用於非線性編輯系統,並大大地降低編輯成本,同時MPEG-2的解壓縮是標準的,不同廠家設計的壓縮器件壓縮的數據可由其他廠家設計解壓縮器來解壓縮,這一點保證了各廠家的設備之間能完全兼容。

由於採用MPEG-2 IBP視頻壓縮技術,數據量成倍減少,降低了存儲成本,提高了數據傳輸速度,減少了對計算機匯流排和網路帶寬的壓力,可採用純乙太網組建非線性編輯網路系統已成為可能,而在目前乙太網是最為成熟的網路,系統管理比較完善,價格也比較低廉。

基於MPEG-2的非線性編輯系統及非線性編輯網路將成為未來的發展方向。

(3)衛星傳輸

MPEG-2已經通過ISO認可,並在廣播領域獲得廣泛的應用,如數字衛星視頻廣播(DVB-S)、DVD視盤和視頻會議等。目前,全球有數以千萬計的DVB-S用戶,DVB-S信號採用MPEG-2壓縮格式編碼,通過衛星或微波進行傳輸,在用戶端經MPEG-2衛星接收解碼器解碼,以供用戶觀看。此外,採用MPEG-2壓縮編碼技術,還可以進行遠程電視新聞或節目的傳輸和交流。

(4)電視節目的播出

在整個電視技術中播出是一個承上啟下的環節,對播出系統進行數字化改造是非常必要的,其中最關鍵一步就是構建硬碟播出系統。MPEG-2硬碟自動播出系統因編播簡便、儲存容量大、視頻指標高等優點,而為人們所青睞。但以往MPEG-2播出設備因非常昂貴,而只有少量使用。隨著MPEG-2技術的發展和相關產品成本的下降,MPEG-2硬碟自動系統播出可望得到普及。

3.MPEG-4標准

運動圖像專家組MPEG 於1999年2月正式公布了MPEG-4(ISO/IEC14496)標准第一版本。同年年底MPEG-4第二版亦告底定,且於2000年年初正式成為國際標准。

MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮演算法,它是針對數字電視、互動式繪圖應用(影音合成內容)、互動式多媒體(WWW、資料擷取與分散)等整合及壓縮技術的需求而制定的國際標准。MPEG-4標准將眾多的多媒體應用集成於一個完整的框架內,旨在為多媒體通信及應用環境提供標準的演算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應用領域普遍採用的統一數據格式。

MPEG-4的編碼理念是:MPEG-4標准同以前標準的最顯著的差別在於它是採用基於對象的編碼理念,即在編碼時將一幅景物分成若干在時間和空間上相互聯系的視頻音頻對象,分別編碼後,再經過復用傳輸到接收端,然後再對不同的對象分別解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象採用不同的編碼方法和表示方法,又有利於不同數據類型間的融合,並且這樣也可以方便的實現對於各種對象的操作及編輯。例如,我們可以將一個卡通人物放在真實的場景中,或者將真人置於一個虛擬的演播室里,還可以在互聯網上方便的實現交互,根據自己的需要有選擇的組合各種視頻音頻以及圖形文本對象。

MPEG-4系統的一般框架是:對自然或合成的視聽內容的表示;對視聽內容數據流的管理,如多點、同步、緩沖管理等;對靈活性的支持和對系統不同部分的配置。

與MPEG-1、MPEG-2相比,MPEG-4具有如下獨特的優點:

(1) 基於內容的交互性

MPEG-4提供了基於內容的多媒體數據訪問工具,如索引、超級鏈接、上下載、刪除等。利用這些工具,用戶可以方便地從多媒體資料庫中有選擇地獲取自己所需的與對象有關的內容,並提供了內容的操作和位流編輯功能,可應用於互動式家庭購物,淡入淡出的數字化效果等。MPEG-4提供了高效的自然或合成的多媒體數據編碼方法。它可以把自然場景或對象組合起來成為合成的多媒體數據。

(2)高效的壓縮性

MPEG-4基於更高的編碼效率。同已有的或即將形成的其它標准相比,在相同的比特率下,它基於更高的視覺聽覺質量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時MPEG-4還能對同時發生的數據流進行編碼。一個場景的多視角或多聲道數據流可以高效、同步地合成為最終數據流。這可用於虛擬三維游戲、三維電影、飛行模擬練習等

(3)通用的訪問性

MPEG-4提供了易出錯環境的魯棒性,來保證其在許多無線和有線網路以及存儲介質中的應用,此外,MPEG-4還支持基於內容的的可分級性,即把內容、質量、復雜性分成許多小塊來滿足不同用戶的不同需求,支持具有不同帶寬,不同存儲容量的傳輸信道和接收端。

這些特點無疑會加速多媒體應用的發展,從中受益的應用領域有:網際網路多媒體應用;廣播電視;互動式視頻游戲;實時可視通信;互動式存儲媒體應用;演播室技術及電視後期製作;採用面部動畫技術的虛擬會議;多媒體郵件;移動通信條件下的多媒體應用;遠程視頻監控;通過ATM網路等進行的遠程資料庫業務等。MPEG-4主要應用如下:

(1)應用於網際網路視音頻廣播

由於上網人數與日俱增,傳統電視廣播的觀眾逐漸減少,隨之而來的便是廣告收入的減少,所以現在的固定式電視廣播最終將轉向基於TCP/IP的網際網路廣播,觀眾的收看方式也由簡單的遙控器選擇頻道轉為網上視頻點播。視頻點播的概念不是先把節目下載到硬碟,然後再播放,而是流媒體視頻(streaming video),點擊即觀看,邊傳輸邊播放。

現在網際網路中播放視音頻的有:Real Networks公司的 Real Media,微軟公司的 Windows Media,蘋果公司的 QuickTime,它們定義的視音頻格式互不兼容,有可能導致媒體流中難以控制的混亂,而MPEG-4為網際網路視頻應用提供了一系列的標准工具,使視音頻碼流具有規范一致性。因此在網際網路播放視音頻採用MPEG-4,應該說是一個安全的選擇。

(2)應用於無線通信

MPEG-4高效的碼率壓縮,交互和分級特性尤其適合於在窄帶移動網上實現多媒體通信,未來的手機將變成多媒體移動接收機,不僅可以打移動電視電話、移動上網,還可以移動接收多媒體廣播和收看電視。

(3)應用於靜止圖像壓縮

靜止圖像(圖片)在網際網路中大量使用,現在網上的圖片壓縮多採用JPEG技術。MPEG-4中的靜止圖像(紋理)壓縮是基於小波變換的,在同樣質量條件下,壓縮後的文件大小約是JPEG壓縮文件的十分之一。把網際網路上使用的JPEG圖片轉換成MPEG-4格式,可以大幅度提高圖片在網路中的傳輸速度。

(4)應用於電視電話

傳統用於窄帶電視電話業務的壓縮編碼標准,如H261,採用幀內壓縮、幀間壓縮、減少象素和抽幀等辦法來降低碼率,但編碼效率和圖像質量都難以令人滿意。MPEG-4的壓縮編碼可以做到以極低碼率傳送質量可以接受的聲像信號,使電視電話業務可以在窄帶的公用電話網上實現。

(5)應用於計算機圖形、動畫與模擬

MPEG-4特殊的編碼方式和強大的交互能力,使得基於MPEG-4的計算機圖形和動畫可以從各種來源的多媒體資料庫中獲取素材,並實時組合出所需要的結果。因而未來的計算機圖形可以在MPEG-4語法所允許的范圍內向所希望的方向無限發展,產生出今天無法想像的動畫及模擬效果。

(6)應用於電子游戲

MPEG-4可以進行自然圖像與聲音同人工合成的圖像與聲音的混合編碼,在編碼方式上具有前所未有的靈活性,並且能及時從各種來源的多媒體資料庫中調用素材。這可以在將來產生象電影一樣的電子游戲,實現極高自由度的互動式操作。

4.MPEG-7標准

MPEG-7標准被稱為「多媒體內容描述介面」,為各類多媒體信息提供一種標准化的描述,這種描述將與內容本身有關,允許快速和有效的查詢用戶感興趣的資料。它將擴展現有內容識別專用解決方案的有限的能力,特別是它還包括了更多的數據類型。換而言之,MPEG-7規定一個用於描述各種不同類型多媒體信息的描述符的標准集合。該標准於1998年10月提出。

MPEG-7的目標是支持多種音頻和視覺的描述,包括自由文本、N維時空結構、統計信息、客觀屬性、主觀屬性、生產屬性和組合信息。對於視覺信息,描述將包括顏色、視覺對象、紋理、草圖、形狀、體積、空間關系、運動及變形等。

MPEG-7的目標是根據信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次上的用戶對信息的需求。以視覺內容為例,較低抽象層將包括形狀、尺寸、紋理、顏色、運動(軌道)和位置的描述。對於音頻的較低抽象層包括音調、調式、音速、音速變化、音響空間位置。最高層將給出語義信息:如「這是一個場景:一個鴨子正躲藏在樹後並有一個汽車正在幕後通過。」抽象層與提取特徵的方式有關:許多低層特徵能以完全自動的方式提取,而高層特徵需要更多人的交互作用。MPEG-7還允許依據視覺描述的查詢去檢索聲音數據,反之也一樣。

MPEG-7的目標是支持數據管理的靈活性、數據資源的全球化和互操作性。

MPEG-7標准化的范圍包括:一系列的描述子(描述子是特徵的表示法,一個描述子就是定義特徵的語法和語義學);一系列的描述結構(詳細說明成員之間的結構和語義);一種詳細說明描述結構的語言、描述定義語言(DDL);一種或多種編碼描述方法。

在我們的日常生活中,日益龐大的可利用音視頻數據需要有效的多媒體系統來存取、交互。這類需求與一些重要的社會和經濟問題相關,並且在許多專業和消費應用方面都是急需的,尤其是在網路高度發展的今天,而MPEG-7的最終目的是把網上的多媒體內容變成象現在的文本內容一樣,具有可搜索性。這使得大眾可以接觸到大量的多媒體內容,MPEG-7標准可以支持非常廣泛的應用,具體如下:

(1)音視資料庫的存儲和檢索;

(2)廣播媒體的選擇(廣播、電視節目);

(3)網際網路上的個性化新聞服務;

(4)智能多媒體、多媒體編輯;

(5)教育領域的應用(如數字多媒體圖書館等);

(6)遠程購物;

(7)社會和文化服務(歷史博物館、藝術走廊等);

(8)調查服務(人的特徵的識別、辯論等);

(9)遙感;

(10)監視(交通控制、地面交通等);

(11)生物醫學應用;

(12)建築、不動產及內部設計;

(13)多媒體目錄服務(如,黃頁、旅遊信息、地理信息系統等);

(14)家庭娛樂(個人的多媒體收集管理系統等)。

原則上,任何類型的AV(Audio-Video)材料都可以通過任何類型的查詢材料來檢索,例如,AV材料可以通過視頻、音樂、語言等來查詢,通過搜索引擎來匹配查詢數據和MPEG-7的音視頻描述。下面給出幾個查詢例子:

音樂:在鍵盤上彈幾個音符就能得到包含(或近似)要求曲調的音樂作品列表,或以某種方式匹配音符的圖象,例如,從情感方面。

圖形:在屏幕上畫幾條線就能得到類似圖形、標識、表意文字(符號)等的一組圖象。

運動:對一組給定的物體,描述在物體之間的運動和關系,就會得到實現所描述的時空關系的動畫列表。

電影拍攝劇本(劇情說明):對給定的內容,描述出動作就會得到發生類似動作的電影拍攝劇本(劇情說明)列表。

四、MPEG-21標准

互聯網改變了物質商品交換的商業模式,這就是「電子商務」。新的市場必然帶來新的問題:如何獲取數字視頻、音頻以及合成圖形等「數字商品」,如何保護多媒體內容的知識產權,如何為用戶提供透明的媒體信息服務,如何檢索內容,如何保證服務質量等。此外,有許多數字媒體(圖片、音樂等)是由用戶個人生成、使用的。這些「內容供應者」同商業內容供應商一樣關心相同的事情:內容的管理和重定位、各種權利的保護、非授權存取和修改的保護、商業機密與個人隱私的保護等。目前雖然建立了傳輸和數字媒體消費的基礎結構並確定了與此相關的諸多要素,但這些要素、規范之間還沒有一個明確的關系描述方法,迫切需要一種結構或框架保證數字媒體消費的簡單性,很好地處理「數字類消費」中諸要素之間的關系。MPEG-21就是在這種情況下提出的。

制定MPEG-21標準的目的是:(1)將不同的協議、標准、技術等有機地融合在一起;(2)制定新的標准;(3)將這些不同的標准集成在一起。MPEG-21標准其實就是一些關鍵技術的集成,通過這種集成環境就對全球數字媒體資源進行透明和增強管理,實現內容描述、創建、發布、使用、識別、收費管理、產權保護、用戶隱私權保護、終端和網路資源抽取、事件報告等功能。

任何與MPEG-21多媒體框架標准環境交互或使用MPEG-21數字項實體的個人或團體都可以看作是用戶。從純技術角度來看,MPEG-21對於「內容供應商」和「消費者」沒有任何區別。MPEG-21多媒體框架標准包括如下用戶需求:(1)內容傳送和價值交換的安全性;(2)數字項的理解;(3)內容的個性化;(4)價值鏈中的商業規則;(5)兼容實體的操作;(6)其它多媒體框架的引入;(7)對MPEG之外標準的兼容和支持;(8)一般規則的遵從;(9)MPEG-21標准功能及各個部分通信性能的測試;(10)價值鏈中媒體數據的增強使用;(11)用戶隱私的保護;(12)數據項完整性的保證;(13)內容與交易的跟蹤;(14)商業處理過程視圖的提供;(15)通用商業內容處理庫標準的提供;(16)長線投資時商業與技術獨立發展的考慮;(17)用戶權利的保護,包括:服務的可靠性、債務與保險、損失與破壞、付費處理與風險防範等;(18)新商業模型的建立和使用。

五、其它壓縮編碼標准

1.Real Video

Real Video是Real Networks公司開發的在窄帶(主要的互聯網)上進行多媒體傳輸的壓縮技術。

2.WMT

WMT是微軟公司開發的在互聯網上進行媒體傳輸的視頻和音頻編碼壓縮技術,該技術已與WMT伺服器與客戶機體系結構結合為一個整體,使用MPEG-4標準的一些原理。

3.QuickTime

QuickTime是一種存儲、傳輸和播放多媒體文件的文件格式和傳輸體系結構,所存儲和傳輸的多媒體通過多重壓縮模式壓縮而成,傳輸是通過RTP協議實現的。

標准化是產業化成功的前提,H.261、H.263推動了電視電話、視頻會議的發展。早期的視頻伺服器產品基本都採用M——JPEG標准,開創視頻非線性編輯時代。MPEG-1成功地在中國推動了VCD產業,MPEG-2標准帶動了DVD及數字電視等多種消費電子產業,其它MPEG標準的應用也在實施或開發中,Real-Networks的Real Video、微軟公司的WMT以及Apple公司的QuickTime帶動了網路流媒體的發展,視頻壓縮編解碼標准緊扣應用發展的脈搏,與工業和應用同步。未來是信息化的社會,各種多媒體數據的傳輸和存儲是信息處理的基本問題,因此,可以肯定視頻壓縮編碼標准將發揮越來越大的作用

⑷ pcm 壓縮演算法 每秒壓縮多少m

Gzip壓縮演算法,Gzip壓縮針對冗餘度高的數據壓縮效果比lzo更好,但對cpu的佔用比lzo平均高15%左右,若需要加速連接數相對較少,建議啟用gzip。默認使用lzo演算法。謝謝您對電信產品的關注,祝您生活愉快。 如果以上信息沒有解決您的問題

⑸ 音頻視頻壓縮技術概述

數字技術的出現與應用為人類帶來了深遠的影響,人們如今已生活在一個幾乎數字化的世界之中,而數字音頻技術則稱得上是應用最為廣泛的數字技術之一,CD、 VCD等早已走進千家萬戶,數字化廣播正在全球范圍內逐步得到開展,正是這些與廣大消費者密切相關的產品及應用成為了本文將要介紹的主題:數字音頻壓縮技術得以產生和發展的動力。

1、音頻壓縮技術的出現及早期應用

音頻壓縮技術指的是對原始數字音頻信號流(PCM編碼)運用適當的數字信號處理技術,在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。它必須具有相應的逆變換,稱為解壓縮或解碼。音頻信號在通過一個編解碼系統後可能引入大量的雜訊和一定的失真。

數字信號的優勢是顯而易見的,而它也有自身相應的缺點,即存儲容量需求的增加及傳輸時信道容量要求的增加。以CD為例,其采樣率為44.1KHz,量化精度為16比特,則1分鍾的立體聲音頻信號需占約10M位元組的存儲容量,也就是說,一張CD唱盤的容量只有1小時左右。當然,在帶寬高得多的數字視頻領域這一問題就顯得更加突出。是不是所有這些比特都是必需的呢?研究發現,直接採用PCM碼流進行存儲和傳輸存在非常大的冗餘度。事實上,在無損的條件下對聲音至少可進行4:1壓縮,即只用25%的數字量保留所有的信息,而在視頻領域壓縮比甚至可以達到幾百倍。因而,為利用有限的資源,壓縮技術從一出現便受到廣泛的重視。

對音頻壓縮技術的研究和應用由來已久,如A律、u律編碼就是簡單的准瞬時壓擴技術,並在ISDN話音傳輸中得到應用。對語音信號的研究發展較早,也較為成熟,並已得到廣泛應用,如自適應差分PCM(ADPCM)、線性預測編碼(LPC)等技術。在廣播領域,NICAM(Near Instantaneous Companded Audio Multiplex - 准瞬時壓擴音頻復用)等系統中都使用了音頻壓縮技術。

2、音頻壓縮演算法的主要分類及典型代表

一般來講,可以將音頻壓縮技術分為無損(lossless)壓縮及有損(lossy)壓縮兩大類,而按照壓縮方案的不同,又可將其劃分為時域壓縮、變換壓縮、子帶壓縮,以及多種技術相互融合的混合壓縮等等。各種不同的壓縮技術,其演算法的復雜程度(包括時間復雜度和空間復雜度)、音頻質量、演算法效率(即壓縮比例),以及編解碼延時等都有很大的不同。各種壓縮技術的應用場合也因之而各不相同。

(1)時域壓縮(或稱為波形編碼)技術是指直接針對音頻PCM碼流的樣值進行處理,通過靜音檢測、非線性量化、差分等手段對碼流進行壓縮。此類壓縮技術的共同特點是演算法復雜度低,聲音質量一般,壓縮比小(CD音質> 400kbps),編解碼延時最短(相對其它技術)。此類壓縮技術一般多用於語音壓縮,低碼率應用(源信號帶寬小)的場合。時域壓縮技術主要包括 G.711、ADPCM、LPC、CELP,以及在這些技術上發展起來的塊壓擴技術如NICAM、子帶ADPCM(SB-ADPCM)技術如G.721、 G.722、Apt-X等。

(2)子帶壓縮技術是以子帶編碼理論為基礎的一種編碼方法。子帶編碼理論最早是由Crochiere等於1976年提出的。其基本思想是將信號分解為若乾子頻帶內的分量之和,然後對各子帶分量根據其不同的分布特性採取不同的壓縮策略以降低碼率。通常的子帶壓縮技術和下面介紹的變換壓縮技術都是根據人對聲音信號的感知模型(心理聲學模型),通過對信號頻譜的分析來決定子帶樣值或頻域樣值的量化階數和其它參數選擇的,因此又可稱為感知型(Perceptual)壓縮編碼。這兩種壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。一般來講,子帶編碼的復雜度要略低於變換編碼,編碼延時也相對較短。

由於在子帶壓縮技術中主要應用了心理聲學中的聲音掩蔽模型,因而在對信號進行壓縮時引入了大量的量化雜訊。然而,根據人類的聽覺掩蔽曲線,在解碼後,這些雜訊被有用的聲音信號掩蔽掉了,人耳無法察覺;同時由於子帶分析的運用,各頻帶內的雜訊將被限制在頻帶內,不會對其它頻帶的信號產生影響。因而在編碼時各子帶的量化階數不同,採用了動態比特分配技術,這也正是此類技術壓縮效率高的主要原因。在一定的碼率條件下,此類技術可以達到「完全透明」的聲音質量(EBU音質標准)。

子帶壓縮技術目前廣泛應用於數字聲音節目的存儲與製作和數字化廣播中。典型的代表有著名的MPEG-1層Ⅰ、層Ⅱ(MUSICAM),以及用於Philips DCC中的PASC(Precision Adaptive Subband Coding,精確自適應子帶編碼)等。

(3)變換壓縮技術與子帶壓縮技術的不同之處在於該技術對一段音頻數據進行「線性」的變換,對所獲得的變換域參數進行量化、傳輸,而不是把信號分解為幾個子頻段。通常使用的變換有DFT、DCT(離散餘弦變換)、MDCT等。根據信號的短時功率譜對變換域參數進行合理的動態比特分配可以使音頻質量獲得顯著改善,而相應付出的代價則是計算復雜度的提高。

變換域壓縮具有一些不完善之處,如塊邊界影響、預回響、低碼率時聲音質量嚴重下降等。然而隨著技術的不斷進步,這些缺陷正逐步被消除,同時在許多新的壓縮編碼技術中也大量採用了傳統變換編碼的某些技術。

有代表性的變換壓縮編碼技術有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。

3、音頻壓縮技術的標准化和MPEG-1

由於數字音頻壓縮技術具有廣闊的應用范圍和良好的市場前景,因而一些著名的研究機構和大公司都不遺餘力地開發自己的專利技術和產品。這些音頻壓縮技術的標准化工作就顯得十分重要。CCITT(現ITU-T)在語音信號壓縮的標准化方面做了大量的工作,制訂了如G.711、G.721、G.728等標准,並逐漸受到業界的認同。

在音頻壓縮標准化方面取得巨大成功的是MPEG-1音頻(ISO/IEC11172-3)。在MPEG-1中,對音頻壓縮規定了三種模式,即層Ⅰ、層Ⅱ(即MUSICAM,又稱MP2),層Ⅲ(又稱MP3)。由於在制訂標准時對許多壓縮技術進行了認真的考察,並充分考慮了實際應用條件和演算法的可實現性(復雜度),因而三種模式都得到了廣泛的應用。VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ;而MUSICAM由於其適當的復雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數位元組目的製作、交換、存儲、傳送中得到廣泛應用;MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的復雜度顯得相對較高,編碼不利於實時,但由於MP3在低碼率條件下高水準的聲音質量,使得它成為軟解壓及網路廣播的寵兒。可以說,MPEG-1音頻標準的制訂方式決定了它的成功,這一思路甚至也影響到後面將要談到的MPEG-2和MPEG-4音頻標準的制訂。

最新進展

1、多聲道音頻信號壓縮與DolbyAC-3

隨著技術的不斷進步和生活水準的不斷提高,原有的立體聲形式已不能滿足受眾對聲音節目的欣賞要求,具有更強定位能力和空間效果的三維聲音技術得到蓬勃發展。而在三維聲音技術中最具代表性的就是多聲道環繞聲技術。

更准確地說,環繞聲應該是一種聲音恢復形式,其新技術的含量實際表現在隨著這種形式發展起來的一些數字壓縮標准上。環繞聲技術發展至今已相當成熟,已日漸成為未來聲音形式的主流。有鑒於此,1992年CCIR(ITU-R)以建議的形式約定了多聲道聲音系統的結構及向下兼容變換的標准,即CCIR Recommendation 775。其中主要約定了大家熟知的5.1聲道形式及7.1聲道形式,而在對環繞聲壓縮的研究上也產生了許多專利技術,如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。這些技術在不同的場合,尤其是在影劇院、家庭影院系統,及將來的高清晰度電視(HDTV)等系統中得到廣泛的應用。

(1)Dolby AC-3技術是由美國杜比實驗室主要針對環繞聲開發的一種音頻壓縮技術。在5.1聲道的條件下,可將碼率壓縮至384kbps,壓縮比約為10:1。Dolby AC-3最初是針對影院系統開發的,但目前已成為應用最為廣泛的環繞聲壓縮技術之一。

Dolby AC-3是一種感知型壓縮編碼技術。

在Dolby AC-3中,音頻輸入以音頻塊為單位,塊長度為512個樣值,在48KHz采樣率時即為10.66毫秒,各聲道單獨處理;音頻輸入在經過3Hz高通濾波器去除直流成分後,通過另一高頻帶通濾波器以檢測信號的瞬變情況,並用它來控制TDAC變換的長度,以期在頻域解析度和時域解析度之間得到最好的折中效果; TDAC變換的長度一般為512點,而數據塊之間的重疊長度為256點,即TDAC每5.33毫秒進行一次;在瞬變條件下,TDAC長度被等分為256 點,這樣DolbyAC-3的頻域解析度為93.75Hz,時域最小解析度為2.67毫秒;在圖1中的定點/浮點轉換類似於MPEG-1中比例因子計算的作用,主要是為了獲得寬的動態范圍,而在分離後的指數部分經編碼後則構成了整個信號大致的頻譜,又被稱為頻譜包絡;比特分配主要是通過計算解碼後的頻譜包絡(視為功率譜密度)和掩蔽曲線的相關性來進行的;由於比特分配中採用了前/後向混合自適應比特分配以及公共比特池等技術,因而可使有限的碼率在各聲道之間、不同的頻率分量之間獲得合理的分配;在對尾數的量化過程中,可對尾數進行抖晃處理,抖晃所使用的偽隨機數發生器可在不同的平台上獲得相同的結果;AC -3的幀結構由同步字、CRC、同步信息(SI)、碼流信息(BSI)、音頻塊和附加數據等組成,幀長度與TDAC變換的長度有關,在長度為512點時,幀長為32毫秒,即每秒31.25幀。

通過以上敘述可見,在Dolby AC-3中,使用了許多先進的、行之有效的壓縮技術。如前/後向混合自適應比特分配、公共比特池、TDAC濾波、頻譜包絡編碼、及低碼率條件下使用的多聲道高頻耦合等。而其中許多技術對其它的多聲道環繞聲壓縮技術的發展都產生了一定的影響。

可以說,AC-3的出現是杜比公司幾十年來在聲音降噪及編碼技術方面的結晶(從一定的角度來看,編碼技術實際上就是降低編碼雜訊影響的技術),在技術上它具有很強的優勢。因而即使作為一項專利技術,DolbyAC-3仍然在影院系統、HDTV、消費類電子產品(如LD、DVD)及直播衛星等方面獲得了廣泛的應用,得到了眾多廠商的支持,成為業界事實上的標准。

(2)MPEG-2BC(後向兼容方式),即ISO/IEC13818- 3,是另一種多聲道環繞聲音頻壓縮技術。早在1992年初,該方面的討論工作便已初步開展,並於94年11月正式獲得通過。MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基礎上發展起來的。與MPEG-1相比較,MPEG-2BC主要在兩方面做了重大改進。一是支持多聲道聲音形式,二是為某些低碼率應用場合,如多語聲節目、體育比賽解說等而進行的低采樣率擴展。同時,標准規定的碼流形式還可與MPEG-1的第1和第2層做到前、後向兼容,並可依據CCIR Rec.775做到與雙聲道、單聲道形式的向下兼容,還能夠與Dolby Surround形式兼容。

在MPEG-2BC中,由於考慮到其前、後向兼容性以及環繞聲音形式的新特點,在壓縮演算法中除承襲了MPEG-1的絕大部分技術外,為在低碼率條件下進一步提高聲音質量,還採用了多種新技術。如動態傳輸通道切換、動態串音、自適應多聲道預測、中央聲道部分編碼(Phantom Coding of Center)、預編碼(Predistortion)等。

然而,MPEG-2BC的發展和應用並不如MPEG-1那樣一帆風順。通過對一些相關論文的比較可以發現,MPEG-2BC的編碼框圖在標准化過程中發生了重大的變化,上述的許多新技術都是在後期引入的。事實上,正是與 MPEG-1的前、後向兼容性成為MPEG-2BC最大的弱點,使得MPEG-2BC不得不以犧牲碼率的代價來換取較好的聲音質量。一般情況下,MPEG -2BC需640kbps以上的碼率才能基本達到EBU「無法區分」聲音質量要求。由於MPEG-2BC標准化的進程過快,其演算法自身仍存在一些缺陷。這一切都成為MPEG-2BC在世界范圍內得到廣泛應用的障礙。

(3)DVD(DigitalVersatileDisk)是新一代的多媒體數據存儲和交換的標准。在視頻DVD的伴音方式及音頻DVD的聲音格式選擇上,AC-3和MPEG-2BC之間的爭奪十分激烈,最後達成的協議如表1 所示。可見,多聲道環繞聲音頻壓縮技術標准亟待統一。

⑹ 求:FCM,PCM聚類演算法MATLAB程序

function [U,center,result,w,obj_fcn]= fenlei(data)
[data_n,in_n] = size(data);
m= 2; % Exponent for U
max_iter = 100; % Max. iteration
min_impro =1e-5; % Min. improvement
c=3;
[center, U, obj_fcn] = fcm(data, c);
for i=1:max_iter
if F(U)>0.98
break;
else
w_new=eye(in_n,in_n);
center1=sum(center)/c;
a=center1(1)./center1;
deta=center-center1(ones(c,1),:);
w=sqrt(sum(deta.^2)).*a;
for j=1:in_n
w_new(j,j)=w(j);
end
data1=data*w_new;
[center, U, obj_fcn] = fcm(data1, c);
center=center./w(ones(c,1),:);
obj_fcn=obj_fcn/sum(w.^2);
end
end
display(i);
result=zeros(1,data_n);U_=max(U);
for i=1:data_n
for j=1:c
if U(j,i)==U_(i)
result(i)=j;continue;
end
end
end

熱點內容
實現已有演算法 發布:2025-03-18 19:22:38 瀏覽:209
南昌編程培訓 發布:2025-03-18 19:16:44 瀏覽:423
菠蘿解壓視頻 發布:2025-03-18 19:16:40 瀏覽:169
怎麼在家搭建網吧伺服器 發布:2025-03-18 19:05:16 瀏覽:958
建設銀行轉賬是什麼密碼 發布:2025-03-18 19:05:03 瀏覽:4
cmd如何退出python 發布:2025-03-18 19:04:25 瀏覽:890
sqlserver資料庫角色 發布:2025-03-18 18:59:22 瀏覽:273
家用威朗買哪個配置好 發布:2025-03-18 18:59:22 瀏覽:204
如何初始化路由器密碼 發布:2025-03-18 18:44:23 瀏覽:975
ftp返回碼 發布:2025-03-18 18:39:12 瀏覽:979