自編碼器演算法

發布時間: 2022-08-04 03:14:34

㈠ 10.+無監督學習中模型所學習的數據都是什麼

咨詢記錄 · 回答於2021-12-29

㈡華為ocr識別怎麼使用

你好，華為的識別也是根據我們的家官網網站上面都有一些詳細的參數，或者詳細的一些介紹。你可以看一下

㈢稀疏自編碼器出自哪個論文

出自AndrewNg教授的教程。
稀疏自編碼器（SparseAutoencoder）可以自動從無標注數據中學習特徵，可以給出比原始數據更好的特徵描述。在實際運用時可以用稀疏編碼器發現的特徵取代原始數據，這樣往往能帶來更好的結果。本文將給出稀疏自編碼器的演算法描述，並演示說明稀疏編碼器自動提取邊緣特徵。
稀疏性可以被簡單地解釋如下。如果當神經元的輸出接近於1的時候我們認為它被激活，而輸出接近於0的時候認為它被抑制，那麼使得神經元大部分的時間都是被抑制的限制則被稱作稀疏性限制。這里我們假設的神經元的激活函數是sigmoid函數。

㈣如何評價ORB-SLAM3

我覺得 ORB-SLAM3 系統是基於之前的 ORB-SLAM2、ORB-SLAM-VI 進行擴展。作者組的工作一脈相承，圍繞著 ORB feature-based SLAM 做了非常多有重大意義的工作。本文其中在一些重要改進模塊，如 IMU 初始化、multi-map system 等，是作者組里前幾年的工作。我認為這是一篇更加偏向於系統性質的文章，把這么多工作串了起來，並且作者非常慷慨的把它開源了出來，非常贊！

㈤什麼是視頻編碼的演算法它有哪幾種典型的演算法試比較各種典型的視頻編碼演算法。謝謝了！

1、無聲時代的FLC
FLC、FLI是Autodesk開發的一種視頻格式，僅僅支持256色，但支持色彩抖動技術，因此在很多情況下很真彩視頻區別不是很大，不支持音頻信號，現在看來這種格式已經毫無用處，但在沒有真彩顯卡沒有音效卡的DOS時代確實是最好的也是唯一的選擇。最重要的是，Autodesk的全系列的動畫製作軟體都提供了對這種格式的支持，包括著名的3D Studio X，因此這種格式代表了一個時代的視頻編碼水平。直到今日，仍舊有不少視頻編輯軟體可以讀取和生成這種格式。但畢竟廉頗老矣，這種格式已經被無情的淘汰。

2、載歌載舞的AVI
AVI——Audio Video Interleave，即音頻視頻交叉存取格式。1992年初Microsoft公司推出了AVI技術及其應用軟體VFW（Video for Windows）。在AVI文件中，運動圖像和伴音數據是以交織的方式存儲，並獨立於硬體設備。這種按交替方式組織音頻和視像數據的方式可使得讀取視頻數據流時能更有效地從存儲媒介得到連續的信息。構成一個AVI文件的主要參數包括視像參數、伴音參數和壓縮參數等。AVI文件用的是AVI RIFF形式，AVI RIFF形式由字串「AVI」標識。所有的AVI文件都包括兩個必須的LIST塊。這些塊定義了流和數據流的格式。AVI文件可能還包括一個索引塊。
只要遵循這個標准，任何視頻編碼方案都可以使用在AVI文件中。這意味著AVI有著非常好的擴充性。這個規范由於是由微軟制定，因此微軟全系列的軟體包括編程工具VB、VC都提供了最直接的支持，因此更加奠定了AVI在PC上的視頻霸主地位。由於AVI本身的開放性，獲得了眾多編碼技術研發商的支持，不同的編碼使得AVI不斷被完善，現在幾乎所有運行在PC上的通用視頻編輯系統，都是以支持AVI為主的。AVI的出現宣告了PC上啞片時代的結束，不斷完善的AVI格式代表了多媒體在PC上的興起。
說到AVI就不能不提起英特爾公司的Indeo video系列編碼，Indeo編碼技術是一款用於PC視頻的高性能的、純軟體的視頻壓縮/解壓解決方案。Indeo音頻軟體能提供高質量的壓縮音頻，可用於互聯網、企業內部網和多媒體應用方案等。它既能進行音樂壓縮也能進行聲音壓縮，壓縮比可達8:1而沒有明顯的質量損失。Indeo技術能幫助您構建內容更豐富的多媒體網站。目前被廣泛用於動態效果演示、游戲過場動畫、非線性素材保存等用途，是目前使用最廣泛的一種AVI編碼技術。現在Indeo編碼技術及其相關軟體產品已經被Ligos Technology 公司收購。隨著MPEG的崛起，Indeo面臨著極大的挑戰。

3、容量與質量兼顧的MPEG系列編碼
和AVI相反，MPEG不是簡單的一種文件格式，而是編碼方案。
MPEG-1（標准代號ISO/IEC11172）制定於1991年底，處理的是標准圖像交換格式（standard interchange format，SIF）或者稱為源輸入格式（Source Input Format，SIF）的多媒體流。是針對1.5Mbps以下數據傳輸率的數字存儲媒質運動圖像及其伴音編碼（MPEG-1 Audio,標准代號ISO/IEC 11172-3）的國際標准,伴音標准後來衍生為今天的MP3編碼方案。MPEG-1規范了PAL制（352*288，25幀/S）和NTSC制（為352*240，30幀/S）模式下的流量標准，提供了相當於家用錄象系統（VHS）的影音質量，此時視頻數據傳輸率被壓縮至1.15Mbps,其視頻壓縮率為26∶1。使用MPEG-1的壓縮演算法，可以把一部120分鍾長的多媒體流壓縮到1.2GB左右大小。常見的VCD就是MPEG-1編碼創造的傑作。MPEG-1編碼也不一定要按PAL/NTSC規范的標准運行，你可以自由設定影像尺寸和音視頻流量。隨著光頭拾取精度的提高，有人把光碟的信息密度加大，並適度降低音頻流流量，於是出現了只要一張光碟就存放一部電影的DVCD。DVCD碟其實是一種沒有行業標准，沒有國家標准，更談不上是國際標準的音像產品。
當VCD開始向市場普及時，電腦正好進入了486時代，當年不少朋友都夢想擁有一塊硬解壓卡，來實現在PC上看VCD的夙願，今天回過頭來看看，覺得真有點不可思議，但當時的現狀就是486的系統不藉助硬解壓是無法流暢播放VCD的，上萬元的486系統都無法流暢播放的MPEG-1被打上了貴族的標志。隨著奔騰的發布，PC開始奔騰起來，直到後來Windows Media Player也直接提供了MPEG-1的支持，至此MPEG-1使用在PC上已經完全無障礙了。
MPEG-2（標准代號IOS/IEC13818）於1994年發布國際標准草案（DIS），在視頻編碼演算法上基本和MPEG-1相同，只是有了一些小小的改良，例如增加隔行掃描電視的編碼。它追求的是大流量下的更高質量的運動圖象及其伴音效果。MPEG-2的視頻質量看齊PAL或NTSC的廣播級質量，事實上MPEG-1也可以做到相似效果，MPEG-2更多的改進來自音頻部分的編碼。目前最常見的MPEG-2相關產品就是DVD了，SVCD也是採用的MPEG-2的編碼。MPEG-2還有一個更重要的用處，就是讓傳統的電視機和電視廣播系統往數碼的方向發展。
MPEG-3最初為HDTV制定，由於MPEG-2的快速發展，MPEG-3還未徹底完成便宣告淘汰。
MPEG-4於1998年公布，和MPEG-2所針對的不同，MPEG-4追求的不是高品質而是高壓縮率以及適用於網路的交互能力。MPEG-4提供了非常驚人的壓縮率，如果以VCD畫質為標准，MPEG-4可以把120分鍾的多媒體流壓縮至300M。MPEG-4標准主要應用於視像電話(Video Phone)，視像電子郵件(Video Email)和電子新聞(Electronic News)等，其傳輸速率要求較低，在4800-64000bits/sec之間，解析度為176X144。MPEG-4利用很窄的帶寬，通過幀重建技術，壓縮和傳輸數據，以求以最少的數據獲得最佳的圖象質量。
MJPEG，這並不是專門為PC准備的，而是為專業級甚至廣播級的視頻採集與在設備端回放的准備的，所以MJPEG包含了為傳統模擬電視優化的隔行掃描電視的演算法，如果在PC上播放MJPEG編碼的文件，效果會很難看（如果你的顯卡不支持MJPEG的動態補償），但一旦輸出到電視機端，你立刻會發現這種演算法的好處。

4、屬於網路的流媒體
RealNetworks RealVideo，採用的是 RealNetworks 公司自己開發的 Real G2 Codec，它具有很多先進的設計，例如，SVT （Scalable Video Technology）；雙向編碼（Two—Encoding，類似於VBR）。RealMedia 音頻部分採用的是 RealAudio ，可以接納很多音頻編碼方案，可實現聲音在單聲道、立體聲音樂不同速率下的壓縮。最新的RealAudio竟然採用ATRAC3編碼方案，以挑戰日益成熟的MP3。
Windows Media，視頻編碼採用的是非常先進的 MPEG-4 視頻壓縮技術，被稱作 Microsoft MPEG-4 Video Codec，音頻編碼採用的是微軟自行開發的一種編碼方案，目前沒有公布技術資料，在低流量下提供了令人滿意的音質和畫質。最新的Windows Media Encoding Utility V8.0將流技術推向到一個新的高度，我們常見的ASF、WMV、WMA就是微軟的流媒體文件。
事實上我們常見的MPG文件，也具有流媒體的最大特徵——邊讀邊放。

二、常見的編碼與常見的文件格式的對應關系及其常用用途

1、Audodesk FLC
這是一種古老的編碼方案，常見的文件後綴為FLC和FLI。由於FLC僅僅支持256色的調色板，因此它會在編碼過程中盡量使用抖動演算法（也可以設置不抖動），以模擬真彩的效果。這種演算法在色彩值差距不是很大的情況下幾乎可以達到亂真的地步，例如紅色A（R:255,G:0,B:0）到紅色B（R:255,G:128,B:0）之間的抖動。這種格式現在已經很少被採用了，但當年很多這種格式被保留下來，這種格式在保存標准256色調色板或者自定義256色調色板是是無損的，這種格式可以清晰到像素，非常適合保存線框動畫，例如CAD模型演示。現在這種格式很少見了。

2、Microsoft RLE
這是微軟開發為AVI格式開發的一種編碼，文件擴展名為AVI，使用了RLE壓縮演算法，這是一種無損的壓縮演算法，我們常見的tga格式的圖像文件就使用了RLE演算法。
什麼是RLE演算法呢？這是一種很簡單的演算法，舉一個很簡單的例子：
假設一個圖像的像素色彩值是這樣排列的：紅紅紅紅紅紅紅紅紅紅紅紅藍藍藍藍藍藍綠綠綠綠，經過RLE壓縮後就成為了：紅12藍6綠4。這樣既保證了壓縮的可行性，而且不會有損失。而且可以看到，但顏色數越少時，壓縮效率會更高。由於Microsoft RLE僅僅支持256色，而且沒有抖動演算法，在色彩處理方面，FLC明顯的比Microsoft RLE要好很多。當然這也不表示Microsoft RLE一無是處，和FLC一樣，Microsoft RLE在處理相鄰像素時也沒有色染，可以清晰的表現網格。因此同樣可以優秀的表現單色字體和線條。只要色彩不是很復雜，FLC能做的，Microsoft RLE也可以做到。由於AVI可以擁有一個音頻流，而且Windows系統給與了直接的支持，Microsoft RLE最常用的用途是，在256色顯示模式下，通過配合抓屏生成AVI的工具製作一個軟體的操作演示過程，以達到圖文並茂，形聲兼備的效果。

3、Microsoft Video1
這也是由微軟提供的一個AVI編碼，任何Windows系統都自帶了了它的Codec，這個編碼支持真彩，畫面質量很不錯，Microsoft Video1的壓縮效率非常低下，編碼後的文件龐大得讓人受不了。這個Microsoft Video1究竟有什麼用呢？一般被用在保存一些沒有漸變的小型視頻素材方面。

4、Indeo video R3.2
這個編碼由intel架構實驗室開發，對應的文件格式是AVI，相對之前的流行的編碼，Indeo video R3.2最大的特點就是高壓縮比（當然，比起現在的壓縮方案，實在是不值得一提），intel聲稱壓縮比可達8:1而沒有明顯的質量損失，解碼速度也非常快，對系統要求不高，由於Windows9X中自帶Indeo video R3.2的Codec，所以Indeo video R3.2一度成為了最流行的AVI編碼方案。有不少游戲的過場動畫和啟動動畫都是Indeo video R3.2編碼的。Indeo video R3.2同樣不適合高要求的環境，在要表現細線條或大色彩值變化的漸變時，Indeo video R3.2會表現得非常糟糕。如果畫面的色彩值差異不是很大，也沒有明顯的色彩區域界限，Indeo video R3.2還是合適的，例如海天一色的場景。Indeo video R3.2已經基本被淘汰，如果不是為了播放以前遺留的一些Indeo video R3.2編碼視頻，恐怕Windows ME/2000都不會有Indeo video R3.2的Codec了。

5、Indeo video 5.10
這個編碼方案同樣也是intel架構實驗室開發的，它繼承了Indeo video R3.2的優點，對應的文件格式仍然是AVI，解碼速度同樣非常快。Windows ME/2000自帶了Indeo video 5.1的Codec，很多游戲也適用Indeo video 5.10來編碼自己的演示動畫。在沒有DivX普及前，這幾乎是最流行的AVI編碼了，由於微軟和intel的同時支持，這種編碼方案被廣泛採用。

6、None
顧名思義，這是一個沒有損失的視頻編碼方案，對應的文件擴展名為AVI。這種編碼幾乎是不壓縮的，文件大得驚人！那麼這種編碼有什麼用途呢？用途就是保存視頻素材，因為是無損的，保存素材非常合適，代價就是大量的存儲空間。

7、MPEG1
我們熟知的VCD就是MPEG1編碼的，對應的文件擴展名為MPG、MPEG或者DAT。事實上MPEG1可以工作於非PAL制和非NTSC制標准下。它可以自由設置數據流量和畫面尺寸，只是這樣非標準的文件無法直接刻錄成VCD。

8、MPEG2
DVD的視頻部分就是採用的MPEG2，SVCD同樣也採用了MPEG2編碼。對應的文件擴展名一般為VOB、MPG。MPEG2的設計目標就是提供接近廣播級的高品質輸出。

9、DivX
DivX是近2年開始被大家認識的，DivX 視頻編碼技術可以說是一種對 DVD 造成威脅的新生視頻壓縮格式（有人說它是 DVD 殺手）對應的文件擴展名為AVI或者DivX，它由 Microsoft mpeg-4v3 修改而來，使用 MPEG-4 壓縮演算法。據說是美國禁止出口的編碼技術。DivX最大的特點就是高壓縮比和不錯的畫質，更可貴的是，DivX的對系統要求也不高，只要主頻300的CPU就基本可以很流暢的播放了，因此從DivX誕生起，立刻吸引了大家的注意力。DivX擁有比Indeo video 5.10高太多的壓縮效率，編碼質量也遠遠比Indeo video 5.10好，我實在想不出Indeo video 5.10還會有什麼前途。

10、PICVideo MJPEG
MJPEG是很多視頻卡支持的一種視頻編碼，隨卡提供了Codec，安裝完成後可以象使用其它編碼一樣生成AVI文件。MJPEG編碼常用於非線性系統，批上了一層很專業的外衣。MJPEG的編碼質量是相當高的，是一種以質量為最高要求的編碼，這種編碼的設置比較復雜，可以得到很高的壓縮比，但犧牲了解碼速度，如果要保證解碼速度，編碼後的壓縮比確不是很理想，如果您希望從專業的非線性系統上捕捉視頻，然後自行進行處理，這種格式是很有必要去了解一些的。

11、RealNetworks RealVideo
REAL VIDEO（RA、RAM）格式由Real Networks公司開發的，一開始就定位在視頻流應用方面的，也可以說是視頻流技術的始創者。它可以在用 56K MODEM 撥號上網的條件實現不間斷的視頻播放。從RealVideo的定位來看，就是犧牲畫面質量來換取可連續觀看性。其實RealVideo也可以實現不錯的畫面質量，由於RealVideo可以擁有非常高的壓縮效率，很多人把VCD編碼成RealVideo格式的，這樣一來，一張光碟上可以存放好幾部電影。REAL VIDEO存在顏色還原不準確的問題，RealVideo就不太適合專業的場合，但RealVideo出色的壓縮效率和支持流式播放的特徵，使得RealVideo在網路和娛樂場合佔有不錯的市場份額。

12、Windows Media video
Windows Media video就是微軟為了和現在的Real Networks的RealVideo競爭而發展出來的一種可以直接在網上觀看視頻節目的文件壓縮格式！由於它使用了MPEG4的壓縮演算法，所以壓縮率和圖像的質量都很不錯。我們經常看到的ASF和WMV就是Windows Media video。Windows Media video的編碼質量明顯好於RealVideo，因為Windows Media video是微軟的傑作，所以Windows系統給Windows Media video給與了很好的支持，Windows Media Player可以直接播放這些文件。

各種主流音頻編碼（或格式）的介紹

1、PCM編碼
PCM 脈沖編碼調制是Pulse Code Molation的縮寫。前面的文字我們提到了PCM大致的工作流程，我們不需要關心PCM最終編碼採用的是什麼計算方式，我們只需要知道PCM編碼的音頻流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好，最大的缺點就是體積大。我們常見的Audio CD就採用了PCM編碼，一張光碟的容量只能容納72分鍾的音樂信息。

2、WAVE
這是一種古老的音頻文件格式，由微軟開發。WAV是一種文件格式，符合 PIFF Resource Interchange File Format規范。所有的WAV都有一個文件頭，這個文件頭音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定，除了PCM之外，還有幾乎所有支持ACM規范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念，我們拿AVI做個示範，因為AVI和WAV在文件結構上是非常相似的，不過AVI多了一個視頻流而已。我們接觸到的AVI有很多種，因此我們經常需要安裝一些Decode才能觀看一些AVI，我們接觸到比較多的DivX就是一種視頻編碼，AVI可以採用DivX編碼來壓縮視頻流，當然也可以使用其他的編碼壓縮。同樣，WAV也可以使用多種音頻編碼來壓縮其音頻流，不過我們常見的都是音頻流被PCM編碼處理的WAV，但這不表示WAV只能使用PCM編碼，MP3編碼同樣也可以運用在WAV中，和AVI一樣，只要安裝好了相應的Decode，就可以欣賞這些WAV了。
在Windows平台下，基於PCM編碼的WAV是被支持得最好的音頻格式，所有音頻軟體都能完美支持，由於本身可以達到較高的音質的要求，因此，WAV也是音樂編輯創作的首選格式，適合保存音樂素材。因此，基於PCM編碼的WAV被作為了一種中介的格式，常常使用在其他編碼的相互轉換之中，例如MP3轉換成WMA。

3、 MP3編碼
請參閱 MP3全攻略一文

4、OGG編碼
網路上出現了一種叫Ogg Vorbis的音頻編碼，號稱MP3殺手！Ogg Vorbis究竟什麼來頭呢？OGG是一個龐大的多媒體開發計劃的項目名稱，將涉及視頻音頻等方面的編碼開發。整個OGG項目計劃的目的就是向任何人提供完全免費多媒體編碼方案！OGG的信念就是：OPEN！FREE！Vorbis這個詞彙是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名。這個詞彙成為了OGG項目中音頻編碼的正式命名。目前Vorbis已經開發成功，並且開發出了編碼器。
Ogg Vorbis是高質量的音頻編碼方案，官方數據顯示：Ogg Vorbis可以在相對較低的數據速率下實現比MP3更好的音質！Ogg Vorbis這種編碼也遠比90年代開發成功的MP3先進，她可以支持多聲道，這意味著什麼？這意味著Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓軌軟體（目前這種軟體還沒有）的支持下，可以對所有的聲道進行編碼，而不是MP3隻能編碼2個聲道。多聲道音樂的興起，給音樂欣賞帶來了革命性的變化，尤其在欣賞交響時，會帶來更多臨場感。這場革命性的變化是MP3無法適應的。
和MP3一樣，Ogg Vorbis是一種靈活開放的音頻編碼，能夠在編碼方案已經固定下來後還能對音質進行明顯的調節和新演算法的改良。因此，它的聲音質量將會越來越好，和MP3相似，Ogg Vorbis更像一個音頻編碼框架，可以不斷導入新技術逐步完善。和MP3一樣，OGG也支持VBR。

5、MPC 編碼
MPC是又是另外一個令人刮目相看的實力派選手，它的普及過程非常低調，也沒有什麼復雜的背景故事，她的出現目的就只有一個，更小的體積更好的音質！MPC以前被稱作MP+，很顯然，可以看出她針對的競爭對手是誰。但是，只要用過這種編碼的人都會有個深刻的印象，就是她出眾的音質。

6、mp3PRO 編碼
2001年6月14日，美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協會(Fraunhofer Institute)於6月14日發布了一種新的音樂格式版本，名稱為mp3PRO，這是一種基於mp3編碼技術的改良方案，從官方公布的特徵看來確實相當吸引人。從各方面的資料顯示，mp3PRO並不是一種全新的格式，完全是基於傳統mp3編碼技術的一種改良，本身最大的技術亮點就在於SBR（Spectral Band Replication 頻段復制），這是一種新的音頻編碼增強演算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。SBR最大的優勢就是在低數據速率下實現非常高效的編碼，與傳統的編碼技術不同的是，SBR更像是一種後處理技術，因此解碼器的演算法的優劣直接影響到音質的好壞。高頻實際上是由解碼器（播放器）產生的，SBR編碼的數據更像是一種產生高頻的命令集，或者稱為指導性的信號源，這有點駇idi的工作方式。我們可以看到，mp3PRO其實是一種mp3信號流和SBR信號流的混合數據流編碼。有關資料顯示，SBR技術可以改善低數據流量下的高頻音質，改善程度約為30%，我們不管這個30%是如何得來的，但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質水平（註：在相同的編碼條件下，數據速率的提升和音質的提升不是成正比的，至少人耳聽覺上是這樣的），這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。

7、WMA
WMA就是Windows Media Audio編碼後的文件格式，由微軟開發，WMA針對的不是單機市場，是網路！競爭對手就是網路媒體市場中著名的Real Networks。微軟聲稱，在只有64kbps的碼率情況下，WMA可以達到接近CD的音質。和以往的編碼不同，WMA支持防復制功能，她支持通過Windows Media Rights Manager 加入保護，可以限制播放時間和播放次數甚至於播放的機器等等。WMA支持流技術，即一邊讀一邊播放，因此WMA可以很輕松的實現在線廣播，由於是微軟的傑作，因此，微軟在Windows中加入了對WMA的支持，WMA有著優秀的技術特徵，在微軟的大力推廣下，這種格式被越來越多的人所接受。

8、RA
RA就是RealAudio格式，這是各位網蟲接觸得非常多的一種格式，大部分音樂網站的在線試聽都是採用了RealAudio，這種格式完全針對的就是網路上的媒體市場，支持非常豐富的功能。最大的閃爍點就是這種格式可以根據聽眾的帶寬來控制自己的碼率，在保證流暢的前提下盡可能提高音質。RA可以支持多種音頻編碼，包括ATRAC3。和WMA一樣，RA不但都支持邊讀邊放，也同樣支持使用特殊協議來隱匿文件的真實網路地址，從而實現只在線播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要，在各方的大力推廣下，RA和WMA是目前互聯網上，用於在線試聽最多的音頻媒體格.

㈥稀疏自編碼器是否只能用sigmoid激活函數

稀疏自編碼器Ⅰ：
神經網路
反向傳導演算法
梯度檢驗與高級優化
稀疏自編碼器Ⅱ：
自編碼演算法與稀疏性
可視化自編碼器訓練結果
Exercise: Sparse Autoencoder

自編碼演算法與

㈦ MPEG和JPEG分別採用了什麼演算法

MPEG視頻壓縮編碼後包括三種元素：I幀（I-frames）、P幀（P-frames）和B幀（B-frames）。在MPEG編碼的過程中，部分視頻幀序列壓縮成為I幀；部分壓縮成P幀；還有部分壓縮成B幀。I幀法是幀內壓縮法，也稱為「關鍵幀」壓縮法。I幀法是基於離散餘弦變換DCT（ Discrete Cosine Transform ）的壓縮技術，這種演算法與JPEG壓縮演算法類似。採用I幀壓縮可達到1/6的壓縮比而無明顯的壓縮痕跡。
在保證圖像質量的前提下實現高壓縮的壓縮演算法，僅靠幀內壓縮是不能實現的，MPEG採用了幀間和幀內相結合的壓縮演算法。 P幀法是一種前向預測演算法，它考慮相鄰幀之間的相同信息或數據，也即考慮運動的特性進行幀間壓縮。P幀法是根據本幀與相鄰的前一幀（I幀或P幀）的不同點來壓縮本幀數據。採取P幀和I幀聯合壓縮的方法可達到更高的壓縮且無明顯的壓縮痕跡。
然而，只有採用B幀壓縮才能達到200：1的高壓縮。B幀法是雙向預測的幀間壓縮演算法。當把一幀壓縮成B幀時，它根據相鄰的前一幀、本幀以及後一幀數據的不同點來壓縮本幀，也即僅記錄本幀與前後幀的差值。B幀數據只有I幀數據的百分之十五、P幀數據的百分之五十以下。
MPEG標准採用類似4：2：2的採用格式，壓縮後亮度信號的解析度為352×240，兩個色度信號解析度均為176×120，這兩種不同解析度信息的幀率都是每秒30幀。其編碼的基本方法是在單位時間內，首先採集並壓縮第一幀的圖像為I幀。然後對於其後的各幀，在對單幀圖像進行有效壓縮的基礎上，只存儲其相對於前後幀發生變化的部分。幀間壓縮的過程中也常間隔採用幀內壓縮法，由於幀內（關鍵幀）的壓縮不基於前一幀，一般每隔15幀設一關鍵幀，這樣可以減少相關前一幀壓縮的誤差積累。MPEG編碼器首先要決定壓縮當前幀為I幀或P幀或B幀，然後採用相應的演算法對其進行壓縮。一個視頻序列經MPEG全編碼壓縮後可能的格式為：......
壓縮成B幀或P幀要比壓縮成I幀需要多得多的計算處理時間。有的編碼器不具備B幀甚至P幀的壓縮功能，顯然其壓縮效果不會很好。

JPEG(Joint Photographic Experts Group) 是一個由 ISO和IEC兩個組織機構聯合組成的一個專家組，負責制定靜態的數字圖像數據壓縮編碼標准，這個專家組開發的演算法稱為JPEG演算法，並且成為國際上通用的標准，因此又稱為JPEG標准。JPEG是一個適用范圍很廣的靜態圖像數據壓縮標准，既可用於灰度圖像又可用於彩色圖像。

JPEG專家組開發了兩種基本的壓縮演算法，一種是採用以離散餘弦變換(Discrete Cosine Transform，DCT)為基礎的有損壓縮演算法，另一種是採用以預測技術為基礎的無損壓縮演算法。使用有損壓縮演算法時，在壓縮比為25:1的情況下，壓縮後還原得到的圖像與原始圖像相比較，非圖像專家難於找出它們之間的區別，因此得到了廣泛的應用。例如，在V-CD和DVD-Video電視圖像壓縮技術中，就使用JPEG的有損壓縮演算法來取消空間方向上的冗餘數據。為了在保證圖像質量的前提下進一步提高壓縮比，近年來JPEG專家組正在制定JPEG 2000(簡稱JP 2000)標准，這個標准中將採用小波變換(wavelet)演算法。

JPEG壓縮是有損壓縮，它利用了人的視角系統的特性，使用量化和無損壓縮編碼相結合來去掉視角的冗餘信息和數據本身的冗餘信息。壓縮編碼大致分成三個步驟：

1.使用正向離散餘弦變換(forward discrete cosine transform，FDCT)把空間域表示的圖變換成頻率域表示的。

2.使用加權函數對DCT系數進行量化，這個加權函數對於人的視覺系統是最佳的。

3.使用霍夫曼可變字長編碼器對量化系數進行編碼。

解碼或者叫做解壓縮的過程與壓縮編碼過程正好相反。

JPEG演算法與彩色空間無關，因此「RGB到YUV變換」和「YUV到RGB變換」不包含在JPEG演算法中。JPEG演算法處理的彩色圖像是單獨的彩色分量圖像，因此它可以壓縮來自不同彩色空間的數據，如RGB, YCbCr和CMYK。

JPEG壓縮編碼演算法的主要計算步驟如下：

1.正向離散餘弦變換(FDCT)。

2.量化(quantization)。

3.Z字形編碼(zigzag scan)。

4.使用差分脈沖編碼調制(differential pulse code molation，DPCM)對直流系數(DC)進行編碼。

5.使用行程長度編碼(run-length encoding，RLE)對交流系數(AC)進行編碼。

6.熵編碼(entropy coding)。

㈧自動編碼器的作用

自編碼器的一個典型應用是特徵降維，和PCA的作用一樣，但是比PCA的性能更強。可以想這樣一個場景：我們要訓練一個CNN模型，這個模型最終可以識別貓、狗、船等，那麼我們需要給它喂入大量的貓狗等圖像，假如這些圖像都是高清的，即數據維度很大，那麼CNN訓練的時間就會變長。這時候需要將圖片壓縮一下，我們當然可以考慮使用圖像壓縮演算法，這里只是舉一個例子，如果某些數據集不是圖片，如何壓縮呢？答案可以使用自編碼器，自編碼器可以將高維的數據特徵用一個低維的特徵來表示，自編碼器的作用是通過編碼器只學習其典型特徵（維度降低了），該特徵通過解碼器可以大致復原原來的數據即可。這樣再將這個學習到的低維特徵輸入到相應的神經網路中，可以大大減少訓練的時間。

在實際應用中，我們訓練好自動編碼器後，一般只使用其編碼器部分，從而獲得低維的數據。再將這個數據輸入到其它分類模型中進行訓練。

㈨ AI 換臉是什麼原理

AI換臉實際上是多項技術的一個結晶，它的基礎是Cautoencoder自編碼器，它主要用於圖片的壓縮和降噪等等，人臉識別演算法最經典的搭配是基於LBP特徵的Cascade Classifier。它從輸入中提取特徵，再根據特徵把輸入重新生成出來，以實現壓縮和降噪等功能。

我們將抽象的特徵稱作code特徵碼，從輸入提取特徵碼的過程稱作encode編碼，根據特徵碼得到輸出的過程叫做decode解碼，我們再把實現編碼的結構稱作encoder編碼器，同理也有decoder解碼器，它們的結構並不是一成不變的。

目前我們能看到的絕大多數換臉視頻都是通過，faceswap和DeepFaceLab這兩個項目製作的，它們的流程大同小異，DeepFaceLab是個開源項目。

第一步將視頻逐幀保存成圖片，每個視頻各取兩幀用於示意。

第二步人臉對齊，定位出人臉上的關鍵點，然後根據關鍵點將人臉轉正，第三步人臉分割換臉時只換這一部分就可以了。

第四步訓練換臉模型，用處理好的人臉圖片訓練換臉模型，它生成的就是我們想要的。

第五步合並，調整生成臉的膚色、光照和清晰度等，得到更自然的合並效果，再把處理好的圖片拼接成最終的視頻。

㈩ H.264標准和H.264演算法以及H.264編碼器的關系和區別

標准只是規定了某個過程輸入和輸出的格式，對具體的演算法沒有規定，H.264編碼器就是符合H.264標準的編碼器

閱讀全文

熱點內容

點歌機怎麼選切換安卓系統發布：2025-01-17 14:05:33 瀏覽：719

java壓縮與解壓縮發布：2025-01-17 14:03:24 瀏覽：925

python代碼保護發布：2025-01-17 14:02:22 瀏覽：323

王者榮耀電腦如何改戰區安卓發布：2025-01-17 13:23:18 瀏覽：814

華為手機如何開啟說出密碼發布：2025-01-17 13:23:12 瀏覽：101

伺服器在美國說明什麼發布：2025-01-17 13:14:10 瀏覽：11

啟辰t90有哪些配置發布：2025-01-17 13:05:40 瀏覽：38

手機微博密碼怎麼改密碼忘了怎麼辦發布：2025-01-17 13:04:44 瀏覽：959

微笑雲伺服器發布：2025-01-17 13:03:25 瀏覽：83

android頂部標題欄發布：2025-01-17 13:02:28 瀏覽：692

自編碼器演算法

與自編碼器演算法相關的資訊