數據壓縮演算法的實現研究
哈夫曼
哈夫曼編碼是無損壓縮當中最好的方法。它使用預先二進制描述來替換每個符號,長度由特殊符號出現的頻率決定。常見的符號需要很少的位來表示,而不常見的符號需要很多為來表示。
哈夫曼演算法在改變任何符號二進制編碼引起少量密集表現方面是最佳的。然而,它並不處理符號的順序和重復或序號的序列。
2.1 原理
我不打算探究哈夫曼編碼的所有實際的細節,但基本的原理是為每個符號找到新的二進製表示,從而通常符號使用很少的位,不常見的符號使用較多的位。
簡短的說,這個問題的解決方案是為了查找每個符號的通用程度,我們建立一個未壓縮數據的柱狀圖;通過遞歸拆分這個柱狀圖為兩部分來創建一個二叉樹,每個遞歸的一半應該和另一半具有同樣的權(權是 ∑ N K =1 符號數 k , N 是分之中符號的數量,符號數 k 是符號 k出現的次數 )
這棵樹有兩個目的:
1. 編碼器使用這棵樹來找到每個符號最優的表示方法
2. 解碼器使用這棵樹唯一的標識在壓縮流中每個編碼的開始和結束,其通過在讀壓縮數據位的時候自頂向底的遍歷樹,選擇基於數據流中的每個獨立位的分支,一旦一個到達葉子節點,解碼器知道一個完整的編碼已經讀出來了。
壓縮後的數據流是 24 位(三個位元組),原來是 80 位( 10 個位元組)。當然,我應該存儲哈夫曼樹,這樣解碼器就能夠解碼出對應的壓縮流了,這就使得該例子中的真正數據流比輸入的流數據量大。這是相對較短的數據上的副作用。對於大數據量來說,上面的哈夫曼樹就不佔太多比例了。
解碼的時候,從上到下遍歷樹,為壓縮的流選擇從左 / 右分支,每次碰到一個葉子節點的時候,就可以將對應的位元組寫到解壓輸出流中,然後再從根開始遍歷。
2.2 實現
哈夫曼編碼器可以在基本壓縮庫中找到,其是非常直接的實現。
這個實現的基本缺陷是:
1. 慢位流實現
2. 相當慢的解碼(比編碼慢)
3. 最大的樹深度是 32 (編碼器在任何超過 32 位大小的時候退出)。如果我不是搞錯的話,這是不可能的,除非輸出的數據大於 2 32位元組。
另一方面,這個實現有幾個優點:
1. 哈夫曼樹以一個緊密的形式每個符號要求 12 位(對於 8 位的符號)的方式存儲,這意味著最大的頭為 384 。
2. 編碼相當容易理解
哈夫曼編碼在數據有噪音的情況(不是有規律的,例如 RLE )下非常好,這中情況下大多數基於字典方式的編碼器都有問題。
⑵ 有損壓縮演算法
基本的分為兩大類:有損和無損。
有損壓縮:主要是一些量化演算法,比如a率,u率,lloyds最優量化。
無損壓縮:主要是一些編碼演算法,比如子帶編碼,差分編碼,哈夫曼編碼等。
另外時頻變換雖然沒壓縮效果,但是是很好的壓縮工具,比如fft,dct等。
最後就是壓縮感知稀疏重建等。
由於信息丟失意味著在誤差和比特率之間進行一些權衡,我們首先考慮失真度量---例如,平方誤差。本文引入了不同的量化器,每個量化器都具有不同的失真行為。許多有損數據壓縮演算法開發的數學基礎是隨機過程的研究。
介紹:
當圖像直方圖相對平坦時,使用無損壓縮技術(例如,霍夫曼編碼,算術編碼,LZW)的圖像數據的壓縮比較低。對於需要更高壓縮比的多媒體應用中的圖像壓縮,通常採用有損方法。在有損壓縮中,壓縮圖像通常與原始圖像不同,但在感知上與原始圖像近似。為了定量描述近似值與原始數據的接近程度,需要某種形式的失真度量。
失真測量:
失真度量是一種數學量,它使用一些失真標准指定近似值與其原始值的接近程度。在查看壓縮數據時,很自然地會根據原始數據和重建數據之間的數值差異來考慮失真。 然而,當要壓縮的數據是圖像時,這樣的度量可能不會產生預期的結果。
例如,如果重建的圖像與原始圖像相同,只是它被向右移動一條垂直掃描線,那麼普通的人類觀察者將難以將其與原始圖像區分開,因此可以得出結論:失真很小。 然而,當以數字方式執行計算時,由於重建圖像的各個像素的大的變化,我們發現大的失真。問題是我們需要一種感知失真的測量,而不是一種更天真的數值方法。然而,對感知扭曲的研究超出了本書的范圍。
在已經定義的許多數值失真度量中,我們提出了圖像壓縮中最常用的三種。如果我們對平均像素差異感興趣,則經常使用均方誤差(MSE)。 它被定義為
⑶ 電子信息工程畢業論文
88. 基於MPT-1327的集群系統智能基站的研究與設計
89. 基於J2ME的手機部分功能實現
90. 購銷存財務軟體的應用比較
91. 高清視頻多媒體播放器
92. 基於CORBA網路管理技術及其安全性的研究和應用
93. 基本asp.net開發的網上商場的設計與實現
94. 桂林大廣電子公司網站設計
95. 電信客戶關系管理系統的分析與實現
96. 企業辦公區域網的建設
97. 第三代移動通信承載業務和QoS處理機制無線資源管
98. 計算機病毒動態防禦系統畢業論文
99. 3G標准化進程及其演進策略
100. 魯棒數字水印演算法的研究和比較
101. 基於SPCE061A的語音遙控小車設計——?硬體電路設計
102. B2C電子商務在線信任模型實證研究
103. 基於TQ5631 3V PCS波段CDMA射頻放大混頻器電路設計
104. 基於TQ5135的晶元簡介及應用電路設計
105. 基於TQ5121的無線數據接收器電路設計
106. 基於mpc92433晶元的簡介及應用電路設計
107. 基於MPC9992 晶元簡介及應用電路設計
108. 基於mpc9239晶元簡介及應用電路設計
109. 基於MPC9229 晶元簡介及應用電路設計
110. 基於MPC97H73的簡介及電路設計
111. 基於MC88920晶元簡介及應用電路設計
112. 基於MC12430的晶元簡介及應用電路設計
113. 基於MAX9995的晶元簡介及應用電路設計
114. 基於MAX9994的晶元簡介及應用電路設計
115. 基於MAX9981晶元簡介及應用電路設計
116. 基於MAX2753的晶元簡介及應用電路設計
117. 基於MAX2685的晶元簡介及應用電路設計
118. 基於MAX2511的晶元簡介及應用電路設計
119. 基於MAX2338晶元簡介及應用電路設計
120. 基於MAX2323/MAX2325 的晶元簡介及應用電路設計
121. 基於MAX2106 晶元簡介及應用電路設計
122. 基於MAX2102/MAX2105晶元簡介及應用電路設計
123. 基於MAX2039的晶元簡介及應用電路設計
124. 基於LT5516的晶元簡介及應用電路設計
125. 基於LT5572的晶元簡介及應用電路設計
126. 基於LT5527的400MHz至3.7GHz高信號電平下變頻混頻器電路設計
127. 基於LT5517 40MHZ到90NHZ 積分解調器的設計
128. 基於LT5500f 的1.8~2.7 GHzLNA/混頻器電路設計
129. 基於LMX2306/16/26 晶元簡介及應用電路設計
130. LMX2350/LMX2352晶元簡介及電路設計
131. 基於IMA-93516的晶元簡介及應用電路設計
132. 基於CXA3556N的晶元簡介及應用電路設計
133. 基於CXA3275Q的晶元簡介及應用電路設計
134. 基於CX3627ERDE的晶元簡介及應用電路設計
135. 基於CMOS 的AD9831晶元數字頻率合成器的電路設計
136. 基於CMOS 200 MHZ數字正交上變頻器設計
137. 基於ADL5350的簡介及應用電路設計
138. 基於ADF4360-7的集成整形N合成器的壓控振盪器
139. 基於ADF4360-6的簡介及應用電路設計
140. 基於ADF4360-3電路晶元簡介及應用電路設計
141. 基於ADF4360-0的晶元簡介及應用電路設計
142. 基於ADF4154的晶元簡介及應用電路設計
143. 基於ADF4110/ADF4111/ADF4112/ADF4113上的應用電路設計
144. 基於ADF4007簡介及電路設計
145. 基於ADF436的集成數字頻率合成器與壓控振盪器
146. 基於AD9952的晶元簡介和應用電路設計
147. 基於AD9540的晶元簡介及電路設計
148. 基於AD9511的簡介及電路應用
149. 基於AD8349的簡介及應用電路設計
150. 基於AD8348的50M-1000M正交解調器
151. 基於AD8341 晶元簡介及應用電路設計
152. 基於AD7008的晶元簡介及應用電路設計
153. 基於AD831低失真有源混頻器的電路設計
154. 基於 MAX2450晶元簡介及應用電路設計
155. 基於900MHz低壓LVPECL時鍾合成器的電路設計
156. 基於400MSPS 14-Bit,1.8VCMOS直接數字合成器AD9951
157. 高增益矢量乘法器
158. MPC92432晶元簡介及應用電路設計
159. MAX2754晶元簡介及應用電路設計
160. LMX2310U/LMX2311U/LMX2312U/LMX2313U晶元簡介及應用電路設計
161. ADF4193晶元簡介及應用電路設計
162. 基於ADF4116/4117/4118的晶元簡介及應用電路設計
163. 3.3V低壓CMOS零延遲1:11時鍾發生器
164. 音頻信號的數字水印技術
165. 基於ANSYS8.0的永磁直線電機的有限元分析及計算
166. 三層結構的工作流OA的應用與實現
167. 模糊控制在鍋爐焊接過程中的應用
168. 無線傳輸應變型扭矩儀
169. 基於MATLAB的直流電動機雙閉環調速系統
170. 不對稱半橋直直變換器模擬研究
171. 等精度數字頻率計
172. 基於DSP的短波通信系統設計(射頻單元)
173. 單片機控制的微型頻率計設計
174. 程式控制交換機房環境監測系統設計
175. 基於LabVIEW的測試結果語音表達系統
176. 簡易遠程心電監護系統
177. 溫度檢測控制儀器
178. 無線會議系統的設計
179. 直接轉矩控制交流調速系統的轉矩數字調節器
180. 加熱爐的非線性PID控制演算法研究
181. 焦爐立火道溫度軟測量模型設計
182. 汽車牌照定位與分割技術的研究
183. 數字圖象融合技術
184. 基於奇異值分解的數字圖像水印演算法研究
185. 圖像壓縮編碼
186. 基於分形的自然景物圖形的生成
187. 三維激光掃描儀中圖像處理快速演算法設計
188. 網路配置管理對象分析與應用
189. 網路文檔發放與認證管理系統
190. 語音信號處理技術及應用
191. 英特網上傳輸文件的簽名與驗證程序
192. 基於小波變換的配電網單相接地故障定位研究及應用
193. 基於小波變換的數據壓縮演算法的研究與實現
194. 基於網路數據處理XML技術的設計
195. 基於寬頻聲音子帶編碼的數據壓縮演算法的設計與實現
196. 基於活動圖像編碼的數據壓縮演算法的設計與實現
197. 基於分布式體系結構的工序調度系統的設計
198. 遠程監護系統的數據記錄與傳輸技術研究
199. 自適應蟻群演算法在DNA序列比對中的應用
200. 基於粗糙集和規則樹的增量式知識獲取演算法
201. 基於windows的串口通信軟體設計
202. 基於MATLAB的對稱振子阻抗特性和圖形模擬
203. 基於Matlab的FMCW(調頻連續波)的中頻正交處理和脈沖壓縮處理
204. 基於internet的嵌入式遠程測控終端研製
205. 基於Huffman編碼的數據壓縮演算法的研究與實現
206. 基於DM642的H.264視頻編碼器優化和實現
207. 基於AES演算法的HASH函數的設計與應用
208. 基於AES的加密機制的實現
209. 大學自動排課演算法設計與實現
210. 復合加密系統中DES演算法的實現
211. 分布式計算環境的設計與實現
212. 嵌入式系統建模模擬環境PtolemyII的研究與應用
213. 基於小波變換和神經網路的短期負荷預測研究
214. 基於小波變換數字圖像水印盲演算法
215. 基於語音信號預測編碼的數據壓縮演算法的研究與實現
216. 採用S12交換機支持NGN下MEGACO呼叫流程的設計
217. WLAN的OFDM信道估計演算法研究
218. USB通信研究及其在虛擬儀器中的應用設計
219. 同步電機模型的MATLAB模擬
220. 有限沖擊響應濾波器的設計及其DSP實現
221. 手寫體數字識別
222. 圖像銳化演算法的研究及其DSP實現
223. 紗條均勻度測試的研究 答案來自 http://www.lwtxw.com/html/46/
⑷ 簡述一下hdfs的數據壓縮演算法,工作中用的是哪種演算法,為什麼
1、在HDFS之上將數據壓縮好後,再存儲到HDFS
2、在HDFS內部支持數據壓縮,這里又可以分為幾種方法:
2.1、壓縮工作在DataNode上完成,這里又分兩種方法:
2.1.1、數據接收完後,再壓縮
這個方法對HDFS的改動最小,但效果最低,只需要在block文件close後,調用壓縮工具,將block文件壓縮一下,然後再打開block文件時解壓一下即可,幾行代碼就可以搞定
2.1.2、邊接收數據邊壓縮,使用第三方提供的壓縮庫
效率和復雜度折中方法,Hook住系統的write和read操作,在數據寫入磁碟之前,先壓縮一下,但write和read對外的介面行為不變,比如:原始大小為100KB的數據,壓縮後大小為10KB,當寫入100KB後,仍對調用者返回100KB,而不是10KB
2.2、壓縮工作交給DFSClient做,DataNode只接收和存儲
這個方法效果最高,壓縮分散地推給了HDFS客戶端,但DataNode需要知道什麼時候一個block塊接收完成了。
推薦最終實現採用2.2這個方法,該方法需要修改的HDFS代碼量也不大,但效果最高。
⑸ 衡量數據壓縮方法的指標有哪些
衡量數據壓縮方法的指標:壓縮比、速度、效果。
數據壓縮是指在不丟失信息的前提下,縮減數據量以減少存儲空間,提高其傳輸、存儲和處理效率的一種技術方法。或按照一定的演算法對數據進行重新組織,減少數據的冗餘和存儲的空間。數據壓縮包括有損壓縮和無損壓縮。
數據壓縮分為兩類,有三種分法:
1、即時壓縮和非即時壓縮
即時壓縮是將語音信號轉化為數字信號,同時進行壓縮,然後即時通過Internet傳送出去。即時壓縮一般應用在影像、聲音數據的傳送中。
非即時壓縮是在需要的情況下才進行,沒有即時性。非即時壓縮一般不需要專門的設備,直接在計算機中安裝並使用相應的壓縮軟體即可。
2、數字壓縮和文件壓縮
數字壓縮是專指一些具有時間性的數據,這些數據常常是即時採集、即時處理或傳輸的。
文件壓縮是專指對將要保存在磁碟等物理介質的數據進行壓縮,如一篇文章數據、一段音樂數據、一段程序編碼數據等的壓縮。
3、無損壓縮與有損壓縮
無損壓縮利用數據的統計冗餘進行壓縮,所以無損壓縮的壓縮比一般比較低。這類方法廣泛應用於文本數據、程序和特殊應用場合的圖像數據等需要精確存儲數據的壓縮。
有損壓縮方法利用了人類視覺、聽覺對圖像、聲音中的某些頻率成分不敏感的特性,允許壓縮的過程中損失一定的信息。有損壓縮廣泛應用於語音、圖像和視頻數據的壓縮。
拓展資料:數據壓縮的應用:
一種非常簡單的壓縮方法是行程長度編碼,這種方法使用數據及數據長度這樣簡單的編碼代替同樣的連續數據,這是無損數據壓縮的一個實例。這種方法經常用於辦公計算機以更好地利用磁碟空間、或者更好地利用計算機網路中的帶寬。對於電子表格、文本、可執行文件等這樣的符號數據來說,無損是一個非常關鍵的要求,因為除了一些有限的情況,大多數情況下即使是一個數據位的變化都是無法接受的。
對於視頻和音頻數據,只要不損失數據的重要部分一定程度的質量下降是可以接受的。通過利用人類感知系統的局限,能夠大幅度地節約存儲空間並且得到的結果質量與原始數據質量相比並沒有明顯的差別。這些有損數據壓縮方法通常需要在壓縮速度、壓縮數據大小以及質量損失這三者之間進行折中。
有損圖像壓縮用於數碼相機中,大幅度地提高了存儲能力,同時圖像質量幾乎沒有降低。用於DVD的有損MPEG-2編解碼視頻壓縮也實現了類似的功能。
在有損音頻壓縮中,心理聲學的方法用來去除信號中聽不見或者很難聽見的成分。人類語音的壓縮經常使用更加專業的技術,因此人們有時也將「語音壓縮」或者「語音編碼」作為一個獨立的研究領域與「音頻壓縮」區分開來。不同的音頻和語音壓縮標准都屬於音頻編解碼范疇。例如語音壓縮用於網際網路電話,而音頻壓縮被用於CD翻錄並且使用MP3播放器解碼。
理論壓縮的理論基礎是資訊理論(它與演算法資訊理論密切相關)以及率失真理論,這個領域的研究工作主要是由Claude Shannon奠定的,他在二十世紀四十年代末期及五十年代早期發表了這方面的基礎性的論文。Doyle和Carlson在2000年寫道數據壓縮「有所有的工程領域最簡單、最優美的設計理論之一」。密碼學與編碼理論也是密切相關的學科,數據壓縮的思想與統計推斷也有很深的淵源。
許多無損數據壓縮系統都可以看作是四步模型,有損數據壓縮系統通常包含更多的步驟,例如它包括預測、頻率變換以及量化。
⑹ 幾種無損數據壓縮演算法的探討及在java web程序中的應用
Tomcat是Sun的JSWDK(JavaServer Web Development Kit)中Servlet的運行環境(servlet容器)。Tomcat是Apache Jakarta軟體組織的一個子項目,Tomcat是一個JSP/Servlet容器,它是在SUN公司的JSWDK(Java Server Web Development Kit)基礎上發展起來的一個JSP和Servlet規范的標准實現,使用Tomcat可以體驗JSP和Servlet的最新規范。經過多年的發展,Tomcat不僅是JSP和Servlet規范的標准實現,而且具備了很多商業Java Servlet容器的特性,並被一些企業用於商業用途。
JBoss是一個運行EJB的J2EE應用伺服器。它是開放源代碼的項目,遵循最新的J2EE規范。從JBoss項目開始至今,它已經從一個EJB容器發展成為一個基於的J2EE的一個web 操作系統(operating system for web),它體現了J2EE規范中最新的技術
WebLogic伺服器是企業級的應用伺服器,支持EJB, 集群以及 ERP(企業資源計劃)的連通性 ,開發公司:BEA。
WebSphere產品系列是IBM公司一套典型的電子商務應用開發工具及運行環境
⑺ 基於Huffman編碼的數據壓縮演算法的研究與實現
這是我們上學期做的一個上機題:
上機題:設電文字元集D及各字元出現的概率F如下:
D={a,b,c,d,e,f,g,h}(字元數n=8)
F={5,29,7,8,14,23,3,11}(%)
編寫完成下列功能的程序:
①構造關於F的Huffman樹;
②求出並列印D總各字元的Huffman編碼。
程序結構: 類型說明;
構造Huffman樹的函數:Huffman_tree(H[m+1]);
求Huffman編碼的函數:Huffman_code(code[n+1]);
main()
{ 變數說明;
輸入字元集D及頻率F;
調用Huffman_tree(H);
調用Huffman_code(code);
列印編碼;Y繼續,N退出}
運行後,輸入8個字元(中間不能有空格,否則將空格視為字元處理),然後輸入概率(整數,空格或回車分隔。如果要支持浮點數,要改程序)然後Enter,出現構造的霍夫曼節點和編碼,程序如下:(因為這只是一個上機題目,所以程序不復雜,也沒有論文,希望對你有幫助)
#include "stdio.h"
#include "stdlib.h"
#include "string.h"
#define N 8
#define M 2*N-1
#define MAX 32767
typedef char datatype;
typedef struct
{
int wi;
char data;
int Parent,Lchild,Rchild;
}huffm;
typedef struct
{
char bits[N+1];
int start;
char ch;
}ctype;
void Huffman_tree(huffm H[M+1])
{
int i,j,p1,p2;
int w,s1,s2;
for(i=1;i<=M;i++)
{
H[i].wi=MAX;
H[i].Parent=0;
H[i].Lchild=H[i].Rchild=0;
}
printf("please enter the weight:\n");
for(i=1;i<=N;i++)
{
scanf("%d",&H[i].wi);
}
for(i=N+1;i<=M;i++)
{
p1=p2=0;
s1=s2=MAX;
for(j=1;j<=M;j++)
if(H[j].Parent==0)
if(H[j].wi<s1)
{
s2=s1;
s1=H[j].wi;
p2=p1; p1=j;
}
else if(H[j].wi<s2) {s2=H[j].wi; p2=j;}
H[p1].Parent=H[p2].Parent=i;
H[i].Lchild=p1;
H[i].Rchild=p2;
H[i].wi=H[p1].wi+H[p2].wi;
}
printf("Number\tParent\tLchild\tRchild\n");
for(i=1;i<=M;i++)
printf("%d\t%d\t%d\t%d\n",i,H[i].Parent,H[i].Lchild,H[i].Rchild);
}
void Huffman_code(ctype code[N+1])
{
int i,j,p,s;
char c[N];
huffm H[M+1];
ctype md;
printf("please enter char:\n");
/* for(i=1;i<=N;i++)
{
scanf("%c",&c);
H[i].data=code[i].ch=c;
}
*/
scanf("%s",c);
for(i=1;i<=N;i++)H[i].data=code[i].ch=c[i-1];
Huffman_tree(H);
for(i=1;i<=N;i++)
{
md.ch=code[i].ch;
md.start=N+1;
s=i;
p=H[i].Parent;
while(p!=0)
{
md.start--;
if(H[p].Lchild==s)
md.bits[md.start]='1';
else
md.bits[md.start]='0';
s=p;
p=H[p].Parent;
}
code[i]=md;
}
printf("print the code:\n");
for(i=1;i<=N;i++)
printf("%c\t",code[i].ch);
printf("\n");
for(i=1;i<=N;i++)
{
for(j=code[i].start;j<=N;j++)
printf("%c",code[i].bits[j]);
printf("\t");
}
printf("\n");
}
int Continue()
{ char c;
getchar();
printf("continue? y/n\n");
c=getchar();
if(c=='y') return 1;
else return 0;
}
main()
{
do{
/* huffm H[M+1]; */
ctype code[N+1];
Huffman_code(code);
}while(Continue());
}
⑻ 數據無損壓縮技術到底怎麼實現的
無損數據壓縮(Lossless Compression)是指使用壓縮後的數據進行重構(或者叫做還原,解壓縮),重構後的數據與原來的數據完全相同;無損壓縮用於要求重構的信號與原始信號完全一致的場合。也就是說數據經過壓縮後信息不受損失,還能完全恢復到壓縮前的原樣。它和有損數據壓縮相對。這種壓縮通常壓縮比小於有損數據壓縮的壓縮比。
一個很常見的例子是磁碟文件的壓縮。根據目前的技術水平,無損壓縮演算法一般可以把普通文件的數據壓縮到原來的1/2~1/4。一些常用的無損壓縮演算法有霍夫曼(Huffman)演算法和LZW(Lenpel-Ziv & Welch)壓縮演算法。
⑼ 數據壓縮技術分為哪兩類使用方法是什麼
【導讀】數據壓縮技術是大數據傳輸過程中需要採用的一種數據存儲方法。那麼數據壓縮技術分為哪兩類?使用方法是什麼呢?為此小編今天就來和大家細細聊聊關於數據壓縮技術那些事,同時也提醒各位大數據工程師在使用數據壓縮過程中的一些注意事項及使用方法。
在數據壓縮中,通過使用比原始數據更少的位來對數據進行編碼,數據壓縮有兩種方法:無損壓縮,它消除了冗餘但不丟失任何原始數據;有損數據壓縮,可通過刪除不必要或不太重要的信息來修改數據,在大數據的傳輸和存儲中使用數據壓縮非常重要,因為它減少了IT部門必須為該數據提供的網路帶寬和存儲量,同樣重要的是,您實際上並不想保留某些類型的大數據,例如作為物聯網(IoT)通信數據一部分的設備間握手引起的抖動。
為了最大程度地利用大數據進行數據壓縮,您必須知道何時何地使用不同類型的數據壓縮工具和公式。選擇數據壓縮方法時,請牢記以下幾條有用的准則:
何時使用無損數據壓縮
如果您有一個大數據應用程序,並且無法承受丟失任何數據的麻煩,並且需要解壓縮壓縮的每個位元組的數據,那麼您將需要一種無損的數據壓縮方法,當您壓縮來自資料庫的數據時,即使您意味著必須存儲更多的數據,也希望進行無損數據壓縮。在選擇將此數據重新提交到其資料庫時,您需要解壓縮完整數據,以便它可以與資料庫端的數據匹配並進行存儲。
何時使用有損數據壓縮
有時您不需要或不需要所有數據,例如物聯網和網路設備的抖動,您不需要這些數據,只需提供給您業務所需的上下文信息的數據即可。第二個示例是在數據壓縮過程的前端可能使用的數據壓縮公式中使用人工智慧(AI),如果您正在研究一個特定的問題,並且只希望與該問題直接相關的數據,則可以決定讓數據壓縮公式不包含與該問題無關的任何數據。
如何選擇正確的編解碼器
一個編解碼器是一個硬體,軟體的組合,壓縮和解壓縮數據,所以它在大數據壓縮和解壓縮操作的核心作用,編解碼器有許多種,因此為正確的數據或文件類型選擇正確的編解碼器很重要,您選擇的編解碼器類型將取決於您嘗試壓縮的數據和文件類型,有無損和有損數據的編解碼器,也有一些編解碼器必須將所有數據文件作為「整體」處理,而其他編解碼器可以將數據分割開,以便可以對其進行並行處理,然後在其目的地重新組合,某些編解碼器設置用於可視數據,而其他編解碼器僅處理音頻數據。
為什麼數據壓縮很重要?
確定將用於大數據的數據壓縮類型是大數據操作的重要組成部分,僅在資源端,IT人員就無法承受處理失控和迅速發展的存儲的成本,即使必須完整存儲數據,也應盡可能地對其進行壓縮,也就是說,您可以採取其他步驟來限制存儲和處理,以及針對大數據壓縮中採用的演算法和方法的最適合操作,掌握這些選項是IT部門的關鍵數據點。
以上就是小編今天給大家整理分享關於「數據壓縮技術分為哪兩類?使用方法是什麼?」的相關內容希望對大家有所幫助。小編認為要想在大數據行業有所建樹,需要考取部分含金量高的數據分析師證書,這樣更有核心競爭力與競爭資本。
⑽ 數據壓縮技術的數據壓縮技術簡史
電腦里的數據壓縮其實類似於美眉們的瘦身運動,不外有兩大功用。第一,可以節省空間。拿瘦身美眉來說,要是八個美眉可以擠進一輛計程車里,那該有多省錢啊!第二,可以減少對帶寬的佔用。例如,我們都想在不到 100Kbps 的 GPRS 網上觀看 DVD 大片,這就好比瘦身美眉們總希望用一尺布裁出七件吊帶衫,前者有待於數據壓縮技術的突破性進展,後者則取決於美眉們的恆心和毅力。
簡單地說,如果沒有數據壓縮技術,我們就沒法用 WinRAR 為 Email 中的附件瘦身;如果沒有數據壓縮技術,市場上的數碼錄音筆就只能記錄不到 20 分鍾的語音;如果沒有數據壓縮技術,從 Internet 上下載一部電影也許要花半年的時間……可是這一切究竟是如何實現的呢?數據壓縮技術又是怎樣從無到有發展起來的呢? 一千多年前的中國學者就知道用「班馬」這樣的縮略語來指代班固和司馬遷,這種崇尚簡約的風俗一直延續到了今天的 Internet 時代:當我們在 BBS 上用「 7456 」代表「氣死我了」,或是用「 B4 」代表「 Before 」的時候,我們至少應該知道,這其實就是一種最簡單的數據壓縮呀。
嚴格意義上的數據壓縮起源於人們對概率的認識。當我們對文字信息進行編碼時,如果為出現概率較高的字母賦予較短的編碼,為出現概率較低的字母賦予較長的編碼,總的編碼長度就能縮短不少。遠在計算機出現之前,著名的 Morse 電碼就已經成功地實踐了這一準則。在 Morse 碼表中,每個字母都對應於一個唯一的點劃組合,出現概率最高的字母 e 被編碼為一個點「 . 」,而出現概率較低的字母 z 則被編碼為「 --.. 」。顯然,這可以有效縮短最終的電碼長度。
資訊理論之父 C. E. Shannon 第一次用數學語言闡明了概率與信息冗餘度的關系。在 1948 年發表的論文「通信的數學理論( A Mathematical Theory of Communication )」中, Shannon 指出,任何信息都存在冗餘,冗餘大小與信息中每個符號(數字、字母或單詞)的出現概率或者說不確定性有關。 Shannon 借鑒了熱力學的概念,把信息中排除了冗餘後的平均信息量稱為「信息熵」,並給出了計算信息熵的數學表達式。這篇偉大的論文後來被譽為資訊理論的開山之作,信息熵也奠定了所有數據壓縮演算法的理論基礎。從本質上講,數據壓縮的目的就是要消除信息中的冗餘,而信息熵及相關的定理恰恰用數學手段精確地描述了信息冗餘的程度。利用信息熵公式,人們可以計算出信息編碼的極限,即在一定的概率模型下,無損壓縮的編碼長度不可能小於信息熵公式給出的結果。
有了完備的理論,接下來的事就是要想辦法實現具體的演算法,並盡量使演算法的輸出接近信息熵的極限了。當然,大多數工程技術人員都知道,要將一種理論從數學公式發展成實用技術,就像僅憑一個 E=mc 2 的公式就要去製造核武器一樣,並不是一件很容易的事。 設計具體的壓縮演算法的過程通常更像是一場數學游戲。開發者首先要尋找一種能盡量精確地統計或估計信息中符號出現概率的方法,然後還要設計一套用最短的代碼描述每個符號的編碼規則。統計學知識對於前一項工作相當有效,迄今為止,人們已經陸續實現了靜態模型、半靜態模型、自適應模型、 Markov 模型、部分匹配預測模型等概率統計模型。相對而言,編碼方法的發展歷程更為曲折一些。
1948 年, Shannon 在提出信息熵理論的同時,也給出了一種簡單的編碼方法—— Shannon 編碼。 1952 年, R. M. Fano 又進一步提出了 Fano 編碼。這些早期的編碼方法揭示了變長編碼的基本規律,也確實可以取得一定的壓縮效果,但離真正實用的壓縮演算法還相去甚遠。
第一個實用的編碼方法是由 D. A. Huffman 在 1952 年的論文「最小冗餘度代碼的構造方法( A Method for the Construction of Minimum Rendancy Codes )」中提出的。直到今天,許多《數據結構》教材在討論二叉樹時仍要提及這種被後人稱為 Huffman 編碼的方法。 Huffman 編碼在計算機界是如此著名,以至於連編碼的發明過程本身也成了人們津津樂道的話題。據說, 1952 年時,年輕的 Huffman 還是麻省理工學院的一名學生,他為了向老師證明自己可以不參加某門功課的期末考試,才設計了這個看似簡單,但卻影響深遠的編碼方法。
Huffman 編碼效率高,運算速度快,實現方式靈活,從 20 世紀 60 年代至今,在數據壓縮領域得到了廣泛的應用。例如,早期 UNIX 系統上一個不太為現代人熟知的壓縮程序 COMPACT 實際就是 Huffman 0 階自適應編碼的具體實現。 20 世紀 80 年代初, Huffman 編碼又出現在 CP/M 和 DOS 系統中,其代表程序叫 SQ 。今天,在許多知名的壓縮工具和壓縮演算法(如 WinRAR 、 gzip 和 JPEG )里,都有 Huffman 編碼的身影。不過, Huffman 編碼所得的編碼長度只是對信息熵計算結果的一種近似,還無法真正逼近信息熵的極限。正因為如此,現代壓縮技術通常只將 Huffman 視作最終的編碼手段,而非數據壓縮演算法的全部。
科學家們一直沒有放棄向信息熵極限挑戰的理想。 1968 年前後, P. Elias 發展了 Shannon 和 Fano 的編碼方法,構造出從數學角度看來更為完美的 Shannon-Fano-Elias 編碼。沿著這一編碼方法的思路, 1976 年, J. Rissanen 提出了一種可以成功地逼近信息熵極限的編碼方法——算術編碼。 1982 年, Rissanen 和 G. G. Langdon 一起改進了算術編碼。之後,人們又將算術編碼與 J. G. Cleary 和 I. H. Witten 於 1984 年提出的部分匹配預測模型( PPM )相結合,開發出了壓縮效果近乎完美的演算法。今天,那些名為 PPMC 、 PPMD 或 PPMZ 並號稱壓縮效果天下第一的通用壓縮演算法,實際上全都是這一思路的具體實現。
對於無損壓縮而言, PPM 模型與算術編碼相結合,已經可以最大程度地逼近信息熵的極限。看起來,壓縮技術的發展可以到此為止了。不幸的是,事情往往不像想像中的那樣簡單:算術編碼雖然可以獲得最短的編碼長度,但其本身的復雜性也使得算術編碼的任何具體實現在運行時都慢如蝸牛。即使在摩爾定律大行其道, CPU 速度日新月異的今天,算術編碼程序的運行速度也很難滿足日常應用的需求。沒辦法,如果不是後文將要提到的那兩個猶太人,我們還不知要到什麼時候才能用上 WinZIP 這樣方便實用的壓縮工具呢。 逆向思維永遠是科學和技術領域里出奇制勝的法寶。就在大多數人絞盡腦汁想改進 Huffman 或算術編碼,以獲得一種兼顧了運行速度和壓縮效果的「完美」編碼的時候,兩個聰明的猶太人 J. Ziv 和 A. Lempel 獨辟蹊徑,完全脫離 Huffman 及算術編碼的設計思路,創造出了一系列比 Huffman 編碼更有效,比算術編碼更快捷的壓縮演算法。我們通常用這兩個猶太人姓氏的縮寫,將這些演算法統稱為 LZ 系列演算法。
按照時間順序, LZ 系列演算法的發展歷程大致是: Ziv 和 Lempel 於 1977 年發表題為「順序數據壓縮的一個通用演算法( A Universal Algorithm for Sequential Data Compression )」的論文,論文中描述的演算法被後人稱為 LZ77 演算法。 1978 年,二人又發表了該論文的續篇「通過可變比率編碼的獨立序列的壓縮( Compression of Indivial Sequences via Variable Rate Coding )」,描述了後來被命名為 LZ78 的壓縮演算法。 1984 年, T. A. Welch 發表了名為「高性能數據壓縮技術( A Technique for High Performance Data Compression )」的論文,描述了他在 Sperry 研究中心(該研究中心後來並入了 Unisys 公司)的研究成果,這是 LZ78 演算法的一個變種,也就是後來非常有名的 LZW 演算法。 1990 年後, T. C. Bell 等人又陸續提出了許多 LZ 系列演算法的變體或改進版本。
說實話, LZ 系列演算法的思路並不新鮮,其中既沒有高深的理論背景,也沒有復雜的數學公式,它們只是簡單地延續了千百年來人們對字典的追崇和喜好,並用一種極為巧妙的方式將字典技術應用於通用數據壓縮領域。通俗地說,當你用字典中的頁碼和行號代替文章中每個單詞的時候,你實際上已經掌握了 LZ 系列演算法的真諦。這種基於字典模型的思路在表面上雖然和 Shannon 、 Huffman 等人開創的統計學方法大相徑庭,但在效果上一樣可以逼近信息熵的極限。而且,可以從理論上證明, LZ 系列演算法在本質上仍然符合信息熵的基本規律。
LZ 系列演算法的優越性很快就在數據壓縮領域里體現 了 出來,使用 LZ 系列演算法的工具軟體數量呈爆炸式增長。 UNIX 系統上最先出現了使用 LZW 演算法的 compress 程序,該程序很快成為了 UNIX 世界的壓縮標准。緊隨其後的是 MS-DOS 環境下的 ARC 程序,以及 PKWare 、 PKARC 等仿製品。 20 世紀 80 年代,著名的壓縮工具 LHarc 和 ARJ 則是 LZ77 演算法的傑出代表。
今天, LZ77 、 LZ78 、 LZW 演算法以及它們的各種變體幾乎壟斷了整個通用數據壓縮領域,我們熟悉的 PKZIP 、 WinZIP 、 WinRAR 、 gzip 等壓縮工具以及 ZIP 、 GIF 、 PNG 等文件格式都是 LZ 系列演算法的受益者,甚至連 PGP 這樣的加密文件格式也選擇了 LZ 系列演算法作為其數據壓縮的標准。
沒有誰能否認兩位猶太人對數據壓縮技術的貢獻。我想強調的只是,在工程技術領域,片面追求理論上的完美往往只會事倍功半,如果大家能像 Ziv 和 Lempel 那樣,經常換個角度來思考問題,沒准兒你我就能發明一種新的演算法,就能在技術方展史上揚名立萬呢。 LZ 系列演算法基本解決了通用數據壓縮中兼顧速度與壓縮效果的難題。但是,數據壓縮領域里還有另一片更為廣闊的天地等待著我們去探索。 Shannon 的資訊理論告訴我們,對信息的先驗知識越多,我們就可以把信息壓縮得越小。換句話說,如果壓縮演算法的設計目標不是任意的數據源,而是基本屬性已知的特種數據,壓縮的效果就會進一步提高。這提醒我們,在發展通用壓縮演算法之餘,還必須認真研究針對各種特殊數據的專用壓縮演算法。比方說,在今天的數碼生活中,遍布於數碼相機、數碼錄音筆、數碼隨身聽、數碼攝像機等各種數字設備中的圖像、音頻、視頻信息,就必須經過有效的壓縮才能在硬碟上存儲或是通過 USB 電纜傳輸。實際上,多媒體信息的壓縮一直是數據壓縮領域里的重要課題,其中的每一個分支都有可能主導未來的某個技術潮流,並為數碼產品、通信設備和應用軟體開發商帶來無限的商機。
讓我們先從圖像數據的壓縮講起。通常所說的圖像可以被分為二值圖像、灰度圖像、彩色圖像等不同的類型。每一類圖像的壓縮方法也不盡相同。
傳真技術的發明和廣泛使用促進了二值圖像壓縮演算法的飛速發展。 CCITT (國際電報電話咨詢委員會,是國際電信聯盟 ITU 下屬的一個機構)針對傳真類應用建立了一系列圖像壓縮標准,專用於壓縮和傳遞二值圖像。這些標准大致包括 20 世紀 70 年代後期的 CCITT Group 1 和 Group 2 , 1980 年的 CCITT Group 3 ,以及 1984 年的 CCITT Group 4 。為了適應不同類型的傳真圖像,這些標准所用的編碼方法包括了一維的 MH 編碼和二維的 MR 編碼,其中使用了行程編碼( RLE )和 Huffman 編碼等技術。今天,我們在辦公室或家裡收發傳真時,使用的大多是 CCITT Group 3 壓縮標准,一些基於數字網路的傳真設備和存放二值圖像的 TIFF 文件則使用了 CCITT Group 4 壓縮標准。 1993 年, CCITT 和 ISO (國際標准化組織)共同成立的二值圖像聯合專家組( Joint Bi-level Image Experts Group , JBIG )又將二值圖像的壓縮進一步發展為更加通用的 JBIG 標准。
實際上,對於二值圖像和非連續的灰度、彩色圖像而言,包括 LZ 系列演算法在內的許多通用壓縮演算法都能獲得很好的壓縮效果。例如,誕生於 1987 年的 GIF 圖像文件格式使用的是 LZW 壓縮演算法, 1995 年出現的 PNG 格式比 GIF 格式更加完善,它選擇了 LZ77 演算法的變體 zlib 來壓縮圖像數據。此外,利用前面提到過的 Huffman 編碼、算術編碼以及 PPM 模型,人們事實上已經構造出了許多行之有效的圖像壓縮演算法。
但是,對於生活中更加常見的,像素值在空間上連續變化的灰度或彩色圖像(比如數碼照片),通用壓縮演算法的優勢就不那麼明顯了。幸運的是,科學家們發現,如果在壓縮這一類圖像數據時允許改變一些不太重要的像素值,或者說允許損失一些精度(在壓縮通用數據時,我們絕不會容忍任何精度上的損失,但在壓縮和顯示一幅數碼照片時,如果一片樹林里某些樹葉的顏色稍微變深了一些,看照片的人通常是察覺不到的),我們就有可能在壓縮效果上獲得突破性的進展。這一思想在數據壓縮領域具有革命性的地位:通過在用戶的忍耐范圍內損失一些精度,我們可以把圖像(也包括音頻和視頻)壓縮到原大小的十分之一、百分之一甚至千分之一,這遠遠超出了通用壓縮演算法的能力極限。也許,這和生活中常說的「退一步海闊天空」的道理有異曲同工之妙吧。
這種允許精度損失的壓縮也被稱為有損壓縮。在圖像壓縮領域,著名的 JPEG 標準是有損壓縮演算法中的經典。 JPEG 標准由靜態圖像聯合專家組( Joint Photographic Experts Group , JPEG )於 1986 年開始制定, 1994 年後成為國際標准。 JPEG 以離散餘弦變換( DCT )為核心演算法,通過調整質量系數控制圖像的精度和大小。對於照片等連續變化的灰度或彩色圖像, JPEG 在保證圖像質量的前提下,一般可以將圖像壓縮到原大小的十分之一到二十分之一。如果不考慮圖像質量, JPEG 甚至可以將圖像壓縮到「無限小」。
JPEG 標準的最新進展是 1996 年開始制定, 2001 年正式成為國際標準的 JPEG 2000 。與 JPEG 相比, JPEG 2000 作了大幅改進,其中最重要的是用離散小波變換( DWT )替代了 JPEG 標准中的離散餘弦變換。在文件大小相同的情況下, JPEG 2000 壓縮的圖像比 JPEG 質量更高,精度損失更小。作為一個新標准, JPEG 2000 暫時還沒有得到廣泛的應用,不過包括數碼相機製造商在內的許多企業都對其應用前景表示樂觀, JPEG 2000 在圖像壓縮領域里大顯身手的那一天應該不會特別遙遠。
JPEG 標准中通過損失精度來換取壓縮效果的設計思想直接影響了視頻數據的壓縮技術。 CCITT 於 1988 年制定了電視電話和會議電視的 H.261 建議草案。 H.261 的基本思路是使用類似 JPEG 標準的演算法壓縮視頻流中的每一幀圖像,同時採用運動補償的幀間預測來消除視頻流在時間維度上的冗餘信息。在此基礎上, 1993 年, ISO 通過了動態圖像專家組( Moving Picture Experts Group , MPEG )提出的 MPEG-1 標准。 MPEG-1 可以對普通質量的視頻數據進行有效編碼。我們現在看到的大多數 VCD 影碟,就是使用 MPEG-1 標准來壓縮視頻數據的。
為了支持更清晰的視頻圖像,特別是支持數字電視等高端應用, ISO 於 1994 年提出了新的 MPEG-2 標准(相當於 CCITT 的 H.262 標准)。 MPEG-2 對圖像質量作了分級處理,可以適應普通電視節目、會議電視、高清晰數字電視等不同質量的視頻應用。在我們的生活中,可以提供高清晰畫面的 DVD 影碟所採用的正是 MPEG-2 標准。
Internet 的發展對視頻壓縮提出了更高的要求。在內容交互、對象編輯、隨機存取等新需求的刺激下, ISO 於 1999 年通過了 MPEG-4 標准(相當於 CCITT 的 H.263 和 H.263+ 標准)。 MPEG-4 標准擁有更高的壓縮比率,支持並發數據流的編碼、基於內容的交互操作、增強的時間域隨機存取、容錯、基於內容的尺度可變性等先進特性。 Internet 上新興的 DivX 和 XviD 文件格式就是採用 MPEG-4 標准來壓縮視頻數據的,它們可以用更小的存儲空間或通信帶寬提供與 DVD 不相上下的高清晰視頻,這使我們在 Internet 上發布或下載數字電影的夢想成為了現實。
就像視頻壓縮和電視產業的發展密不可分一樣,音頻數據的壓縮技術最早也是由無線電廣播、語音通信等領域里的技術人員發展起來的。這其中又以語音編碼和壓縮技術的研究最為活躍。自從 1939 年 H. Dudley 發明聲碼器以來,人們陸續發明了脈沖編碼調制( PCM )、線性預測( LPC )、矢量量化( VQ )、自適應變換編碼( ATC )、子帶編碼( SBC )等語音分析與處理技術。這些語音技術在採集語音特徵,獲取數字信號的同時,通常也可以起到降低信息冗餘度的作用。像圖像壓縮領域里的 JPEG 一樣,為獲得更高的編碼效率,大多數語音編碼技術都允許一定程度的精度損失。而且,為了更好地用二進制數據存儲或傳送語音信號,這些語音編碼技術在將語音信號轉換為數字信息之後又總會用 Huffman 編碼、算術編碼等通用壓縮演算法進一步減少數據流中的冗餘信息。
對於電腦和數字電器(如數碼錄音筆、數碼隨身聽)中存儲的普通音頻信息,我們最常使用的壓縮方法主要是 MPEG 系列中的音頻壓縮標准。例如, MPEG-1 標准提供了 Layer I 、 Layer II 和 Layer III 共三種可選的音頻壓縮標准, MPEG-2 又進一步引入了 AAC ( Advanced Audio Coding )音頻壓縮標准, MPEG-4 標准中的音頻部分則同時支持合成聲音編碼和自然聲音編碼等不同類型的應用。在這許多音頻壓縮標准中,聲名最為顯赫的恐怕要數 MPEG-1 Layer III ,也就是我們常說的 MP3 音頻壓縮標准了。從 MP3 播放器到 MP3 手機,從硬碟上堆積如山的 MP3 文件到 Internet 上版權糾紛不斷的 MP3 下載, MP3 早已超出了數據壓縮技術的范疇,而成了一種時尚文化的象徵了。
很顯然,在多媒體信息日益成為主流信息形態的數字化時代里,數據壓縮技術特別是專用於圖像、音頻、視頻的數據壓縮技術還有相當大的發展空間——畢竟,人們對信息數量和信息質量的追求是永無止境的。 從信息熵到算術編碼,從猶太人到 WinRAR ,從 JPEG 到 MP3 ,數據壓縮技術的發展史就像是一個寫滿了「創新」、「挑戰」、「突破」和「變革」的羊皮卷軸。也許,我們在這里不厭其煩地羅列年代、人物、標准和文獻,其目的只是要告訴大家,前人的成果只不過是後人有望超越的目標而已,誰知道在未來的幾年裡,還會出現幾個 Shannon ,幾個 Huffman 呢?
談到未來,我們還可以補充一些與數據壓縮技術的發展趨勢有關的話題。
1994年, M. Burrows 和 D. J. Wheeler 共同提出了一種全新的通用數據壓縮演算法。這種演算法的核心思想是對字元串輪轉後得到的字元矩陣進行排序和變換,類似的變換演算法被稱為 Burrows-Wheeler 變換,簡稱 BWT 。與 Ziv 和 Lempel 另闢蹊徑的做法如出一轍, Burrows 和 Wheeler 設計的 BWT 演算法與以往所有通用壓縮演算法的設計思路都迥然不同。如今, BWT 演算法在開放源碼的壓縮工具 bzip 中獲得了巨大的成功, bzip 對於文本文件的壓縮效果要遠好於使用 LZ 系列演算法的工具軟體。這至少可以表明,即便在日趨成熟的通用數據壓縮領域,只要能在思路和技術上不斷創新,我們仍然可以找到新的突破口。
分形壓縮技術是圖像壓縮領域近幾年來的一個熱點。這一技術起源於 B. Mandelbrot 於 1977 年創建的分形幾何學。 M. Barnsley 在 20 世紀 80 年代後期為分形壓縮奠定了理論基礎。從 20 世紀 90 年代開始, A. Jacquin 等人陸續提出了許多實驗性的分形壓縮演算法。今天,很多人相信,分形壓縮是圖像壓縮領域里最有潛力的一種技術體系,但也有很多人對此不屑一顧。無論其前景如何,分形壓縮技術的研究與發展都提示我們,在經過了幾十年的高速發展之後,也許,我們需要一種新的理論,或是幾種更有效的數學模型,以支撐和推動數據壓縮技術繼續向前躍進。
人工智慧是另一個可能對數據壓縮的未來產生重大影響的關鍵詞。既然 Shannon 認為,信息能否被壓縮以及能在多大程度上被壓縮與信息的不確定性有直接關系,假設人工智慧技術在某一天成熟起來,假設計算機可以像人一樣根據已知的少量上下文猜測後續的信息,那麼,將信息壓縮到原大小的萬分之一乃至十萬分之一,恐怕就不再是天方夜譚了。
回顧歷史之後,人們總喜歡暢想一下未來。但未來終究是未來,如果僅憑你我幾句話就可以理清未來的技術發展趨勢,那技術創新的工作豈不就索然無味了嗎?依我說,未來並不重要,重要的是,趕快到 Internet 上下載幾部大片,然後躺在沙發里,好好享受一下數據壓縮為我們帶來的無限快樂吧。