頭壓縮原理
Ⅰ 文件壓縮軟體的工作原理是什麼
計算機處理的信息是以二進制數的形式表示的,因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。為了有助於理解文件壓縮,請您在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言,與其一個一個定義「藍、藍、藍……」長長的一串顏色,還不如告訴電腦:「從這個位置開始存儲1117個藍色像點」來得簡潔,而且還能大大節約存儲空間。這是一個非常簡單的圖像壓縮的例子。其實,所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的,和藍色像點一樣,只要通過合理的數學計算公式,文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。總的來說,壓縮可以分為有損和無損壓縮兩種。如果丟失個別的數據不會造成太大的影響,這時忽略它們是個好主意,這就是有損壓縮。有損壓縮廣泛應用於動畫、聲音和圖像文件中,典型的代表就是影碟文件格式MPEG、音樂文件格式MP3和圖像文件格式JPG。
壓縮原理
很多人都驚異於壓縮技術的神奇,一個文件被壓縮成一半大小,何以能無損還原呢?
早期使用的壓縮技術都基於統計模型,到20世紀80年代初基於字典壓縮的新技術才慢慢推廣開來。
數據壓縮包含了非常多的軟體和硬體技術,這些技術各不相同,但是大多數壓縮軟體都是基於LZ77、LZ88演算法並加以修正而成,而LZ77是字典壓縮的起源。大家都知道一個文本文件是由一些單片語成,而且必定有重復現象發生,例如我們這里經常出現的「壓縮軟體」一詞,壓縮的原理就是在文件的頭部做一個類似字典的東西,把「壓縮軟體」這個詞放在「字典」中,並為這個詞指定一個占較少位元組數的編碼,而文章中的「壓縮軟體」一詞均用此編碼代替,以達到壓縮的目的。當然壓縮軟體在實際運作中並非如此簡單,還要使用一些看了就頭痛的演算方法,在此就不一一細述。也許有人會問,文本文件可用字典技術,那其它文件怎麼辦呢。這就無須操心了,因為對於壓縮軟體來說,一個文件中的「數據壓縮」一詞和「@#¥%^」是一樣的,關鍵在於冗餘碼(重復部分)的多少。
壓縮常識
按壓縮方式分:有所謂的「透明壓縮」和「打包壓縮」。
「透明壓縮」一般針對.exe和.com文件,直接壓縮。成功的話,文件體積變小,功能不變,運行速度還可能更快。但是,這種壓縮方法的對象面很窄。如果壓縮失敗,還會造成文件不可用。所以,這一類程序總是強烈要求用戶在壓縮前將文件備份。
「打包壓縮」就是現在常提到的壓縮軟體使用的壓縮法。它把一個或多個文件壓縮成一個文件——壓縮包。要使用壓縮後的文件,必須先解壓將文件復原。它的特點是風險小,適用於減小不常用的文件所佔空間和傳輸數據。當然,按照壓縮演算法,我們還可以將壓縮分成很多種。
一般我們在談到壓縮時,會提到許多相關術語,下面我們就提出一些常見的術語進行解釋。
壓縮格式:壓縮文件時使用的壓縮編碼方法不同,壓縮生成的文件結構就不同,這種壓縮文件結構就稱壓縮格式。
壓縮比率:文件壓縮後佔用的磁碟空間與原文件的比率稱壓縮比率。在常用的壓縮格式中,RAR格式壓縮比率較高,ZIP格式較低。但ZIP格式的文件操作速度較快。
解壓:將壓縮文件還原為本來的文件格式,也稱釋放、擴展。
壓縮包:一般將通用壓縮格式的文件稱為壓縮包,如ZIP格式壓縮文件。這種文件可以在壓縮工具的管理下對包中壓縮的文件進行管理,如查看、刪除、添加等。
打包:將文件壓縮成通用壓縮格式的壓縮包文件稱為打包,也指將文件壓縮添加到壓縮包。
多卷壓縮:將壓縮的文件包分成幾個壓縮文件稱為多卷壓縮,一般是為了將壓縮文件儲存在多個軟磁碟上或方便網上傳輸。
自解壓文件:將文件壓縮生成可執行的文件,然後在沒有壓縮工具的幫助下,通過執行壓縮的文件,就可將自己的源文件解壓還原出來。
壓縮文件格式
目前流行著多種壓縮文件格式,下面我們就來看看到底有哪些吧!
ZIP:目前最流行的壓縮文件格式(在Internet上,ZIP文件已經取得了絕對勝利。在日常操作中,除專門的壓縮軟體之外,許多文件管理程序,如WindowsCommander等也都支持ZIP格式)。我們可利用WinZip對ZIP文件進行解壓、釋放等操作,還可以用它來處理ARJ、ARC、CAB、LZH等多種不同格式的壓縮文件,從而大大地方便了用戶的操作。
RAR:是一種高效快速的文件壓縮格式,但不被大多數文件壓縮程序支持,WinRAR是在Windows下處理RAR格式文件的最好工具。
ARJ:由DOS下曾經紅極一時的壓縮軟體ARJ壓縮而成的文件格式,它具有功能強大、壓縮率高等優點。到了現在的Windows時代,它已經沒有了往日的輝煌。
CAB:是Windows98新增的一種特殊壓縮文件格式,主要用於對有關軟體安裝盤中的文件進行壓縮,其特點是壓縮率非常高(可能是目前最高的),但一經壓縮就不能再進行任何增加、刪除、替換等修改,也就是說它的壓縮包具有「只讀」屬性。我們也可使用WinZip對CAB壓縮包進行操作。
??_:軟體安裝盤所採用的一種壓縮文件方式,如*.ex_、*.dl_、*.d3_等,它們一般由系統直接解壓並完成安裝工作,無須用戶操心。當然,我們也可使用DOS的EXPAND命令對*.??_文件進行釋放操作。
UU/UUE:漢字編碼方式,它們原本是Unix系統中使用的一種編碼方式,後來被改寫到DOS中,我們在傳送中文郵件時只須事先使用該方式進行編碼,此後就能順利通過只能處理7位編碼的郵件伺服器,從而解決了漢字的傳輸問題。
ACE:一種新式的壓縮程序,壓縮比很高。
另外,MP3、MPEG、JPG等音頻、視頻、圖像格式的文件也都採用了壓縮技術,從理論上來說它們也應該算壓縮文件,不過它們所採用的壓縮方式並不相同,這里簡單地介紹一下:
JPEG:JPEG全名為JointPhotographicExpertsGroup,它是一個在國際標准組織(ISO)下從事靜態影像壓縮標准制定的委員會。它制定出了第一套國標靜態影像壓縮標准:ISO10918-1就是我們俗稱的JPEG了。由於JPEG優良的品質,使得它在短短的幾年內就獲得極大的成功,目前網站上80%的影像都是採用JPEG的壓縮標准。
JPEG2000:正式名稱為「ISO15444」,同樣是由JPEG組織負責制定。JPEG2000與傳統JPEG最大的不同,在於它放棄了JPEG所採用的以離散餘弦轉換為主的區塊編碼方式,而改以小波轉換為主的多解析編碼方式。其壓縮率比JPEG高約30%左右,同時支持有損和無損壓縮,無損壓縮對保存一些重要圖片十分有用。
MP3:這個大家應該都認識它了,MP3全稱是MPEG1Layer3,是一種高性能的聲音壓縮編碼方案,它可以做出超小「體積」的音樂文件,大小隻是原始音頻數據的1/10到1/12。但人耳聽起來,效果卻沒有太大差異。它一出世就幾乎佔領了電腦音樂領域,由於MP3的出現,過去在網際網路上半小時才能下載完的一首歌曲,現在以MP3格式僅需短短的幾分鍾就可以「搞定」。
MPEG:MPEG是MovingPicturesExpertsGroup(動態圖像專家組)的縮寫。
現在使用的有4個版本:MPEG-1、MPEG-2、MPEG-3、MPEG-4。
Ⅱ zip 的壓縮原理與實現
文件壓縮原理
我們使用計算機所做的事情大多都是對文件進行處理。每個文件都會佔用一定的磁碟空間,我們希望一些文件,尤其是暫時不用但又比較重要不能刪除的文件(如備份文件,有點像雞肋呀),盡可能少的佔用磁碟空間。但是,許多文件的存儲格式是比較鬆散的,這樣就浪費了一些寶貴的計算機存儲資源。這時,我們可以藉助壓縮工具解決這個問題,通過對原來的文件進行壓縮處理,使之用更少的磁碟空間保存起來,當需要使用時再進行解壓縮操作,這樣就大大節省了磁碟空間。當你要拷貝許多小文件時,通過壓縮處理可以提高執行效率。如果小文件很多,操作系統要執行頻繁的文件定位操作,需要花費很多的時間。如果先把這些小文件壓縮,變成一個壓縮文件後,再拷貝時就很方便了。由於計算機處理的信息是以二進制數的形式表示的,因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。為了有助於理解文件壓縮,請您在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言,與其一個一個定義「藍、藍、藍……」長長的一串顏色,還不如告訴電腦:「從這個位置開始存儲1117個藍色像點」來得簡潔,而且還能大大節約存儲空間。這是一個非常簡單的圖像壓縮的例子。其實,所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的,和藍色像點一樣,只要通過合理的數學計算公式,文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。總的來說,壓縮可以分為有損和無損壓縮兩種。如果丟失個別的數據不會造成太大的影響,這時忽略它們是個好主意,這就是有損壓縮。有損壓縮廣泛應用於動畫、聲音和圖像文件中,典型的代表就是影碟文件格式mpeg、音樂文件格式mp3和圖像文件格式jpg。但是更多情況下壓縮數據必須准確無誤,人們便設計出了無損壓縮格式,比如常見的zip、rar等。壓縮軟體(compression software)自然就是利用壓縮原理壓縮數據的工具,壓縮後所生成的文件稱為壓縮包(archive),體積只有原來的幾分之一甚至更小。當然,壓縮包已經是另一種文件格式了,如果你想使用其中的數據,首先得用壓縮軟體把數據還原,這個過程稱作解壓縮。常見的壓縮軟體有winzip、winrar等
Ⅲ 壓縮軟體的原理是什麼
計算機處理的信息是以二進制數的形式表示的,因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。為了有助於理解文件壓縮,請您在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言,與其一個一個定義「藍、藍、藍……」長長的一串顏色,還不如告訴電腦:「從這個位置開始存儲1117個藍色像點」來得簡潔,而且還能大大節約存儲空間。這是一個非常簡單的圖像壓縮的例子。其實,所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的,和藍色像點一樣,只要通過合理的數學計算公式,文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。總的來說,壓縮可以分為有損和無損壓縮兩種。如果丟失個別的數據不會造成太大的影響,這時忽略它們是個好主意,這就是有損壓縮。有損壓縮廣泛應用於動畫、聲音和圖像文件中,典型的代表就是影碟文件格式MPEG、音樂文件格式MP3和圖像文件格式JPG。
壓縮原理
很多人都驚異於壓縮技術的神奇,一個文件被壓縮成一半大小,何以能無損還原呢?
早期使用的壓縮技術都基於統計模型,到20世紀80年代初基於字典壓縮的新技術才慢慢推廣開來。
數據壓縮包含了非常多的軟體和硬體技術,這些技術各不相同,但是大多數壓縮軟體都是基於LZ77、LZ88演算法並加以修正而成,而LZ77是字典壓縮的起源。大家都知道一個文本文件是由一些單片語成,而且必定有重復現象發生,例如我們這里經常出現的「壓縮軟體」一詞,壓縮的原理就是在文件的頭部做一個類似字典的東西,把「壓縮軟體」這個詞放在「字典」中,並為這個詞指定一個占較少位元組數的編碼,而文章中的「壓縮軟體」 一詞均用此編碼代替,以達到壓縮的目的。當然壓縮軟體在實際運作中並非如此簡單,還要使用一些看了就頭痛的演算方法,在此就不一一細述。也許有人會問,文本文件可用字典技術,那其它文件怎麼辦呢。這就無須操心了,因為對於壓縮軟體來說,一個文件中的「數據壓縮」一詞和「@#¥%^」 是一樣的,關鍵在於冗餘碼(重復部分)的多少。
壓縮常識
按壓縮方式分:有所謂的「透明壓縮」和「打包壓縮」。
「透明壓縮」一般針對.exe和.com文件,直接壓縮。成功的話,文件體積變小,功能不變,運行速度還可能更快。但是,這種壓縮方法的對象面很窄。如果壓縮失敗,還會造成文件不可用。所以,這一類程序總是強烈要求用戶在壓縮前將文件備份。
「打包壓縮」就是現在常提到的壓縮軟體使用的壓縮法。它把一個或多個文件壓縮成一個文件——壓縮包。要使用壓縮後的文件,必須先解壓將文件復原。它的特點是風險小,適用於減小不常用的文件所佔空間和傳輸數據。當然,按照壓縮演算法,我們還可以將壓縮分成很多種。
一般我們在談到壓縮時,會提到許多相關術語,下面我們就提出一些常見的術語進行解釋。
壓縮格式:壓縮文件時使用的壓縮編碼方法不同,壓縮生成的文件結構就不同,這種壓縮文件結構就稱壓縮格式。
壓縮比率:文件壓縮後佔用的磁碟空間與原文件的比率稱壓縮比率。在常用的壓縮格式中,RAR格式壓縮比率較高,ZIP格式較低。但ZIP格式的文件操作速度較快。
解壓:將壓縮文件還原為本來的文件格式,也稱釋放、擴展。
壓縮包:一般將通用壓縮格式的文件稱為壓縮包,如ZIP格式壓縮文件。這種文件可以在壓縮工具的管理下對包中壓縮的文件進行管理,如查看、刪除、添加等。
打包:將文件壓縮成通用壓縮格式的壓縮包文件稱為打包,也指將文件壓縮添加到壓縮包。
多卷壓縮:將壓縮的文件包分成幾個壓縮文件稱為多卷壓縮,一般是為了將壓縮文件儲存在多個軟磁碟上或方便網上傳輸。
自解壓文件:將文件壓縮生成可執行的文件,然後在沒有壓縮工具的幫助下,通過執行壓縮的文件,就可將自己的源文件解壓還原出來。
壓縮文件格式
目前流行著多種壓縮文件格式,下面我們就來看看到底有哪些吧!
ZIP:目前最流行的壓縮文件格式(在Internet上,ZIP文件已經取得了絕對勝利。在日常操作中,除專門的壓縮軟體之外,許多文件管理程序,如Windows Commander等也都支持ZIP格式)。我們可利用WinZip對ZIP文件進行解壓、釋放等操作,還可以用它來處理ARJ、ARC、CAB、LZH等多種不同格式的壓縮文件,從而大大地方便了用戶的操作。
RAR:是一種高效快速的文件壓縮格式,但不被大多數文件壓縮程序支持,WinRAR是在Windows下處理RAR格式文件的最好工具。
ARJ:由DOS下曾經紅極一時的壓縮軟體ARJ壓縮而成的文件格式,它具有功能強大、壓縮率高等優點。到了現在的Windows時代,它已經沒有了往日的輝煌。
CAB:是Windows 98新增的一種特殊壓縮文件格式,主要用於對有關軟體安裝盤中的文件進行壓縮,其特點是壓縮率非常高(可能是目前最高的),但一經壓縮就不能再進行任何增加、刪除、替換等修改,也就是說它的壓縮包具有「只讀」屬性。我們也可使用WinZip對CAB壓縮包進行操作。
??_:軟體安裝盤所採用的一種壓縮文件方式,如*.ex_、*.dl_、*.d3_等,它們一般由系統直接解壓並完成安裝工作,無須用戶操心。當然,我們也可使用DOS的EXPAND命令對*.??_文件進行釋放操作。
UU/UUE:漢字編碼方式,它們原本是Unix系統中使用的一種編碼方式,後來被改寫到DOS中,我們在傳送中文郵件時只須事先使用該方式進行編碼,此後就能順利通過只能處理7位編碼的郵件伺服器,從而解決了漢字的傳輸問題。
ACE:一種新式的壓縮程序,壓縮比很高。
另外,MP3、MPEG、JPG等音頻、視頻、圖像格式的文件也都採用了壓縮技術,從理論上來說它們也應該算壓縮文件,不過它們所採用的壓縮方式並不相同,這里簡單地介紹一下:
JPEG:JPEG 全名為 Joint Photographic Experts Group,它是一個在國際標准組織(ISO)下從事靜態影像壓縮標准制定的委員會。它制定出了第一套國標靜態影像壓縮標准:ISO 10918-1 就是我們俗稱的JPEG了。由於JPEG優良的品質,使得它在短短的幾年內就獲得極大的成功,目前網站上80%的影像都是採用JPEG的壓縮標准。
JPEG 2000:正式名稱為「ISO 15444」,同樣是由JPEG 組織負責制定。JPEG 2000與傳統 JPEG 最大的不同,在於它放棄了JPEG所採用的以離散餘弦轉換為主的區塊編碼方式,而改以小波轉換為主的多解析編碼方式。其壓縮率比 JPEG高約30%左右,同時支持有損和無損壓縮,無損壓縮對保存一些重要圖片十分有用。
MP3:這個大家應該都認識它了,MP3全稱是MPEG 1 Layer 3,是一種高性能的聲音壓縮編碼方案,它可以做出超小「體積」的音樂文件,大小隻是原始音頻數據的1/10到1/12。但人耳聽起來,效果卻沒有太大差異。它一出世就幾乎佔領了電腦音樂領域,由於MP3的出現,過去在網際網路上半小時才能下載完的一首歌曲,現在以MP3格式僅需短短的幾分鍾就可以「搞定」。
MPEG:MPEG是Moving Pictures Experts Group(動態圖像專家組)的縮寫。
現在使用的有4個版本:MPEG-1、MPEG-2、MPEG-3、MPEG-4。
Ⅳ 什麼是ip頭壓縮
在有的ip包業務,比如語音udp業務的ip header相對於數據部分較大時候通過壓縮header取得較好的效率
Ⅳ 壓縮機工作原理是什麼啊
壓縮機工作原理是工作輪在壓縮機的軸上旋轉,進入工作輪的氣體被葉片帶著旋轉,增加了動能(速度)和靜壓頭(壓力),然後出工作輪進入擴壓器內,在擴壓器中氣體的速度轉變為壓力,進一步提高壓力,經過壓縮的氣體再經彎道和迴流器進入下一級葉輪進一步壓縮至所需的壓力。
由於離心力的作用,水形成了一個決定於泵腔形狀的近似於等厚度的封閉圓環。水環的上部分內表面恰好與葉輪輪轂相切,水環的下部內表面剛好與葉片頂端接觸(實際上葉片在水環內有一定的插入深度)。
此時葉輪輪轂與水環之間形成一個月牙形空間,而這一空間又被葉輪分成葉片數目相等的若干個小腔。如果以葉輪的上部0°為起點,那麼葉輪在旋轉前180°時小腔的容積由小變大,且與端面上的吸氣口相通。
此時氣體被吸入,當吸氣終了時小腔則與吸氣口隔絕;當葉輪繼續旋轉時,小腔由大變小,使氣體被壓縮;當小腔與排氣口相通時,氣體便被排出泵外。
(5)頭壓縮原理擴展閱讀
運轉過程中,檢查下列項目:
1、潤滑油的壓力、溫度和供油情況。油壓在送入分配管系之前不得低於1公斤/厘米2。曲軸箱或機身內潤滑油油濕應為:有十字頭的壓縮機不得超過60℃。無十字頭的不得超過70℃。
2、壓縮機運轉平穩,各運動部件聲音應正常。
3、測量進、出口水溫和檢查冷卻水供應情況,冷卻水不允許斷續地流和有氣泡及堵塞等現象。冷卻水排水溫度不得超過40℃。
4、各連接法蘭部分,軸封,進、排氣閥、氣缸蓋和水套等,不得漏氣、漏油、漏水。
5、進、排氣閥的工作應正常,安全伐靈敏。
6、各連接部分不得有松動現象。
7、測量各級排氣溫度和壓力數值應符合各技術條件的規定。
8、電動機發熱情況及電流值應符合規定。
Ⅵ 壓縮演算法原理
哈夫曼
哈夫曼編碼是無損壓縮當中最好的方法。它使用預先二進制描述來替換每個符號,長度由特殊符號出現的頻率決定。常見的符號需要很少的位來表示,而不常見的符號需要很多為來表示。
哈夫曼演算法在改變任何符號二進制編碼引起少量密集表現方面是最佳的。然而,它並不處理符號的順序和重復或序號的序列。
2.1 原理
我不打算探究哈夫曼編碼的所有實際的細節,但基本的原理是為每個符號找到新的二進製表示,從而通常符號使用很少的位,不常見的符號使用較多的位。
簡短的說,這個問題的解決方案是為了查找每個符號的通用程度,我們建立一個未壓縮數據的柱狀圖;通過遞歸拆分這個柱狀圖為兩部分來創建一個二叉樹,每個遞歸的一半應該和另一半具有同樣的權(權是 ∑ N K =1 符號數 k , N 是分之中符號的數量,符號數 k 是符號 k出現的次數 )
這棵樹有兩個目的:
1. 編碼器使用這棵樹來找到每個符號最優的表示方法
2. 解碼器使用這棵樹唯一的標識在壓縮流中每個編碼的開始和結束,其通過在讀壓縮數據位的時候自頂向底的遍歷樹,選擇基於數據流中的每個獨立位的分支,一旦一個到達葉子節點,解碼器知道一個完整的編碼已經讀出來了。
壓縮後的數據流是 24 位(三個位元組),原來是 80 位( 10 個位元組)。當然,我應該存儲哈夫曼樹,這樣解碼器就能夠解碼出對應的壓縮流了,這就使得該例子中的真正數據流比輸入的流數據量大。這是相對較短的數據上的副作用。對於大數據量來說,上面的哈夫曼樹就不佔太多比例了。
解碼的時候,從上到下遍歷樹,為壓縮的流選擇從左 / 右分支,每次碰到一個葉子節點的時候,就可以將對應的位元組寫到解壓輸出流中,然後再從根開始遍歷。
2.2 實現
哈夫曼編碼器可以在基本壓縮庫中找到,其是非常直接的實現。
這個實現的基本缺陷是:
1. 慢位流實現
2. 相當慢的解碼(比編碼慢)
3. 最大的樹深度是 32 (編碼器在任何超過 32 位大小的時候退出)。如果我不是搞錯的話,這是不可能的,除非輸出的數據大於 2 32位元組。
另一方面,這個實現有幾個優點:
1. 哈夫曼樹以一個緊密的形式每個符號要求 12 位(對於 8 位的符號)的方式存儲,這意味著最大的頭為 384 。
2. 編碼相當容易理解
哈夫曼編碼在數據有噪音的情況(不是有規律的,例如 RLE )下非常好,這中情況下大多數基於字典方式的編碼器都有問題。
Ⅶ 壓縮文件的壓縮原理
把文件的二進制代碼壓縮,把相鄰的0,1代碼減少,比如有000000,可以把它變成6個0 的寫法60,來減少該文件的空間。
由於計算機處理的信息是以二進制數的形式表示的,因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。為了有助於理解文件壓縮,請在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言,與其一個一個定義「藍、藍、藍……」長長的一串顏色,還不如告訴電腦:「從這個位置開始存儲1117個藍色像點」來得簡潔,而且還能大大節約存儲空間。這是一個非常簡單的圖像壓縮的例子。其實,所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的,和藍色像點一樣,只要通過合理的數學計算公式,文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。總的來說,壓縮可以分為有損和無損壓縮兩種。如果丟失個別的數據不會造成太大的影響,這時忽略它們是個好主意,這就是有損壓縮。有損壓縮廣泛應用於動畫、聲音和圖像文件中,典型的代表就是影碟文件格式mpeg、音樂文件格式mp3和圖像文件格式jpg。但是更多情況下壓縮數據必須准確無誤,人們便設計出了無損壓縮格式,比如常見的zip、rar等。壓縮軟體(compression software)自然就是利用壓縮原理壓縮數據的工具,壓縮後所生成的文件稱為壓縮包(archive),體積只有原來的幾分之一甚至更小。當然,壓縮包已經是另一種文件格式了,如果想使用其中的數據,首先得用壓縮軟體把數據還原,這個過程稱作解壓縮。常見的壓縮軟體有winzip、winrar等。
有兩種形式的重復存在於計算機數據中,zip就是對這兩種重復進行了壓縮。
一種是短語形式的重復,即三個位元組以上的重復,對於這種重復,zip用兩個數字:1.重復位置距當前壓縮位置的距離;2.重復的長度,來表示這個重復,假設這兩個數字各佔一個位元組,於是數據便得到了壓縮,這很容易理解。
一個位元組有 0 - 255 共 256 種可能的取值,三個位元組有 256 * 256 * 256 共一千六百多萬種可能的情況,更長的短語取值的可能情況以指數方式增長,出現重復的概率似乎極低,實則不然,各種類型的數據都有出現重復的傾向,一篇論文中,為數不多的術語傾向於重復出現;一篇小說,人名和地名會重復出現;一張上下漸變的背景圖片,水平方向上的像素會重復出現;程序的源文件中,語法關鍵字會重復出現(我們寫程序時,多少次前後、paste?),以幾十 K 為單位的非壓縮格式的數據中,傾向於大量出現短語式的重復。經過上面提到的方式進行壓縮後,短語式重復的傾向被完全破壞,所以在壓縮的結果上進行第二次短語式壓縮一般是沒有效果的。
第二種重復為單位元組的重復,一個位元組只有256種可能的取值,所以這種重復是必然的。其中,某些位元組出現次數可能較多,另一些則較少,在統計上有分布不均勻的傾向,這是容易理解的,比如一個 ASCII 文本文件中,某些符號可能很少用到,而字母和數字則使用較多,各字母的使用頻率也是不一樣的,據說字母 e 的使用概率最高;許多圖片呈現深色調或淺色調,深色(或淺色)的像素使用較多(這里順便提一下:png 圖片格式是一種無損壓縮,其核心演算法就是 zip 演算法,它和 zip 格式的文件的主要區別在於:作為一種圖片格式,它在文件頭處存放了圖片的大小、使用的顏色數等信息);上面提到的短語式壓縮的結果也有這種傾向:重復傾向於出現在離當前壓縮位置較近的地方,重復長度傾向於比較短(20位元組以內)。這樣,就有了壓縮的可能:給 256 種位元組取值重新編碼,使出現較多的位元組使用較短的編碼,出現較少的位元組使用較長的編碼,這樣一來,變短的位元組相對於變長的位元組更多,文件的總長度就會減少,並且,位元組使用比例越不均勻,壓縮比例就越大。
Ⅷ WINRAR是怎麼壓縮文件的,它的壓縮原理是什麼
WinRAR,流行好用的 Windows 壓縮工具
WinRAR 是一個強大的壓縮文件管理工具。它能備份你的數據,減少你的 E-mail 附件的大小,解壓縮從Internet上下載的 RAR、ZIP 和其他格式的壓縮文件,並能創建 RAR 和 ZIP 格式的壓縮文件。在購買之前,你可以下載試用版本。
軟體介紹
WINRAR 是目前流行的壓縮工具,界面友好,使用方便,在壓縮率和速度方面都有很好的表現。其壓縮率比高,3.x 採用了更先進的壓縮演算法,是現在壓縮率較大、壓縮速度較快的格式之一。 3.3 增加了掃描壓縮文件內病毒、解壓縮「增強壓縮」 ZIP 壓縮文件的功能, 升級了分卷壓縮的功能等。
主要特點:
1、 對 RAR 和 ZIP 的完全支持;
2、 支持 ARJ、CAB、LZH、ACE、TAR、GZ、UUE、BZ2、JAR、ISO 類型文件的解壓;
3、 多卷壓縮功能;
4、 創建自解壓文件,可以製作簡單的安裝程序,使用方便;
5、 壓縮文件大小可以達到 8,589,934 TB;
6、 鎖定和強大的數據恢復記錄功能,對數據的保護無微不至,新增的恢復卷的使用功能更強大;
7、 強大的壓縮文件修復功能,最大限度恢復損壞的 rar 和 zip 壓縮文件中的數據,如果設置了恢復記錄,甚至可能完全恢復;
8、 支持用戶身份校驗(AV 校驗,必須注冊);
9、 強大簡易的備份功能;
10、工業標准 AES 加密;
11、提供固實格式的壓縮演算法,在很大程度上增加類似文件或許到小文件的壓縮率;
12、在壓縮前估計文件的壓縮率的功能;
13、可以保存 NTFS 數據流和安全數據;
14、與資源管理器整合,操作簡單快捷;
15、支持 Unicode 編碼文件名;
16、強大的常規、文本、多媒體和可執行文件壓縮。
等等……
WinRAR 壓縮率更高
WinRAR 在 DOS 時代就一直具備這種優勢,經過多次試驗證明,WinRAR 的 RAR 格式一般要比 WinZIP 的 ZIP 格式高出 10%~30% 的壓縮率,尤其是它還提供了可選擇的、針對多媒體數據的壓縮演算法。
對多媒體文件有獨特的高壓縮率演算法
WinRAR 對 WAV、BMP 聲音及圖像文件可以用獨特的多媒體壓縮演算法大大提高壓縮率,雖然我們可以將 WAV、BMP 文件轉為 MP3、JPG 等格式節省存儲空間,但不要忘記 WinRAR 的壓縮可是標準的無損壓縮。
能完善地支持 ZIP 格式並且可以解壓多種格式的壓縮包
雖然 WinZIP 也能支持 ARJ、LHA 等格式,但卻需要外掛對應軟體的 DOS 版本,實在是功能有限。但 WinRAR 就不同了,不但能解壓多數壓縮格式,且不需外掛程序支持就可直接建立 ZIP 格式的壓縮文件,所以我們不必擔心離開了 WinZIP 如何處理 ZIP 格式的問題。
設置項目非常完善,並且可以定製界面
讓我們通過開始選單的程序組啟動 WinRAR,在其主界面中選擇「選項」選單下的「設置」打開設置窗口,分為常規、壓縮、路徑、文件列表、查看器、綜合六大類,非常豐富,通過修改它們,可以更好地使用 WinRAR。
實戰:如果同時安裝了 WinZIP 與 WinRAR,ZIP 文件的關聯經常發生混亂,現在我們只需進入設置窗口,選「綜合」標簽,將「 WinRAR 關聯文件」一欄中的 ZIP 一項打勾,確定後就可使 ZIP 文件與 WinRAR 關聯,反之如果將勾去掉,則 WinRAR 自動修改注冊表使 ZIP 重新與 WinZIP 關聯。
可用命令行方式使 WinRAR 參與批命令
WinRAR 仍支持類似於 DOS 版本的命令行模式,格式為:
WinRAR <命令> -<開關> <壓縮包> <文件...> <解壓縮路徑\>
a 壓縮,e、x 解壓等常用參數基本無異於DOS版本,可以在批文件中方便地加以引用。
實戰:我們編輯如下的批處理文件WPS.bat:
start /w "c:\program files\wps2000\winwps32.exe"
start "c:\program files\winrar\winrar" m -p328 c:\mywj\wj.rar c:\mywj\*.wps
該批文件運行後首先調用 WPS 2000,用戶編輯完文件並存入 Mywj 文件夾中,退出WPS 2000後 WinRAR 立即將 Mywj 下的 WPS 文件壓縮、加密碼移入Wj.rar中,省去了每次壓縮加密的繁瑣。
對受損壓縮文件的修復能力極強
在網上下載的ZIP、RAR類的文件往往因頭部受損的問題導致不能打開,而用WinRAR調入後,只須單擊界面中的「修復」按鈕就可輕松修復,成功率極高,大家不妨一試。
能建立多種方式的全中文界面的全功能(帶密碼)多卷自解包
我們知道不能建立多卷自解包是WinZIP的一大缺陷,而WinRAR處理這種工作卻是游刃有餘,而且對自解包文件還可加上密碼加以保護。
實戰:啟動WinRAR進入主界面,選好壓縮對象後,選文件選單下的「密碼」,輸入密碼,確定後單擊主界面中的「添加」按鈕,將「常規」標簽下的「創建自解壓縮包」打勾,在分卷大小框內輸入每卷大小;在「高級」標簽下單擊「自解壓縮包選項」,選擇圖形模塊方式,並可在「高級自解壓縮包選項」中設置自解包運行時顯示的標題、信息、默認路徑等項目,確定後壓縮開始。
輔助功能設計細致
可以在壓縮窗口的「備份」標簽中設置壓縮前刪除目標盤文件;可在壓縮前單擊「估計」按鈕對壓縮先評估一下;可以為壓縮包加註釋;可以設置壓縮包的防受損功能,等等細微之處也能看出WinRAR的體貼周到。
壓縮包可以鎖住避免被更改
雙擊進入壓縮包後,單擊命令選單下的「鎖定壓縮包」就可防止人為的添加、刪除等操作,保持壓縮包的原始狀態。
關於RAR壓縮演算法
在計算機科學中,RAR是一種文件壓縮與歸檔的私有格式。RAR的名字源自其作者Eugene Roshal,為Roshal ARchive的縮寫。Eugene Roshal最初編寫了DOS版本的編碼和解碼程序,後來移植到很多平台,例如比較著名的Windows平台上的WinRAR。Eugene Roshal有條件的公開了解碼程序的源代碼,但是編碼程序仍然是私有的。
RAR文件的擴展名是.rar,MIME類型是application/x-rar-compressed。同樣是無損數據壓縮,RAR文件通常比ZIP文件壓縮比要高,但是壓縮速度較慢。因為RAR文件頭也要佔據一定空間,在數據壓縮餘地不大時,壓縮過的文件可能比原文件要大。RAR的一個主要優點是可以把文件壓縮目標分割到多個文件,並且很容易從這樣的分割的壓縮文件解壓出源文件。另外,RAR也支持緊縮格式,把所有文件壓縮到同一個數據區以加大壓縮比,代價是解壓一個單獨的文件時必須解壓其前面的所有文件。新的RAR的加密演算法使用的是AES,而舊的RAR的加密演算法是私有的。這兩種演算法都很難破解,所以在沒有密碼的情況下只能用字典暴力破解法來破解。RAR中也可以加入冗餘的修復信息,在文件損壞但是修復信息足夠完好時可以對壓縮包進行修復。
Ⅸ 壓縮文件壓縮的文件的哪部分內容壓縮軟體的原理是什麼
老大,壓縮原理是非常復雜的, 不同的文件有不同的壓縮演算法 壓縮文件的基本原理是查找文件內的重復位元組,並建立一個相同位元組的"詞典"文件,並用一個代碼表示,比如在文件里有幾處有一個相同的詞"中華人民共和國"用一個代碼表示並寫入"詞典"文件,這樣就可以達到縮小文件的目的. 由於計算機處理的信息是以二進制數的形式表示的,因此壓縮軟體就是把二進制信息中相同的字元串以特殊字元標記來達到壓縮的目的。為了有助於理解文件壓縮,請您在腦海里想像一幅藍天白雲的圖片。對於成千上萬單調重復的藍色像點而言,與其一個一個定義「藍、藍、藍……」長長的一串顏色,還不如告訴電腦:「從這個位置開始存儲1117個藍色像點」來得簡潔,而且還能大大節約存儲空間。這是一個非常簡單的圖像壓縮的例子。其實,所有的計算機文件歸根結底都是以「1」和「0」的形式存儲的,和藍色像點一樣,只要通過合理的數學計算公式,文件的體積都能夠被大大壓縮以達到「數據無損稠密」的效果。總的來說,壓縮可以分為有損和無損壓縮兩種。如果丟失個別的數據不會造成太大的影響,這時忽略它們是個好主意,這就是有損壓縮。有損壓縮廣泛應用於動畫、聲音和圖像文件中,典型的代表就是影碟文件格式mpeg、音樂文件格式mp3和圖像文件格式jpg。但是更多情況下壓縮數據必須准確無誤,人們便設計出了無損壓縮格式,比如常見的zip、rar等。壓縮軟體(compression software)自然就是利用壓縮原理壓縮數據的工具,壓縮後所生成的文件稱為壓縮包(archive),體積只有原來的幾分之一甚至更小。當然,壓縮包已經是另一種文件格式了,如果你想使用其中的數據,首先得用壓縮軟體把數據還原,這個過程稱作解壓縮。常見的壓縮軟體有winzip、winrar等。 有兩種形式的重復存在於計算機數據中,zip就是對這兩種重復進行了壓縮。 一種是短語形式的重復,即三個位元組以上的重復,對於這種重復,zip用兩個數字:1.重復位置距當前壓縮位置的距離;2.重復的長度,來表示這個重復,假設這兩個數字各佔一個位元組,於是數據便得到了壓縮,這很容易理解。 一個位元組有 0 - 255 共 256 種可能的取值,三個位元組有 256 * 256 * 256 共一千六百多萬種可能的情況,更長的短語取值的可能情況以指數方式增長,出現重復的概率似乎極低,實則不然,各種類型的數據都有出現重復的傾向,一篇論文中,為數不多的術語傾向於重復出現;一篇小說,人名和地名會重復出現;一張上下漸變的背景圖片,水平方向上的像素會重復出現;程序的源文件中,語法關鍵字會重復出現(我們寫程序時,多少次前後、paste?),以幾十 K 為單位的非壓縮格式的數據中,傾向於大量出現短語式的重復。經過上面提到的方式進行壓縮後,短語式重復的傾向被完全破壞,所以在壓縮的結果上進行第二次短語式壓縮一般是沒有效果的。 第二種重復為單位元組的重復,一個位元組只有256種可能的取值,所以這種重復是必然的。其中,某些位元組出現次數可能較多,另一些則較少,在統計上有分布不均勻的傾向,這是容易理解的,比如一個 ASCII 文本文件中,某些符號可能很少用到,而字母和數字則使用較多,各字母的使用頻率也是不一樣的,據說字母 e 的使用概率最高;許多圖片呈現深色調或淺色調,深色(或淺色)的像素使用較多(這里順便提一下:png 圖片格式是一種無損壓縮,其核心演算法就是 zip 演算法,它和 zip 格式的文件的主要區別在於:作為一種圖片格式,它在文件頭處存放了圖片的大小、使用的顏色數等信息);上面提到的短語式壓縮的結果也有這種傾向:重復傾向於出現在離當前壓縮位置較近的地方,重復長度傾向於比較短(20位元組以內)。這樣,就有了壓縮的可能:給 256 種位元組取值重新編碼,使出現較多的位元組使用較短的編碼,出現較少的位元組使用較長的編碼,這樣一來,變短的位元組相對於變長的位元組更多,文件的總長度就會減少,並且,位元組使用比例越不均勻,壓縮比例就越大