文档压缩比例
㈠ 为什么把文件压缩后,文件大小却不变呢
视频和歌曲压缩比不高,所以压缩之后大小基本没有变,像Excel或Word这些文档压缩比比较高。例如:如果图片文件是JPEG图象的格式,那么WinRAR就不能很好的压缩,其压缩率只有一般仅为93%,也就是说1000K的图片,最多压缩为930K的压缩文件,几乎没有变小。
压缩文件是利用算法将文件有损或无损地处理,以达到保留最多文件信息,而令文件体积变小。压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,这样就可以达到缩小文件的目的软件。
(1)文档压缩比例扩展阅读:
常见压缩格式
JAR
JAR文件就是 Java Archive File,顾名思意,它的应用是与 Java 息息相关的,是 Java 的一种文档格式。JAR 文件非常类似 ZIP 文件——准确的说,它就是 ZIP 文件,所以叫它文件包。JAR 文件与 ZIP 文件唯一的区别就是在 JAR 文件的内容中,包含了一个 META-INF/MANIFEST.MF 文件,这个文件是在生成 JAR 文件的时候自动创建的。
ZIP
ZIP应该算是最常见的压缩文件格式了,它不需要单独的一个压缩或者解压缩软件,因为Windows系统已经集成了对ZIP压缩格式的支持。
RAR
虽然ZIP在压缩文件格式中地位很高,但相当多的下载网站都选择了用RAR格式来压缩他们的文件,最根本的原因就在于RAR格式的文件压缩率比ZIP更高。
7Z作为压缩格式的后起新秀,7Z有着比RAR更高的压缩率,能够将文件压缩的更加小巧。不过因为RAR格式已经高度普及,又没有网络普及的“天时”相助,7Z想要取代RAR的地位还是相当不容易的。
CAB
CAB是微软的一种安装文件压缩格式,主要应用于软件的安装程序中。因为涉及到安装程序,所以cab文件中包含的文件通常都不是简单的直接压缩,而是对文件名等都进行了处理,所以虽然可以对其直接解压缩,但解压后得到的文件通常都无法直接使用。
ISO
很多人都认为ISO是一种压缩格式,这源于WinRAR添加了对ISO格式“解压”的支持。而实际上,ISO并不是压缩格式,它之中所包含的文件也并没有经过压缩。ISO只是一种光盘的镜像格式,完全复制并保存了光盘上的内容而已。所谓的对ISO“解压”的过程,不过就是对ISO内文件的提取过程。
TAR
tar为后辍的文件能用WinZip或WinRAR打开,是因为WinZip或WinRar对.tar文件进行了关联,也就是指可以用相应的解压软件将其解压。.tar是linux下较为常用的压缩文件的格式,并不是什么数据库文件。
UUE
uue是一种在遇到邮件编码混合引起乱码的情况下比较有用的压缩格式,可以用WinZip或者WinRAR打开。
㈡ 压缩文件跟原文件之间大小比例是多少比如说1.5G的文件压缩后有多大
这个跟压缩算法有关,一般字符文件的压缩比较高,可以达到50%左右,视频、音频、图像文件,压缩比一般80%左右。
如果是影音文件1.5g,压缩后小不了多少,可能是1.3~1.4G。
有的图像文件如JPG格式的,本来就是带压缩的,再用rar等工具压缩的效果不明显,如果是BMP文件,压缩效果更好。
每个文件都由各种不同代码组成,比如01代码。
这类文件只有数字0与1组合。压缩原理就是【通过寻找其中的规律,简化数字的排列】。
比如:00000110001111111111可以简化成5个0,2个1,3个0,10个1的排列;100000000000可以简化成数学的:10^10。
根据香农的信息理论,任何一个文件被无损压缩后的结果不可能小于其熵(信息论)。
换句话说,如果一个文件有20多个G的大小,但是其信息熵只有20多M,则实现一个1000倍的压缩是完全可能的(比如楼主放出的几小时全黑视频);反过来看,一个文件如果虽然只有100M,但是其信息熵却高达90M,则这样的文件是无论如何也不可能被无损压缩至20M大小的。
多说一句,一个文件的信息熵有多少,靠一个公式是完全可以算出来的。所以只要提供任何一个文件,我们都能知道它最小可以被压缩到多少。
以上说法仅限于无损压缩,对于有损压缩来说,压缩了多少倍皆有可能。
(2)文档压缩比例扩展阅读:
经过压缩软件压缩的文件是压缩文件,压缩的原理是把文件的二进制代码压缩,把相邻的0,1代码减少,比如有000000,可以把它变成6个0的写法60,来减少该文件的空间。
压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"中华人民共和国"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的。
其实,所有的计算机文件归根结底都是以“1”和“0”的形式存储的,和蓝色像点一样,只要通过合理的数学计算公式,文件的体积都能够被大大压缩以达到“数据无损稠密”的效果。总的来说,压缩可以分为有损和无损压缩两种。