python获取文件编码

发布时间: 2024-03-10 16:29:02

‘壹’ python 读写文件的编码与解码问题

演示文件为docx文档，内容如下：

运行源码查看报错信息
UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 15: illegal multibyte sequence

上述错误是一种很常见的解码错误，下面介绍该错误的解决方法

把utf-8，gbk等各种编码方式都试了一遍，还是没有解决问题然后仔细看报错信息，根据UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfb in position 14: invalid start byte，猜测文件中某个字节不能解码，打开文件一看，并没有看出什么问题来

open() 函数的第三个参数不是用来野唯接收编码方式的，而磨脊信是传入一个buffering的值，此处传入了'gbk'字符串，所以系统提示传一个瞎轮整型

通过调用office的API进行操作，因为在office上能完成的操作，都能通过win32完成，所以我们选择使用win32
（Python3.5 需要安装 win32compat，里面含了 win32 的很多包）

‘贰’ python读取文件解决‘utf8’ codec can’t decode byte 0xa1的问题

一般这种文件存在类似字符：

如果UTF-8搞不定，可以采取ISO-8859-1编码方式解决：

最早的编码是iso8859-1，和ascii编码相似。但为了方便表示各种各样的语言，逐渐出现了很多标准编码，重要的有如下几个。

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要以另一种编码为基础。

需要说明的是，定长编码便于计算机处理（注意GB2312/GBK不是定长编码），而unicode又可以用来表示所有字符，所以在很多软件内部是使用unicode编码来处理的，比如java。

注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。

‘叁’ python中如何获取中文的utf8编码

首先要表示一个汉字，至少需要2个字节码
如果需要以utf解码你的汉字，可以用如下办法

>>>unicode('人','utf-16')
u'ucbc8'

如果需要以gbk解码你的汉字，可以用如下办法

>>>unicode('人','gbk')
u'u4eba

‘肆’ Python怎么获取HDFS文件的编码格式

你好，你可以利用python3的python3-magic来获得文件的编码格式。下面是对应的代码
import magic

blob = open('unknown-file').read()

m = magic.open(magic.MAGIC_MIME_ENCODING)

m.load()

encoding = m.buffer(blob) # "utf-8" "us-ascii" etc

‘伍’ Python中读取二进制图片(例如 a.jpg)有关解码编码的问题

binascii.hexlify估计能满足你的要求。不过不建议把二进制数据用编解码来处理，因为编解码只是文本采用了不同的编码方案。而图像这些二进制有自己的含义，文本编解码方案不应该用在这些二进制文件上。s就是你的数据，你也别想看懂，除非你知道jpg格式。

‘陆’ Python：查看文件的编码格式-chardet

其中， encoding 为检测出的编码， confidence 为可信度， language 是语言。
另外一个例子：

检测的编码是GB2312，注意到GBK是GB2312的超集，两者是同一种编码，检测正确的概率是74%，language字段指出的语言是'Chinese'。

注意：chardet支持检测的编码列表请参考官方文档 Supported encodings 。

‘柒’ python123汉字的unicode编码值

python的默认编码是ascii，可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码，比如：

>>> u'汉字'

u'\u6c49\u5b57'

>>> u'汉字'.encode('utf-8')

'\xe6\xb1\x89\xe5\xad\x97'

>>> u'汉字'.encode('utf-8').decode('utf-8')

u'\u6c49\u5b57'

我们可以通过这两个函数设置编码。

那么，python中的str是什么类型？

>>> import binascii

>>> '汉字'

'\xba\xba\xd7\xd6'

>>> type('汉字')

>>> print binascii.b2a_hex('汉字')

babad7d6

>>> print binascii.b2a_hex(u'汉字')

Traceback (most recent call last):

File "", line 1, in

UnicodeEncodeError: 'ascii' codec can't encode characters in

position 0-1: ordinal not in range(128)

>>> print binascii.b2a_hex(u'汉字'.encode('utf-8'))

e6b189e5ad97

>>> print binascii.b2a_hex(u'汉字'.encode('gbk'))

babad7d6

binascii是将数据的二进制转换成ascii，上面的解释是：‘汉字'的类型是str，二进制是babad7d6，u‘汉字'是无法转换成ascii，这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码，所有u'汉字'.encode(‘gbk')的时候，输出结果和‘汉字'结果一样。

‘捌’ python输出到文件乱码如何解决

python代码文件的编码
py文件默认是ASCII编码，中文在显示时会做一个ASCII到系统默认编码的转换，这时就会出错：SyntaxError: Non-ASCII character。需要在代码文件的第一行或第二行添加编码指示：
1 # coding=utf-8 ##以utf-8编码储存中文字符
2 print '中文'
像上面那样直接输入的字符串是按照代码文件的编码来处理的，如果用unicode编码，有以下三种方式：
1 s1 = u'中文' #u表示用unicode编码方式储存信息
2 s2 = unicode('中文','gbk')
unicode是一个内置函数，第二个参数指示源字符串的编码格式。
decode是任何字符串具有的方法，将字符串转换成unicode格式，参数指示源字符串的编码格式。
encode也是任何字符串具有的方法，将字符串转换成参数指定的格式。
（2）、字符串的编码
用 u'汉字' 构造出来的是unicode类型，不用的话构造出来是str类型
str的编码是与系统环境相关的，一般就是sys.getfilesystemencoding()得到的值
所以从unicode转str，要用encode方法
从str转unicode，所以要用decode
例如：
# coding=utf-8 #默认编码格式为utf-8
s = u'中文' #unicode编码的文字
print s.encode('utf-8') #转换成utf-8格式输出
但当python中间处理非ASCII编码时，经常会出现如下错误：
UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)
0x??是超出128的数字，python在默认的情况下认为语言的编码是ascii编码，所以无法处理其他编码，需要设置python的默认编码为所需要的编码。
一个解决的方案是在代码中添加：
import sys
reload(sys)
sys.setdefaultencoding('utf-8') （其中utf-8为你想输出的字符编码）
解释：
sys.setdefaultencoding方法在python导入site.py后就删除了(具体代码查看site.py就可以看到)因此如果想用的话可以再重新load进入
总结：
u=u'unicode编码文字'
g=u.encode('gbk') #转换为gbk格式
print g #此时为乱码，因为当前环境为utf-8,gbk编码文字为乱码
str=g.decode('gbk').encode('utf-8') #以gbk编码格式读取g（因为他就是gbk编码的,需要事先知道它是GBK编码）并转换为utf-8格式输出
print str #正常显示中文（同文件输出）
安全的方法：
s.decode('gbk','ignore').encode('utf-8′) #以gbk编码读取（当然是读取gbk编码格式的文字了）并忽略错误的编码，转换成utf-8编码输出。
推荐学习《Python教程》！

阅读全文

热点内容

做解压橡皮发布：2025-01-21 15:03:06 浏览：990

双系统win访问mac 发布：2025-01-21 14:53:52 浏览：484

安卓车机系统如何安装carplay 发布：2025-01-21 14:52:24 浏览：589

sql操作手册发布：2025-01-21 14:46:08 浏览：311

青橙脚本发布：2025-01-21 14:44:05 浏览：218

东风本田crv时尚版是什么配置发布：2025-01-21 14:20:04 浏览：219

安卓如何多开软件每个机型不一样发布：2025-01-21 14:15:29 浏览：501

iis配置php5 发布：2025-01-21 14:08:19 浏览：274

凯叔讲故事为什么联系不到服务器发布：2025-01-21 13:56:50 浏览：387

linux镜像文件下载发布：2025-01-21 13:34:36 浏览：218

python获取文件编码

与python获取文件编码相关的资讯