python编码与解码

发布时间: 2023-09-07 20:15:26

⑴ python 编码转换与中文处理

python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章写的比较好， utf-8是 unicode的一种实现方式，unicode、gbk、gb2312是编码字符集.

Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 mole 的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii字符），则需要在第一行或第二行指定编码声明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的编码如：gbk、gb2312也可以；否则会出现:

先说一下python中的字符串类型，在python中有两种字符串类型，分别是 str 和 unicode ，他们都是basestring的派生类；

在str的文档中有这样的一句话：

也就是说在读取一个文件的内容，或者从网络上读取到内容时，保持的对象为str类型；如果想把一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 转为 unicode,

如果直接执行s.encode('gb2312')会发生什么？

这里会发生一个异常：Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb2312。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。
拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

对于这种情况，我们有两种方法来改正错误：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

⑵ Python怎么能简单实现Base64编码和解码

Base64编码是一种“防君子不防小人”的编码方式。广泛应用于MIME协议，作为电子邮件的传输编码，生成的编码可逆，后一两位可能有“=”，生成的编码都是ascii字符。
优点：速度快，ascii字符，肉眼不可理解
缺点：编码比较长，非常容易被破解，仅适用于加密非关键信息的场合
Python Base64编码和解码示例：
>>> import base64
>>> s = '我是字符串'
>>> a = base64.b64encode(s)
>>> print a
ztLKx9fWt/u0rg==
>>> print base64.b64decode(a)
我是字符串

⑶ Python 读写文件的编码与解码问题

演示文件为docx文档，内容如下：

源码

运行源码查看报错信息
UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 15: illegal multibyte sequence

上述错误是一种很常见的解码错误，下面介绍该错误的解决方法

把utf-8，gbk等各种编码方式都试了一遍，还是没有解决问题然后仔细看报错信息，根据UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfb in position 14: invalid start byte，猜测文件中某个字节不能解码，打开文件一看，并没有看出什么问题来

open() 函数的第三个参数不是用来野唯接收编码方式的，而磨脊信是传入一个buffering的值，此处传入了'gbk'字符串，所以系统提示传一个瞎轮整型

通过调用office的API进行操作，因为在office上能完成的操作，都能通过win32完成，所以我们选择使用win32
（Python3.5 需要安装 win32compat，里面含了 win32 的很多包）

⑷ ASN.1语法以及在python中如何编码解码

“

ASN.1的文章本来是免费的，但是有的人一定要搞小动作，咱惹不起就只能躲着了，做了一些修改后，改为付费文章

”

应用程序在网络协议的应用层对payload数据，多使用ASN.1标准进行处理

ASN.1

ASN.1

“

Abstract Syntax Notation One，抽象语法标记，ASN.1是描述数据格式的标准方法，它不管语言是如何执行、这些数据具体指什么、用什么类型的编码规则，是一种抽象的语法

”

ASN.1由两部分组成：

一部分描述信息内数据，数据类型及序列格式

另一部分描述如何将各部分组成消息

语法

例如

Report ::= SEQUENCE {

author OCTET STRING,

title OCTET STRING,

body OCTET STRING,

biblio Bibliography

}

Report是结构体名称

SEQUENCE表示消息是由许多数据单元构成的

中括号{}里面是各种类型的数据单元

前三个数据单元author/title/body的类型是OCTET STRING

最后一个数据单元biblio的类型是另一个ASN.1结构体

Bibliography ::= SEQUENCE {

author OCTET STRING

title OCTET STRING

publisher OCTET STRING

year OCTET STRING

}

数据类型

类型含义

NULL空

BOOLEAN布尔类型

INTEGER整型

REAL实数类型

BIT STRING比特串

OCTEC STRING字节串

OBJECT IDENTIFIER实体标识符

ENUMERATED枚举类型

SEQUENCE序列

SEQUENCE OF类型的序列

SET集合

SET OF类型的集合

CHOICECHOICE类型

...STRING（有很多就不一一列举）字符串类型

UTCTime时间类型

GeneralizedTime时间类型

ASN.1文件结构

例如

Foo DEFINITIONS ::= BEGIN

Question ::= SEQUENCE {

id INTEGER,

question IA5String

}

Answer ::= SEQUENCE {

id INTEGER,

answer BOOLEAN

}

END

解析上面的ASN.1文件的结构

ASN.1支持的编码规则

基本编码规则（BER）

规范编码规则（CER）

识别名编码规则（DER）

压缩编码规则（PER）

XML编码规则（XER）

python如何对ASN.1结构的信息编码和解码

如果我们想用python对信息进行编码，需要明确几点：

提供的ASN.1格式的数据

更多内容，请参考公-中-号，汽车网络诊断通信

⑸ python str与bytes编码解码

下面一张图搞懂编码、解码、编码表之间的关系。

不难看出，它们是一种根据编码表进行翻译、映射的过程：

实际上，字符串类型只有encode()方法，没有decode()方法，而bytes类型只有decode()方法而没有encode()方法。

二进制格式的数据也常称为裸数据(raw data)，所以str数据经过编码后得到raw data，raw data解码后得到的str。

上面说了，编码是将字符数据转换成字节数据(raw data)，解码是将字节数据转换成字符数据。在Python中字符数据也就是字符串，即str类型，字节数据也就是bytes类型或bytearray类型。

编码时，可以使用字节类型的构造方法bytes()、bytearray()来构造字节，也可以使用str类型的encode()方法来转换。

解码时，可以使用str类型的构造方法str()来构造字符串，也可以使用bytes、bytearray()类型的decode()方法。

另外需要注意的是，编码和解码的过程中都需要指定编码表(字符集)，默认采用的是utf-8字符集。

例如，使用encode()的方式将str编码为bytes数据。

使用bytes()和bytearray()将str构造成bytes或bytearray数据，这两个方法都要求str->byte的过程中给定编码。

实际上，bytes()、bytearray()这两个方法构造字节数据的时候还有点复杂，因为可以从多个数据源来构造，比如字符串、整数值、buffer。如何使用这两个方法构造字节数据，详细内容参考help(bytes)和help(bytearray)给出的说明，这里给几个简单示例。

构造bytes的方式：

构造bytearray的方式：

解码是字节序列到str类型的转换。

例如，使用decode()方法进行解码"我"字，它的utf-8的编码对应为"\xe6\x88\x91"：

使用str()进行转换。

当编码、解码的过程使用了不同的(不兼容的)编码表时，就会出现乱码。所以，解决乱码的唯一方式是指定对应的编码表进行编码、解码。

例如，使用utf-8编码"我"字，得到一个bytes序列，然后使用gbk解码这个bytes序列。

这里报错了，因为utf-8的字节序列里有gbk无法解码的字节。如果使用文本编辑器一样的工具去显化这个过程，得到的将是乱码字符。

原文地址： https://www.cnblogs.com/f-ck-need-u/p/10185965.html

⑹ Python编码字符串解码问题，怎么解决

在将字符串写入文件时，执行f.write(str)，后台总是报错：UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 0: ordinal not in range(128)，即ascii码无法被转换成unicode码。
刚开始我以为Python默认的编码是utf-8，所以使用decode方法和encode方法来进行编码转换，后来怎么也不成功，于是怀疑是否默认编码不是utf-8。
使用下面语句获取python当前的默认编码：
[python] view plain
import sys
print sys.getdefaultencoding()

⑺ Python3 如何对url解码

url编码：

import urllib

url = 'http://test.com/s?wd=哈哈' #如果尘铅早此网站编码是激蠢gbk的话派雀，需要进行解码，从gbk解码成unicode，再从Unicode编码编码为utf-8格式。

url = url.decode('gbk', 'replace')

print urllib.quote(url.encode('utf-8', 'replace'))

阅读全文

热点内容

dict合并python 发布：2025-03-12 14:39:25 浏览：879

电脑突然配置更新是什么意思发布：2025-03-12 14:31:01 浏览：56

访问量跟点击发布：2025-03-12 14:30:58 浏览：102

安卓如何登录云服务平台发布：2025-03-12 14:12:35 浏览：520

神奇青蛙安卓版在哪里下载发布：2025-03-12 14:05:12 浏览：529

曙光牌路由器登录密码是多少发布：2025-03-12 13:51:36 浏览：99

舞蹈培训源码发布：2025-03-12 13:34:04 浏览：741

电脑与服务器之间快速传输文件发布：2025-03-12 13:26:55 浏览：955

ftp上的文件在服务器发布：2025-03-12 13:26:53 浏览：416

linux关闭445端口发布：2025-03-12 13:20:47 浏览：219

python编码与解码

与python编码与解码相关的资讯