pythonutf转ascii

发布时间: 2023-08-31 00:40:39

① python 字符集编码 - UTF-8 编码

Unicode 的编码范围为 0~0x10FFFF ，如此大的范围，显然没办法像 ASCII 编码一样使用一个字节存储。为此，Unicode 制定了各种储存编码的方式，如： UTF-8 、 UTF-16 和 UTF-32 ，这些存储格式被称为 Unicode 转换格式 UTF 。

每种 Unicode 转换格式都会把一个编码存储为一到多个编码单元，如 UTF-8 的编码单元为 8 位的字节； UTF-16 的编码单元为 16 位，即 2 个字节； UTF-32 的编码单元为 32 位，即 4 个字节。

其中， UTF-8 是在互联网上使用最广泛的一种 Unicode 转换格式，具有以下显着的优势。下面，我们就先来看看 UTF-8 具有哪些有点吧~

1. UTF-8 中每个 ASCII 字符只需要一个字节去存储，因此一个 ASCII 文本本身也是一个 UTF-8 文本，即做到了向后兼容。

比如 A 的 ASCII 码对应为 0x41 ， a 的 ASCII 码对应为 0x61 ，那么 UTF-8 兼容 ASCII 也就意味着：

这里，需要再次提醒一下：Unicode 是表现形式，UTF-8 是存储形式；即 UTF-8 解码之后为 Unicode ，Unicode 可以编码成 UTF-8 。

2. UTF-8 采用字节为存储单元，因此不存在字节的大端和小段的问题。

UTF-16 和 UTF-32 的存储单元分别是 2 字节和 4 字节，因此在存储时会涉及到大小端的问题。那什么是大小端模式呢？下面我们来暂停补充一下~

关于如何获知你的环境使用的是大端模式还是小端模式，这里有个简单的方式：定义一个 short 类型的数组即可：

数字 1 在 short 类型中表示为 0x0001 ，高位为 0x00 ，低位为 0x01 。我们可以很直观地看到，数组在保存数据时，将高位 0x00 放在了高地址处，将低位 0x01 放在了低地址处。因此使用的就是小端模式。

那 UTF-8 为什么可以使用字节来作为存储单元，而不用担心字节序的问题呢？这就涉及到了 UTF-8 巧妙的编码规则~

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度。UTF-8的编码规则很简单，只有二条：

1）对于单字节符号，字节的第一位设为 0 ，后 7 位为这个符号的 Unicode 码。也就是我们上文提到的向后兼容：对于英文字母，UTF-8 编码和 ASCII 码是相同的。

2）对于使用 X 个字节存储的符号，第一个字节的前 X 位设置为 1 ，第 X+1 位设置为 0 ，后面字节的前 2 位一律设置为 10 ，剩下的位置一次填充这个符号的 Unicode 码。

下表总结了编码规则，字母 x 表示可用于编码的位：

跟据上表，解读 UTF-8 编码也非常简单：如果一个字节的第一位是 0 ，则这个字节单独就是一个字符；如果第一位是 1 ，则连续有多少个 1 ，就表示当前字符占用多少个字节。

下面，我们就来演示一下 UTF-8 编码的过程。

首先，获取汉字鱼的 Unicode 码：

我们不妨先对鱼这个汉字使用 utf-8 编码看看使用几个字节存储：

鱼在 UTF-8 编码中使用 3 个字节存储，因此其存储的二进制的形式为 1110xxxx 10xxxxxx 10xxxxxx ，将 Unicode 1001 110001 111100 依次填充到占位符 x 的位置就得到： 11101001 10110001 10111100 。

下面，我们将上述推导得出的 11101001 10110001 10111100 转换为十六进制，验证一下是否为 b'xe9xb1xbc' ：

验证无误！

② python3.4 编码有哪些

Python3中的编码问题前，第一个段落对字节、ASCII与Unicode与UTF-8等进行基本介绍，如果不对这几种编码犯头晕，可直接跳过。
ASCII与Unicode与UTF-8与GBK

首先从老大哥说起。跟很多人一样，大学读了这么久，久仰ASCII编码的大名。要说这个老大哥，我们再先从字节说起。一个字节包括八个比特位，每个比特位表示0或1，一个字节即可表示从00000000到11111111共2^8=256个数字。一个ASCII编码使用一个字节（除去字节的最高位作为作奇偶校验位），ASCII编码实际使用一个字节中的7个比特位来表示字符，共可表示2^7=128个字符。比如那时写C语言的程序，就经常要背下ASCII编码中的01000001（即十进制的65）表示字符‘A’，01000001加上32之后的01100001（即十进制的97）表示字符‘a’。现在打开Python，调用chr和ord函数，我们可以看到Python为我们对ASCII编码进行了转换。

第一个00000000表示空字符，因此ASCII编码实际上只包括了
字母、标点符号、特殊符号等共127个字符。因为ASCII是在美国出生的，对于由字母组成单词进而用单词表达的英文来说也是够了。但是中国人、日本人、
韩国人等其他语言的人不服了。中文是一个字一个字，ASCII编码用上了浑身解数256个字符都不够用。

因此后来出现了Unicode编码。Unicode编码通常由两个字节组成，共表示256*256个字符，即所谓的UCS-2。某些偏僻字还会用到四个字节，即所谓的UCS-4。也就是说Unicode标准也还在发展。但UCS-4出现的比较少，我们先记住：最原始的ASCII编码使用一个字节编码，但由于语言差异字符众多，人们用上了两个字节，出现了统一的、囊括多国语言的Unicode编码。

在Unicode中，原本ASCII中的127个字符只需在前面补一个全零的字节即可，比如前文谈到的字符‘a’：01100001，在Unicode中变成了00000000 01100001。不久，美国人不开心了，吃上了世界民族之林的大锅饭，原本只需一个字节就能传输的英文现在变成两个字节，非常浪费存储空间和传输速度。

人们再发挥聪明才智，于是出现了UTF-8编码。因为针对的是空间浪费问题，因此这种UTF-8编码是可变长短的，从英文字母的一个字节，到中文的通常的三个字节，再到某些生僻字的六个字节。解决了空间问题，UTF-8编码还有一个神奇的附加功能，那就是兼容了老大哥的ASCII编码。一些老古董软件现在在UTF-8编码中可以继续工作。

注意除了英文字母相同，汉字在Unicode编码和UTF-8编码中通常是不同的。比如汉字的‘中’字在Unicode中是01001110
00101101，而在UTF-8编码中是11100100 10111000
10101101。

我们祖国母亲自然也有自己的一套标准。那就是GB2312和GBK。当然现在挺少看到。通常都是直接使用UTF-8。记得我唯一一次看到GB编码的网页，是一个成人网站。

Python3中的默认编码

Python3中默认是UTF-8，我们通过以下代码：

import sys

sys.getdefaultencoding()

可查看Python3的默认编码。

Python3中的encode和decode

Python3中字符编码经常会使用到decode和encode函数。特别是在抓取网页中，这两个函数用的熟练非常有好处。我的理解，encode的作用，使我们看到的直观的字符转换成计算机内的字节形式。decode刚好相反，把字节形式的字符转换成我们看的懂的、直观的、“人模人样”的形式。如下图。

\x表示后面是十六进制，\xe4\xb8\xad即是二进制的11100100 10111000
10101101。也就是说汉字‘中’encode成字节形式，是11100100 10111000
10101101。同理，我们拿11100100
10111000 10101101也就是\xe4\xb8\xad来decode回来，就是汉字‘中’。完整的应该是b'\xe4\xb8\xad'，在Python3中，以字节形式表示的字符串则必须加上前缀b，也就是写成上文的b'xxxx'形式。

前文说的Python3的默认编码是UTF-8，所以我们可以看到，Python处理这些字符的时候是以UTF-8来处理的。因此从上图可以看到，就算我们通过encode('utf-8')特意把字符encode为UTF-8编码，出来的结果还是相同：b'\xe4\xb8\xad'。

明白了这一点，同时我们知道UTF-8兼容ASCII，我们可以猜想大学时经常背诵的‘A’对应ASCII中的65，在这里是不是也能正确的decode出来呢。十进制的65转换成十六进制是41，我们尝试下：

b'\x41'.decode()

结果如下。果然是字符‘A’

Python3中的编码转换

据说字符在计算机的内存中统一是以Unicode编码的。只有在字符要被写进文件、存进硬盘或者从服务器发送至客户端（例如网页前端的代码）时会变成utf-8。但其实我比较关心怎么把这些字符以Unicode的字节形式表现出来，露出它在内存中的庐山正面目的。这里有个照妖镜：

xxxx.encode/decode('unicode-escape')

输出如下

b'\\u4e2d'还是b'\u4e2d，一个斜杠貌似没影响。同时可以发现在shell窗口中，直接输'\u4e2d'和输入b'\u4e2d'.decode('unicode-escape')是相同的，都会打印出汉字‘中’，反而是'\u4e2d'.decode('unicode-escape')会报错。说明说明Python3不仅支持Unicode，而且一个‘\uxxxx’格式的Unicode字符可被辨识且被等价于str类型。

如果我们知道一个Unicode字节码，怎么变成UTF-8的字节码呢。懂了以上这些，现在我们就有思路了，先decode，再encode。代码如下：

xxx.decode('unicode-escape').encode()

测试如下：

可以看到最后输出的UTF-8字节与上面的相同。尝试成功。所以其他的编码之间的转换，大概也是如此。

最后的扩展

还记得刚刚那个ord吗。时代变迁，老大哥ASCII被人合并，但ord还是有用武之地。试试ord('中')，输出结果是20013。20013是什么呢，我们再试试hex(ord('中'))，输出结果是'0x4e2d'，也就是20013是我们在上文见面了无数次的x4e2d的十进制值。这里说下hex，是用来转换成十六进制的函数，学过单片机的人对hex肯定不会陌生。

最后的扩展，在网上看到的他人的问题。我们写下类似于'\u4e2d'的字符，Python3知道我们想表达什么。但是让Python读取某个文件的时候出现了'\u4e2d'，是不是计算机就不认识它了呢？后来下文有人给出了答案。如下：

import codecs

file = codecs.open( "a.txt", "r", "unicode-escape" )

u = file.read()

print(u)

③ python 将英文字母转成对应的ASCII数字

1、创建python文件，testascii.py；

④ Python ascii 编码怎么转化为utf-8编码

实现代码如下：

a='abce'
#printtype(a)
b=a.decode("ascii")
#printtype(b)
c=a.decode("ascii").encode("utf-8")
#printtype(c)

在python中进行编码转换都是通过unicode作为中间值实现的。所以要先decode成unicode字符，然后再使用encode转换成utf-8编码的str。可以把注释取消了，看下转换过程中的类型。

⑤ python中，将中文放到列表中会变成ascii码，怎么直接将中文转为ascii码

将中文放到列表中会变成ascii会变成ascii啊，禅逗为什么要这么做呢，ascii不能描述中文，你可以用unicode,比如“中国”，u"中国"败肢就是unicode, 真正的值是：贺枯卖u'\u4e2d\u56fd'

⑥ python编码转换:ascii和GB2312的问题

供参考。gb312本来就是标准ascii的一种扩充，ascii可以视同为gb312的子集。所以，如果var的值全部是在ascii里面的话，转成gb312后也还是属于ascii，所以使用detect函数的时候，编码还是ascii（当然同时也属于gb312）；如果var的值不是全部在ascii里面的话，语句var = var.decode('ascii')可能会出错。
只要var的值是英文(内码0-127)，转换不转换，都已经是gb2312编码。

⑦ Python字符编码使用什么码

Python 2.x 和 Python 3.x 的字符编码存在较大的区别。下面将分别介绍它们的编码原理及相关内容。

Python 2.x 字符编码

在 Python 2.x 中，str 类型默认使用 ASCII 编码。ASCII 编码是在 1960 年代初开发的一种编码方式，用于将英文字母、数字、符号等字符表示为字节。由于 ASCII 编码只使用了 7 位二进制数，因此只能表示 128 种字符。

当需要使用非 ASCII 字符时，在 str 类型前添加 u 前缀，即可将字符串转换为 Unicode 类型，如下所示：

str1 = 'hello' # 默认使用 ASCII 编码
str2 = u'你好' # 使用 Unicode 编码

Python 3.x 字符编码

在 Python 3.x 中，str 类型默认使用 Unicode 编码，即 Python 2.x 中的 Unicode 类型。Unicode 编码是一种支持全球范围内的字符集，裤岁正能够表示几乎所有语言的字符，包括汉字、日文、希腊字母等。

为了支持字节和 Unicode 类型之间的转换，Python3.x 新增了 bytes 类型。bytes 类型与 str 类型的区别在于，bytes 类型会自动将字符串转雀猛换成字节，而 str 类型会自动将字节转换成字符串。

bytes 类型使用 b 前缀表示，如下所示：

str1 = 'hello' # 默认使用胡悔 Unicode 编码，即 Python 2.x 中的 Unicode 类型
str2 = b'hello' # 使用 bytes 类型

编码原理及注意事项

字符编码的原理在于将字符转换为二进制表示，以便计算机能够处理。
ASCII 编码使用 7 位二进制数对字符进行编码，而 Unicode 编码使用 16 位或 32 位二进制数对字符进行编码。
在 Python 中，可以使用 encode 方法将 Unicode 字符串转换为字节类型，使用 decode 方法将字节类型转换为 Unicode 字符串。编码方式有多种，如 UTF-8、GBK、Unicode 等，需要根据实际业务需求进行选择。
UTF-8 编码是一种常用的 Unicode 字符编码方式，它使用变长字节对字符进行编码，能够表示几乎所有的字符。GBK 编码是一种用于汉字编码的字符集，只能表示中文字符。
Python 3.x 默认使用 UTF-8 编码，因此在读取文件或进行网络传输时，需要明确指定编码方式以避免出现乱码等问题。

总结

由于字符编码十分复杂，涉及到的知识点较多，因此学习时需要耐心且注意细节。在使用 Python 进行编程时，需要根据实际情况选择合适的编码方式，以避免出现乱码等问题。

希望我的回答能够对您有所帮助！

阅读全文

热点内容

大麦路由器怎么改密码发布：2025-03-14 20:35:42 浏览：86

数据库词组发布：2025-03-14 20:27:21 浏览：248

角色卡算法发布：2025-03-14 20:08:48 浏览：650

linux服务器安全加固发布：2025-03-14 19:59:21 浏览：779

android系统数据库发布：2025-03-14 19:44:27 浏览：237

beats安卓手机怎么弹窗发布：2025-03-14 19:33:38 浏览：222

安卓手机新充电头叫什么发布：2025-03-14 19:32:53 浏览：30

暗处增亮算法发布：2025-03-14 19:28:02 浏览：641

dnf数字解密码多少发布：2025-03-14 19:27:22 浏览：424

php固定位数加密发布：2025-03-14 19:25:30 浏览：855

pythonutf转ascii

Python 2.x 字符编码

Python 3.x 字符编码

编码原理及注意事项

总结

与pythonutf转ascii相关的资讯