pythonunicodebyte

发布时间: 2022-08-11 11:38:50

㈠如何理解python3的unicode，以及全角半角转换

1. unicode是一个编码的standard，表明了字符与数字之间的映射，是可变长的。

2. 映射后的数据如何编码为字节？这个就是具体的编码规则：目前最主流的是UTF-8，同样，它也是变字长的。

python3中的str都是unicode的：“The default encoding for Python source code is UTF-8”

python3中的encode：按照encode()括号中的参数对字符串进行编码，就是生成bytes。

所以：

In：'中文'.encode('utf-8')
Out：b'\xe4\xb8\xad\xe6\x96\x87'

这里的b就是Byte，\x表示这个x是被转义的，意思就是0x。又如：

In: 'abc'.encode('utf-8')

Out: b'abc'

上面的b'a'其实表示的是数字97,b'a'的意思就是字符串'a'的binary数字：

[In]:'abc'.encode('utf-8')[0]

[Out]: 97

同时可以把b'\x'进行解码，即：
In：b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
Out：'中文'
除了encode('utf-8')外，用ord可以获得单个utf-8字符对应的数字：

In [60]: ord('a')
Out[60]: 97
In [61]: ord('a')＃这个是全角的a
Out[61]: 65345

除了decode('utf-8')外，用chr可以获得数字对应的utf-8字符：

In [62]: chr(97)
Out[62]: 'a'

除了unicode还有别的编码标准吗？有啊，比如我国的GBK，别名也叫cp936。

全角和半角之分，是指同样一个意义的字符，显示的大小不同．具体来说，全角和半角的编码是两个结果：

In [70]: "mn".encode('utf-8')
Out[70]: b'\xef\xbd\x8d\xef\xbd\x8e
[In]:"mn".encode('utf-8')

[Out]:b'mn'

它们有什么对应关系呢？(引自这里)

转换说明
全角半角转换说明
有规律（不含空格）：
全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）
半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）
特例：
空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）
除空格外，全角/半角按unicode编码排序在顺序上是对应的（半角 + 0x7e= 全角）,所以可以直接通过用+-法来处理非空格数据，对空格单独处理。
代码在此基础上改动一下（将unichr改为chr即可，适应python3），即：

def strQ2B(ustring):
"""全角转半角"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全角空格直接转换
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全角字符（除空格）根据关系转化
inside_code -= 65248
rstring += chr(inside_code)
return rstring

In [69]: strQ2B('你好python')
Out[69]: '你好python'

㈡ python unicode 和utf8编码是什么意思

编码是用于讲二进制格式(byte)转化为汉语，英文等文字的方式。如果是unicode，那就是一种全球通用的编码，但是台湾用的多，mac系统是utf-8，windows你用GB2312

㈢ python文件怎么突然变成这个样了

你看下这个是python的软件文件，如果不是，你选择文件，右击一下，重新选择打开这种类型的软件即可

㈣ Python文件处理里encoding和encode有事区别，bytes类型是什么意思

python问题我来回答你。

首先你要知道的是，字符串在Python内部的表示是unicode(统一码、万国码)编码，很多编程语言都是这么设计的，各个国家通用编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。
因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码。
bytes类型是 Python 3.x版本新增的数据类型，在 Python 2.x 中是不存在的。字符串是以字符为单位进行处理的，bytes类型是以字节为单位处理的。
bytes 只负责以字节序列的形式（二进制形式）来存储数据，至于这些数据到底表示什么内容（字符串、数字、图片、音频等），完全由程序的解析方式决定。
说白了，bytes 只是简单地记录内存中的原始数据，至于如何使用这些数据，bytes 并不在意，你想怎么使用就怎么使用，bytes 并不约束你的行为。

bytes 类型的数据非常适合在互联网上传输，可以用于网络通信编程；bytes 也可以用来存储图片、音频、视频等二进制格式的文件。

举个例子：

b = b'' # 创建一个空的bytes

b = byte() # 创建一个空的bytes

b = b'hello' # 直接指定这个hello是bytes类型

b = bytes('string',encoding='编码类型') #利用内置bytes方法，将字符串转换为指定编码的bytes

b = str.encode('编码类型') # 利用字符串的encode方法编码成bytes，默认为utf-8类型

bytes.decode('编码类型')：将bytes对象解码成字符串，默认使用utf-8进行解码。

㈤ python 怎么将字符串转换为byte

用ord()内置函数将char转换为byte
str_object.encode('utf-8'); python3可用,2不太清楚，只要你把他编码成unicode就是

㈥了解python中bytes，str和unicode的区别

str是经过编好码的字符串，如unicode,gb2312,ascii编码，可以表示不同语言中的字符，可以解码成byte byte是字节，只能是ascii码0-255的字符，表示未经编码处理的原始字符串

㈦如何使用python 打开unicode的文件

Python核心库的open函数是按照ascii设计的。但是，现在我们越来越多地要面对Unicode文件。好在python提供了codecs模块，帮我们解决了这个问题。
codecs模块的open定义如下
open( filename, mode[, encoding[, errors[, buffering]]])
Open an encoded file using the given mode and return a wrapped version providing transparent encoding/decoding.
其中前两个参数filename和mode和默认的open相同。第三个参数encoding是关键，制定了文件的编码方式。
对于常用的Unicode有这几种utf_16、utf_16_le、utf_16_be、utf_8，每一种还有一些可用的别名，具体可以查找python manual。
utf_16、utf_16_le、utf_16_be参数的区别是这样的。
如果指定了utf_16，python会检查文件的BOM（Byte Order Mark）来判断，文件类型到底是utf_16_le、utf_16_be。对于没有BOM的文件会报错。
如果我们直接指定了utf_16_le、utf_16_be，python就不检查BOM了。对于没有BOM的文件很好用。但是，对于有BOM的文件就要注意，它会把BOM当作第一个字符读入。

㈧ python中怎样将unicode转换成原来的中文

python默认就是unicode存储。如果是从文件读取的，在open的参数中指定encoding关键字参数就行。如下：

#coding=utf-8/importjson /defLoadQuestion(): /f=open("test.json",'r') qas=json.load(f) question=qas['documents'] /returnquestion/t=LoadQuestion() /printstr(t).decode("unicode-escape")

拓展资料：

通常python2时所有IO读写都是byte方式。也就是编码后的。java也是这样子。只有python3还有某些特定的模块才会自动将byte重新转换成unicode

在python2里的确可以使用s.decode('gbk','ignore')之类的变成unicode。不过在python3里应该是这样子, s.encode('gbk','ignore')这样就变成了byte

如果你喜欢 utf-8，可以s.encode(‘utf-8','ignore')和s.decode(‘utf-8','ignore')

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：903

制作脚本网站发布：2025-10-20 08:17:34 浏览：1173

python中的init方法发布：2025-10-20 08:17:33 浏览：867

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1043

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：924

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1271

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：491

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：379

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1044

python股票数据获取发布：2025-10-20 07:39:44 浏览：1030

pythonunicodebyte

拓展资料：

与pythonunicodebyte相关的资讯