pythonunicodestr

发布时间: 2023-03-29 16:52:57

1. 了解python中bytes，str和unicode的区别

str是经过编好码的字符串，如unicode,gb2312,ascii编码，可以表示不同语言中的字符，可以解码成byte byte是字节，只能是ascii码0-255的字符，表示未经编码处理的原始字符串

2. python unicode编码

python unicode编码：

下面的代码创建了一个Unicode字符串，用UTF-8编码器将它编码，然后写入到一个文件中去，接着把数据从文件中读回来，解码成Unicode字符串对象，最后，打印出Unicode字符串，用以确认程序正确地运行。

在Linux中编写，在VIM中输入如下代码，保存为uniFile.py

#/home/xiaopeng/python/code/uniFile.py
'''
:Writes
aUnicodestringtoafileinutf-8andreadsitbackin
'''
CODEC='utf-8'编码方式
FILE='unicode.txt'要存的文件名
hello_out=u"Helloworld
"创建了一个Unicode格式的字符串
bytes_out=hello_out.encode(CODEC)用UTF-8编码
f=open(FILE,'w')
f.write(bytes_out)写入指定文件中
f.close()
f=open(FILE,'r')
bytes_in=f.read()读取
f.close()
hello_in=bytes_in.decode(CODEC)解码
printhello_in打印

在终端中输入：python uniFile.py

结果打印出 Hello world

然后在python目录下会发现多了一个名为unicode.txt的文件，用cat命令查看一下，发现里面的内容和打印的结果一样.

把Unicode应用到实际中注意一下四点：

1程序中出现字符串时一定要加一个前缀u

2不要用str()函数，用Unicode()代替

3 不要用过时的string模块。如果传给它非ASCII码，它会把一切搞砸。

4 不到必须时不要在你的程序里编解码Unicode字符，只在你要写入文件或者数据库或者网络时，才调用encode()函数和decode()函数。

3. python unicode麻烦帮我按句解释下，unicode（）函数作用到底是什么

UNICODE函数wei 预先编写的公式，可以对一个或多个值执行运算，并返回一个或多个值。函数可以简化和缩短工作表中的公式，尤其在用公式执行很长或复杂的计算时的公式语法和用法。如果文本包含部分代理项或数据类型无效，则UNICODE返回错误值#VALUE!。

Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。

因为Python的诞生比Unicode标准发布的时间还要早，所以最早的Python只支持ASCII编码，普通的字符串ABC在Python内部都是ASCII编码的。

(3)pythonunicodestr扩展阅读

Unicode为了解决传统的字符编码方案的局限而产生的，例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用，可是在不同国家间却经常出现不兼容的情况。

很多传统的编码方式都有一个共同的问题，即容许电脑处理双语环境（通常使用拉丁字母以及其本地语言），但却无法同时支持多语言环境（指可同时处理多种语言混合的情况）。

Unicode编码包含了不同写法的字，如“ɑ/a”、“户/户/戸”。然而在汉字方面引起了一字多形的认定争议。

4. python 读取的中文怎么使用

file = open('filename.txt','r')
text = file.read() #读取所有文字
text = file.readline() #读取一行文字
text = file.readlinse() #把每一行变成list的一个元素
如果需要里面中文的话，用正则匹配

5. python 字符串格式的unicode编码转中文

python对于Unicode编码可以使用decode进行转换成中文：

>>> str = b'\xe8\xb4\xb9\xe8\x84\x91\xe5\xad\x90'

>>> str.decode('utf-8')

'费脑子'

如果是字符串类型的Unicode编码没办法直接用decode进行转换：

>>> str ="\\xe8\\xb4\\xb9\\xe8\\x84\\x91\\xe5\\xad\\x90"

>>> str.decode('utf-8')

Traceback (most recent call last):

File "<stdin>", line 1, in <mole>

AttributeError: 'str' object has no attribute 'decode'

处理方式：

>>> str = eval("b" + "\"" + str + "\"")

>>> str.decode('utf-8')

'费脑子'

6. python3中怎么判断传入的参数是否是unicode

Python 3中基本的str就是unicode，所以可以直接判断str：
>>> isinstance('s', str)
True

7. python是什么编码格式

python编码总结：
1).首先python有两种格式的字符串，str和unicode，其中unicode相当于字节码那样，可以跨平台使用。
str转化为unicode可以通过unicode()，u，str.decode三种方式
unicode转化为str，如果有中文的话，一般通过encode的方式
2).如果代码中有中文的话，我们一般会添加 "# coding=utf-8"，这个是什么作用呢，一般如下：
如果代码中有中文注释，就需要此声明比较高级的编辑器（比如我的emacs），会根据头部声明，将此作为代码文件的格式。程序会通过
头部声明，解码初始化 u”人生苦短”，这样的unicode对象，（所以头部声明和代码的存储格式要一致
所以，当我们填上编码头的时候，使用s="中文"，实际上type(s)是一个str，是已经将unicode以utf-8格式编码成str。
其次，如果我们在代码中使用s=u'中文'，相当于将str以utf-8解码成unicode。
推荐学习《python教程》。

8. Python 编码转换与中文处理

python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章写的比较好， utf-8是 unicode的一种实现方式，unicode、gbk、gb2312是编码字符集.

Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 mole 的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii字符），则需要在第一行或第二行指定编码声明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的编码如：gbk、gb2312也可以；否则会出现:

先说一下python中的字符串类型，在python中有两种字符串类型，分别是 str 和 unicode ，他们都是basestring的派生类；

在str的文档中有这样的一句话：

也就是说在读取一个文件的内容，或者从网络上读取到内容时，保持的对象为str类型；如果想把一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 转为 unicode,

如果直接执行s.encode('gb2312')会发生什么？

这里会发生一个异常：Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb2312。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。
拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

对于这种情况，我们有两种方法来改正错误：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

阅读全文

热点内容

我的世界怎么在文件里配置模式发布：2025-04-03 11:16:09 浏览：970

tekla服务器地址填什么发布：2025-04-03 11:10:25 浏览：92

行程查询密码多少发布：2025-04-03 10:49:34 浏览：209

安卓手机如何打开exe小说发布：2025-04-03 10:42:06 浏览：983

安卓9的小药丸怎么弄出来发布：2025-04-03 10:31:04 浏览：17

newphp 发布：2025-04-03 10:30:23 浏览：752

matlab用什么语言编程发布：2025-04-03 10:29:34 浏览：37

源码计算溢出发布：2025-04-03 10:17:36 浏览：716

逍客用什么配置最好发布：2025-04-03 10:17:25 浏览：603

安卓怎么锁屏摄像发布：2025-04-03 09:39:03 浏览：165

pythonunicodestr

与pythonunicodestr相关的资讯