pythonasciiutf8

发布时间: 2024-01-10 00:08:47

1. python读取文件解决‘utf8’ codec can’t decode byte 0xa1的问题

一般这种文件存在类似字符：

如果UTF-8搞不定，可以采取ISO-8859-1编码方式解决：

最早的编码是iso8859-1，和ascii编码相似。但为了方便表示各种各样的语言，逐渐出现了很多标准编码，重要的有如下几个。

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要以另一种编码为基础。

需要说明的是，定长编码便于计算机处理（注意GB2312/GBK不是定长编码），而unicode又可以用来表示所有字符，所以在很多软件内部是使用unicode编码来处理的，比如java。

注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。

2. python ascii 编码怎么转化为utf-8编码

实现代码如下：
a = 'abce'
# print type(a)
b = a.decode("ascii")
# print type(b)
c = a.decode("ascii").encode("utf-8")
# print type(c)
在python中进行编码转换都是通过unicode作为中间值实现的。所以要先decode成unicode字符，然后再使用encode转换成utf-8编码的str。可以把注释取消了，看下转换过程中的类型。

3. python编程中中文输出乱码UnicodeEncodeError: 'ascii' codec can't encode character

楼主你好！肆余

其实按照你的代码的逻辑来做是没有错的，无法显示成utf-8编码的文本其实是因为在request请求的时候，按照网页的标识转了码，接着BeautifulSoup把已经是utf-8的文本又强转了一次utf-8编码，导致了无法正确的显示，以想要拿到的尘银时间为例，其实程序的目标字符串应该如下：

#-*-coding:utf-8-*-

'''我们想要使用的字符串'''
target_str=':53'

'''两次转码后的字符串'''
get_str=u':53'

归根结底是两个对象的类不同，但python不支持这两种类型的强转，个人想了个比较临时的解决方案，算是个python打了个补丁，就是将字符串转成二进制，再转回字符串，这样就unicode就不用给他加上编码方式再转成二进制字符串了，修改后的代码如下：

#-*-coding:utf-8-*-
importrequests
frombs4importBeautifulSoup
fromdatetimeimportdatetime

defencode(s):
'''将字符串转成二进制'''
return''.join([bin(ord(c)).replace('0b','')forcins])

defdecode(s):
'''将二进制转换成字符串'''
return''.join([chr(i)foriin[int(b,2)forbins.split('')]])

res=requests.get('
)
res.encodeing='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

'''每个中文字符都进行转换处理'''
title=decode(encode(soup.select('#artibodyTitle')[0].text))
time=decode(encode(soup.select('.time-source')[0].contents[0].strip()))

chinese='%Y年%m月%d日%H:%M'
timesource=datetime.strptime(time,chinese)
print(title)
print(timesource)

看楼主在研究的过程中，对字符串的编码原理的理解还有所欠派雹宴缺，这方面的资料在网上很多，可以再自行研究一下，能够获得长足的进步。

望采纳，谢谢！

4. 为什么python3字符串编码不采用utf8

先问是不是，再问为什么，py3的字符串编码就是用的utf-8编码。
python2 无需单独声明 utf8 编码，但常要采用相应方法编码或解码
python3 无需单独声明 utf8 编码，但偶尔也要采用相应方法编码或解码
python2 最大的一个 utf8 问题是在某些情况下，绝对不支持非 ASCII 字符文件路径 (基本无解)，你可网络查找 "CPython2.7 subprocess.Popen()不忍直视的Unicode中文路径Bug 解决办法"

5. 我在写一个python的网络爬虫，写入记事本的内容都是乱码如何使写入的数据以utf8或者gb2312的码制写入。

我从自己一个utf8的爬虫程序里面摘的。

程序开头：

#!/usr/bin/envpython
#-*-coding:utf8-*-
importurllib
importurllib2
importstring
importre
importsys
type0=sys.getfilesystemencoding()#解决中文乱码问题

后面做抓取程序的时候全部加上decode和encode。

pos1=text.find(term.decode("utf-8").encode(type0))

在输入到txt的时候相应的分隔符也要decode和encode：

f.write(info+'!'.decode("utf-8").encode(type0))

希望能帮到你。

6. 怎么在Python里使用UTF-8编码

概述

在python代码即.py文件的头部声明即可

解析

py文件中的编码

Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正一个 mole 的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii字符），则需要在第一行或第二行指定编码声明：

# -*- coding=utf-8 -*-
#coding=utf-8
# 以上两种选其一即可

其他的编码如：gbk、gb2312也可以；否则会出现:

SyntaxError: Non-ASCII character 'xe4' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python中的编码与解码

先说一下python中的字符串类型，在python中有两种字符串类型，分别是 str 和 unicode，他们都是basestring的派生类；

str类型是一个包含Characters represent (at least) 8-bit bytes的序列；

unicode 的每个 unit 是一个 unicode obj;

在str的文档中有这样的一句话：

The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file.

也就是说在读取一个文件的内容，或者从网络上读取到内容时，保持的对象为str类型；如果想把一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

拓展内容

utf-8编码

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部分修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或发送文字的应用中，优先采用的编码。

UTF-8使用一至六个字节为每个字符编码（尽管如此，2003年11月UTF-8被RFC 3629重新规范，只能使用原来Unicode定义的区域，U+0000到U+10FFFF，也就是说最多四个字节）：

1、128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。

2、带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要两个字节编码（Unicode范围由U+0080至U+07FF）。

3、其他基本多文种平面（BMP）中的字符（这包含了大部分常用字，如大部分的汉字）使用三个字节编码（Unicode范围由U+0800至U+FFFF）。

4、其他极少使用的Unicode辅助平面的字符使用四至六字节编码（Unicode范围由U+10000至U+1FFFFF使用四字节，Unicode范围由U+200000至U+3FFFFFF使用五字节，Unicode范围由U+4000000至U+7FFFFFFF使用六字节）。

对上述提及的第四种字符而言，UTF-8使用四至六个字节来编码似乎太耗费资源了。但UTF-8对所有常用的字符都可以用三个字节表示，而且它的另一种选择，UTF-16编码，对前述的第四种字符同样需要四个字节来编码，所以要决定UTF-8或UTF-16哪种编码比较有效率，还要视所使用的字符的分布范围而定。不过，如果使用一些传统的压缩系统，比如DEFLATE，则这些不同编码系统间的的差异就变得微不足道了。若顾及传统压缩算法在压缩较短文字上的效果不大，可以考虑使用Unicode标准压缩格式（SCSU）。

互联网工程工作小组（IETF）要求所有互联网协议都必须支持UTF-8编码。互联网邮件联盟（IMC）建议所有电子邮件软件都支持UTF-8编码。

7. notepad++ python 源代码中含有中文 utf8无bom编码无法编译

print u'哈哈'
---------------------------------
Python 2 里面默认所有字面上的字符串都用ASCII编码，可以通过在字符串前面加一个‘u’前缀的方式声明Unicode字符串，这个‘u’前缀告诉Python后面的字符串要编成Unicode字符串
-------------------------------------------------------------------------------------------------------------。

print 函数严重受IDE编码环境的影响,本来 print u'哈哈'肯定能成功,因为u'哈哈'是unicode,
但是受ide的影响, print 强行把u'哈哈' 转换成了 '哈哈' (字符类型),然后失败了
---------------------------------------------------------------------------------------------
所以建议不要用notepad++这个ide

8. Python如何将Unicode中文字符串转换成 string字符串

Unicode字符串可以用多种方式编码为普通字符串，假设unicodestring = u"Hello world"，依照所选择的编码(encoding)，如下：

1、#将Unicode转换成普通的Python字符串:"编码(encode)"。

(8)pythonasciiutf8扩展阅读：

Python转换字符和字符串的原因：为了处理不适合用ASCII字符集表示的数据。

在以ASCII码为中心的语言和环境中，字节和字符被当做相同的事物。由于一个字节只能有256个值，这些环境就受限为只支持256个字符Unicode码，另一方面，有数万个字符，那意谓着每个Unicode字符占用多个字节，因此，你需要在字符和字节之间作出区别。

（1）UTF-8编码能处理任何的Unicode字符。它也是与ASCII码向后兼容的，因此一个纯粹的ASCII码文件也能被考虑为一个UTF-8文件，而且一个碰巧只使用ASCII码字符的 UTF-8文件和拥有同样字符的ASCII码文件是相同的。

这个特性使得UTF-8的向后兼容性非常好,尤其使用较旧的Unix工具时。UTF-8 无疑地是在 Unix上的占优势的编码。它主要的弱点是对东方文字是非常低效的。

（2）UTF-16编码在微软的操作系统和Java环境下受到偏爱。它对西方语言是比较低效,但对于东方语言是更有效率的。一个UTF-16 的变体有时叫作UCS-2 。

（3）ISO-8859编码系列是256个字符的ASCII码的超集。他们不能够支援所有的Unicode码字符;他们只能支援一些特别的语言或语言家族。

ISO-8859-1,也既Latin-1,包括大多数的西欧和非洲语言,但是不含阿拉伯语。ISO-8859-2,也既Latin-2,包括许多东欧的语言,像是匈牙利语和波兰语。

9. 如何设置python的编码格式为utf-8

重装了系统(ubuntu 14.04)原来正常可用的OpenERP项目在切换到开发者模式的时候报错:
UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)
而在服务器上的项目正常可用,其原因是由于python的默认编码设置为ascii,可以用以下命令查看:
import sys
sys.getdefaultencoding()
解决方案有两种:
1. 在项目启动文件中添加设置字符为utf8:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
2. 在python的lib文件夹下的sitecustomize.py文件中添加代码:(我的文件位于/usr/lib/python2.7)
import sys
reload(sys)
sys.setdefaultencoding('utf8')
try:
import apport_python_hook
except ImportError:
pass
else:
apport_python_hook.install()
relaod(sys)一句是必须的

阅读全文

热点内容

服务器如何从导轨取下来发布：2025-01-23 10:28:30 浏览：102

华为手机的密码保险柜在哪里发布：2025-01-23 10:27:02 浏览：633

三星的铃声文件夹是哪个发布：2025-01-23 10:26:25 浏览：115

信号量编程发布：2025-01-23 10:23:59 浏览：555

网易邮箱账号和密码哪里查看发布：2025-01-23 10:09:37 浏览：306

java数据库下载发布：2025-01-23 10:04:33 浏览：247

基岩版服务器改地址发布：2025-01-23 09:59:33 浏览：506

android获取sim卡发布：2025-01-23 09:48:49 浏览：178

快捷指令自动清理缓存发布：2025-01-23 09:45:41 浏览：77

数据结构算法实现及解析发布：2025-01-23 09:33:22 浏览：153

pythonasciiutf8

概述

解析

拓展内容

与pythonasciiutf8相关的资讯