python处理中文文本

发布时间: 2023-08-04 09:19:18

㈠ python中中文字符串怎么处理

如果处理的字符串中出现中文表示的字符，要想不出错，就得转成unicode编码了。具体的方法有：
1、decode()，将其他边编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码；
2、encode()，将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码；
3、unicode()，同decode()，将其他编码的字符串转换成unicode编码，如unicode(str3, 'gb2312')，表示将gb2312编码的字符串str3转换成unicode编码。
转码的时候一定要先搞明白字符串str是什么编码，然后decode成unicode，最后再encode成其他编码。
另外，对一个unicode编码的字符串在进行解码会出错，所以在编码未知的情况下要先判断其编码方式是否为unicode，可以用isinstance(str, unicode)。
不仅是中文，以后处理含非ascii编码的字符串时，都可以遵循以下步骤：
1、确定源字符的编码格式，假设是utf8；
2、使用unicode()或decode()转换成unicode编码，如str1.decode('utf8')，或者unicode(str1, 'utf8');
3、把处理后字符串用encode()编码成指定格式。

㈡ python 中怎么读取txt文件中的中文文字

代码：

# -*- coding: utf-8 -*-

f = open('luciatest1.txt', encoding='gb18030')
filecontent = f.read()
print(filecontent)

运行效果：

㈢ python中怎样处理汉语的同义词用结巴分词

python中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：
基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法
安装（Linux环境）
下载工具包，解压后进入目录下，运行：python setup.py install

模式
默认模式，试图将句子最精确地切开，适合文本分析
全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口
组件只提供jieba.cut 方法用于分词
cut方法接受两个输入参数：
第一个参数为需要分词的字符串
cut_all参数用来控制分词模式
待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

㈣ Python 编码转换与中文处理

python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章写的比较好， utf-8是 unicode的一种实现方式，unicode、gbk、gb2312是编码字符集.

Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 mole 的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii字符），则需要在第一行或第二行指定编码声明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的编码如：gbk、gb2312也可以；否则会出现:

先说一下python中的字符串类型，在python中有两种字符串类型，分别是 str 和 unicode ，他们都是basestring的派生类；

在str的文档中有这样的一句话：

也就是说在读取一个文件的内容，或者从网络上读取到内容时，保持的对象为str类型；如果想把一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 转为 unicode,

如果直接执行s.encode('gb2312')会发生什么？

这里会发生一个异常：Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb2312。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。
拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

对于这种情况，我们有两种方法来改正错误：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

㈤如何解决Python中文问题

python的中文问题一直是困扰新手的头疼问题，Python的发行版至今尚未包括任何中文支持模块。当然，几乎可以确定的是，在将来的版本中，python会彻底解决此问题，不用我们这么麻烦了。笔者使用的是2.5版本。Python的版本可以通过调用sys模块的sys.version查看。在几个月的学习中，主要遇到以下问题：

1. print打印中文的问题：

在编辑器中输入一段测试代码：

s=’测试’

print s
运行结果如下：

Non-ASCII character '\xb2' in file c:\Documents and Settings\Administrator\桌面\2.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details: 2.py, line 1, pos 0

原因是如果文件里有非ASCII字符，需要指定编码声明。把2.py文件的编码重新改为utf-8，并加上编码声明：

# -*- coding: utf-8 -*-

s=’测试’

print s
运行后可以正确打印中文。

2.中文路径的问题。

在D盘下保存一个名字为‘中文.txt‘的文件。运行如下测试代码：

# -*- coding: utf-8 -*-

f=open('D:\\中文.txt', 'r')

print f.read()
运行结果如下：

IOError: [Errno 2] No such file or directory: 'D:\\\xe4\xb8\xad\xe6\x96\x87.txt'

字符串有很多的编码，不同的系统和平台有各自的编码，为了实现系统或平台之间的信息交互可能需要编码转换。这里只需要先使用UNICODE编码一下，这样再读取中文路径就不会有问题了：

复制代码

# -*- coding: utf-8 -*-

path='D:\\中文.txt'
spath=unicode(path , "utf8")
f=open(spath,'r')
print f.read()
复制代码
然后就可以正确显示文件内容

总结：

所有的中文显示问题都可以归结为编码问题，遇到其他类似的问题，那只能仔细看文档，靠你的经验，靠你多做测试。而且根据python所报出来的错误一般也可以判断出来。那么当发现需要编码转换时，剩下的就是如何正确进行码制转换。

为了正确处理多语言文本，Python在2.0版后引入了Unicode字符串。从那时起，Python语言中的字符串就分为两种：一种是2.0版之前就已经使用很久的传统Python字符串，一种则是新的Unicode字符串。在Python语言中，一般的解决办法是使用unicode()内建函数对一个传统Python字符串进行“解码”，得到一个Unicode字符串，然后又通过Unicode字符串的encode()方法对这个Unicode字符串进行“编码”，将其“编码”成为传统Python字符串。

㈥ python怎样读取文本文件里的中文

#在Windows 环境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以读的方式打开输入文件
for eachLine in fin: #按行读入文件内容
line = eachLine.strip().decode('gbk', 'utf-8') #处理前进行相关的处理，包括转换成Unicode等
print line #打印原始字符
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的编码范围是：\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##打印中文字符

阅读全文

热点内容

c程序总是编译不过发布：2025-03-23 05:19:08 浏览：682

刷机网站源码发布：2025-03-23 05:08:41 浏览：570

一个服务器可以搭建几个sk5 发布：2025-03-23 05:07:21 浏览：265

c语言二维数组初始化发布：2025-03-23 04:59:55 浏览：887

给细胞编程发布：2025-03-23 04:59:42 浏览：604

byte二进制java 发布：2025-03-23 04:58:16 浏览：776

反编译dsl文件发布：2025-03-23 04:58:16 浏览：602

抖音上回娘家的路线图安卓用哪个软件发布：2025-03-23 04:57:10 浏览：594

怎么看购车配置好坏发布：2025-03-23 04:50:53 浏览：89

ftp上传工具免费发布：2025-03-23 04:36:22 浏览：170

python处理中文文本

与python处理中文文本相关的资讯