python汉字
㈠ python3 字符串多少个汉字
在python中一个汉字算一个字符,一个英文字母算一个字符。如:
##coding:utf-8
s='我们的'
k=len(s)
print(k)
输出结果是3。
===================================
所以,可以采取排除法,凡返回字符的ascII码在大于127的作为汉字统计。
##coding:utf-8
s='我们的88工作和生活168'
k=len(s)
print(k)
n=0
forcins:
iford(c)>127:
n+=1
print(n)
㈡ 怎样在python中写汉字
在python中写汉字的方法:
在注释符“#”后面可以直接写中文
也可以使用“引号<中文>引号”的方式将中文字符以字符串的方式写出来
示例如下:
# 宇宙好大,地球好小
a = '世界好大,地球好小'
print(a)
执行结果如下:
想了解更多python知识,请观看Python入门教程(黑马程序员)!!
㈢ python 将汉字 输出GB2312
我用的python3.5 用ascii函数处理
s="中文"
lst=[]
forcins:
lst.append(int('0x'+ascii(c)[3:7],16))
print(lst)
输出是:[20013, 25991]
㈣ 用python编写汉字 “合”
风。但是优秀的情节引起了别人的注意,重新制作让这个动漫成功。
㈤ python一个汉字的长度是多少
这要看使用的哪种编码方式,utf-8的话是用了3个字节,GBK的话是用了两个
>>>'汉'.encode('utf-8')
b'xe6xb1x89'
>>>'汉'.encode('GBK')
b'xbaxba'
㈥ python如何从文本中筛选出带指定汉字的句子
#coding=gbk
#下面就是代码,测试了一下没有问题
#python 2.7.5
def srch(fileName):
f = open(fileName,'r').read()
s = f.split('\n')
a0 = s[0]
for i in range(0,len(s)):
if len(s) == 1: #这一行我不知道有没有用,判断文本是否只有一行
if a0[:1] != '#':
print '0' #return 0
break
a = s[i]
if a[:1] == '#':
print '-1' #return -1
else:
print '0' #return 0
print srch('abc.txt') #abc.txt is your file
㈦ python 判断是不是中文字
法一:
isinstance(s, str) 用来判断是否为一般字符串
isinstance(s, unicode) 用来判断是否为unicode
或
if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass
法二:
Python chardet 字符编码判断
使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。
chardet实例
>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。
chardet 安装
下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了。
或者使用setup.py安装文件,将chardet拷贝到Python系统目录下,这样所有的python程序只要用import chardet就可以了。
㈧ python正则匹配汉字
#python2使用如下即可:
#encoding:UTF-8
importre
importsys
reload(sys)
sys.setdefaultencoding('utf-8')
defextract_number(input):
match=re.search(u"[u4e00-u9fa5]+",input)
returnmatch.group()
if__name__=="__main__":
printextract_number(unicode("dss2第三季度建安大sdssd43fds",'utf8'))#python3使用如下:
#encoding:UTF-8
importre
defextract_number(input):
match=re.search("[u4e00-u9fa5]+",input)
returnmatch.group()
if__name__=="__main__":
print(extract_number("dss2第三季度建安大sdssd43fds"))
㈨ python 如何将乱码转成汉字
1、python2与python3稍微有点区别
2、python2中默认的字符编码格式都是unicode,在字符串前加'u',表示unicode 编码
3、将unicode转换成中文,只需要用deconde解码就可以了
>>> u='欢迎'>>> e=u.encode()>>> eb'\xe6\xac\xa2\xe8\xbf\x8e'>>> e.decode()#python3中默认就是utf-8编码'欢迎'>>> e.decode('gbk')#如果解码为gbk就是乱码'娆四繋'
python2编码环境比较复杂,在这里不做详细说明
㈩ python怎么读取文本中的汉字
x="你好"
print("你好")