byte转stringpython
‘壹’ 爬虫"搜狗微信公众号"遇到的一些问题——Requests 解析html gzip压缩
一直都觉得微信公众号是爬虫的理想对象,获取到的对象url在手机上展示非常的赞,广告排版都在能接受的范围内,正好最近2练手python爬虫,果断的上了。
首先分析一下搜狗微信公众号的手机端:
这里的请求非常简单 分析之后可以发现基本就是:
url='http://weixin.sogou.com/wapindex/wap/0612/wap_9/%d.html'%i
变换的也就是后面的数字
然后正常使用requests去请求:
response=requests.get(url,headers=mergedHeaders)
然后就乱码了,这里我尝试了很多解码方式,但是都解决不了,当然最后折腾了好久之后发现是html的gzip压缩问题,在网络上查询基本都是urllib2的解决办法
重新查询requests的官方文档发现了我需要的:
很明显,这里说了使用response.content方法
Requests会自动解码gzip,不过返回的是byte内容,所以我们只需要将byte to String 就可以了,好,尝试一下
转换方法:
def byteToString(byteData):
'''
将byte转化为String
:parambyteData:
:return: String
'''
returnBytesIO(byteData).read().decode()
然后请求内容:
response=requests.get(url,headers=mergedHeaders)
ifresponse.headers['Content-Encoding']=='gzip':
result=BytesIO(response.content).read().decode()
returnresult
else:
returnresponse.text
问题解决
‘贰’ python byte 转换为 string
int(x[,base])将x转换为一个整数
long(x[,base])将x转换为一个长整数
float(x)将x转换到一个浮点数
complex(real[,imag])创建一个复数
str(x)将对象x转换为字符串
repr(x)将对象x转换为表达式字符串
eval(str)用来计算在字符串中的有效Python表达式,并返回一个对象
tuple(s)将序列s转换为一个元组
list(s)将序列s转换为一个列表
chr(x)将一个整数转换为一个字符
unichr(x)将一个整数转换为Unicode字符
ord(x)将一个字符转换为它的整数值
hex(x)将一个整数转换为一个十六进制字符串
oct(x)将一个整数转换为一个八进制字符串
‘叁’ python中怎么把string转换成int
1.
用数字字符串初始化int类,就可以将整数字符串(str)转换成整数(int):
In
[1]:
int(‘1234’)
Out[1]:
1234
2.
相反用整数初始化str类,就可以将整数(int)转换为对应的字符串(str):
In
[2]:
str(1234)
Out[2]:
‘1234’
3.
如果字符串是浮点数,可以用字符串初始化float类,把浮点数字符串(str)转换成浮点数(float):
In
[3]:
float(‘12.34’)
Out[3]:
12.34
(3)byte转stringpython扩展阅读
Python的执行:
Python在执行时,首先会将.py文件中的源代码编译成Python的byte
code(字节码),然后再由Python
Virtual
Machine(Python虚拟机)来执行这些编译好的byte
code。这种机制的基本思想跟Java,.NET是一致的。然而,Python
Virtual
Machine与Java或.NET的Virtual
Machine不同的是,Python的Virtual
Machine是一种更高级的Virtual
Machine。
这里的高级并不是通常意义上的高级,不是说Python的Virtual
Machine比Java或.NET的功能更强大,而是说和Java
或.NET相比,Python的Virtual
Machine距离真实机器的距离更远。或者可以这么说,Python的Virtual
Machine是一种抽象层次更高的Virtual
Machine。
基于C的Python编译出的字节码文件,通常是.pyc格式。
除此之外,Python还可以以交互模式运行,比如主流操作系统Unix/Linux、Mac、Windows都可以直接在命令模式下直接运行Python交互环境。直接下达操作指令即可实现交互操作。
参考资料
python-网络
‘肆’ Python 2.7 中字节字符串的处理求助
唔,你也没写具体问题…… 给你个python的字符串处理汇总吧。
str='python String function'
生成字符串变量str='python String function'
字符串长度获取:len(str)
例:print '%s length=%d' % (str,len(str))
一、字母处理
全部大写:str.upper()
全部小写:str.lower()
大小写互换:str.swapcase()
首字母大写,其余小写:str.capitalize()
首字母大写:str.title()
print '%s lower=%s' % (str,str.lower())
print '%s upper=%s' % (str,str.upper())
print '%s swapcase=%s' % (str,str.swapcase())
print '%s capitalize=%s' % (str,str.capitalize())
print '%s title=%s' % (str,str.title())
二、格式化相关
获取固定长度,右对齐,左边不够用空格补齐:str.ljust(width)
获取固定长度,左对齐,右边不够用空格补齐:str.ljust(width)
获取固定长度,中间对齐,两边不够用空格补齐:str.ljust(width)
获取固定长度,右对齐,左边不足用0补齐
print '%s ljust=%s' % (str,str.ljust(20))
print '%s rjust=%s' % (str,str.rjust(20))
print '%s center=%s' % (str,str.center(20))
print '%s zfill=%s' % (str,str.zfill(20))
三、字符串搜索相关
搜索指定字符串,没有返回-1:str.find('t')
指定起始位置搜索:str.find('t',start)
指定起始及结束位置搜索:str.find('t',start,end)
从右边开始查找:str.rfind('t')
搜索到多少个指定字符串:str.count('t')
上面所有方法都可用index代替,不同的是使用index查找不到会抛异常,而find返回-1
print '%s find nono=%d' % (str,str.find('nono'))
print '%s find t=%d' % (str,str.find('t'))
print '%s find t from %d=%d' % (str,1,str.find('t',1))
print '%s find t from %d to %d=%d' % (str,1,2,str.find('t',1,2))
#print '%s index nono ' % (str,str.index('nono',1,2))
print '%s rfind t=%d' % (str,str.rfind('t'))
print '%s count t=%d' % (str,str.count('t'))
四、字符串替换相关
替换old为new:str.replace('old','new')
替换指定次数的old为new:str.replace('old','new',maxReplaceTimes)
print '%s replace t to *=%s' % (str,str.replace('t', '*'))
print '%s replace t to *=%s' % (str,str.replace('t', '*',1))
五、字符串去空格及去指定字符
去两边空格:str.strip()
去左空格:str.lstrip()
去右空格:str.rstrip()
去两边字符串:str.strip('d'),相应的也有lstrip,rstrip
str=' python String function '
print '%s strip=%s' % (str,str.strip())
str='python String function'
print '%s strip=%s' % (str,str.strip('d'))
按指定字符分割字符串为数组:str.split(' ')
六、默认按空格分隔
str='a b c de'
print '%s strip=%s' % (str,str.split())
str='a-b-c-de'
print '%s strip=%s' % (str,str.split('-'))
七、字符串判断相关
是否以start开头:str.startswith('start')
是否以end结尾:str.endswith('end')
是否全为字母或数字:str.isalnum()
是否全字母:str.isalpha()
是否全数字:str.isdigit()
是否全小写:str.islower()
是否全大写:str.isupper()
str='python String function'
print '%s startwith t=%s' % (str,str.startswith('t'))
print '%s endwith d=%s' % (str,str.endswith('d'))
print '%s isalnum=%s' % (str,str.isalnum())
str='pythonStringfunction'
print '%s isalnum=%s' % (str,str.isalnum())
print '%s isalpha=%s' % (str,str.isalpha())
print '%s isupper=%s' % (str,str.isupper())
print '%s islower=%s' % (str,str.islower())
print '%s isdigit=%s' % (str,str.isdigit())
str='3423'
print '%s isdigit=%s' % (str,str.isdigit())
‘伍’ 怎么在Python里使用UTF-8编码
基本概念
在Python里有两种类型的字符串类型:字节字符串和Unicode的字符串,一个字节字符串就是一个包含字节列表。 当需要的时候,Python根据电脑默认的locale设置将字节转化成字符。 在Mac OX上默认的编码是UTF-8,但是在别的系统上,大部分是ASCII。
比如创建一个字节字符串:
byteString = "hello world! (in my default locale)"
创建一个Unicode字符串:
unicodeString = u"hello Unicode world!"
将一个字节字符串转成Unicode字符串然后再转回来:
s = "hello byte string"
u = s.decode()
backToBytes = u.encode()
以上代码使用的是系统默认的字符来出来转换的。 然而,依赖系统的区域设置的字符集不是一个好主意,或许你的程序在泰文用户的电脑上就会崩溃。 最好的办法就是为字符指定一个编码:
s = "hello normal string"
u = s.decode("UTF-8" )
backToBytes = u.encode( "UTF-8" )
现在,字节字符串s就被当成一个UTF-8字节列表去创建一个Unicode字符串u, 下一行用UTF-8表示的字符串u转换成字节字符串backToBytes.