pythonurl参数解析
㈠ url里有tvid=398da32a9这个信息,怎么用python提取tvid等号后面的字符串
利用字符串匹配,这是url的参数,首先python 里面有专门解析url的包urllib,可以将url分成各个部分,你可以获取参数集合,或者你手动的根据?来截断字符串,?后面的就是参数集合的字符串了。i
然后split("&")可以将各个参数和值分开。
对每个参数q匹配,q.find("tvid="),如果能匹配到,则根据返回额index号,获取子串,q[index+5:]
就是最终想要的值了
㈡ python 中提取URL参数时有多个问号怎么办
这个要看你用什么框架来做了,要是用的django就是request.GET.get('userid'),这样返回1或None
㈢ 谁能告诉我python中urlopen函数data参数的作用和意义
我认为,它指的是客户端向网络服务器发起url请求中,将被传递给服务接口程序处理所必需的一些参数,比如用户id、会话id、用户名、密码等等。
㈣ Python的urls的参数意义是什么
regex。用于筛选过滤url
view:用于指定特定的处理方法。就是你在view.py中定义方法
kwargs:可选参数
name:此条规则的别名。用于url 逆向查询。
另外,建议楼主自己照着官方的tutorial完整练习一遍。会比在这里问,有收获。
㈤ python 获取url中参数 例 localhost:8080/loginuserid=1 我想获取到[userid,1]
这个要看你用什么框架来做了,要是用的django就是request.GET.get('userid'),这样返回1或None
㈥ 用python怎么解析'%3cp%3e%e5%'
import urllib
rawurl=xxx
url=urllib.unquote(rawurl)
所用模块:urllib
所用函数:urllib.unquote()
案例
import urllib
rawurl = "%E6%B2%B3%E6%BA%90"url = urllib.unquote(rawurl)print url
输出
河源
问题扩展
urllib.unquote()目的是对url编码进行解码,与该函数对应的是编码函数urllib.quote()
123
>>> import urllib>>> urllib.quote("河源")'%E6%B2%B3%E6%BA%90
URL为何要编码、解码?
通常如果一样东西需要编码,说明这样东西并不适合传输。原因多种多样,如Size过大,包含隐私数据。对于Url来说,之所以要进行编码,是因为Url中有些字符会引起歧义。
例如,Url参数字符串中使用key=value键值对这样的形式来传参,键值对之间以&符号分隔,如/s?q=abc&ie=utf-8。如果你的value字符串中包含了=或者&,那么势必会造成接收Url的服务器解析错误,因此必须将引起歧义的&和=符号进行转义,也就是对其进行编码。
又如,Url的编码格式采用的是ASCII码,而不是Unicode,这也就是说你不能在Url中包含任何非ASCII字符,例如中文。否则如果客户端浏览器和服务端浏览器支持的字符集不同的情况下,中文可能会造成问题。
㈦ url编码问题在python中怎么解决
最近在抓取一些js代码产生的动态数据,需要模拟js请求获得所需用的数据,遇到对url进行编码和解码的问题,就把遇到的问题总结一下,有总结才有进步,才能使学到的知识更加清晰。对url进行编码和解码,python提供了很方便的接口进行调用。
url中的query带有特殊字符(不是url的保留字)时需要进行编码。当url中带有汉字时,需要特殊的处理才能正确编码,以下都只针对这种情形,当然也适用于纯英文字符的url。
(1) url编码:
import urllib
url = 'wd=哈哈' #如果此网站编码是gbk的话,需要进行解码,从gbk解码成unicode,再从Unicode编码编码为utf-8格式。
url = url.decode('gbk', 'replace')
print urllib.quote(url.encode('utf-8', 'replace'))
结果: 3a%2f%2ftest.com%2fs%3fwd%3d%e5%93%88%e5%93%88
(2) url解码:
import urllib
encoded_url = est.com%2fs%3fwd%3d%e5%93%88%e5%93%88'
print urllib.unquote(encoded_url).decode('utf-8', 'replace').encode('gbk', 'replace') #反过来
函数调用的参数以及结果都是utf-8编码的,所以在对url编码时,需要将参数串的编码从原始编码转换成utf-8,
对url解码时,需要将解码结果从utf-8转换成原始编码格式。
依据网站采用的编码不同,或是gbk或是utf-8,赋赋予不同的编码,进行不同的url转码。GBK格式,一个中文字符转为%xx%xx,共两组;utf-8格式,一个中文字符转为%xx%xx%xx,共三组。
>>>importsys,urllib
>>>s='杭州'
>>>urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))
%BA%BC%D6%DD
>>>urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))
'%E6%9D%AD%E5%B7%9E'
a="墨西哥女孩被拐4年接客4万次生的孩子成为人质-搜狐新闻"
printurllib.quote(urllib.quote(a))
[python]view plain
进行两次编码转换后,会变为:%25E5%25A2%25A8%25E8%25A5%25BF%25E5%2593%25A5%25E5%25A5%25B3%25E5%25AD%25A9%25E8%25A2%25AB%25E6%258B%25904%25E5%25B9.................................................................................这样的形式。
同样需要两次解码后才能得到中文。
最近用python写了个小爬虫自动下点东西,但是url 是含中文的,而且中文似乎是 gbk 编码然后转成 url的。举个例子吧,我如果有个unicode字符串“历史上那些牛人们.pdf”,那么我转换成url之后是,
t="%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf",
但是对方网站给的是 s="%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"
>>>print urllib.unquote("%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF").decode('gbk').encode('utf-8')
>>>历史上那些牛人们.PDF
㈧ python处理url中文参数的问题
django中get和post获取的参数都是unicode格式,实际name是u'u738bu9e4f',即使url中是%xx这样的格式也不要紧,他会自动转换会影响保存数据库和返回,比如你把return改成
returnHttpResponse(name)
㈨ 什么是python url解析器
python标准库中有个url解析库,叫【urlparser】,它的作用是解析给定的url,
并返回一个6-tuple,类型是ParseResult(scheme, netloc, path, params, query, fragment)
在爬虫方面是很有用的