pythonrequests编码

发布时间: 2023-09-13 20:49:39

㈠ python requests 常用方法

requests 继承了urllib2的所有特性，比urllib简洁高效
requests所有功能都能通过"requests/api.py"中的方法访问

1、安装：
pip install requests

2、get请求：
封装链接中的参数，请求时用params参数进行传递
url = " http://www..com "
resp = requests.get(url,params=,headers=)

3、post请求：
发送的数据必须放在字典中，通过data参数进行传递
url = " http://www..com "
resp = requests.post(url,data=,headers=)

4、查看响应内容：
print (resp.text ) # resp.text 返回的是Unicode格式的数据
print(resp.json()) # res.json() 返回的是json格式的数据
print(resp.content) # resp.content返回的字节类型数据
print (resp.url) # 查看完整url地址
print (resp.encoding) # 查看响应头部字符编码
print(resp.status_code) # 查看响应码
print(resp.cookies) # 查看返回的cookies
print(resp.r.elapsed) #响应速度，从发送请求到响应到达所需要的时间

5、Cookies
import requests
url = " http://www..com "
resp = requests.get(url)
cookiejar = resp.cookies # 返回cookies对象
cookiedic = requests.utils.dict_from_cookiejar(cookiejar) # 将cookies转为字典

6、Sission
说明
1、发送请求前先创建一个session会话，将请求到的cookies存入session中
2、程序的请求要一直使用session.get/post，以保证cookies在程序中的传递
3、程序的请求如果使用requests.get/post需要在参数中增加headers{"cookie:":"****"},否则请求会报错，因为requests.get/post每次执行都会重新开启一个新的请求，丢失已获取的cookies
例子：登录17小说网拿到书架数据
import requests
session = requests.session() # 创建会话（session），将cookie存入session中
data = {
"loginName": "1 7",
"password": "1 5"
}
url = " https://passport.17k.com/ck/user/login "
resp1 = session.post(url,data=data) # 登录，获取cookies

resp2 = session.get(" https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919 ")
print(resp2.json())

7、防盗链处理
防盗链，本质上是溯源，即本次请求的上一次请求，请求时将referer地址加上即可
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36",
"Referer":" https://www.pearvideo.com/video_1734919 " # 防盗链：溯源，确认当前请求的上一级
}

㈡请教python 采集 requests post请求一个第三方接口中文乱码的问题

你需要写这行代码，有可能是你编码格式设置错了；

在请求的下面加这行代码

rsp = requests.get(url,headers = headers)

rsp.encoding = rsp.apparent_encoding

它会自动匹配文档中的编码格式，如果还不行你再追问。

㈢ Python爬虫笔记（二）requests模块get，post，代理

import requests

base_url = 'https://www..com'

response = requests.get(base_url)

url=请求url，

headers =请求头字典，

params = 请求参数字典。

timeout = 超时时长，

)---->response对象

服务器响应包含：状态行（协议，状态码）、响应头，空行，响应正文

字符串格式：response.text

bytes类型：response.content

response.headers['cookie']

response.text获取到的字符串类型的响应正文，

其实是通过下面的步骤获取的：

response.text = response.content.decode(response.encoding)

产生的原因：编码和解码的编码格式不一致造成的。

str.encode('编码')---将字符串按指定编码解码成bytes类型

bytes.decode('编码')---将bytes类型按指定编码编码成字符串。

a、response.content.decode('页面正确的编码格式')

<meta http-equiv="content-type" content="text/html;charset=utf-8">

b、找到正确的编码，设置到response.encoding中

response.encoding = 正确的编码

response.text--->正确的页面内容。

a、没有请求参数的情况下，只需要确定url和headers字典。

b、get请求是有请求参数。

在chrome浏览器中，下面找query_string_params,

将里面的参数封装到params字典中。

c、分页主要是查看每页中，请求参数页码字段的变化，

找到变化规律，用for循环就可以做到分页。

requests.post(

url=请求url，

headers = 请求头字典，

data=请求数据字典

timeout=超时时长

)---response对象

post请求一般返回数据都是json数据。

（1）response.json()--->json字符串所对应的python的list或者dict

（2）用 json 模块。

json.loads(json_str)---->json_data(python的list或者dict)

json.mps(json_data)--->json_str

post请求能否成功，关键看**请求参数**。

如何查找是哪个请求参数在影响数据获取？

--->通过对比，找到变化的参数。

变化参数如何找到参数的生成方式，就是解决这个ajax请求数据获取的途径。

**寻找的办法**有以下几种：

（1）写死在页面。

（2）写在js中。

（3）请求参数是在之前的一条ajax请求的数据里面提前获取好的。

代理形象的说，他是网络信息中转站。

实际上就是在本机和服务器之间架了一座桥。

a、突破自身ip访问现实，可以访问一些平时访问不到网站。

b、访问一些单位或者团体的资源。

c、提高访问速度。代理的服务器主要作用就是中转，

所以一般代理服务里面都是用内存来进行数据存储的。

d、隐藏ip。

ftp 代理服务器---21,2121

HTTP代理服务器---80,8080

SSL/TLS代理：主要用访问加密网站。端口：443

telnet代理：主要用telnet远程控制，端口一般为23

高度匿名代理：数据包会原封不动转化，在服务段看来，就好像一个普通用户在访问，做到完全隐藏ip。

普通匿名代理：数据包会做一些改动，服务器有可能找到原ip。

透明代理：不但改动数据，还会告诉服务，是谁访问的。

间谍代理：指组织或者个人用于记录用户传输数据，然后进行研究，监控等目的的代理。

proxies = {

'代理服务器的类型':'代理ip'

}

response = requests.get(proxies = proxies)

代理服务器的类型:http,https,ftp

代理ip:http://ip:port

㈣如何用python requests post一段字符串

一个http请求包括三个部分，为别为请求行，请求报头，消息主体，类似以下这样：

请求行
请求报头
消息主体

HTTP协议规定post提交的数据必须放在消息主体中，但是协议并没有规定必须使用什么编码方式。服务端通过是根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码，再对消息主体进行解析。具体的编码方式包括：

application/x-www-form-urlencoded
最常见post提交数据的方式，以form表单形式提交数据。
application/json
以json串提交数据。
multipart/form-data
一般使用来上传文件。

2.7.1 以form形式发送post请求

Reqeusts支持以form表单形式发送post请求，只需要将请求的参数构造成一个字典，然后传给requests.post()的data参数即可。

url = 'htt.org/post'd = {'key1': 'value1', 'key2': 'value2'}

r = requests.post(url, data=d)

print r.text12341234

输出：

{
“args”: {},
“data”: “”,
“files”: {},
“form”: {
“key1”: “value1”,
“key2”: “value2”
},
“headers”: {
……
“Content-Type”: “application/x-www-form-urlencoded”,
……
},
“json”: null,
……
}

可以看到，请求头中的Content-Type字段已设置为application/x-www-form-urlencoded，且d = {'key1': 'value1', 'key2': 'value2'}以form表单的形式提交到服务端，服务端返回的form字段即是提交的数据。

2.7.2 以json形式发送post请求

可以将一json串传给requests.post()的data参数，

url = 'httin.org/post's = json.mps({'key1': 'value1', 'key2': 'value2'})

r = requests.post(url, data=s)

print r.text12341234

输出：

{
“args”: {},
“data”: “{”key2”: ”value2”, ”key1”: ”value1”}”,
“files”: {},
“form”: {},
“headers”: {
……
“Content-Type”: “application/json”,
……
},
“json”: {
“key1”: “value1”,
“key2”: “value2”
},
……
}

可以看到，请求头的Content-Type设置为application/json，并将s这个json串提交到服务端中。

2.7.3 以multipart形式发送post请求

Requests也支持以multipart形式发送post请求，只需将一文件传给requests.post()的files参数即可。

url = 'htt.org/post'files = {'file': open('report.txt', 'rb')}

r = requests.post(url, files=files)

print r.text12341234

输出：

{
“args”: {},
“data”: “”,
“files”: {
“file”: “Hello world!”
},
“form”: {},
“headers”: {……
“Content-Type”: “multipart/form-data; boundary=”,
……
},
“json”: null,
……
}

文本文件report.txt的内容只有一行：Hello world!，从请求的响应结果可以看到数据已上传到服务端中。

㈤ python3 requests的post请求参数包含中文报错

问题指明：post请求中文，无法进行编码，需要对参数进行“utf-8”的编码

尝试：按报错进行解决：

出现问题： 返回的response的中文数据为乱码 ：

相当乱码的话，应该是编码不匹配的问题，尝试解决：

结果这乱码更加摸不着头脑了：

这个问题，一直弄了我一个晚上，太困睡觉，起床后，直到这篇解决我的问题： python 设置requests 编码，完美解决中文乱码问题：

这个请求头直接印象下面乱码：

解决分析参考：从python爬虫引发出的gzip,deflate,sdch,br压缩算法分析

就因为这个，让我弄了一晚，得到的经验是： 在测试bug的时候，尽量减少变量，能不要的，就不要 。

㈥ python里面request怎么读取html代码

使用Python 3的requests模块抓取网页源码并保存到文件示例：

import requests

ff = open('testt.txt','w',encoding='utf-8')

with open('test.txt',encoding="utf-8") as f:

for line in f:

ff.write(line)

ff.close()

这是演示读取一个txt文件，每次读取一行，并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据，中文会出现编码错误，所以每次读取一行并保存到另一个文件，这样来测试读取是否正常。（注意open的时候制定encoding编码方式）

㈦ Python的requests包在抓取页面的时候页面源代码抓取不完全，页面数据不是动态加载的。

您好，首先，sys.setdefaultencoding is evil。
其次，不会用 Requests 就去看文档，不要乱来。
如果 Requests 检测不到正确的编码，那么你告诉它正确的是什么：
response.encoding = 'gbk'
print response.text
原始内容在 response.content 里，bytes，自己想怎么处理就怎么处理。

单个请求完全没必要用 Session。直接 requests.get(xxx) 就可以了。
最后，弄不明白怎么处理编码错误的字符串就仔细想想，或者用 Python 3.x，不要散弹枪编程。
以下是 Python 3。Python 2 在那个字符串前加个 u 告诉它是 unicode 也一样。

阅读全文

热点内容

更相见算法发布：2025-03-10 23:24:59 浏览：292

算法门发布：2025-03-10 22:59:58 浏览：178

linux更改用户目录发布：2025-03-10 22:57:38 浏览：190

999元手机推荐128存储发布：2025-03-10 22:53:07 浏览：979

linuxfor多个变量发布：2025-03-10 22:52:26 浏览：475

五级三晋制工资算法发布：2025-03-10 22:50:57 浏览：947

如何配置交换机的上行口发布：2025-03-10 22:44:14 浏览：792

依维柯配置怎么看发布：2025-03-10 22:40:59 浏览：676

php与mysql安装发布：2025-03-10 22:35:58 浏览：656

视频软件自动上传发布：2025-03-10 22:34:13 浏览：1002

pythonrequests编码

与pythonrequests编码相关的资讯