当前位置:首页 » 编程语言 » pythonrequests编码

pythonrequests编码

发布时间: 2023-09-13 20:49:39

python requests 常用方法

requests 继承了urllib2的所有特性,比urllib简洁高效
requests所有功能都能通过"requests/api.py"中的方法访问

1、安装:
pip install requests

2、get请求:
封装链接中的参数,请求时用params参数进行传递
url = " http://www..com "
resp = requests.get(url,params=,headers=)

3、post请求:
发送的数据必须放在字典中,通过data参数进行传递
url = " http://www..com "
resp = requests.post(url,data=,headers=)

4、查看响应内容:
print (resp.text ) # resp.text 返回的是Unicode格式的数据
print(resp.json()) # res.json() 返回的是json格式的数据
print(resp.content) # resp.content返回的字节类型数据
print (resp.url) # 查看完整url地址
print (resp.encoding) # 查看响应头部字符编码
print(resp.status_code) # 查看响应码
print(resp.cookies) # 查看返回的cookies
print(resp.r.elapsed) #响应速度,从发送请求到响应到达所需要的时间

5、Cookies
import requests
url = " http://www..com "
resp = requests.get(url)
cookiejar = resp.cookies # 返回cookies对象
cookiedic = requests.utils.dict_from_cookiejar(cookiejar) # 将cookies转为字典

6、Sission
说明
1、发送请求前先创建一个session会话,将请求到的cookies存入session中
2、程序的请求要一直使用session.get/post,以保证cookies在程序中的传递
3、程序的请求如果使用requests.get/post需要在参数中增加headers{"cookie:":"****"},否则请求会报错,因为requests.get/post每次执行都会重新开启一个新的请求,丢失已获取的cookies
例子:登录17小说网拿到书架数据
import requests
session = requests.session() # 创建会话(session),将cookie存入session中
data = {
"loginName": "1 7",
"password": "1
5"
}
url = " https://passport.17k.com/ck/user/login "
resp1 = session.post(url,data=data) # 登录,获取cookies

resp2 = session.get(" https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919 ")
print(resp2.json())

7、防盗链处理
防盗链,本质上是溯源,即本次请求的上一次请求,请求时将referer地址加上即可
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36",
"Referer":" https://www.pearvideo.com/video_1734919 " # 防盗链:溯源,确认当前请求的上一级
}

㈡ 请教python 采 集 requests post请求一个第三方接口中文乱码的问题

你需要写这行代码,有可能是你编码格式设置错了;

在请求的下面加这行代码

rsp = requests.get(url,headers = headers)

rsp.encoding = rsp.apparent_encoding

它会自动匹配文档中的编码格式,如果还不行你再追问。

㈢ Python爬虫笔记(二)requests模块get,post,代理

  import requests

  base_url = 'https://www..com'

  response = requests.get(base_url)

        url=请求url,

        headers =请求头字典,

        params = 请求参数字典。

        timeout = 超时时长,

    )---->response对象

  服务器响应包含:状态行(协议,状态码)、响应头,空行,响应正文

    字符串格式:response.text

    bytes类型:response.content

        response.headers['cookie']

    response.text获取到的字符串类型的响应正文,

    其实是通过下面的步骤获取的:

        response.text = response.content.decode(response.encoding)

    产生的原因:编码和解码的编码格式不一致造成的。

        str.encode('编码')---将字符串按指定编码解码成bytes类型

        bytes.decode('编码')---将bytes类型按指定编码编码成字符串。

    a、response.content.decode('页面正确的编码格式')

        <meta http-equiv="content-type" content="text/html;charset=utf-8">

    b、找到正确的编码,设置到response.encoding中

        response.encoding = 正确的编码

        response.text--->正确的页面内容。

  a、没有请求参数的情况下,只需要确定url和headers字典。

  b、get请求是有请求参数。

    在chrome浏览器中,下面找query_string_params,

    将里面的参数封装到params字典中。

  c、分页主要是查看每页中,请求参数页码字段的变化,

  找到变化规律,用for循环就可以做到分页。

  requests.post(

    url=请求url,

    headers = 请求头字典,

    data=请求数据字典

    timeout=超时时长

  )---response对象

  post请求一般返回数据都是json数据。

(1)response.json()--->json字符串所对应的python的list或者dict

(2)用 json 模块。

    json.loads(json_str)---->json_data(python的list或者dict)

    json.mps(json_data)--->json_str

  post请求能否成功,关键看**请求参数**。

  如何查找是哪个请求参数在影响数据获取?

  --->通过对比,找到变化的参数。

  变化参数如何找到参数的生成方式,就是解决这个ajax请求数据获取的途径。

**寻找的办法**有以下几种:

    (1)写死在页面。

    (2)写在js中。

    (3)请求参数是在之前的一条ajax请求的数据里面提前获取好的。

  代理形象的说,他是网络信息中转站。

  实际上就是在本机和服务器之间架了一座桥。

  a、突破自身ip访问现实,可以访问一些平时访问不到网站。

  b、访问一些单位或者团体的资源。

  c、提高访问速度。代理的服务器主要作用就是中转,

  所以一般代理服务里面都是用内存来进行数据存储的。

  d、隐藏ip。

    ftp代理服务器---21,2121

    HTTP代理服务器---80,8080

    SSL/TLS代理:主要用访问加密网站。端口:443

    telnet代理 :主要用telnet远程控制,端口一般为23

    高度匿名代理:数据包会原封不动转化,在服务段看来,就好像一个普通用户在访问,做到完全隐藏ip。

    普通匿名代理:数据包会做一些改动,服务器有可能找到原ip。

    透明代理:不但改动数据,还会告诉服务,是谁访问的。

    间谍代理:指组织或者个人用于记录用户传输数据,然后进行研究,监控等目的的代理。   

  proxies = {

    '代理服务器的类型':'代理ip'

  }

  response = requests.get(proxies = proxies)

  代理服务器的类型:http,https,ftp

  代理ip:http://ip:port

㈣ 如何用python requests post一段字符串

一个http请求包括三个部分,为别为请求行,请求报头,消息主体,类似以下这样:

请求行
请求报头
消息主体

HTTP协议规定post提交的数据必须放在消息主体中,但是协议并没有规定必须使用什么编码方式。服务端通过是根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析。具体的编码方式包括:

  • application/x-www-form-urlencoded
    最常见post提交数据的方式,以form表单形式提交数据。

  • application/json
    以json串提交数据。

  • multipart/form-data
    一般使用来上传文件。

  • 2.7.1 以form形式发送post请求

    Reqeusts支持以form表单形式发送post请求,只需要将请求的参数构造成一个字典,然后传给requests.post()的data参数即可。

  • url = 'htt.org/post'd = {'key1': 'value1', 'key2': 'value2'}

  • r = requests.post(url, data=d)

  • print r.text12341234

  • 输出:

    {
    “args”: {},
    “data”: “”,
    “files”: {},
    “form”: {
    “key1”: “value1”,
    “key2”: “value2”
    },
    “headers”: {
    ……
    “Content-Type”: “application/x-www-form-urlencoded”,
    ……
    },
    “json”: null,
    ……
    }

    可以看到,请求头中的Content-Type字段已设置为application/x-www-form-urlencoded,且d = {'key1': 'value1', 'key2': 'value2'}以form表单的形式提交到服务端,服务端返回的form字段即是提交的数据。

    2.7.2 以json形式发送post请求

    可以将一json串传给requests.post()的data参数,

  • url = 'httin.org/post's = json.mps({'key1': 'value1', 'key2': 'value2'})

  • r = requests.post(url, data=s)

  • print r.text12341234

  • 输出:

    {
    “args”: {},
    “data”: “{”key2”: ”value2”, ”key1”: ”value1”}”,
    “files”: {},
    “form”: {},
    “headers”: {
    ……
    “Content-Type”: “application/json”,
    ……
    },
    “json”: {
    “key1”: “value1”,
    “key2”: “value2”
    },
    ……
    }

    可以看到,请求头的Content-Type设置为application/json,并将s这个json串提交到服务端中。

    2.7.3 以multipart形式发送post请求

    Requests也支持以multipart形式发送post请求,只需将一文件传给requests.post()的files参数即可。

  • url = 'htt.org/post'files = {'file': open('report.txt', 'rb')}

  • r = requests.post(url, files=files)

  • print r.text12341234

  • 输出:

    {
    “args”: {},
    “data”: “”,
    “files”: {
    “file”: “Hello world!”
    },
    “form”: {},
    “headers”: {……
    “Content-Type”: “multipart/form-data; boundary=”,
    ……
    },
    “json”: null,
    ……
    }

    文本文件report.txt的内容只有一行:Hello world!,从请求的响应结果可以看到数据已上传到服务端中。

㈤ python3 requests的post请求参数包含中文报错

问题指明:post请求中文,无法进行编码,需要对参数进行“utf-8”的编码

尝试:按报错进行解决:

出现问题: 返回的response的中文数据为乱码

相当乱码的话,应该是编码不匹配的问题,尝试解决:

结果这乱码更加摸不着头脑了:

这个问题,一直弄了我一个晚上,太困睡觉,起床后,直到这篇解决我的问题: python 设置requests 编码,完美解决中文乱码问题 :

这个请求头直接印象下面乱码:

解决分析参考: 从python爬虫引发出的gzip,deflate,sdch,br压缩算法分析

就因为这个,让我弄了一晚,得到的经验是: 在测试bug的时候,尽量减少变量,能不要的,就不要

㈥ python里面request怎么读取html代码

使用Python 3的requests模块抓取网页源码并保存到文件示例:

import requests

ff = open('testt.txt','w',encoding='utf-8')

with open('test.txt',encoding="utf-8") as f:

for line in f:

ff.write(line)

ff.close()


这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

㈦ Python的requests包在抓取页面的时候页面源代码抓取不完全,页面数据不是动态加载的。

您好,首先,sys.setdefaultencoding is evil。
其次,不会用 Requests 就去看文档,不要乱来。
如果 Requests 检测不到正确的编码,那么你告诉它正确的是什么:
response.encoding = 'gbk'
print response.text
原始内容在 response.content 里,bytes,自己想怎么处理就怎么处理。

单个请求完全没必要用 Session。直接 requests.get(xxx) 就可以了。
最后,弄不明白怎么处理编码错误的字符串就仔细想想,或者用 Python 3.x,不要散弹枪编程
以下是 Python 3。Python 2 在那个字符串前加个 u 告诉它是 unicode 也一样。

热点内容
滑板鞋脚本视频 发布:2025-02-02 09:48:54 浏览:432
群晖怎么玩安卓模拟器 发布:2025-02-02 09:45:23 浏览:557
三星安卓12彩蛋怎么玩 发布:2025-02-02 09:44:39 浏览:743
电脑显示连接服务器错误 发布:2025-02-02 09:24:10 浏览:537
瑞芯微开发板编译 发布:2025-02-02 09:22:54 浏览:146
linux虚拟机用gcc编译时显示错误 发布:2025-02-02 09:14:01 浏览:233
java驼峰 发布:2025-02-02 09:13:26 浏览:651
魔兽脚本怎么用 发布:2025-02-02 09:10:28 浏览:532
linuxadobe 发布:2025-02-02 09:09:43 浏览:212
sql2000数据库连接 发布:2025-02-02 09:09:43 浏览:726