pythonrequests登陸
1. python怎麼獲取需要登陸的介面的數據
使用Python做爬蟲是很廣泛的應用場景,那就涉及到了Python是如何獲取介面數據的呢?Python擁有很多很強大的類庫,使用urllib即可輕松獲取介面返回的數據。
...展開
工具原料Python開發工具url介面,用於請求獲取數據
方法/步驟分步閱讀
1
/4
首先新建一個py文件,導入所需的類庫,urllib,json等。
2
/4
聲明api的url地址,和構造請求頭。
3
/4
使用urlopen方法發起請求並獲取返回的數據。
4
/4
最後就是對返回字元串的處理了。比如字元串的截取,字元串的轉換成json對象,轉換成欄位,再獲取對應key的值。
使用Python3實現HTTP get方法。使用聚合數據的應用編程介面,你可以調用小發貓AI寫作API。這是一個免費的應用程序介面,先上代碼,詳細說明寫在後面:
1
2
3
4
5
6
7
8
9
10
11
12
import requests
import time
import re
se = requests.session()
if __name__ == '__main__':
Post_url = "http://api-ok.xiaofamao.com/api.php?json=0&v=1&key=xxxxxx" #自己想辦法弄到key
Post_data = {
'wenzhang': '床前明月光,疑是地上霜。'
}
Text = se.post(Post_url, data=Post_data).text.replace("'", '"').replace('/ ', '/')
print(Text)
首先,什麼是原料葯?應用編程介面的全稱也稱為應用編程介面。它簡稱為應用編程介面。當我第一次接觸介面調用時,我不知道寫什麼,因為我看了整個項目。這個項目是由龍卷風寫的。看了半天龍卷風後,我發現我走錯了方向。我只是直接看著界面,因為沒有人告訴我項目的整個過程。我不得不強迫自己去看它。我所要做的就是找到程序的主入口,然後根據函數一步一步地調用它。
當我編寫介面時,因為我必須配合後台編寫和瀏覽器訪問,每次訪問只需要傳入相應的參數來調用相應的介面。界面可以由他人編寫,也可以由合作公司提供。當然,合作公司提供的不是免費的。現在基本上,如果我不訪問它一次,它只收費幾美分。當你聽到這些,不要低估這幾分。有時候如果你打了幾百萬次電話,會花很多錢。有些人認為,我們不能按月付款嗎?對不起,我不知道。總之,我們一個接一個地計算,因為第一次,我認為我買的那些直接買了我們想要的所有數據,把它們保存在本地資料庫中,當我使用它們時,直接從我自己的資料庫中轉移它們。後來,我發現我想得太多了,偽原創API。
該介面調用由python的請求庫訪問,它基本上是一個get或post請求。有些介面是加密的,然後我們必須用另一方提供給我們的公鑰加密或解密,然後用相應的參數訪問。我們想要的數據基本上是在請求後返回的結果中以json格式解析的。因此,在請求之後,我們可以用請求提供的json函數來解析它,然後提取數據以一次訪問一個數據。
沒錯,介面調用就是這么簡單,但是有了後台編寫,我才發現請求庫現在有多強大,只要它是http或https,我很高興我在一周內讀完了請求和bs4,我真的不打電話給爬蟲工程師,如果我是爬蟲的時候不學習請求,你能用scrapy寫4=dead來寫它嗎?Urllib的單詞基本上被刪除了。如果你有要求,為什麼要用這個?
2. python 使用requests模塊, 如何模擬進行登錄並執行之後的操作
以下實例是一個完整的代碼,實現了從博客獲取內容發布至網路,分別實踐抓取博客內容、模擬登錄、表單提交這幾步;
#注意,以下程序是一個完全程序,如果只需要實現模擬登錄,提交表單,刪除抓取部分即可,相關的代碼已經清楚標注,可以根據自己實際情況修改。
代碼如下:
# -*- coding: utf-8 -*-
import re
import urllib
import urllib2
import cookielib
#第一步,獲取博客標題和正文 ,「IP」可以改為實際地址;
url = "IP"
sock = urllib.urlopen(url)
html = sock.read()
sock.close()
content = re.findall('(?<=blogstory">).*(?=<p class="right artical)', html, re.S)
content = re.findall('<script.*>.*</script>(.*)', content[0], re.S)
title = re.findall('(?<=<title>)(.*)-.* - CSDN.*(?=</title>)', html, re.S)
#根據文章獲取內容新建表單值
blog = {'spBlogTitle': title[0].decode('utf-8').encode('gbk'), #文章標題
'spBlogText': content[0].decode('utf-8').encode('gbk'),#文章內容
'ct': "1",
'cm': "1"}
del content
del title
#第二步,模擬登錄網路;
cj = cookielib.CookieJar()
#登陸網路的用戶名和密碼
post_data = urllib.urlencode({'username': '[username]', 'password': '[password]', 'pwd': '1'})
#登錄地址路徑
path = 'https://passport..com/?login'
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent', 'Opera/9.23')]
urllib2.install_opener(opener)
req = urllib2.Request(path, post_data)
conn = urllib2.urlopen(req)
#獲取網路登陸認證令牌
bd = urllib2.urlopen(urllib2.Request('http://hi..com/[username]/creat/blog')).read()
bd = re.findall('(?<=bdstoken\" value=\").*(?=ct)', bd, re.S)
blog['bdstoken'] = bd[0][:32]
#設置分類名
blog['spBlogCatName'] = 'php'
#第四步,比較表單,提交表單;req2 = urllib2.Request('http://hi..com/[username]/commit', urllib.urlencode(blog))
#最後,查看錶單提交後返回內容,檢驗;
print urllib2.urlopen(req2).read()
#注意:將[username]/[password]替換為自己真實用戶名和密碼
3. python2 能使用requests嗎
由於公司要用到模擬用戶登錄,於是用學校圖書館讀者登錄來進行練習。
工具是python2 + requests第三方庫+火狐瀏覽器的firebug進行http抓包
目標 用python成功登錄學校圖書館
接下來幾篇會利用urllib和urllib2標准庫進行登錄
以下為具體步驟:
1 打開學校圖書館網址,以下為登錄界面
綜合以上分析,利用requests庫進行模擬用戶登錄。這里的post參數採用了之前圖片的源碼形式,使得參數順序匹配
import requests
url = "http://210.32.205.60/login.aspx"
# 學校圖書館登錄url
header = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Connection":"keep-alive",
"Content-Type":"application/x-www-form-urlencoded",
"Host":"210.32.205.60",
"Referer": "http://210.32.205.60/login.aspx",
"Upgrade-Insecure-Requests":"1",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; rv:54.0) Gecko/20100101 Firefox/54.0"
}
body = b'__VIEWSTATE=%uMtIIHXEj%&__VIEWSTATEGENERATOR=C2EE9ABB&__EVENTVALIDATION=%2FwEdAAbAeS%2BByzNg%%2FzVFQdp1z%2BnYWZ%%2BIuKmLNV%%3D%3D&DropDownList1=0&TextBox1=讀者號&TextBox2=密碼&ImageButton1.x=44&ImageButton1.y=12'r = requests.post(url, data=body, headers=header)
print r.text
以上為一次提交,沒有進行重定向截取。
如果想用reque庫截取重定向,在這個圖書館登錄中則需要進行兩次操作,這里相當於只做了post請求,頭部,post參數都不變,只不過在requests.post()內設置了參數
r = requests.post(url, data=body, headers=header, allow_redirects=False)
# 設置 allow_redirects=False 使得禁止重定向
aspid = r.headers["Set-Cookie"] # 返回頁面的頭部的cookie
print r.status_code # 輸出302
如果再想登陸圖書館頁面,那麼需要將cookie重新加入新的url上,進行get請求的提交,此時url為/Default.aspx.
url ="http://210.32.205.60/Default.aspx"
header = {
"Accept": "image/jpeg, application/x-ms-application, image/gif, application/xaml+xml, image/pjpeg, application/x-ms-xbap, */*",
"Referer": "http://210.32.205.60/login.aspx",
"Accept-Language": "zh-CN",
"User-Agent": "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0)",
"Accept-Encoding": "gzip, deflate",
"Host": "210.32.205.60",
"Connection": "Keep-Alive",
"Pragma": "no-cache",
"Cookie": aspid
}
r = requests.get(url=url,headers=header)
print r.status_code
print r.text
接下來的幾篇是利用python2的urllib2和urllib進行相同的模擬用戶登錄。
ps 由於urllib2處理重定向的時候不會將cookie帶上,會導致頁面不能正確爬取,所以要處理重定向。解決urllib重定向文章在此,分別介紹了urllib2自動處理重定向(帶上cookie),和urllib2阻止重定向,返回cookie。
利用urllib2進行自動處理重定向,模擬瀏覽器提交post一次,就可以登錄圖書館的文章在這。
利用urllib2處理重定向,使得重定向截斷,獲取cookie,根據cookie用代碼實現重定向,登錄圖書館的文章在此。
4. python requests延遲
importrequestss=requests.session()data={'email':'用戶名','password':'密碼'}s.post(',data)r=s.get(")printr.text#列印登陸成功後的首頁編輯器把url格式給改了再出一個和諧版把和諧倆字去掉就可以了importrequestss=requests.session()data={'email':'用戶名','password':'密碼'}s.post('http和諧://和諧/PLogin.do',data)r=s.get("和諧http和諧://")printr.text
5. python requests模塊 session保持會話問題
你要先確定那個介面的鑒權方式是否是採用的是cookie,如果是,再用requests.Session(),注意:這個Session()首字母是大寫,不是小寫
如果介面是token的方式,貌似就不能用這個方法了
6. PYTHON3 使用requests模塊來 模擬登錄公司系統,遇到以下問題:
404錯誤是因為登錄用的URL不存在的原因
工號和密碼可以在登錄頁面上查找這兩個值的名稱,然後再以POST方式執行登錄就可以啦。
7. python requests 爬蟲模擬登錄後訪問一些界面還是會重定向到登錄界面
打開瀏覽器的調試模式(F12),點擊鏈接,分析獲取頁面需要帶什麼東西多,要想爬蟲這個還真必須要先學會分析瀏覽器怎麼處理的,給個鏈接我看看
8. python http requests 怎麼實現模擬登錄,提交表單
用ptyhon的requests庫來實現,表單寫成字典格式
payload={'a':'楊','b':'hello'}
r=requests.post(url,data=payload)