aiohttppython

發布時間: 2023-12-10 05:14:54

A. python爬蟲用什麼庫

以下是爬蟲經常用到的庫

請求庫

1. requests

requests庫應該是現在做爬蟲最火最實用的庫了，非常的人性化。有關於它的使用我之前也寫過一篇文章一起看看Python之Requests庫，大家可以去看一下。

2.urllib3

urllib3是一個非常強大的http請求庫，提供一系列的操作URL的功能。

3.selenium

自動化測試工具。一個調用瀏覽器的 driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。

對於這個庫並非只是Python才能用，像java、Python、C#等都能夠使用selenium這個庫

4.aiohttp

基於 asyncio 實現的 HTTP 框架。非同步操作藉助於 async/await 關鍵字，使用非同步庫進行數據抓取，可以大大提高效率。

這個屬於進階爬蟲時候必須掌握的非同步庫。有關於aiohttp的詳細操作，可以去官方文檔：https://aiohttp.readthedocs.io/en/stable/

Python學習網- 專業的python自學、交流公益平台！

解析庫

1、beautifulsoup

html 和 XML 的解析,從網頁中提取信息，同時擁有強大的API和多樣解析方式。一個我經常使用的解析庫，對於html的解析是非常的好用。對於寫爬蟲的人來說這也是必須掌握的庫。

2、lxml

支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。

3、pyquery

jQuery 的 Python 實現，能夠以 jQuery 的語法來操作解析 HTML 文檔，易用性和解析速度都很好。

數據存儲

1、pymysql

官方文檔：https://pymysql.readthedocs.io/en/latest/

一個純 Python 實現的 MySQL 客戶端操作庫。非常的實用、非常的簡單。

2、pymongo

官方文檔：https://api.mongodb.com/python/

顧名思義，一個用於直接連接 mongodb 資料庫進行查詢操作的庫。

3、redismp

redis-mp是將redis和json互轉的工具；redis-mp是基於ruby開發，需要ruby環境，而且新版本的redis-mp要求2.2.2以上的ruby版本，centos中yum只能安裝2.0版本的ruby。需要先安裝ruby的管理工具rvm安裝高版本的ruby。

B. python非同步中aiohttp獲取不到正確的Set-cookies值

python非同步中aiohttp獲取不到正確的Set-cookies值

這幾天學習了python的非同步請求，想修改之前寫的代碼提高請求效率，但遇到一個包含set-cookie返回的請求無法獲取正確的cookie值

原程序關鍵代碼（單線程）（重點看print()輸出內容）：

def enter_study(num, course): # 進入每個課群的每個課程記錄每個章節url
global lesson_url # 章節
header['Referer'] = re.search(r'http.*?course', qun_course_url[num][course]).group() + 's'
print(session.cookies) # 列印當前網站的cookies
print(' ')
while True:
try:
request = session.get(qun_course_url[num][course], headers=header, timeout=3) # 進入課程
print(request.cookies)
print(session.cookies) # 列印當前網站的cookies
input()
break
except Exception as e:
print('進入課程學習重試中。。。')
continue
update_time(1)
update_time(2)
temp_list = []
for x in re.findall(r'/courses/YOOCS*/">', request.text):
temp_list.append('https://xueyuan.yooc.me' + x[:-2]) # 該課程有多少章節
lesson_url[num][course] = temp_

運行結果(cookies中間空白處因為涉及用戶信息所以屏蔽了)：

修改後的出現問題的代碼（非同步）（重點看print()輸出內容）：

async def enter_study(num, course, header): # 進入每個課群的每個課程記錄每個章節url
async with aiohttp.ClientSession(cookies=cookie) as session:
header['Referer'] = re.search(r'http.*?course', qun_data[num][2][course]).group() + 's'
#列印請求前的cookie記錄
print(session.cookie_jar.filter_cookies())
async with session.get(qun_data[num][2][course], headers=header) as html: # 進入課程
update_time(1)
update_time(2)
print(' ')
print(html.cookies)#列印Set-cookie信息
print()
#列印請求後的cookie記錄
print(print(session.cookie_jar.filter_cookies()))
if str(html.cookies).find('Set-Cookie') > -1:
save_cookie_record['Set-Cookie'] = html.cookies
rep_text = await html.text(encoding='utf-8')
temp_list = []
for x in re.findall(r'/courses/YOOCS*/">', rep_text):
temp_list.append('https://xueyuan.yooc.me' + x[:-2]) # 該課程有多少章節
qun_data[num][2][course] = temp_

運行結果（請求後返回的set-cookies信息沒有更新）：
該程序是用一個cookie字典來保存cookie值的，需要通過請求後的set-cookie值來更新我的cookie字典，為什麼用在非同步請求上卻不行呢？

C. python爬蟲需要安裝哪些庫

一、請求庫

1. requests
requests 類庫是第三方庫，比 Python 自帶的 urllib 類庫使用方便和

2. selenium
利用它執行瀏覽器動作，模擬操作。
3. chromedriver
安裝chromedriver來驅動chrome。

4. aiohttp
aiohttp是非同步請求庫，抓取數據時可以提升效率。

二、解析庫
1. lxml
lxml是Python的一個解析庫，支持解析HTML和XML，支持XPath的解析方式，而且解析效率非常高。
2. beautifulsoup4
Beautiful Soup可以使用它更方便的從 HTML 文檔中提取數據。

3. pyquery
pyquery是一個網頁解析庫，採用類似jquery的語法來解析HTML文檔。
三、存儲庫
1. mysql
2. mongodb
3. redis
四、爬蟲框架scrapy
Scrapy 是一套非同步處理框架，純python實現的爬蟲框架，用來抓取網頁內容以及各種圖片
需要先安裝scrapy基本依賴庫，比如lxml、pyOpenSSL、Twisted

D. 「2022 年」崔慶才 Python3 爬蟲教程 - 代理的使用方法

前面我們介紹了多種請求庫，如 urllib、requests、Selenium、Playwright 等用法，但是沒有統一梳理代理的設置方法，本節我們來針對這些庫來梳理下代理的設置方法。

在本節開始之前，請先根據上一節了解一下代理的基本原理，了解了基本原理之後我們可以更好地理解和學習本節的內容。

另外我們需要先獲取一個可用代理，代理就是 IP 地址和埠的組合，就是 : 這樣的格式。如果代理需要訪問認證，那就還需要額外的用戶名密碼兩個信息。

那怎麼獲取一個可用代理呢？

使用搜索引擎搜索「代理」關鍵字，可以看到許多代理服務網站，網站上會有很多免費或付費代理，比如快代理的免費 HTTP 代理：https://www.kuaidaili.com/free/ 上面就寫了很多免費代理，但是這些免費代理大多數情況下並不一定穩定，所以比較靠譜的方法是購買付費代理。付費代理的各大代理商家都有套餐，數量不用多，穩定可用即可，我們可以自行選購。

另外除了購買付費 HTTP 代理，我們也可以在本機配置一些代理軟體，具體的配置方法可以參考 https://setup.scrape.center/proxy-client，軟體運行之後會在本機創建 HTTP 或 SOCKS 代理服務，所以代理地址一般都是 127.0.0.1: 這樣的格式，不同的軟體用的埠可能不同。

這里我的本機安裝了一部代理軟體，它會在本地 7890 埠上創建 HTTP 代理服務，即代理為 127.0.0.1:7890。另外，該軟體還會在 7891 埠上創建 SOCKS 代理服務，即代理為 127.0.0.1:7891，所以只要設置了這個代理，就可以成功將本機 IP 切換到代理軟體連接的伺服器的 IP 了。

在本章下面的示例里，我使用上述代理來演示其設置方法，你也可以自行替換成自己的可用代理。

設置代理後，測試的網址是 http://httpbin.org/get，訪問該鏈接我們可以得到請求的相關信息，其中返回結果的 origin 欄位就是客戶端的 IP，我們可以根據它來判斷代理是否設置成功，即是否成功偽裝了 IP。

好，接下來我們就來看下各個請求庫的代理設置方法吧。

首先我們以最基礎的 urllib 為例，來看一下代理的設置方法，代碼如下：

運行結果如下：

這里我們需要藉助 ProxyHandler 設置代理，參數是字典類型，鍵名為協議類型，鍵值是代理。注意，此處代理前面需要加上協議，即 http:// 或者 https://，當請求的鏈接是 HTTP 協議的時候，會使用 http 鍵名對應的代理，當請求的鏈接是 HTTPS 協議的時候，會使用 https 鍵名對應的代理。不過這里我們把代理本身設置為了 HTTP 協議，即前綴統一設置為了 http://，所以不論訪問 HTTP 還是 HTTPS 協議的鏈接，都會使用我們配置的 HTTP 協議的代理進行請求。

創建完 ProxyHandler 對象之後，我們需要利用 build_opener 方法傳入該對象來創建一個 Opener，這樣就相當於此 Opener 已經設置好代理了。接下來直接調用 Opener 對象的 open 方法，即可訪問我們所想要的鏈接。

運行輸出結果是一個 JSON，它有一個欄位 origin，標明了客戶端的 IP。驗證一下，此處的 IP 確實為代理的 IP，並不是真實的 IP。這樣我們就成功設置好代理，並可以隱藏真實 IP 了。

如果遇到需要認證的代理，我們可以用如下的方法設置：

這里改變的只是 proxy 變數，只需要在代理前面加入代理認證的用戶名密碼即可，其中 username 就是用戶名，password 為密碼，例如 username 為 foo，密碼為 bar，那麼代理就是 foo:[email protected]:7890。

如果代理是 SOCKS5 類型，那麼可以用如下方式設置代理：

此處需要一個 socks 模塊，可以通過如下命令安裝：

這里需要本地運行一個 SOCKS5 代理，運行在 7891 埠，運行成功之後和上文 HTTP 代理輸出結果是一樣的：

結果的 origin 欄位同樣為代理的 IP，代理設置成功。

對於 requests 來說，代理設置非常簡單，我們只需要傳入 proxies 參數即可。

這里以我本機的代理為例，來看下 requests 的 HTTP 代理設置，代碼如下：

運行結果如下：

和 urllib 一樣，當請求的鏈接是 HTTP 協議的時候，會使用 http 鍵名對應的代理，當請求的鏈接是 HTTPS 協議的時候，會使用 https 鍵名對應的代理，不過這里統一使用了 HTTP 協議的代理。

運行結果中的 origin 若是代理伺服器的 IP，則證明代理已經設置成功。

如果代理需要認證，那麼在代理的前面加上用戶名和密碼即可，代理的寫法就變成如下所示：

這里只需要將 username 和 password 替換即可。

如果需要使用 SOCKS 代理，則可以使用如下方式來設置：

這里我們需要額外安裝一個包 requests[socks]，相關命令如下所示：

運行結果是完全相同的：

另外，還有一種設置方式，即使用 socks 模塊，也需要像上文一樣安裝 socks 庫。這種設置方法如下所示：

使用這種方法也可以設置 SOCKS 代理，運行結果完全相同。相比第一種方法，此方法是全局設置的。我們可以在不同情況下選用不同的方法。

httpx 的用法本身就與 requests 的使用非常相似，所以其也是通過 proxies 參數來設置代理的，不過與 requests 不同的是，proxies 參數的鍵名不能再是 http 或 https，而需要更改為 http:// 或 https://，其他的設置是一樣的。

對於 HTTP 代理來說，設置方法如下：

對於需要認證的代理，也是改下 proxy 的值即可：

這里只需要將 username 和 password 替換即可。

運行結果和使用 requests 是類似的，結果如下：

對於 SOCKS 代理，我們需要安裝 httpx-socks 庫，安裝方法如下：

這樣會同時安裝同步和非同步兩種模式的支持。

對於同步模式，設置方法如下：

對於非同步模式，設置方法如下：

和同步模式不同的是，transport 對象我們用的是 AsyncProxyTransport 而不是 SyncProxyTransport，同時需要將 Client 對象更改為 AsyncClient 對象，其他的不變，運行結果是一樣的。

Selenium 同樣可以設置代理，這里以 Chrome 為例來介紹其設置方法。

對於無認證的代理，設置方法如下：

運行結果如下：

代理設置成功，origin 同樣為代理 IP 的地址。

如果代理是認證代理，則設置方法相對比較繁瑣，具體如下所示：

這里需要在本地創建一個 manifest.json 配置文件和 background.js 腳本來設置認證代理。運行代碼之後，本地會生成一個 proxy_auth_plugin.zip 文件來保存當前配置。

運行結果和上例一致，origin 同樣為代理 IP。

SOCKS 代理的設置也比較簡單，把對應的協議修改為 socks5 即可，如無密碼認證的代理設置方法為：

運行結果是一樣的。

對於 aiohttp 來說，我們可以通過 proxy 參數直接設置。HTTP 代理設置如下：

如果代理有用戶名和密碼，像 requests 一樣，把 proxy 修改為如下內容：

這里只需要將 username 和 password 替換即可。

對於 SOCKS 代理，我們需要安裝一個支持庫 aiohttp-socks，其安裝命令如下：

我們可以藉助於這個庫的 ProxyConnector 來設置 SOCKS 代理，其代碼如下：

運行結果是一樣的。

另外，這個庫還支持設置 SOCKS4、HTTP 代理以及對應的代理認證，可以參考其官方介紹。

對於 Pyppeteer 來說，由於其默認使用的是類似 Chrome 的 Chromium 瀏覽器，因此其設置方法和 Selenium 的 Chrome 一樣，如 HTTP 無認證代理設置方法都是通過 args 來設置的，實現如下：

運行結果如下：

同樣可以看到設置成功。

SOCKS 代理也一樣，只需要將協議修改為 socks5 即可，代碼實現如下：

運行結果也是一樣的。

相對 Selenium 和 Pyppeteer 來說，Playwright 的代理設置更加方便，其預留了一個 proxy 參數，可以在啟動 Playwright 的時候設置。

對於 HTTP 代理來說，可以這樣設置：

在調用 launch 方法的時候，我們可以傳一個 proxy 參數，是一個字典。字典有一個必填的欄位叫做 server，這里我們可以直接填寫 HTTP 代理的地址即可。

運行結果如下：

對於 SOCKS 代理，設置方法也是完全一樣的，我們只需要把 server 欄位的值換成 SOCKS 代理的地址即可：

運行結果和剛才也是完全一樣的。

對於有用戶名和密碼的代理，Playwright 的設置也非常簡單，我們只需要在 proxy 參數額外設置 username 和 password 欄位即可，假如用戶名和密碼分別是 foo 和 bar，則設置方法如下：

這樣我們就能非常方便地為 Playwright 實現認證代理的設置。

以上我們就總結了各個請求庫的代理使用方式，各種庫的設置方法大同小異，學會了這些方法之後，以後如果遇到封 IP 的問題，我們可以輕鬆通過加代理的方式來解決。

本節代碼：https://github.com/Python3WebSpider/ProxyTest

E. Python什麼爬蟲庫好用

請求庫：
1. requests 這個庫是爬蟲最常用的一個庫
2. Selenium Selenium 是一個自動化測試工具，利用它我們可以驅動瀏覽器執行特定的動作，如點擊、下拉等操作對於一些用JS做誼染的頁面來說，這種抓取方式是非常有效的。
3.ChomeDrive 安裝了這個庫，才能驅動Chrome瀏覽器完成相應的操作
4.GeckoDriver 使用W3C WebDriver兼容客戶端與基於Gecko的瀏覽器進行交互的代理。
5.PhantomJS PhantomJS 是一個無界面、可腳本編程的 WebKit 瀏覽器引擎，它原生支持多種Web標准：Dom操作，css選擇器，json，Canvas以及SVG。
6.aiohttp 之前接收requests庫是一個阻塞式HTTP請求庫，當我們發送一個請求後。程序會一直等待伺服器響應，直到伺服器響應後，程序才會最下一步處理。其實，這個過程比較耗時間。如果程序可以在等待的過程中做一些其他的事情，如進行請求的調度，響應的處理等，那麼爬蟲的效率就會比之前的那種方式有很大的提升。而aiohttp就是這樣一個提供非同步web服務的庫。使用說這個庫用起來還是相當方便的。
解析庫：
1.lxml lxml是python的一個解析庫，這個庫支持HTML和xml的解析，支持XPath的解析方式，而且效率也是非常高的，深受廣大程序員的熱愛
2.Beautiful Soup Beautiful Soup也是python里一個HTML或XMl的解析庫，它可以很方便的懂網頁中提取數據，擁有強大的API和多種解析方式。
3.pyquery 同樣是一個強大的網頁解析工具，它提供了和 jQuery 類似的語法來解析HTML 文梢，

資料庫：
1.mysql 資料庫
2.MongoDB Mo goDB 是由＋＋語言編寫的非關系型資料庫，是一個基於分布式文件存儲的開源資料庫系統內容存儲形式類似 JSON 對象，它的欄位值可以包含其他文檔、數組及文檔數組，非常靈活
3.Redis 是一個基於存的高效的非關系型資料庫，

存儲庫：
1.PyMySOL
2.PyMongo
3.redis-py
4.RedisDump

web庫：
1.Flask 是一個輕量級的Web服務程序，它簡單，易用，靈活
2.Tornado 是一個支持非同步的Web框架，通過使用非阻塞I/O流，可以支持成千上萬的開放式連接。

F. 用python寫爬蟲有哪些框架

以下是搜索來源於網路：
1)Scrapy:很強大的爬蟲框架，可以滿足簡單的頁面爬取（比如可以明確獲知url pattern的情況）。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面，如weibo的頁面信息，這個框架就滿足不了需求了。

2)Crawley: 高速爬取對應網站的內容，支持關系和非關系資料庫，數據可以導出為JSON、XML等

3)Portia:可視化爬取網頁內容

4)newspaper:提取新聞、文章以及內容分析

5)python-goose:java寫的文章提取工具

6)Beautiful Soup:名氣大，整合了一些常用爬蟲需求。缺點：不能載入JS。

7)mechanize:優點：可以載入JS。缺點：文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。

8)selenium:這是一個調用瀏覽器的driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。

9)cola:一個分布式爬蟲框架。項目整體設計有點糟，模塊間耦合度較高。

閱讀全文

熱點內容

平板上的西瓜怎麼離線緩存電視劇發布：2025-02-25 09:19:34 瀏覽：391

pythonaz 發布：2025-02-25 09:13:49 瀏覽：110

戰地游戲如何看伺服器ip 發布：2025-02-25 09:05:43 瀏覽：988

設備用火線和零線規格該如何配置發布：2025-02-25 09:05:04 瀏覽：5

db2資料庫的使用發布：2025-02-25 08:52:05 瀏覽：398

手機截圖保存在哪個文件夾發布：2025-02-25 08:50:22 瀏覽：376

androidsdk如何配置發布：2025-02-25 08:50:20 瀏覽：982

鯉魚編程發布：2025-02-25 08:41:08 瀏覽：512

街籃手游輔助掛機腳本發布：2025-02-25 08:41:06 瀏覽：493

vs運行python 發布：2025-02-25 08:37:55 瀏覽：903

aiohttppython

與aiohttppython相關的資訊