拉勾網源碼

發布時間: 2024-12-07 15:01:52

① Python學完之後從事什麼工作比較有發展前途

Python具有簡單、易學、免費、開源、可移植、可擴展、可嵌入、面向對象等優點，它的面向對象甚至比Java和C#.net更徹底。作為一種通用語言，Python幾乎可以用在任何領域和場合，角色幾乎是無限的。

Python學習可以從事的工作：

web開發

豆瓣、知乎、拉勾網等都是用的Python，web開發在國內的發展也是很不錯的

1、web開發的薪資

游戲並不適合用Python開發，Python雖有pygame庫，但是功能不強，游戲運行效率低下，寫游戲還是要靠游戲引擎。

以上的回答希望對你有所幫助

② 學Python能幹什麼

Python可以做什麼？
1）網站後端程序員：使用它單間網站，後台服務比較容易維護。如：Gmail、Youtube、知乎、豆瓣
2）自動化運維：自動化處理大量的運維任務
3）數據分析師：快速開發快速驗證，分析數據得到結果
4）游戲開發者：一般是作為游戲腳本內嵌在游戲中
5）自動化測試：編寫為簡單的實現腳本，運用在Selenium/lr中，實現自動化。
6）網站開發：藉助django,flask框架自己搭建網站。
7）爬蟲獲取或處理大量信息：批量下載美劇、運行投資策略、爬合適房源、系統管理員的腳本任務等。

③ R爬蟲必備基礎—HTTP協議

HTTP協議是Hyper Text Transfer Protocol（超文本傳輸協議）的縮寫,是用於從萬維網（WWW:World Wide Web ）伺服器傳輸超文本到本地瀏覽器的傳送協議。HTTP是一個基於TCP/IP通信協議來傳遞數據（HTML 文件, 圖片文件, 查詢結果等）。

HTTP協議工作於客戶端-服務端架構上。瀏覽器作為HTTP客戶端通過URL向HTTP服務端即WEB伺服器發送所有請求。Web伺服器有：Apache伺服器，IIS伺服器（Internet Information Services）等。Web伺服器根據接收到的請求後，向客戶端發送響應信息。HTTP默認埠號為80，但是你也可以改為8080或者其他埠。

通信流程說明：

①用戶首先通過滑鼠/鍵盤點擊或手動輸入目標鏈接（即URL（Uniform Resource Locators），中文名稱：統一資源定位符），向HTTP客戶端（如常見的瀏覽器）傳達數據查詢需求。
②HTTP客戶端收到需求後，將收到的URL信息向DNS伺服器（域名系統）詢問鏈接對應的具體IP地址，DNS伺服器返回URL對應的IP地址。
③HTTP客戶端再拿著IP地址通過TCP協議（傳輸控制協議，Transmission Control Protocol）和IP協議（Internet Protocol）向HTTP伺服器發出數據請求，等待伺服器響應。
④HTTP伺服器將請求的相關信息返回給HTTP客戶端，由客戶端返回給客戶。
⑤重復上述步驟①~④，直到所有請求執行完畢。

URL格式： 如 scheme://hostname:port/path?querystring#fragment 。一個完整的URL共有6部分構成，但是並不是每個部分都一定要具備。參數解釋如下：

HTTP是基於客戶端/服務端（C/S）的架構模型，通過一個可靠的鏈接來交換信息，是一個無狀態的請求/響應協議。一個HTTP"客戶端"是一個應用程序（Web瀏覽器或其他任何客戶端），通過連接到伺服器達到向伺服器發送一個或多個HTTP的請求的目的。一個HTTP"伺服器"同樣也是一個應用程序（通常是一個Web服務，如Apache Web伺服器或IIS伺服器等），通過接收客戶端的請求並向客戶端發送HTTP響應數據。HTTP使用統一資源標識符（Uniform Resource Identifiers, URI）來傳輸數據和建立連接。一旦建立連接後，數據消息就通過類似Internet郵件所使用的格式[RFC5322]和多用途Internet郵件擴展（MIME）[RFC2045]來傳送。

客戶端發送一個HTTP請求到伺服器的請求消息包括以下格式：請求行（request line）、請求頭部（header）、空行和請求數據四個部分組成，下圖給出了請求報文的一般格式。

如：

HTTP響應也由四個部分組成，分別是：狀態行、消息報頭、空行和響應正文。

如：

根據 HTTP 標准，HTTP 請求可以使用多種請求方法。HTTP1.0 定義了三種請求方法：GET, POST 和 HEAD方法。HTTP1.1 新增了六種請求方法：OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

在請求模式中，最常用的請求方法是GET和POST方法，在爬蟲過程中至關重要。這兩個方法都是從伺服器請求一個資源，但是在正文的使用上有所不同。GET方法是網路請求最通用方法，可理解為直接請求。POST則有所區別，需要提交表單信息才能請求到信息，比如說拉勾網招聘首頁需要用戶輸入地點、薪資范圍等信息才能請求到匹配的網頁界面。

HTTP請求頭提供了關於請求，響應或者其他的發送實體的信息。下面將具體來介紹HTTP響應頭信息。

當瀏覽者訪問一個網頁時，瀏覽者的瀏覽器會向網頁所在伺服器發出請求。當瀏覽器接收並顯示網頁前，此網頁所在的伺服器會返回一個包含HTTP狀態碼的信息頭（server header）用以響應瀏覽器的請求。HTTP狀態碼的英文為HTTP Status Code。下面是常見的HTTP狀態碼：

200 - 請求成功
301 - 資源（網頁等）被永久轉移到其它URL
404 - 請求的資源（網頁等）不存在
500 - 內部伺服器錯誤

HTTP狀態碼由三個十進制數字組成，第一個十進制數字定義了狀態碼的類型，後兩個數字沒有分類的作用。HTTP狀態碼共分為5種類型：

Content-Type（內容類型），一般是指網頁中存在的 Content-Type，用於定義網路文件的類型和網頁的編碼，決定瀏覽器將以什麼形式、什麼編碼讀取這個文件，比如text/html/xml/json/jpg/gif/pdf等。Content-Type 標頭告訴客戶端實際返回的內容的內容類型，如下圖，返回的是html格式文件。

當我們在地址欄輸入 www.sina.com.cn 時，瀏覽器將顯示新浪的首頁。在這個過程中，瀏覽器都幹了哪些事情呢？通過Network的記錄，我們就可以知道。在Network中，定位到第一條記錄，點擊右側Headers，從Request Headers中可以看到瀏覽器發給新浪伺服器的請求：請求網址為 https://www.sina.com.cn/ ，請求方法為GET.

繼續往下找到Response Headers，它顯示伺服器返回的原始響應數據。其中200表示一個成功的響應，後面的OK是說明。失敗的響應有404 Not Found：網頁不存在，500 Internal Server Error：伺服器內部出錯，等等。Content-Type指示響應的內容，這里是text/html表示HTML網頁。請注意，瀏覽器就是依靠Content-Type來判斷響應的內容是網頁還是圖片，是視頻還是音樂。

HTTP響應返回的是HTML源碼，點擊Response，可以看到返回的html網頁源碼。

接著，當瀏覽器讀取到新浪首頁的HTML源碼後，它會解析HTML，顯示頁面，然後，根據HTML裡面的各種鏈接，再發送HTTP請求給新浪伺服器，拿到相應的圖片、視頻、Flash、JavaScript腳本、CSS等各種資源，最終顯示出一個完整的頁面。

參考： https://www.runoob.com/http/http-tutorial.html

更多內容可關注公共號「YJY技能修煉」~~~

往期回顧
R爬蟲在工作中的一點妙用
R爬蟲必備基礎——HTML和CSS初識
R爬蟲必備基礎——靜態網頁+動態網頁
R爬蟲必備——rvest包的使用
R爬蟲必備基礎——CSS+SelectorGadget
R爬蟲必備基礎—Chrome開發者工具(F12)

閱讀全文

熱點內容

tomcat配置ip地址訪問發布：2025-03-10 14:54:54 瀏覽：689

注冊淘寶密碼多少發布：2025-03-10 14:49:03 瀏覽：558

文件上傳設備發布：2025-03-10 14:47:47 瀏覽：498

江西l2tp伺服器託管雲伺服器發布：2025-03-10 14:47:38 瀏覽：885

微信如何給錢包設置手勢密碼發布：2025-03-10 14:46:55 瀏覽：229

江蘇伺服器如何發布：2025-03-10 14:46:17 瀏覽：179

可編程交直流電源發布：2025-03-10 14:40:19 瀏覽：569

c語言編程軟體安裝教程發布：2025-03-10 14:20:01 瀏覽：85

java判斷變數類型發布：2025-03-10 14:19:50 瀏覽：578

讀寫存儲器解釋發布：2025-03-10 14:04:22 瀏覽：93

拉勾網源碼

與拉勾網源碼相關的資訊