當前位置:首頁 » 操作系統 » 拉勾網源碼

拉勾網源碼

發布時間: 2024-12-07 15:01:52

① Python學完之後從事什麼工作比較有發展前途

Python具有簡單、易學、免費、開源、可移植、可擴展、可嵌入、面向對象等優點,它的面向對象甚至比Java和C#.net更徹底。作為一種通用語言,Python幾乎可以用在任何領域和場合,角色幾乎是無限的。

Python學習可以從事的工作:

web開發

豆瓣、知乎、拉勾網等都是用的Python,web開發在國內的發展也是很不錯的

1、web開發的薪資

游戲並不適合用Python開發,Python雖有pygame庫,但是功能不強,游戲運行效率低下,寫游戲還是要靠游戲引擎。

以上的回答希望對你有所幫助

② 學Python能幹什麼

Python可以做什麼?
1)網站後端程序員:使用它單間網站,後台服務比較容易維護。如:Gmail、Youtube、知乎、豆瓣
2)自動化運維:自動化處理大量的運維任務
3)數據分析師:快速開發快速驗證,分析數據得到結果
4)游戲開發者:一般是作為游戲腳本內嵌在游戲中
5)自動化測試:編寫為簡單的實現腳本,運用在Selenium/lr中,實現自動化。
6)網站開發:藉助django,flask框架自己搭建網站。
7)爬蟲獲取或處理大量信息:批量下載美劇、運行投資策略、爬合適房源、系統管理員的腳本任務等。

③ R爬蟲必備基礎—HTTP協議

HTTP協議是Hyper Text Transfer Protocol(超文本傳輸協議)的縮寫,是用於從萬維網(WWW:World Wide Web )伺服器傳輸超文本到本地瀏覽器的傳送協議。HTTP是一個基於TCP/IP通信協議來傳遞數據(HTML 文件, 圖片文件, 查詢結果等)。

HTTP協議工作於客戶端-服務端架構上。瀏覽器作為HTTP客戶端通過URL向HTTP服務端即WEB伺服器發送所有請求。Web伺服器有:Apache伺服器,IIS伺服器(Internet Information Services)等。Web伺服器根據接收到的請求後,向客戶端發送響應信息。HTTP默認埠號為80,但是你也可以改為8080或者其他埠。

通信流程說明:

①用戶首先通過滑鼠/鍵盤點擊或手動輸入目標鏈接(即URL(Uniform Resource Locators),中文名稱:統一資源定位符),向HTTP客戶端(如常見的瀏覽器)傳達數據查詢需求。
②HTTP客戶端收到需求後,將收到的URL信息向DNS伺服器(域名系統)詢問鏈接對應的具體IP地址,DNS伺服器返回URL對應的IP地址。
③HTTP客戶端再拿著IP地址通過TCP協議(傳輸控制協議,Transmission Control Protocol)和IP協議(Internet Protocol)向HTTP伺服器發出數據請求,等待伺服器響應。
④HTTP伺服器將請求的相關信息返回給HTTP客戶端,由客戶端返回給客戶。
⑤重復上述步驟①~④,直到所有請求執行完畢。

URL格式: 如 scheme://hostname:port/path?querystring#fragment 。一個完整的URL共有6部分構成,但是並不是每個部分都一定要具備。參數解釋如下:

HTTP是基於客戶端/服務端(C/S)的架構模型,通過一個可靠的鏈接來交換信息,是一個無狀態的請求/響應協議。一個HTTP"客戶端"是一個應用程序(Web瀏覽器或其他任何客戶端),通過連接到伺服器達到向伺服器發送一個或多個HTTP的請求的目的。一個HTTP"伺服器"同樣也是一個應用程序(通常是一個Web服務,如Apache Web伺服器或IIS伺服器等),通過接收客戶端的請求並向客戶端發送HTTP響應數據。HTTP使用統一資源標識符(Uniform Resource Identifiers, URI)來傳輸數據和建立連接。一旦建立連接後,數據消息就通過類似Internet郵件所使用的格式[RFC5322]和多用途Internet郵件擴展(MIME)[RFC2045]來傳送。

客戶端發送一個HTTP請求到伺服器的請求消息包括以下格式:請求行(request line)、請求頭部(header)、空行和請求數據四個部分組成,下圖給出了請求報文的一般格式。

如:

HTTP響應也由四個部分組成,分別是:狀態行、消息報頭、空行和響應正文。

如:

根據 HTTP 標准,HTTP 請求可以使用多種請求方法。HTTP1.0 定義了三種請求方法:GET, POST 和 HEAD方法。HTTP1.1 新增了六種請求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

在請求模式中,最常用的請求方法是GET和POST方法,在爬蟲過程中至關重要。這兩個方法都是從伺服器請求一個資源,但是在正文的使用上有所不同。GET方法是網路請求最通用方法,可理解為直接請求。POST則有所區別,需要提交表單信息才能請求到信息,比如說拉勾網招聘首頁需要用戶輸入地點、薪資范圍等信息才能請求到匹配的網頁界面。

HTTP請求頭提供了關於請求,響應或者其他的發送實體的信息。下面將具體來介紹HTTP響應頭信息。

當瀏覽者訪問一個網頁時,瀏覽者的瀏覽器會向網頁所在伺服器發出請求。當瀏覽器接收並顯示網頁前,此網頁所在的伺服器會返回一個包含HTTP狀態碼的信息頭(server header)用以響應瀏覽器的請求。HTTP狀態碼的英文為HTTP Status Code。下面是常見的HTTP狀態碼:

200 - 請求成功
301 - 資源(網頁等)被永久轉移到其它URL
404 - 請求的資源(網頁等)不存在
500 - 內部伺服器錯誤

HTTP狀態碼由三個十進制數字組成,第一個十進制數字定義了狀態碼的類型,後兩個數字沒有分類的作用。HTTP狀態碼共分為5種類型:

Content-Type(內容類型),一般是指網頁中存在的 Content-Type,用於定義網路文件的類型和網頁的編碼,決定瀏覽器將以什麼形式、什麼編碼讀取這個文件,比如text/html/xml/json/jpg/gif/pdf等。Content-Type 標頭告訴客戶端實際返回的內容的內容類型,如下圖,返回的是html格式文件。

當我們在地址欄輸入 www.sina.com.cn 時,瀏覽器將顯示新浪的首頁。在這個過程中,瀏覽器都幹了哪些事情呢?通過Network的記錄,我們就可以知道。在Network中,定位到第一條記錄,點擊右側Headers,從Request Headers中可以看到瀏覽器發給新浪伺服器的請求:請求網址為 https://www.sina.com.cn/ ,請求方法為GET.

繼續往下找到Response Headers,它顯示伺服器返回的原始響應數據。其中200表示一個成功的響應,後面的OK是說明。失敗的響應有404 Not Found:網頁不存在,500 Internal Server Error:伺服器內部出錯,等等。Content-Type指示響應的內容,這里是text/html表示HTML網頁。請注意,瀏覽器就是依靠Content-Type來判斷響應的內容是網頁還是圖片,是視頻還是音樂。

HTTP響應返回的是HTML源碼,點擊Response,可以看到返回的html網頁源碼。

接著,當瀏覽器讀取到新浪首頁的HTML源碼後,它會解析HTML,顯示頁面,然後,根據HTML裡面的各種鏈接,再發送HTTP請求給新浪伺服器,拿到相應的圖片、視頻、Flash、JavaScript腳本、CSS等各種資源,最終顯示出一個完整的頁面。

參考: https://www.runoob.com/http/http-tutorial.html

更多內容可關注公共號「YJY技能修煉」~~~

往期回顧
R爬蟲在工作中的一點妙用
R爬蟲必備基礎——HTML和CSS初識
R爬蟲必備基礎——靜態網頁+動態網頁
R爬蟲必備——rvest包的使用
R爬蟲必備基礎——CSS+SelectorGadget
R爬蟲必備基礎—Chrome開發者工具(F12)

熱點內容
配置管理由什麼組成 發布:2024-12-23 12:57:47 瀏覽:560
運動版雅閣有哪些配置 發布:2024-12-23 12:57:45 瀏覽:277
ofp腳本 發布:2024-12-23 12:57:35 瀏覽:49
伺服器地址怎麼設置成域名 發布:2024-12-23 12:51:22 瀏覽:217
理財金額怎麼配置 發布:2024-12-23 12:44:18 瀏覽:69
aspnet文件訪問 發布:2024-12-23 12:39:02 瀏覽:154
搭建郵件伺服器的方法 發布:2024-12-23 12:27:27 瀏覽:430
資料庫說明文檔 發布:2024-12-23 12:22:12 瀏覽:620
安卓手機玩mc卡怎麼辦 發布:2024-12-23 12:15:46 瀏覽:5
mt編譯時出現錯誤信息 發布:2024-12-23 12:15:45 瀏覽:107