phantomjspython
『壹』 wget配置sock5代理,下載能力所向披靡,技術人必懂
1. 前言
本文主要講解 wget如何利用tsocks使用sock5代理,假設你本機已經成功連接到代理伺服器了,比如shadow()socks或者ss5等等。
ubuntu安裝net-tools
CentOS/RHEL安裝net-tools:
檢查連接代理伺服器的連接情況:
檢查代理伺服器連接的情況
檢查代理伺服器連接的情況
2. 安裝tsocks
安裝過程如下:
正在讀取軟體包列散中表… 完成
正在分析軟體包的依賴關系樹
正在讀取狀態信息… 完成
下列軟體包是自動安裝的並且現在不需要了:
phantomjs python3-pyxattr rtmpmp
使用'sudo apt autoremove'來卸載它(它們)。
下列【新】軟體包將被安裝:
tsocks
升級了 0 個軟體包,新安裝了 1 個軟體包,要卸載 0 個軟體包,有 59 個軟體包未被升級。
需要下載 318 kB 的歸檔。
解壓縮後會消耗 958 kB 的額外空間。
獲取:1 http://cn.archive.ubuntu.com/ubuntu bionic/universe amd64 tsocks amd64 1.8beta5+ds1-1ubuntu1 [318 kB]
已下載 318 kB,耗時 2秒 (148 kB/s)
正在選中未選擇的軟體包 tsocks。
(正在讀旁掘棗取資料庫 … 系統當前共安裝有 195959 個文件和目錄。)
正准備解包 …/tsocks_1.8beta5+ds1-1ubuntu1_amd64.deb …
正在解包 tsocks (1.8beta5+ds1-1ubuntu1) …
正在設置 tsocks (1.8beta5+ds1-1ubuntu1) …
正在處理用於 libc-bin (2.27-3ubuntu1) 的觸發器 …
正在處理用於 man-db (2.8.3-2ubuntu0.1) 的觸發器 …
成功安裝tsocks
3. 修改tsocks配置文件
修改tsocks配置文件
把Server設置為你的代理伺服器IP,一般為127.0.0.1
把Server_type設置為5
把Server_port設置為與代理伺服器對應的配置
4. wget結合tsocks連接目標伺服器
5. 總結
tsocks僅僅用於路由,即把某些指定流量定向到代理伺服器,意味著你使用tsocks之前,已經連運拆接好了代理伺服器。
https://www.linuxrumen.com/rmxx/934.html
『貳』 python怎麼調用phantomJS程序
簡單總結下 一般來說有兩種方式:
一種像大家說的 模擬瀏覽器環境 用一些庫來執行這些js 相關的庫大家都提到了
但是這些庫安裝起來好像都很麻煩 而且對內存和cpu的消耗比較大 基本上不推薦
還有一種就是手動分析 這種我覺得是比較好的 js的作用的確很多 但是爬蟲關注的是數據 js無非就是請求數據 或者請求回來以後再進行加工
總之它的數據肯定也有來源的 如果是網路請求來的 我們也請求這個數據就好了 如果是自己生成的同樣代碼模擬下就好了,只不過這種辦法可能比較消耗時間,51&cto♮學院有很多視頻可以參考,還有一點可以試試用nodejs跑js代碼 當然前提是那個代碼不涉及瀏覽器的一些內容 比如扣扣空間的密碼加密代碼 它就是將輸入的代碼加密成密文 這樣我們可以把這段加密函數直接保存下來 爬蟲時每次調用下就好。