phantomjspython
‘壹’ wget配置sock5代理,下载能力所向披靡,技术人必懂
1. 前言
本文主要讲解 wget如何利用tsocks使用sock5代理,假设你本机已经成功连接到代理服务器了,比如shadow()socks或者ss5等等。
ubuntu安装net-tools
CentOS/RHEL安装net-tools:
检查连接代理服务器的连接情况:
检查代理服务器连接的情况
检查代理服务器连接的情况
2. 安装tsocks
安装过程如下:
正在读取软件包列散中表… 完成
正在分析软件包的依赖关系树
正在读取状态信息… 完成
下列软件包是自动安装的并且现在不需要了:
phantomjs python3-pyxattr rtmpmp
使用'sudo apt autoremove'来卸载它(它们)。
下列【新】软件包将被安装:
tsocks
升级了 0 个软件包,新安装了 1 个软件包,要卸载 0 个软件包,有 59 个软件包未被升级。
需要下载 318 kB 的归档。
解压缩后会消耗 958 kB 的额外空间。
获取:1 http://cn.archive.ubuntu.com/ubuntu bionic/universe amd64 tsocks amd64 1.8beta5+ds1-1ubuntu1 [318 kB]
已下载 318 kB,耗时 2秒 (148 kB/s)
正在选中未选择的软件包 tsocks。
(正在读旁掘枣取数据库 … 系统当前共安装有 195959 个文件和目录。)
正准备解包 …/tsocks_1.8beta5+ds1-1ubuntu1_amd64.deb …
正在解包 tsocks (1.8beta5+ds1-1ubuntu1) …
正在设置 tsocks (1.8beta5+ds1-1ubuntu1) …
正在处理用于 libc-bin (2.27-3ubuntu1) 的触发器 …
正在处理用于 man-db (2.8.3-2ubuntu0.1) 的触发器 …
成功安装tsocks
3. 修改tsocks配置文件
修改tsocks配置文件
把Server设置为你的代理服务器IP,一般为127.0.0.1
把Server_type设置为5
把Server_port设置为与代理服务器对应的配置
4. wget结合tsocks连接目标服务器
5. 总结
tsocks仅仅用于路由,即把某些指定流量定向到代理服务器,意味着你使用tsocks之前,已经连运拆接好了代理服务器。
https://www.linuxrumen.com/rmxx/934.html
‘贰’ python怎么调用phantomJS程序
简单总结下 一般来说有两种方式:
一种像大家说的 模拟浏览器环境 用一些库来执行这些js 相关的库大家都提到了
但是这些库安装起来好像都很麻烦 而且对内存和cpu的消耗比较大 基本上不推荐
还有一种就是手动分析 这种我觉得是比较好的 js的作用的确很多 但是爬虫关注的是数据 js无非就是请求数据 或者请求回来以后再进行加工
总之它的数据肯定也有来源的 如果是网络请求来的 我们也请求这个数据就好了 如果是自己生成的同样代码模拟下就好了,只不过这种办法可能比较消耗时间,51&cto♮学院有很多视频可以参考,还有一点可以试试用nodejs跑js代码 当然前提是那个代码不涉及浏览器的一些内容 比如扣扣空间的密码加密代码 它就是将输入的代码加密成密文 这样我们可以把这段加密函数直接保存下来 爬虫时每次调用下就好。