pythonselenium截图

发布时间: 2023-09-21 03:34:48

㈠如何用python爬取网页中隐藏的div内容

你说的隐藏的div内容，应该是动态加载的数据吧，不在网页源码中显示，只在加载网页时才请求数据进行显示，一般情况下，这种数据都保存在一个json文件中，只要抓包分析出这个json文件的url地址，然后再根据json文件结构进行解析，很快就能获取到动态加载的div数据，下面我以爬取人人贷上面的散标数据为例，简单介绍一下python如何爬芦枝取div动态加载的数据，实验环境win10+python3.6+pycharm5.0，主要步骤如下：

1.首先，打开散标数族咐据，如下，爬取的信息主要包括年利率、借款标题、期限、金额和进度这5个字段信息：

右键对应元素进行检查，可以看出所有的数据嵌套在div标签中，如下：

打开网页源码，我们按Ctrl+F查找对应的数据，会发现所查找的数据都未在网页源码中，如下，即数据都是动态加载，所以直接解析原网页是找不到div嵌套的数据的：

2.接着，我们按F12调出开发者工具，依次点击“Network”->“XHR”，F5刷新页面，就会看到动态加载的json文件，查看这个文件，内容如下，左边为json文件的url地址，右边就是我们需要爬取的div数据：

3.最后对应上面的json文件，我们就可以直接获取并解析json了，这里主要用到requests和json这2个模块，其中requests用于根据url地址获取json文件，json用于解析json文件，提取出我们所需要的信息，即div动态加载的数据，测试代码如下，非常简单：

运行程序，截图如下，已经成功爬取到div加载的数据：

至此，我们就完成了利用python爬取div动态加载的数据。总的来说，整个过程非常简单，最主要的陪穗敏还是抓包分析，只要你有一定的爬虫基础，熟悉一下上面的代码，多调试几遍程序，很快就能掌握的，当然，你也可以使用selenium进行爬取，直接解析就行，网上也有相关教程和资料可供参考，非常丰富，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言。

㈡如何在python中使用selenium

下载python版本的python包，放入到python的lib下面，然后下载selenium的jar。

启动使用java -jar selenium-server-standalone-2.0b3.jar
测试例子：

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox() # Get local session of firefox
browser.get("") # Load page
assert "Yahoo!" in browser.title
elem = browser.find_element_by_name("p") # Find the query box
elem.send_keys("seleniumhq" + Keys.RETURN)
time.sleep(0.2) # Let the page load, will be added to the API
try:
browser.find_element_by_xpath("//a[contains(@href,'')]")
except NoSuchElementException:
assert 0, "can't find seleniumhq"
browser.close()

运行的结果是打开雅虎浏览器搜素seleniuhq，然后查找

Selenium (SeleniumHQ) 是 thoughtworks公司的一个集成测试的强大工具。
一、Selenium 的版本
Selenium 现在存在2个版本，一个叫 selenium-core, 一个叫selenium-rc 。
selenium-core 是使用HTML的方式来编写测试脚本，你也可以使用 Selenium-IDE来录制脚本，但是目前Selenium-IDE只有 FireFox 版本。
Selenium-RC 是 selenium-remote control 缩写，是使用具体的语言来编写测试类。
selenium-rc 支持的语言非常多，这里我们着重关注java的方式。这里讲的也主要是 selenium-rc，因为个人还是喜欢这种方式.
下图是Selenium IDE的运行界面截图：

㈢如何用python+selenium+phantomjs获得一个网页的动态生成的html代码

一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源，但是设计javascript渲染的页面却不能抓取，此时，我们使用web自动化测试化工具Selenium+无界面浏览器PhantomJS来抓取javascript渲染的页面，下面实现一个简单的爬取

环境搭建

准备工具：python3.5,selenium,phantomjs

我的电脑里面已经装好了python3.5

安装Selenium

1pip3 install selenium

安装Phantomjs

按照系统环境下载phantomjs,下载完成之后，将phantomjs.exe解压到python的script文件夹下

使用selenium+phantomjs实现简单爬虫

123456789fromselenium import webdriverdriver = webdriver.PhantomJS()driver.get('http.com') #加载网页data = driver.page_source #获取网页文本driver.save_screenshot('1.png') #截图保存print(data)driver.quit()

selenium+phantomjs的一些使用方法

设置请求头里的user-Agent

123456789101112fromselenium import webdriverfromselenium.webdriver.common.desired_capabilities import DesiredCapabilitiesdcap = dict(DesiredCapabilities.PHANTOMJS) #设置useragentdcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ') #根据需要设置具体的浏览器信息driver = webdriver.PhantomJS(desired_capabilities=dcap) #封装浏览器信息driver.get('h.com') #加载网页data = driver.page_source #获取网页文本driver.save_screenshot('1.png') #截图保存print(data)driver.quit()

请求超时设置

webdriver类中有三个和时间相关的方法：

1.pageLoadTimeout 设置页面完全加载的超时时间，完全加载即完全渲染完成，同步和异步脚本都执行完

2.setScriptTimeout 设置异步脚本的超时时间

3.implicitlyWait 识别对象的智能等待时间

1234567fromselenium import webdriverdriver = webdriver.PhantomJS()driver.set_page_load_timeout(5) #设置超时时间driver.get('htt.com')print(driver.title)driver.quit()

设置浏览器窗口大小

调用启动的浏览器不是全屏的，有时候会影响我们的某些操作，所以我们可以设置全屏

12driver.maximize_window() #设置全屏driver.set_window_size('480','800') #设置浏览器宽480，高800

元素定位

import webdriverdriver = webdriver.PhantomJS()driver.set_page_load_timeout(5)driver.get('i.com')try:driver.get('.com')driver.find_element_by_id('kw') # 通过ID定位driver.find_element_by_class_name('s_ipt') # 通过class属性定位driver.find_element_by_name('wd') # 通过标签name属性定位driver.find_element_by_tag_name('input') # 通过标签属性定位driver.find_element_by_css_selector('#kw') # 通过css方式定位driver.find_element_by_xpath("//input[@id='kw']") # 通过xpath方式定位driver.find_element_by_link_text("贴吧") # 通过xpath方式定位print(driver.find_element_by_id('kw').tag_name ) # 获取标签的类型except Exceptionase:print(e)driver.quit()

操作浏览器前进或后退

import webdriverdriver = webdriver.PhantomJS()try:driver.get('httai.com') #访问网络首页driver.save_screenshot('1.png')driver.get('ht.sina.com.cn') #访问新浪首页driver.save_screenshot('2.png')driver.back() #回退到网络首页driver.save_screenshot('3.png')driver.forward() #前进到新浪首页driver.save_screenshot('4.png')except Exceptionase:print(e)driver.quit()

好文要顶关注我收藏该文

㈣ python抓取网页时是如何处理验证码的

python抓取网页时是如何处理验证码的？下面给大家介绍几种方法：

1、输入式验证码

这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图：

解决思路：这种是最简单的一种，只要识别出里面的内容，然后填入到输入框中即可。这种识别技术叫OCR，这里我们推荐使用Python的第三方库，tesserocr。对于没有什么背影影响的验证码如图2，直接通过这个库来识别就可以。但是对于有嘈杂的背景的验证码这种，直接识别识别率会很低，遇到这种我们就得需要先处理一下图片，先对图片进行灰度化，然后再进行二值化，再去识别，这样识别率会大大提高。

相关推荐：《Python入门教程》

2、滑动式验证码

这种是将备选碎片直线滑动到正确的位置，如下图：

解决思路：对于这种验证码就比较复杂一点，但也是有相应的办法。我们直接想到的就是模拟人去拖动验证码的行为，点击按钮，然后看到了缺口的位置，最后把拼图拖到缺口位置处完成验证。

第一步：点击按钮。然后我们发现，在你没有点击按钮的时候那个缺口和拼图是没有出现的，点击后才出现，这为我们找到缺口的位置提供了灵感。

第二步：拖到缺口位置。

我们知道拼图应该拖到缺口处，但是这个距离如果用数值来表示？

通过我们第一步观察到的现象，我们可以找到缺口的位置。这里我们可以比较两张图的像素，设置一个基准值，如果某个位置的差值超过了基准值，那我们就找到了这两张图片不一样的位置，当然我们是从那块拼图的右侧开始并且从左到右，找到第一个不一样的位置时就结束，这是的位置应该是缺口的left，所以我们使用selenium拖到这个位置即可。

这里还有个疑问就是如何能自动的保存这两张图？

这里我们可以先找到这个标签，然后获取它的location和size，然后 top，bottom，left，right = location['y'] ,location['y']+size['height']+ location['x'] + size['width'] ,然后截图，最后抠图填入这四个位置就行。

具体的使用可以查看selenium文档，点击按钮前抠张图，点击后再抠张图。最后拖动的时候要需要模拟人的行为，先加速然后减速。因为这种验证码有行为特征检测，人是不可能做到一直匀速的，否则它就判定为是机器在拖动，这样就无法通过验证了。

3、点击式的图文验证和图标选择

图文验证：通过文字提醒用户点击图中相同字的位置进行验证。

图标选择：给出一组图片，按要求点击其中一张或者多张。借用万物识别的难度阻挡机器。

这两种原理相似，只不过是一个是给出文字，点击图片中的文字，一个是给出图片，点出内容相同的图片。

这两种没有特别好的方法，只能借助第三方识别接口来识别出相同的内容，推荐一个超级鹰，把验证码发过去，会返回相应的点击坐标。

然后再使用selenium模拟点击即可。具体怎么获取图片和上面方法一样。

4、宫格验证码

这种就很棘手，每一次出现的都不一样，但是也会出现一样的。而且拖动顺序都不一样。

但是我们发现不一样的验证码个数是有限的，这里采用模版匹配的方法。我觉得就好像暴力枚举，把所有出现的验证码保存下来，然后挑出不一样的验证码，按照拖动顺序命名，我们从左到右上下到下，设为1，2，3，4。上图的滑动顺序为4，3，2，1，所以我们命名4_3_2_1.png，这里得手动搞。当验证码出现的时候，用我们保存的图片一一枚举，与出现这种比较像素，方法见上面。如果匹配上了，拖动顺序就为4，3，2，1。然后使用selenium模拟即可。

阅读全文

热点内容

电脑如何访问谷歌发布：2025-03-09 08:39:37 浏览：172

安卓怎么多开微信发布：2025-03-09 08:34:02 浏览：594

怎么看金蝶服务器的ip地址发布：2025-03-09 08:33:59 浏览：269

pyc在线反编译发布：2025-03-09 08:33:17 浏览：933

天龙极速脚本发布：2025-03-09 08:33:09 浏览：976

刀剑神域服务器维护到什么时候发布：2025-03-09 08:31:40 浏览：217

phppdf转html 发布：2025-03-09 08:23:01 浏览：640

脚本按键怎么循环发布：2025-03-09 08:19:06 浏览：143

intel的快速存储发布：2025-03-09 08:18:25 浏览：610

ios天天酷跑刷积分脚本发布：2025-03-09 08:12:01 浏览：738

pythonselenium截图

与pythonselenium截图相关的资讯