当前位置:首页 » 编程语言 » pythonselenium教程

pythonselenium教程

发布时间: 2023-07-09 15:55:40

㈠ 关于python的Selenium框架全解,一篇完整的说明书

目录

安装 selenium 第三方库

下载浏览器驱动:

需要把这些浏览器驱动放入 Python 应用目录里面的 Script 文件夹里面

① 200 多本 Python 电子书(和经典的书籍)应该有

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且可靠的练手项目及源码)

④ Python基础入门、爬虫、网络开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)
私信我01即可获取大量Python学习资源

每次当selenium启动chrome浏览器的时候,chrome浏览器很干净,没有插件、没有收藏、没有 历史 记录,这是因为selenium在启动chrome时为了保证最快的运行效率,启动了一个裸浏览器,这就是为什么需要配置参数的原因,但是有些时候我们需要的不仅是一个裸浏览器

selenium启动配置参数接收是ChromeOptions类,创建方式如下 :

创建了ChromeOptions类之后就是添加参数,添加参数有几个特定的方法,分别对应添加不同类型的配置项目

常用配置参数:

其他配置项目参数

制作无头浏览器

规避检测

门户网站检测如果是selenium请求的,有可能会拒绝访问。这也是一种反爬机制

实现规避检测

注意:这里只能使用 options 添加

如果有其他的模块要添加,注意要分开添加

元素定位语法

常用语法:

在 element 变成 elements 时,返回符合条件的所有元素组成的数组

控制浏览器大小

浏览器后退,前进

刷新

在搜索框模拟回车操作

在 WebDriver 中, 将这些关于鼠标操作的方法封装在 ActionChains 类提供

ActionChains 类提供了鼠标操作的常用方法:

语法:

想使用selenium中的键盘事件,首先我们必须导入Keys包,需要注意的是包名称Keys首字母需要大写。Keys类中提供了几乎所有的键盘事件包括组合按键如 Ctrl+A、 Ctrl+C 等

使用语法:

其他事件可以通过查看源码获取

显式等待使WebdDriver等待某个条件成立时继续执行,否则在达到最大时长时抛出超时异常

实例:

WebDriverWait类是由WebDirver 提供的等待方法。在设置时间内,默认每隔一段时间检测一次当前页面元素是否存在,如果超过设置时间检测不到则抛出异常

语法:

参数:

如果某些元素不是立即可用的,隐式等待是告诉WebDriver去等待一定的时间后去查找元素。 默认等待时间是0秒,一旦设置该值,隐式等待是设置该WebDriver的实例的生命周期

案例

语法:

alert 里面的方法

WebDriver操作cookie的方法:

参考链接: https://www.jianshu.com/p/773c58406bdb

与普通的在headers里添加 {'Cookies':' '} 不一样的是,此方法需要按照cookie的name,value,path,domain格式逐个cookie添加

通过execute_script()方法执行javaScripts代码来移动滚动条的位置

㈡ 从零开始学python爬虫(八):selenium提取数据和其他使用方法

知识点:

知识点:了解 driver对象的常用属性和方法

注意:最新版本的selenium已经取消了这种格式,取而代之的是:

你要先导入:

然后再:

知识点:掌握 driver对象定位标签元素获取标签对象的方法




代码实现,如下,获取腾讯新闻首页的新闻标签的内容。

知识点:掌握 元素对象的操作方法


参考代码示例:

知识点:掌握 selenium控制标签页的切换


知识点:掌握 selenium控制frame标签的切换

知识点:掌握 利用selenium获取cookie的方法

知识点:掌握 selenium控制浏览器执行js代码的方法


知识点:掌握 手动实现页面等待





知识点:掌握 selenium开启无界面模式





知识点:了解 selenium使用代理ip





知识点:了解 selenium替换user-agent

㈢ 如何用python+selenium+phantomjs获得一个网页的动态生成的html代码

一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览器PhantomJS来抓取javascript渲染的页面,下面实现一个简单的爬取

环境搭建

准备工具:python3.5,selenium,phantomjs

我的电脑里面已经装好了python3.5

安装Selenium

1pip3 install selenium

安装Phantomjs

按照系统环境下载phantomjs,下载完成之后,将phantomjs.exe解压到python的script文件夹下

使用selenium+phantomjs实现简单爬虫

123456789fromselenium import webdriverdriver = webdriver.PhantomJS()driver.get('http.com') #加载网页data = driver.page_source #获取网页文本driver.save_screenshot('1.png') #截图保存print(data)driver.quit()

selenium+phantomjs的一些使用方法

设置请求头里的user-Agent

123456789101112fromselenium import webdriverfromselenium.webdriver.common.desired_capabilities import DesiredCapabilitiesdcap = dict(DesiredCapabilities.PHANTOMJS) #设置useragentdcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ') #根据需要设置具体的浏览器信息driver = webdriver.PhantomJS(desired_capabilities=dcap) #封装浏览器信息driver.get('h.com') #加载网页data = driver.page_source #获取网页文本driver.save_screenshot('1.png') #截图保存print(data)driver.quit()

请求超时设置

webdriver类中有三个和时间相关的方法:

1.pageLoadTimeout 设置页面完全加载的超时时间,完全加载即完全渲染完成,同步和异步脚本都执行完

2.setScriptTimeout 设置异步脚本的超时时间

3.implicitlyWait 识别对象的智能等待时间

1234567fromselenium import webdriverdriver = webdriver.PhantomJS()driver.set_page_load_timeout(5) #设置超时时间driver.get('htt.com')print(driver.title)driver.quit()

设置浏览器窗口大小

调用启动的浏览器不是全屏的,有时候会影响我们的某些操作,所以我们可以设置全屏

12driver.maximize_window() #设置全屏driver.set_window_size('480','800') #设置浏览器宽480,高800

元素定位

import webdriverdriver = webdriver.PhantomJS()driver.set_page_load_timeout(5)driver.get('i.com')try:driver.get('.com')driver.find_element_by_id('kw') # 通过ID定位driver.find_element_by_class_name('s_ipt') # 通过class属性定位driver.find_element_by_name('wd') # 通过标签name属性定位driver.find_element_by_tag_name('input') # 通过标签属性定位driver.find_element_by_css_selector('#kw') # 通过css方式定位driver.find_element_by_xpath("//input[@id='kw']") # 通过xpath方式定位driver.find_element_by_link_text("贴吧") # 通过xpath方式定位print(driver.find_element_by_id('kw').tag_name ) # 获取标签的类型except Exceptionase:print(e)driver.quit()

操作浏览器前进或后退

import webdriverdriver = webdriver.PhantomJS()try:driver.get('httai.com') #访问网络首页driver.save_screenshot('1.png')driver.get('ht.sina.com.cn') #访问新浪首页driver.save_screenshot('2.png')driver.back() #回退到网络首页driver.save_screenshot('3.png')driver.forward() #前进到新浪首页driver.save_screenshot('4.png')except Exceptionase:print(e)driver.quit()

好文要顶关注我收藏该文

㈣ 从零开始学Python-使用Selenium抓取动态网页数据

AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重带洞新加载整个网页的情况下,对网页的某部分进行局部更新。传统的网页(不使用Ajax)如果需要更新内容,必蠢者枯须重载整个网页页面。

因为传统的网页在传输数据格式方面,使用的是 XML 语法,因此叫做 AJAX ,其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据,即使使用了JS将数据渲染到了浏览器中,在 右键->查看网页源代码 还是不能看到通嫌隐过ajax加载的数据,只能看到使用这个url加载的html代码。

法1:直接分析ajax调用的接口。然后通过代码请求这个接口。

法2:使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:

现在以一个简单的获取网络首页的例子来讲下 Selenium 和 chromedriver 如何快速入门:


参考:Selenium的使用


直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

㈤ 如何在python下安装selenium

不知道你是linux 还是 windows 两种通用的方法可用命令直拆岩接自动安装

如果你安装了pip 使用命令:pip install selenium

如果你安装了setuptools 使用命令:easy_install selenium

如果你两个都没装 建议你装一下 因为以后用的话会很方便 很好装的


把这个下载纳尺下来 解压之后 用命令cd到该文件夹下 运行命令旅茄御:python setup.py install

不是很新的版本 你可以去官网上下载最新版本的来用

㈥ 怎么用python做自动化测试

这里以web自动化测试为例,简单介绍一下如何使用python进行web自动化测试,主要用到selenium这个框架,实验环境win10+python3.6,主要内容如下:

1.首先,安装selenium框架,这个直接在cmd窗口输入命令“pipinstallselenium”就行,如下,安装非常快:

2.安装完成后,还需要安装浏览器驱动程序,不然直接运行程序会报错,以谷歌浏览器chrome为例,需要下载chromedriver驱动程序,如下,这里chromedriver的版本必须要与自己平台浏览器的版本匹配:

下载完成后,是一个zip压缩包,里面就一个chromedriver.exe文件,这里需要将这个文件复制到python安装目录下,如下:

3.最后,我们就可以进行selenium框架测试了,测试代码如下,非常简单,创建一个webdriver,如果能正常打开对应网页,则说明selenium安装成功:

之后就可以直接定位相关元携余素,进行web自动化测试了,主要方法如下(共有8种),辩洞滚分别是id、name、classname、tagname、linktext、partiallinktext、xpath和cssselector,这里可以自行测试,相关资料非常丰富:

至此,我们就完成了pythonweb自动化测试框架selenium的安装和简单使用。总的来说,整个过程非常简单,只要你有一定的python基础,熟悉一下上面的安装过程,很快就能搭建好本地selenium自动化测试框架,网上也颤芹有相关教程和资料,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

㈦ 如何搭建python+selenium自动化测试框架

selenium是一个web的自动化测试工具,不少学习功能自动化的同学开始首选selenium,相因为它相比QTP有诸多有点:

*免费,也不用再为破解QTP而大伤脑筋

*小巧,对于不同的语言它只是一个包而已,而QTP需要下载安装1个多G的程序。

*这也是最重要的一点,不管你以前更熟悉C、java、ruby、python、或都是C#,你都可以通过selenium完成自动化测试,而QTP只支持VBS

*支持多平台:windows、linux、MAC,支持多浏览器:ie、ff、safari、opera、chrome

*支持分布式测试用例的执行,可以把测试用例分布到不同的测试机器的执行,相当于分发机的功能。

关于selenium的基础知识与java平台的结合,我之前写过一个《菜鸟学习自动化测试》系列,最近学python,所以想尝试一下selenium的在python平台如何搭建;还好这方法的文章很容易,在此将搭建步骤整理分享。

搭建平台windows

准备工具如下:

-------------------------------------------------------------

下载python

-------------------------------------------------------------

如果你是新学python,哪果你没有要用的包是必须依赖于pyhton2.x 的,那么请毫不犹豫的选择python3.5吧!

window安装步骤:

1、下载python安装。

又报了个错:

Chromeversionmustbe>=27.0.1453.0 (Driverinfo:chromedriver=2.0,platform=WindowsNT5.1SP3x86)

说我chrome的版本没有大于27.0.1453.0,这个好办,更新到最新版本即可。

安装IEdriver

在新版本的webdriver中,只有安装了iedriver使用ie进行测试工作。

iedriver的下载地址在这里,记得根据自己机器的操作系统版本来下载相应的driver。

暂时还没尝试,应该和chrome的安装方式类似。

记得配置IE的保护模式

如果要使用webdriver启动IE的话,那么就需要配置IE的保护模式了。

把IE里的保护模式都选上或都勾掉就可以了。

㈧ 使用python简单封装selenium常用函数

年前走查脚本代码时,发现大家对selenium功能都在重复造轮子,而且容易出现一些常见低级bug。于是在闲暇之余,封装一些常用的selenium功能。

在某些网页中,存在多个frame嵌套。而selenium提供的find_element函数只能在当前frame中查找,不能切换到其他frame中,需要从最上级frame中逐步切换(当然也可以指定xpath的绝对路径,但是一般没人这么做)。在我们写代码过程中,需要明确知道当前frame位置和需要寻找元素的frame位置。在frame切换过程中,容易因为疏忽导致frame切换错误导致元素无法找到的bug。

页面中分布的frame,可以理解为树状结构。因此我们可以采用递归的方式, 沿着某条搜索路线frame节点,依次对树中每个节点均做一次访问。

我们以163网址上的登录框为例:点击登录按钮,弹出登录iframe页面。输入框位置在iframe中,因此我们不能使用xpath获取元素位置,需要进入iframe中,然后获取元素。

手动切换ifame可能会产生bug,因此需要一套自动切换和检索frame的机制。具体代码如下:

需要注意的是:如果页面中多个frame中,存在相同的xpath元素。还是需要指定frame的路径,否则会返回搜索到的第一个元素。

强制等待

直接调用系统time.sleep函数,不管页面加载情况一定会等待指定的时间, 即使元素已被加载 。

1.如果设置的时间较长,会浪费时间

2.如果设置的时间较短,元素可能没有加载。

页面中某元素如果未能立即加载,隐式等待告诉WebDriver需等待一定的时间,然后去查找元素。默认不等待,隐式等待作用于整个WebDriver周期,只需设置一次即可。

1.在上文的find_element函数中,采用递归方式在所有frame寻找元素。若采用隐式等待,则在每个frame中都需要等待设定的时间,耗时非常长。

2.某些页面我们想要的元素已经加载完毕,但是部分其他资源未加载。隐式等待必须等待所有元素加载完毕,增加额外等待时间。

显示等待一般作用于某一个元素,在设定的时间范围内,默认每间隔0.5秒查找元素。返回被加载的元素,若超过设定的时间范围未能查找则报错。显示等待作为selenium常用的等待机制,我们来看下他的源码和机制。

driver 注释中解释为WebDriver实例,但是代码中并未有相关检测,因此可以传入任何对象

但是__repr__函数中使用到session_id属性,如果需要显示属性或者转为str对象,最好在driver对象中添加session_id属性

在until函数中,我们可以看到driver对象传入method函数。在计时结束前,在不断循环执行method函数,如果method函数有正常返回值则退出循环,否则报TimeoutException错误。

可以采用装饰器对隐式等待进行封装,这样代码更加精简

同样的,采用装饰器对其他常用的函数进行封装,例如强制等待、点击、输入文本等。

装饰器虽然很方便,但也会产生一些麻烦。例如在find_element函数递归调用过程中,理应只要执行一次装饰器函数。但因为装饰器已经装饰完毕,导致每次递归都会执行。例如强制等待的sleep函数,如果递归次数越多等待时间越长。

解除装饰器一般有两种做法:一是约定参数,当递归第二次调用时则不生效。例如

这种方式实现简单,容易理解。但是增加了参数限制,在fun函数中就不能使用first_sleep参数。

二是采用装饰器采用wrapped实现,通过访问wrapped属性获得原始函数。例如

但是某一个函数被多个装饰器装饰时,需要递归解除装饰器。例如

最后整体代码如下

这次的封装其实还存在很多问题

1.find_element函数不仅仅只是提供查找元素功能,还提供一些其他功能,因此叫element_operation更为合适。

2.find_element函数的参数过多,并且很多参数的使用并不在函数本身中,对代码阅读很不友好。

3.得小心避免参数重复问题,假设装饰器sleep和装饰器wait_time都使用time这个参数,将无法区分具体是哪个函数使用。

4.不利于扩展和维护,当功能过多时find_element的参数过于庞大。

如果只是简单地封装和使用,上面这种方式也能达到较好的效果。如果想进一步封装,建议采用链式调用方式,装饰器辅助封装。例如

这样函数的扩展性和可阅读性有较大的提升

㈨ python3+selenium自动化测试-下拉选择框13

(13)下拉选择框
selenium的下拉选择框。我们通常会遇到两种下拉框,一种使用的是html的 标签select ,另一种是使用 input标签 做的假下拉框。
标签select :需要用到 Select类 ,先要导入select方法,
from selenium.webdriver.support.select import Select
input标签 :通常的处理方式与其他的元素类似,点击或使用JS等。

认识一下select下拉框选择:
<select id="nr" name="NR">
<option selected="" value="10">每页显示10条</option>
<option value="20">每页显示20条</option>
<option value="50">每页显示50条</option>

定位:
1、通过select选项的索引来定位选择对应选项(从0开始计数),如选择第三个选项:select_by_index(2)
2、通过选项的value值来定位,select_by_value("20")
3、通过选项的文本内容来定位。select_by_visible_text("每页显示50条")

Select提供了三种 选择方法
select_by_index(index) ——通过选项的顺序,第一个为 0
select_by_value(value) ——通过value属性
select_by_visible_text(text) ——通过选项可见文本

同时,Select提供了四种方法 取消选择
deselect_by_index(index) --取消对应index选项
deselect_by_value(value) --取消对应value选项
deselect_by_visible_text(text) --取消对应文本选项
deselect_all() --取消所有选项

Select为你提供了相应的方法(或者应该说是属性了),用来查看选中了哪一项:
options ——提供所有的选项的列表,其中都是选项的WebElement元素
all_selected_options ——提供所有被选中的选项的列表,其中也均为选项的WebElement元素
first_selected_option ——提供第一个被选中的选项,也是下拉框的默认值

热点内容
scratch少儿编程课程 发布:2025-04-16 17:11:44 浏览:639
荣耀x10从哪里设置密码 发布:2025-04-16 17:11:43 浏览:368
java从入门到精通视频 发布:2025-04-16 17:11:43 浏览:84
php微信接口教程 发布:2025-04-16 17:07:30 浏览:310
android实现阴影 发布:2025-04-16 16:50:08 浏览:793
粉笔直播课缓存 发布:2025-04-16 16:31:21 浏览:344
机顶盒都有什么配置 发布:2025-04-16 16:24:37 浏览:212
编写手游反编译都需要学习什么 发布:2025-04-16 16:19:36 浏览:812
proteus编译文件位置 发布:2025-04-16 16:18:44 浏览:366
土压缩的本质 发布:2025-04-16 16:13:21 浏览:592