当前位置:首页 » 编程语言 » python提取链接

python提取链接

发布时间: 2023-10-23 12:48:54

㈠ 用python selenium提取网页中的所有<a>标签中的超级链接地址

提取所有链接应该用循环:

urls=driver.find_elements_by_xpath("//a")

forurlinurls:
print(url.get_attribute("href"))

如果get_attribute方法报错应该是没有找到a标签对象,如果确定是有的话,可能是页面加载比较慢还没加载出来,selenium默认是不会等待对象出现的,需要在找对象前加一些等待时间;另外如果页面上有iframe的话需要先切换进去才能找到里面的对象。

㈡ python中怎么把图中的图片链接提取出来并且下载链接对应的图片啊

你不已经提出出来了吗?
在做个下载,保存就行了。
req=request.get(img.get('src'))
picture=req.content
path=r'D:\ProgramData\picture.png'
with open(path,'wb') as f:
f.write(picture)

㈢ Python提取网页链接和标题

#coding=utf-8
importurllib

url="http://www..com/"
title=""
flag="<title>"
res=urllib.urlopen(url).readlines()
forlineinres:
ifflaginline:
start=line.find(flag)
end=line.find("</title>")
title=line[start+len(flag):end]
break
print"标题:",title

链接你自己对着标题的处理方法改改就行了

㈣ python怎么获取动态网页链接

四中方法:

'''
得到当前页面所有连接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 (DOM树)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium(要开浏览器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

㈤ Python提取网页链接和标题

提取所有链接应该用循环:
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法报错应该是没有找到a标签对象,如果确定是有的话,可能是页面加载比较慢还没加载出来,selenium默认是不会等待对象出现的,需要在找对象前加一些等待时间;另外如果页面上有iframe的话需要先切换进去才能找到里面的对象。

㈥ 写个python 爬虫怎么爬取一个网页上面发现的url链接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('网页源码',"html.parser")
bs.findAll('a')#查找所有的超链接
#具体方法可以参见官方文档

2.使用正则表达式

热点内容
androidmime 发布:2025-01-31 22:34:44 浏览:782
ftp和http的中文含义是 发布:2025-01-31 22:33:48 浏览:402
sqlite3存储图片 发布:2025-01-31 22:27:14 浏览:162
sqlserverphp 发布:2025-01-31 22:22:55 浏览:877
曲马多存储 发布:2025-01-31 22:22:52 浏览:538
缓存儿歌 发布:2025-01-31 22:21:26 浏览:528
学java有发展吗 发布:2025-01-31 21:44:45 浏览:569
HBX编程 发布:2025-01-31 21:39:26 浏览:161
数据库精品课 发布:2025-01-31 21:38:14 浏览:421
sqlsever语句 发布:2025-01-31 21:34:57 浏览:145