python提取鏈接

發布時間: 2023-10-23 12:48:54

㈠用python selenium提取網頁中的所有<a>標簽中的超級鏈接地址

提取所有鏈接應該用循環：

urls=driver.find_elements_by_xpath("//a")

forurlinurls:
print(url.get_attribute("href"))

如果get_attribute方法報錯應該是沒有找到a標簽對象，如果確定是有的話，可能是頁面載入比較慢還沒載入出來，selenium默認是不會等待對象出現的，需要在找對象前加一些等待時間；另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

㈡ python中怎麼把圖中的圖片鏈接提取出來並且下載鏈接對應的圖片啊

你不已經提出出來了嗎？
在做個下載，保存就行了。
req=request.get(img.get('src'))
picture=req.content
path=r'D:\ProgramData\picture.png'
with open(path,'wb') as f:
f.write(picture)

㈢ Python提取網頁鏈接和標題

#coding=utf-8
importurllib

url="http://www..com/"
title=""
flag="<title>"
res=urllib.urlopen(url).readlines()
forlineinres:
ifflaginline:
start=line.find(flag)
end=line.find("</title>")
title=line[start+len(flag):end]
break
print"標題:",title

鏈接你自己對著標題的處理方法改改就行了

㈣ python怎麼獲取動態網頁鏈接

四中方法：

'''
得到當前頁面所有連接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 （DOM樹）
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium（要開瀏覽器！）
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

㈤ Python提取網頁鏈接和標題

提取所有鏈接應該用循環：
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法報錯應該是沒有找到a標簽對象，如果確定是有的話，可能是頁面載入比較慢還沒載入出來，selenium默認是不會等待對象出現的，需要在找對象前加一些等待時間；另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

㈥寫個python 爬蟲怎麼爬取一個網頁上面發現的url鏈接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('網頁源碼',"html.parser")
bs.findAll('a')#查找所有的超鏈接
#具體方法可以參見官方文檔

2.使用正則表達式

閱讀全文

熱點內容

甘肅隴南dns伺服器地址雲主機發布：2025-03-05 00:43:52 瀏覽：384

一頓壓縮機發布：2025-03-05 00:41:51 瀏覽：407

php二維數組拆分發布：2025-03-05 00:33:24 瀏覽：198

游猴腳本發布：2025-03-05 00:33:20 瀏覽：516

微信存儲的文檔發布：2025-03-05 00:31:42 瀏覽：230

c語言中基本的數據類型包括發布：2025-03-05 00:30:55 瀏覽：709

安卓小組件哪個好用發布：2025-03-05 00:30:20 瀏覽：341

安卓如何下載錄屏精靈發布：2025-03-05 00:15:22 瀏覽：486

攻城掠地怎麼開伺服器發布：2025-03-05 00:11:31 瀏覽：483

怎麼看漢蘭達什麼配置發布：2025-03-05 00:08:29 瀏覽：283

python提取鏈接

與python提取鏈接相關的資訊