當前位置:首頁 » 編程語言 » python提取鏈接

python提取鏈接

發布時間: 2023-10-23 12:48:54

㈠ 用python selenium提取網頁中的所有<a>標簽中的超級鏈接地址

提取所有鏈接應該用循環:

urls=driver.find_elements_by_xpath("//a")

forurlinurls:
print(url.get_attribute("href"))

如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

㈡ python中怎麼把圖中的圖片鏈接提取出來並且下載鏈接對應的圖片啊

你不已經提出出來了嗎?
在做個下載,保存就行了。
req=request.get(img.get('src'))
picture=req.content
path=r'D:\ProgramData\picture.png'
with open(path,'wb') as f:
f.write(picture)

㈢ Python提取網頁鏈接和標題

#coding=utf-8
importurllib

url="http://www..com/"
title=""
flag="<title>"
res=urllib.urlopen(url).readlines()
forlineinres:
ifflaginline:
start=line.find(flag)
end=line.find("</title>")
title=line[start+len(flag):end]
break
print"標題:",title

鏈接你自己對著標題的處理方法改改就行了

㈣ python怎麼獲取動態網頁鏈接

四中方法:

'''
得到當前頁面所有連接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 (DOM樹)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium(要開瀏覽器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

㈤ Python提取網頁鏈接和標題

提取所有鏈接應該用循環:
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

㈥ 寫個python 爬蟲怎麼爬取一個網頁上面發現的url鏈接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('網頁源碼',"html.parser")
bs.findAll('a')#查找所有的超鏈接
#具體方法可以參見官方文檔

2.使用正則表達式

熱點內容
創建資料庫過程 發布:2025-01-31 20:06:31 瀏覽:429
諾安成長與鑫靈活配置哪個好 發布:2025-01-31 19:58:54 瀏覽:604
b樹磁碟存儲 發布:2025-01-31 19:42:53 瀏覽:837
聯想小新air15怎麼配置環境 發布:2025-01-31 19:06:57 瀏覽:968
什麼配置玩3a 發布:2025-01-31 19:05:22 瀏覽:586
phpoa系統 發布:2025-01-31 18:58:42 瀏覽:10
值e的編程 發布:2025-01-31 18:57:06 瀏覽:977
安卓手機的軟體認證在哪裡 發布:2025-01-31 18:57:01 瀏覽:535
android彈出來 發布:2025-01-31 18:56:56 瀏覽:232
辦公室白領新解壓方法 發布:2025-01-31 18:55:23 瀏覽:558