pythonhref

發布時間: 2023-07-16 22:26:24

『壹』 python 對相對路徑的識別

可以在start_a裡面改，一般是相對路徑的話，都不是以http://開頭的。所以你得判斷一下，是否以http開頭，否則，進行添加路徑名的操作。
可以用find來做。比如
if href.find("http://") == 0:
_____pass #no deal
else:
_____adrl(href)
關於路徑名的話，一般就是域名 + 當前相對路徑，
當然，也可以將正在爬的本頁域名當參數傳入，具體分情況處理。

『貳』 python BeautifulSoup 取class中的href怎麼寫

它就是當前節點的一個屬性，content["href"]

『叄』 python怎麼獲取div下的ul下的li下的a里href的內容

利用request獲取網頁內容；
利用BeautifulSoup處理並獲取節點信息。

Python代碼

若沒有上述兩個模塊就用pip等工具安裝到python庫中

『肆』如何獲取href標簽中的內容 python

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup

html='''<dict>
<key>LogType</key>
<string>Default</string>
<key>Message</key>
<string>測試場景:訂餐提交頁面</string>
<string>Loop in : 2 rTime:0.266s</string>
<key>Timestamp</key>
<date>2014-06-06T12:16:24Z</date>
<key>Type</key>
<integer>1</integer>
</dict>'''

soup= BeautifulSoup(html)
trs=soup.findAll("string")
length=len(trs)
arr=[]
for i in range(length):
print trs[i].contents

需要安裝BeautifulSoup，代碼很容易懂的！

『伍』如何用Python爬取搜索引擎的結果

我選取的是爬取網路知道的html 作為我的搜索源數據，目前先打算做網頁標題的搜索，選用了 Python 的 scrapy 庫來對網頁進行爬取，爬取網頁的標題，url，以及html，用sqlist3來對爬取的數據源進行管理。
爬取的過程是一個深度優先的過程，設定四個起始 url ，然後維護一個資料庫，資料庫中有兩個表，一個 infoLib，其中存儲了爬取的主要信息：標題，url ，html；另一個表為urlLib，存儲已經爬取的url，是一個輔助表，在我們爬取每個網頁前，需要先判斷該網頁是否已爬過（是否存在urlLib中）。在數據存儲的過程中，使用了SQL的少量語法，由於我之前學過 MySQL ，這塊處理起來比較駕輕就熟。
深度優先的網頁爬取方案是：給定初始 url，爬取這個網頁中所有 url，繼續對網頁中的 url 遞歸爬取。代碼逐段解析在下面，方便自己以後回顧。
1.建一個 scrapy 工程：
關於建工程，可以參看這個scrapy入門教程，通過運行:

[python] view plain
scrapy startproject ***

在當前目錄下建一個scrapy 的項目，然後在 spiders 的子目錄下建立一個 .py文件，該文件即是爬蟲的主要文件，注意：其中該文件的名字不能與該工程的名字相同，否則，之後調用跑這個爬蟲的時候將會出現錯誤，見ImportError。
2.具體寫.py文件：

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #該類繼承自 scrapy 中的 spider
name = "" #將該爬蟲命名為「知道」，在執行爬蟲時對應指令將為： scrapy crawl
#download_delay = 1 #只是用於控制爬蟲速度的，1s/次，可以用來對付反爬蟲
allowed_domains = ["..com"] #允許爬取的作用域
url_first = 'http://..com/question/' #用於之後解析域名用的短字元串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定義初始的 url ，有五類知道起始網頁

#add database
connDataBase = sqlite3.connect(".db") #連接到資料庫「.db」
cDataBase = connDataBase.cursor() #設置定位指針
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通過定位指針操作資料庫，若.db中 infoLib表不存在，則建立該表，其中主鍵是自增的 id（用於引擎的docId）,下一列是文章的標題，然後是url，最後是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通過定位指針操作資料庫，若.db中urlLib表不存在，則建立該表，其中只存了 url，保存已經爬過的url，之所以再建一個表，是猜測表的主鍵應該使用哈希表存儲的，查詢速度較快，此處其實也可以用一個外鍵將兩個表關聯起來

2. .py文件中的parse函數：

.py文件中的parse函數將具體處理url返回的 response，進行解析，具體代碼中說明：

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取網頁中的名稱
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取網頁的 url，並不是直接使用函數獲取，那樣會夾雜亂碼
pageHtml = response.xpath("//html").extract()[0] #獲取網頁html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若當前url 是 start_url 中以一員。進行該判斷的原因是，我們對重復的 start_url 中的網址將仍然進行爬取，而對非 start_url 中的曾經爬過的網頁將不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若當前Url已經爬過
pass #則不再在資料庫中添加信息，只是由其為跟繼續往下爬
else: #否則，將信息爬入資料庫
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此時進入的非 url 網頁一定是沒有爬取過的（因為深入start_url之後的網頁都會先進行判斷，在爬取，在下面的for循環中判斷）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存資料庫的更新

print "-----------------------------------------------" #輸出提示信息，沒啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有該網頁的延伸網頁，進行判斷並對未爬過的網頁進行爬取
sel = "http://..com" + sel #解析出延伸網頁的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判斷該網頁是否已在資料庫中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，則對其繼續進行爬取
yield Request(url = sel, callback=self.parse)

『陸』 python 正則如何抓取 <a></a> 中 href 屬性和標簽里的內容

importre
pattern='<a.*?href="(.+)".*?>(.*?)</a>'
withopen("test.html","r")asfp:
forlineinfp:
ret=re.search(pattern,line)
ifret:
forxinret.groups():printx

不知道具體格式是怎樣的，我這里也就簡單舉個例子。

groups獲取到的就是正則pattern裡面( )中的內容，以元組形式返回。

『柒』 Python提取網頁鏈接和標題

提取所有鏈接應該用循環：
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法報錯應該是沒有找到a標簽對象，如果確定是有的話，可能是頁面載入比較慢還沒載入出來，selenium默認是不會等待對象出現的，需要在找對象前加一些等待時間；另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

閱讀全文

熱點內容

scratch少兒編程課程發布：2025-04-16 17:11:44 瀏覽：629

榮耀x10從哪裡設置密碼發布：2025-04-16 17:11:43 瀏覽：357

java從入門到精通視頻發布：2025-04-16 17:11:43 瀏覽：76

php微信介面教程發布：2025-04-16 17:07:30 瀏覽：300

android實現陰影發布：2025-04-16 16:50:08 瀏覽：788

粉筆直播課緩存發布：2025-04-16 16:31:21 瀏覽：338

機頂盒都有什麼配置發布：2025-04-16 16:24:37 瀏覽：204

編寫手游反編譯都需要學習什麼發布：2025-04-16 16:19:36 瀏覽：801

proteus編譯文件位置發布：2025-04-16 16:18:44 瀏覽：357

土壓縮的本質發布：2025-04-16 16:13:21 瀏覽：583

pythonhref

與pythonhref相關的資訊