python的urlparse
『壹』 如何用python爬取搜索引擎的結果
我選取的是爬取網路知道的html 作為我的搜索源數據,目前先打算做網頁標題的搜索,選用了 Python 的 scrapy 庫來對網頁進行爬取,爬取網頁的標題,url,以及html,用sqlist3來對爬取的數據源進行管理。
爬取的過程是一個深度優先的過程,設定四個起始 url ,然後維護一個資料庫,資料庫中有兩個表,一個 infoLib,其中存儲了爬取的主要信息:標題,url ,html;另一個表為urlLib,存儲已經爬取的url,是一個輔助表,在我們爬取每個網頁前,需要先判斷該網頁是否已爬過(是否存在urlLib中)。在數據存儲的過程中,使用了SQL的少量語法,由於我之前學過 MySQL ,這塊處理起來比較駕輕就熟。
深度優先的網頁爬取方案是:給定初始 url,爬取這個網頁中所有 url,繼續對網頁中的 url 遞歸爬取。代碼逐段解析在下面,方便自己以後回顧。
1.建一個 scrapy 工程:
關於建工程,可以參看這個scrapy入門教程,通過運行:
[python] view plain
scrapy startproject ***
在當前目錄下建一個scrapy 的項目,然後在 spiders 的子目錄下建立一個 .py文件,該文件即是爬蟲的主要文件,注意:其中該文件的名字不能與該工程的名字相同,否則,之後調用跑這個爬蟲的時候將會出現錯誤,見ImportError。
2.具體寫.py文件:
[python] view plain
import scrapy
from scrapy import Request
import sqlite3
class rsSpider(scrapy.spiders.Spider): #該類繼承自 scrapy 中的 spider
name = "" #將該爬蟲命名為 「知道」,在執行爬蟲時對應指令將為: scrapy crawl
#download_delay = 1 #只是用於控制爬蟲速度的,1s/次,可以用來對付反爬蟲
allowed_domains = ["..com"] #允許爬取的作用域
url_first = 'http://..com/question/' #用於之後解析域名用的短字元串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定義初始的 url ,有五類知道起始網頁
#add database
connDataBase = sqlite3.connect(".db") #連接到資料庫「.db」
cDataBase = connDataBase.cursor() #設置定位指針
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通過定位指針操作資料庫,若.db中 infoLib表不存在,則建立該表,其中主鍵是自增的 id(用於引擎的docId),下一列是文章的標題,然後是url,最後是html
#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通過定位指針操作資料庫,若.db中urlLib表不存在,則建立該表,其中只存了 url,保存已經爬過的url,之所以再建一個表,是猜測表的主鍵應該使用哈希表存儲的,查詢速度較快,此處其實也可以用一個外鍵將兩個表關聯起來
2. .py文件中的parse函數:
.py文件中的parse函數將具體處理url返回的 response,進行解析,具體代碼中說明:
[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取網頁中的名稱
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取網頁的 url,並不是直接使用函數獲取,那樣會夾雜亂碼
pageHtml = response.xpath("//html").extract()[0] #獲取網頁html
# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若當前url 是 start_url 中以一員。進行該判斷的原因是,我們對重復的 start_url 中的網址將仍然進行爬取,而對非 start_url 中的曾經爬過的網頁將不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若當前Url已經爬過
pass #則不再在資料庫中添加信息,只是由其為跟繼續往下爬
else: #否則,將信息爬入資料庫
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此時進入的非 url 網頁一定是沒有爬取過的(因為深入start_url之後的網頁都會先進行判斷,在爬取,在下面的for循環中判斷)
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
self.connDataBase.commit() #保存資料庫的更新
print "-----------------------------------------------" #輸出提示信息,沒啥用
for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有該網頁的延伸網頁,進行判斷並對未爬過的網頁進行爬取
sel = "http://..com" + sel #解析出延伸網頁的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判斷該網頁是否已在資料庫中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在,則對其繼續進行爬取
yield Request(url = sel, callback=self.parse)
『貳』 python 中關於用beautifulsoup4庫解析網頁源代碼標簽的問題,急求解答
以網路為例
#-*-coding:utf-8-*-
importrequests
importurlparse
importos
frombs4importBeautifulSoup
defprocess(url):
headers={'content-type':'application/json',
'User-Agent':'Mozilla/5.0(X11;Ubuntu;Linuxx86_64;rv:22.0)Gecko/20100101Firefox/22.0'}
pageSourse=requests.get(url,headers=headers).text
page_soup=BeautifulSoup(pageSourse)
a_all=page_soup.findAll("a")
link_urls=[i.get('href')foriina_all]#有些是javascript觸發事件,過濾方法自己寫下。
img_all=page_soup.findAll("img")
img_urls=[i.get("src")foriinimg_all]
printlink_urls,img_urls
return(link_urls,img_urls)
process("https://www..com")
結果如下:
[u'/',u'javascript:;',u'javascript:;',u'javascript:;',u'/',u'javascript:;',u'https://passport..com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww..com%2F',u'http://www.nuomi.com/?cid=002540',u'http://news..com',u'http://www.hao123.com',u'http://map..com',u'http://v..com',u'http://tieba..com',u'https://passport..com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww..com%2F',u'http://www..com/gaoji/preferences.html',u'http://www..com/more/',u'http://news..com/ns?cl=2&rn=20&tn=news&word=',u'http://tieba..com/f?kw=&fr=wwwt',u'http://..com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt',u'http://music..com/search?fr=ps&ie=utf-8&key=',u'http://image..com/search/index?tn=image&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=',u'http://v..com/v?ct=301989888&rn=20&pn=0&db=0&s=25&ie=utf-8&word=',u'http://map..com/m?word=&fr=ps01000',u'http://wenku..com/search?word=&lm=0&od=0&ie=utf-8',u'//www..com/more/',u'/',u'//www..com/cache/sethelp/help.html',u'http://home..com',u'http://ir..com',u'http://www..com/ty/',u'http://jianyi..com/'][u'//www..com/img/bd_logo1.png',u'//www..com/img/_jgylogo3.gif']
有問題可指出,滿意請採納
『叄』 python3中為什麼urlparse.urljoin沒有了
python3對urllib和urllib2進行了重構,拆分成了urllib.request, urllib.response, urllib.parse, urllib.error等幾個子模塊,這樣的架構從邏輯和結構上說更加合理。
urljoin現在對應的函數是urllib.parse.urljoin
『肆』 python爬蟲的工作步驟
當前處於一個大數據的時代,一般網站數據來源有二:網站用戶自身產生的數據和網站從其他來源獲取的數據,今天要分享的是如何從其他網站獲取你想要的數據。
目前最適合用於寫爬蟲的語言是python,python中最受歡迎的爬蟲框架是scrapy,本文圍繞scrapy來展開講解爬蟲是怎麼工作的。
1.如下圖所示,爬蟲從編寫的spider文件中的start_urls開始,這個列表中的url就是爬蟲抓取的第一個網頁,它的返回值是該url對應網頁的源代碼,我們可以用默認的parse(self,response)函數去列印或解析這個源代碼
2.我們獲取到源代碼之後,就可以從網頁源代碼中找到我們想要的信息或需要進一步訪問的url,提取信息這一步,scrapy中集成了xpath,正則(re),功能十分強大,提取到信息之後會通過yield進入到中間件當中。
中間件包括爬蟲中間件和下載中間件,爬蟲中間件主要用於設置處理爬蟲文件中的代碼塊,下載中間件主要用於判斷爬蟲進入網頁前後的爬取狀態,在此中間件中,你可以根據爬蟲的返回狀態去做進一步判斷。
最後我們將yield過來的item,即就是我們想要的數據會在pipeline.py文件中進行處理,存入資料庫,寫入本地文件,都可以在這里進行,另外,為了減少代碼冗餘,建議所有與設置參數有關的參數,都寫在settings.py中去
『伍』 Python3 如何對url解碼實現Python2中urllib.unquote的作用
url編碼:
import urllib
url = 'http://test.com/s?wd=哈哈' #如果此網站編碼是gbk的話,需要進行解碼,從gbk解碼成unicode,再從Unicode編碼編碼為utf-8格式。
url = url.decode('gbk', 'replace')
print urllib.quote(url.encode('utf-8', 'replace'))
『陸』 Python有包可以合並兩個url嗎就是將兩個url整合成為一個,不同的應用掃描訪問不同的url
from urllib import parse
parse.join()可以合並URL