python抓圖片
1. python抓取網頁上圖片
正則表達式匹配的url有錯誤
for x in add:
print x # 這里可以看到報錯的時候是 url 錯誤
dirpath = os.path.join('C:\\Users\\lilinan\\Desktop\\新建文件夾','%s.jpg' % t)
urllib.request.urlretrieve(x,dirpath)
t+=1
2. 寫python爬蟲時,想抓圖片的原圖
點圖片之前開啟firebug,切換到網路標簽,看看你點圖片的時候發生了什麼。
然後模仿那個http請求。
重新看了一下圖,好像沒那麼麻煩。
下面那個img標簽里的 data-src 不就是原圖地址?
3. python 提取excel中的圖片
最近由於工作需要,研究了一下使用python zipfile從excel提取圖片的操作,但是隨之而來的問題是,Python提取出來的圖片順序是如何得來的?於是乎,我就測試了一下
新建一個excel,分別插入三張圖片,順序:1,2,3
輸出的圖片順序如圖1
當我改變圖片的插入順序為:3,2,1(excel插入順序圖1),
同樣excel插入的順序我改成:2,3,1(excel插入順序圖2)
抓取的圖片的順序如圖4
由此可見,Python提取的圖片順序和插入圖片的順序一致。
4. 如何利用python爬取圖片
可以參考《瘋狂Python講義》這本書,裡面有詳細地講解怎樣利用python爬取圖片。我就是照著這本書做了一個例子來爬取指定網站上的所有的圖片,其實挺簡單的。
5. python beautifulsoup 網頁圖片抓取
importurllib.request
importssl
frombs4importBeautifulSoup
importlxml
ssl._create_default_https_context=ssl._create_unverified_context
url="https://app.griffith.e.au/explore-student-blog/what-do-you-order-at-an-australian-cafe/"
response=urllib.request.urlopen(url)
html=response.read()
soup=BeautifulSoup(html,'lxml')
res=soup.find('div',class_='post-entry').find_all('a')[10]
result=res.find('img')['src']
print(result)
filename='photo'+'.jpg'
f=open(filename,'w')
urllib.request.urlretrieve(result,filename)
6. linux下python怎麼寫爬蟲獲取圖片
跟linux有什麼關系,python是跨平台的,爬取圖片的代碼如下:
import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #為請求設置user-agent,使得程序看起來更像一個人類
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP,使用戶能以不同IP訪問,從而防止被伺服器發現
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]
urllib.request.install_opener(opener)'''
response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):
html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9
a=html.find('img src=',b) for each in img_addrs:
print(each+'我的列印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)
url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()
完成
運行結果
7. 關於python網頁圖片抓取
看起來你的for循環語句沒有對齊,f=....這一行需要跟上面對齊。