python爬取百度圖片

發布時間: 2023-07-05 05:53:12

❶ python新手代碼是什麼

如下：

defnot_empty（s）。

returnsandlen（s。strip（））>0。

#returnsands。strip（）。

#如果直接單寫s。strip（）那麼s如果是None，會報錯，因為None沒有strip方法。

#如果s是None，那麼Noneand任何值都是False，直接返回false。

#如果s非None，那麼判定s。trip（）是否為空。

簡介

運行程序的時候，連接/轉載器軟體把你的程序從硬碟復制到內存中並且運行。而Python語言寫的程序不需要編譯成二進制代碼。你可以直接從源代碼運行程序。

在計算機內部，Python解釋器把源代碼轉換成稱為位元組碼的中間形式，然後再把它翻譯成計算機使用的機器語言並運行。這使得使用Python更加簡單。也使得Python程序更加易於移植。

❷ Python如何爬取百度圖片

幾乎所有的網站都會有反爬機制，這就需要在爬取網頁時攜帶一些特殊參數，比如：user-agent、Cookie等等，可以在寫代碼的時候用工具將所有參數都帶上。

❸ python3 爬取圖片異常的原因

我們在下載文件時，一會會採取urlretrieve或是requests的get方式，
from urllib.request import urlretrieve
urlretrieve(self.url, filename="xxx.png")
但對於連續下載，各個文件保存是需要時間的，而程序運行永運是快於存儲的，我懷疑這是水管里流水速度與缸的大小不合適的原因，那可以試試下面這種方式：
r = requests.get(url, stream=True)
with open(local_filename, 'wb') as f:
for chunk in r.iter_content(chunk_size=1024):
if chunk: # filter out keep-alive new chunks
f.write(chunk)
f.flush()

❹ 使用python爬取網頁，獲取不到圖片地址

這個大圖片是在點擊之後用 JS 控制載入的。

你可以看看 js/js.js 這個文件，253 行：

functionchangeImg(){
		jQuery("#bitImg").attr('src','p/p'+pictID+'/'+indexNum+'.'+jpgPng);	
	}

其實大圖的規律很好找，下面縮略圖列表的 src 可以用 #variContent > li > img 取到，可以在源碼中的 107 行找到：

view-source:http://pictogram2.com/?p=2315

縮略圖列表地址長這樣：

/p/p0997/tn/1.jpg
/p/p0997/tn/2.jpg
/p/p0997/tn/3.jpg
...

如果要獲取大圖，只要去掉「tn」這一段就可以：

/p/p0997/1.jpg
/p/p0997/2.jpg
/p/p0997/3.jpg
...

然後拼接域名在前面，GET 下來就是大圖，比如第一個大圖鏈接：

第一個大圖地址

不過，你如果僅僅只是想要抓那個站的全部素材，窮舉「p0997」這一段的序號（比如改成「p0098」，這個應該是圖集的 ID），並且遍歷最後一段的圖片序號，擴展名可能是 jpg 也可能是 png，從 1 開始（「1.jpg」，「2.jpg」...）直到返回 404 停止。

思路大概是這么個思路，不過話說回來，你這么爬人家素材真的道德嗎？

❺ python 爬取圖片，沒有後綴名

首先你要安裝Pillow這個庫，它可以幫助你獲取這個圖片的類型。

importcStringIO,urllib2,time
fromPILimportImage

url='http://mmbiz.qpic.cn/mmbiz/KrBnGnvYojpichqTUY5X3g/0'
req=urllib2.urlopen(url)
data=req.read()
tmpIm=cStringIO.StringIO(data)
im=Image.open(tmpIm)

tm='%s.%s'%(int(time.time()),im.format.lower())
withopen(tm,'wb')asfp:
fp.write(data)

給分吧，哈啊哈。

如果解決了您的問題請採納！
如果未解決請繼續追問！

❻ linux下python怎麼寫爬蟲獲取圖片

跟linux有什麼關系，python是跨平台的，爬取圖片的代碼如下：

import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #為請求設置user-agent,使得程序看起來更像一個人類
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP，使用戶能以不同IP訪問，從而防止被伺服器發現
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]

a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9

a=html.find('img src=',b) for each in img_addrs:
print(each+'我的列印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()

完成

運行結果

❼ 怎麼用python爬取相關數據

以下代碼運行通過：

importrequests
frombs4importBeautifulSoup
importos


headers={
'User-Agent':"Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTML,likeGecko)"
"Chrome/22.0.1207.1Safari/537.1"}
##瀏覽器請求頭（大部分網站沒有這個請求頭會報錯）
all_url='http://www.mzitu.com/all'
start_html=requests.get(all_url,headers=headers)
##使用requests中的get方法來獲取all_url的內容headers為請求頭
print(start_html.text)
##列印start_html
##concent是二進制的數據，下載圖片、視頻、音頻、等多媒體內容時使用concent
##列印網頁內容時使用text

運行效果：

❽ 如何入門 Python 爬蟲

入門的話，我的經歷：
1.先用python寫一個爬取網頁源代碼的爬蟲（最散沖先是爬取個人博客，會遇到亂碼問題當時困擾了很久）

2.後來寫了爬取網路圖片的程序，自動下載小說（我愛看小說-_-）（接觸正則表達式）
3.然後網路圖片他那種分頁模式，一般一頁只有20張左右的圖片，分析源代碼，完善爬取程拍中序，不受到限制，一次可以下幾千張（圖片有的是原圖，有的是縮略圖）
4.後來發現程序卡頓，就添加了多沖賀殲線程。
5.然後模擬登陸一些不用驗證碼的網頁（我學校的oj），cookie登陸B站（本來想寫一個搶樓的腳本的，後來發現搶樓的被封號了-_-，就放棄了）

對於使用的庫，python2 與 python3 有點不同，我學的是python3
先用的是urllib.request，後來用requests（第三方庫），在後來接觸Scrapy(也是第三方庫)
現在因為事情多了，就把python放下了，准備寒假寫一些腳本，畢竟python不會有期末考試...

我的個人經歷，希望可以幫到你。

❾ Python爬蟲爬取圖片這個報錯怎麼處理

你好！你的錯誤原因在於html頁面獲取到的img標簽src屬性中的鏈接，可能是因為src中的url格式是這樣的：

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

這樣獲取到的鏈接都沒有帶上協議：http或者https。而導致程序拋出ValueError的錯誤異常。

因為正常的url格式應該類似這樣的：https://www..com/

即協議://用戶名:密碼@子域名.域名.頂級域名:埠號/目錄/文件名.文件後綴?參數=值#標志

參考網頁鏈接

可將代碼中第一個for循環中download_links.append修改為：

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

閱讀全文

熱點內容

scratch少兒編程課程發布：2025-04-16 17:11:44 瀏覽：642

榮耀x10從哪裡設置密碼發布：2025-04-16 17:11:43 瀏覽：368

java從入門到精通視頻發布：2025-04-16 17:11:43 瀏覽：89

php微信介面教程發布：2025-04-16 17:07:30 瀏覽：312

android實現陰影發布：2025-04-16 16:50:08 瀏覽：794

粉筆直播課緩存發布：2025-04-16 16:31:21 瀏覽：348

機頂盒都有什麼配置發布：2025-04-16 16:24:37 瀏覽：213

編寫手游反編譯都需要學習什麼發布：2025-04-16 16:19:36 瀏覽：818

proteus編譯文件位置發布：2025-04-16 16:18:44 瀏覽：369

土壓縮的本質發布：2025-04-16 16:13:21 瀏覽：596

python爬取百度圖片

與python爬取百度圖片相關的資訊