python爬取百度圖片
❶ python新手代碼是什麼
如下:
defnot_empty(s)。
returnsandlen(s。strip())>0。
#returnsands。strip()。
#如果直接單寫s。strip()那麼s如果是None,會報錯,因為None沒有strip方法。
#如果s是None,那麼Noneand任何值都是False,直接返回false。
#如果s非None,那麼判定s。trip()是否為空。
簡介
運行程序的時候,連接/轉載器軟體把你的程序從硬碟復制到內存中並且運行。而Python語言寫的程序不需要編譯成二進制代碼。你可以直接從源代碼運行 程序。
在計算機內部,Python解釋器把源代碼轉換成稱為位元組碼的中間形式,然後再把它翻譯成計算機使用的機器語言並運行。這使得使用Python更加簡單。也使得Python程序更加易於移植。
❷ Python如何爬取百度圖片
幾乎所有的網站都會有反爬機制,這就需要在爬取網頁時攜帶一些特殊參數,比如:user-agent、Cookie等等,可以在寫代碼的時候用工具將所有參數都帶上。
❸ python3 爬取圖片異常的原因
我們在下載文件時,一會會採取urlretrieve或是requests的get方式,
from urllib.request import urlretrieve
urlretrieve(self.url, filename="xxx.png")
但對於連續下載,各個文件保存是需要時間的,而程序運行永運是快於存儲的,我懷疑這是水管里流水速度與缸的大小不合適的原因,那可以試試下面這種方式:
r = requests.get(url, stream=True)
with open(local_filename, 'wb') as f:
for chunk in r.iter_content(chunk_size=1024):
if chunk: # filter out keep-alive new chunks
f.write(chunk)
f.flush()
❹ 使用python爬取網頁,獲取不到圖片地址
這個大圖片是在點擊之後用 JS 控制載入的。
你可以看看 js/js.js 這個文件,253 行:
functionchangeImg(){
jQuery("#bitImg").attr('src','p/p'+pictID+'/'+indexNum+'.'+jpgPng);
}
其實大圖的規律很好找, 下面縮略圖列表的 src 可以用 #variContent > li > img 取到,可以在源碼中的 107 行找到:
view-source:http://pictogram2.com/?p=2315
縮略圖列表地址長這樣:
/p/p0997/tn/1.jpg
/p/p0997/tn/2.jpg
/p/p0997/tn/3.jpg
...
如果要獲取大圖,只要去掉「tn」這一段就可以:
/p/p0997/1.jpg
/p/p0997/2.jpg
/p/p0997/3.jpg
...
然後拼接域名在前面,GET 下來就是大圖,比如第一個大圖鏈接:
第一個大圖地址
不過,你如果僅僅只是想要抓那個站的全部素材,窮舉「p0997」這一段的序號(比如改成「p0098」,這個應該是圖集的 ID),並且遍歷最後一段的圖片序號,擴展名可能是 jpg 也可能是 png,從 1 開始(「1.jpg」,「2.jpg」...)直到返回 404 停止。
思路大概是這么個思路,不過話說回來,你這么爬人家素材真的道德嗎?
❺ python 爬取圖片,沒有後綴名
首先你要安裝Pillow這個庫,它可以幫助你獲取這個圖片的類型。
importcStringIO,urllib2,time
fromPILimportImage
url='http://mmbiz.qpic.cn/mmbiz/KrBnGnvYojpichqTUY5X3g/0'
req=urllib2.urlopen(url)
data=req.read()
tmpIm=cStringIO.StringIO(data)
im=Image.open(tmpIm)
tm='%s.%s'%(int(time.time()),im.format.lower())
withopen(tm,'wb')asfp:
fp.write(data)
給分吧,哈啊哈。
如果解決了您的問題請採納!
如果未解決請繼續追問!
❻ linux下python怎麼寫爬蟲獲取圖片
跟linux有什麼關系,python是跨平台的,爬取圖片的代碼如下:
import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #為請求設置user-agent,使得程序看起來更像一個人類
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP,使用戶能以不同IP訪問,從而防止被伺服器發現
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]
urllib.request.install_opener(opener)'''
response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):
html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9
a=html.find('img src=',b) for each in img_addrs:
print(each+'我的列印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)
url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()
完成
運行結果
❼ 怎麼用python爬取相關數據
以下代碼運行通過:
importrequests
frombs4importBeautifulSoup
importos
headers={
'User-Agent':"Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTML,likeGecko)"
"Chrome/22.0.1207.1Safari/537.1"}
##瀏覽器請求頭(大部分網站沒有這個請求頭會報錯)
all_url='http://www.mzitu.com/all'
start_html=requests.get(all_url,headers=headers)
##使用requests中的get方法來獲取all_url的內容headers為請求頭
print(start_html.text)
##列印start_html
##concent是二進制的數據,下載圖片、視頻、音頻、等多媒體內容時使用concent
##列印網頁內容時使用text
運行效果:
❽ 如何入門 Python 爬蟲
入門的話,我的經歷:
1.先用python寫一個爬取網頁源代碼的爬蟲(最散沖先是爬取個人博客,會遇到亂碼問題當時困擾了很久)
2.後來寫了爬取網路圖片的程序,自動下載小說(我愛看小說-_-)(接觸正則表達式)
3.然後網路圖片他那種分頁模式,一般一頁只有20張左右的圖片,分析源代碼,完善爬取程拍中序,不受到限制,一次可以下幾千張(圖片有的是原圖,有的是縮略圖)
4.後來發現程序卡頓,就添加了多沖賀殲線程。
5.然後模擬登陸一些不用驗證碼的網頁(我學校的oj),cookie登陸B站(本來想寫一個搶樓的腳本的,後來發現搶樓的被封號了-_-,就放棄了)
對於使用的庫,python2 與 python3 有點不同,我學的是python3
先用的是urllib.request,後來用requests(第三方庫),在後來接觸Scrapy(也是第三方庫)
現在因為事情多了,就把python放下了,准備寒假寫一些腳本,畢竟python不會有期末考試...
我的個人經歷,希望可以幫到你。
❾ Python爬蟲爬取圖片這個報錯怎麼處理
你好!你的錯誤原因在於html頁面獲取到的img標簽src屬性中的鏈接,可能是因為src中的url格式是這樣的:
<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>
這樣獲取到的鏈接都沒有帶上協議:http或者https。而導致程序拋出ValueError的錯誤異常。
因為正常的url格式應該類似這樣的:https://www..com/
即 協議://用戶名:密碼@子域名.域名.頂級域名:埠號/目錄/文件名.文件後綴?參數=值#標志
參考網頁鏈接
可將代碼中第一個for循環中download_links.append修改為:
forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)