python爬虫图片

发布时间: 2022-01-27 15:44:30

❶ python爬虫图片在目录中存在图片1 跳过该图片1，继续写入图片2的代码

给你一个代码借鉴下：

#!/usr/bin/python3
#-*-coding:utf-8-*-

importrequests
importre
importos

Header={"User-Agent":"Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/38.0.2125.104Safari/537.36"}

defpicture_get(picture_url):
try:
root="E:/pic/"
path=root+url.split('/')[-1]
ifnotos.path.exists(root):#目录不存在创建目录
os.mkdir(root)
ifnotos.path.exists(path):#文件不存在则下载
r=requests.get(picture_url,headers=Header)
f=open(path,"wb")
f.write(r.content)
f.close()
print("文件下载成功")
else:
print("文件已经存在")
except:
print("获取失败")

❷ 如何使用python爬取到高清原图

#-*-coding:utf8-*-
#2013.12.3619:41wnlo-c209
#抓取dbmei.com的图片。

frombs4importBeautifulSoup
importos,sys,urllib2

#创建文件夹，昨天刚学会
path=os.getcwd()				#获取此脚本所在目录
new_path=os.path.join(path,u'豆瓣妹子')
ifnotos.path.isdir(new_path):
	os.mkdir(new_path)


defpage_loop(page=0):
	url='http://www.dbmeizi.com/?p=%s'%page
	content=urllib2.urlopen(url)

	soup=BeautifulSoup(content)

	my_girl=soup.find_all('img')

#加入结束检测，写的不好....
	ifmy_girl==[]:
		printu'已经全部抓取完毕'
		sys.exit(0)

	printu'开始抓取'
	forgirlinmy_girl:
		link=girl.get('src')
		flink='http://www.dbmeizi.com/'+link
		
		printflink
		content2=urllib2.urlopen(flink).read()
		withopen(u'豆瓣妹子'+'/'+flink[-11:],'wb')ascode:#在OSC上现学的
			code.write(content2)
	page=int(page)+1
	printu'开始抓取下一页'
	print'the%spage'%page
	page_loop(page)
	
page_loop()
print"~~~~~~~~~~~~~~~~~~~~~~~~~~END~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~"
#为了避免双击的时候直接一闪退出，在最后面加了这么一句
raw_input("Press<Enter>ToQuit!")

❸ linux下python怎么写爬虫获取图片

跟linux有什么关系，python是跨平台的，爬取图片的代码如下：

import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #为请求设置user-agent,使得程序看起来更像一个人类
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP，使用户能以不同IP访问，从而防止被服务器发现
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]

a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9

a=html.find('img src=',b) for each in img_addrs:
print(each+'我的打印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()

完成

运行结果

❹ Python如何爬取百度图片

几乎所有的网站都会有反爬机制，这就需要在爬取网页时携带一些特殊参数，比如：user-agent、Cookie等等，可以在写代码的时候用工具将所有参数都带上。

❺ 写python爬虫时,想抓图片的原图

点图片之前开启firebug，切换到网络标签，看看你点图片的时候发生了什么。
然后模仿那个http请求。
重新看了一下图，好像没那么麻烦。
下面那个img标签里的 data-src 不就是原图地址？

❻ python图片爬虫怎么运行不出来，大婶们帮着看看

你画个图别人也不知道你的tree的数据结构，你要写出这个tree在python中是如果表达的，才能写对应的遍历代码埃如果解决了您的问题请采纳！如果未解决请继续追问

❼ python爬虫，抓取一个页面中所有链接内的文字和图片并保存在本地怎么

并不是所有的网站结构都是一样的，你说的功能大体可以用Python实现，但并没有写好的通用代码，还需要根据不同的网页去做调试。

❽ 使用Python爬虫下载图片，得到的图片不显示

你需要检查一下你的结果，看看是否请求成功了。可能服务器返回的并不是一个图片，但是你强制给他写入到图片格式文件中了，所以没办法显示。
你可以通过输出response或者使用抓包软件来检查。

❾ 用Python爬虫爬取的图片怎么知道图片有没有水印

看啊眼睛是能判断的

❿ Python爬虫爬取图片这个报错怎么处理

你好！你的错误原因在于html页面获取到的img标签src属性中的链接，可能是因为src中的url格式是这样的：

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

这样获取到的链接都没有带上协议：http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的：https://www..com/

即协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为：

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

阅读全文

热点内容

怎么在手机上更改wifi密码发布：2025-01-11 07:37:26 浏览：335

开机启动serviceandroid 发布：2025-01-11 07:35:24 浏览：523

天龙八部脚本设置自动喊话发布：2025-01-11 07:31:37 浏览：309

硒标准溶液配置为什么要加盐酸发布：2025-01-11 07:27:51 浏览：253

怎么做电脑编程发布：2025-01-11 07:14:36 浏览：481

压缩圆环发布：2025-01-11 06:41:37 浏览：512

安卓背面是什么字母发布：2025-01-11 06:37:55 浏览：215

个人小程序怎么购买云服务器发布：2025-01-11 06:33:08 浏览：912

手机mc怎么玩服务器国际服发布：2025-01-11 06:18:33 浏览：160

win2008ftp中文乱码发布：2025-01-11 06:10:03 浏览：871

python爬虫图片

与python爬虫图片相关的资讯