当前位置:首页 » 编程语言 » python抓图片

python抓图片

发布时间: 2022-12-16 11:04:08

1. python抓取网页上图片

正则表达式匹配的url有错误

for x in add:
print x # 这里可以看到报错的时候是 url 错误

dirpath = os.path.join('C:\\Users\\lilinan\\Desktop\\新建文件夹','%s.jpg' % t)
urllib.request.urlretrieve(x,dirpath)
t+=1

2. 写python爬虫时,想抓图片的原图

点图片之前开启firebug,切换到网络标签,看看你点图片的时候发生了什么。
然后模仿那个http请求。
重新看了一下图,好像没那么麻烦。
下面那个img标签里的 data-src 不就是原图地址?

3. python 提取excel中的图片

最近由于工作需要,研究了一下使用python zipfile从excel提取图片的操作,但是随之而来的问题是,Python提取出来的图片顺序是如何得来的?于是乎,我就测试了一下
新建一个excel,分别插入三张图片,顺序:1,2,3

输出的图片顺序如图1

当我改变图片的插入顺序为:3,2,1(excel插入顺序图1),

同样excel插入的顺序我改成:2,3,1(excel插入顺序图2)

抓取的图片的顺序如图4

由此可见,Python提取的图片顺序和插入图片的顺序一致。

4. 如何利用python爬取图片

可以参考《疯狂Python讲义》这本书,里面有详细地讲解怎样利用python爬取图片。我就是照着这本书做了一个例子来爬取指定网站上的所有的图片,其实挺简单的。

5. python beautifulsoup 网页图片抓取

importurllib.request
importssl
frombs4importBeautifulSoup
importlxml

ssl._create_default_https_context=ssl._create_unverified_context
url="https://app.griffith.e.au/explore-student-blog/what-do-you-order-at-an-australian-cafe/"
response=urllib.request.urlopen(url)
html=response.read()
soup=BeautifulSoup(html,'lxml')
res=soup.find('div',class_='post-entry').find_all('a')[10]
result=res.find('img')['src']
print(result)

filename='photo'+'.jpg'
f=open(filename,'w')
urllib.request.urlretrieve(result,filename)

6. linux下python怎么写爬虫获取图片

跟linux有什么关系,python是跨平台的,爬取图片的代码如下:

import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #为请求设置user-agent,使得程序看起来更像一个人类
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP,使用户能以不同IP访问,从而防止被服务器发现
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]

a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9

a=html.find('img src=',b) for each in img_addrs:
print(each+'我的打印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()

完成

运行结果

7. 关于python网页图片抓取

看起来你的for循环语句没有对齐,f=....这一行需要跟上面对齐。

热点内容
安卓和ios步数哪个准确 发布:2025-01-24 13:12:13 浏览:289
怎么给电脑换配置 发布:2025-01-24 13:04:04 浏览:919
如何修改服务密码10086 发布:2025-01-24 12:44:27 浏览:512
dosftp连接 发布:2025-01-24 12:35:56 浏览:802
编程来炒股 发布:2025-01-24 12:35:14 浏览:854
python正则中括号 发布:2025-01-24 12:32:08 浏览:584
配置排列用英语怎么说 发布:2025-01-24 12:32:00 浏览:607
led流水灯c语言程序 发布:2025-01-24 12:28:15 浏览:46
苹果平板锁屏密码在哪里 发布:2025-01-24 12:16:41 浏览:958
网校c语言 发布:2025-01-24 12:12:15 浏览:787