python提取图片

发布时间: 2023-06-13 09:48:14

⑴ python中怎么把图中的图片链接提取出来并且下载链接对应的图片啊

你不已经提出出来了吗？
在做个下载，保存就行了。
req=request.get(img.get('src'))
picture=req.content
path=r'D:\ProgramData\picture.png'
with open(path,'wb') as f:
f.write(picture)

⑵ python抓取网页上图片

正则表达式匹配的url有错误

for x in add:
print x # 这里可以看到报错的时候是 url 错误

dirpath = os.path.join('C:\\Users\\lilinan\\Desktop\\新建文件夹','%s.jpg' % t)
urllib.request.urlretrieve(x,dirpath)
t+=1

⑶ python爬取图片时候url地址是下载图片时报错了

你的参数可能不对，你可以加个teace来看看，在报错的第二十二行前，看一下参数是什么，type看一下类型再说。
希望懂的回答能帮到你
是

⑷ linux下python怎么写爬虫获取图片

跟linux有什么关系，python是跨平台的，爬取图片的代码如下：

import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #为请求设置user-agent,使得程序看起来更像一个人类
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP，使用户能以不同IP访问，从而防止被服务器发现
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]

a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9

a=html.find('img src=',b) for each in img_addrs:
print(each+'我的打印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)

url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()

完成

运行结果

⑸ python处理图片数据

目录

1.机器是如何存储图像的？

2.在Python中读取图像数据

3.从图像数据中提取特征的方法#1：灰度像素值特征

4.从图像数据中提取特征的方法#2：通道的平均像素值

5.从图像数据中提取特征的方法#3：提取边缘
是一张数字8的图像，仔细观察就会发现，图像是由小方格组成的。这些小方格被称为像素。

但是要注意，人们是以视觉的形式观察图像的，可以轻松区分边缘和颜色，从而识别图片中的内容。然而机器很难做到这一点，它们以数字的形式存储图像。请看下图：

机器以数字矩阵的形式储存图像，矩阵大小取决于任意给定图像的像素数。

假设图像的尺寸为180 x 200或n x m，这些尺寸基本上是图像中的像素数（高x宽）。

这些数字或像素值表示像素的强度或亮度，较小的数字（接近0）表示黑色，较大的数字（接近255）表示白色。通过分析下面的图像，读者就会弄懂到目前为止所学到的知识。

下图的尺寸为22 x 16，读者可以通过计算像素数来验证：

图片源于机器学习应用课程

刚才讨论的例子是黑白图像，如果是生活中更为普遍的彩色呢？你是否认为彩色图像也以2D矩阵的形式存储？

彩色图像通常由多种颜色组成，几乎所有颜色都可以从三原色（红色，绿色和蓝色）生成。

因此，如果是彩色图像，则要用到三个矩阵（或通道）——红、绿、蓝。每个矩阵值介于0到255之间，表示该像素的颜色强度。观察下图来理解这个概念：

图片源于机器学习应用课程

左边有一幅彩色图像（人类可以看到），而在右边，红绿蓝三个颜色通道对应三个矩阵，叠加三个通道以形成彩色图像。

请注意，由于原始矩阵非常大且可视化难度较高，因此这些不是给定图像的原始像素值。此外，还可以用各种其他的格式来存储图像，RGB是最受欢迎的，所以笔者放到这里。读者可以在此处阅读更多关于其他流行格式的信息。

用Python读取图像数据

下面开始将理论知识付诸实践。启动Python并加载图像以观察矩阵：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from skimage.io import imread, imshow
image = imread('image_8_original.png', as_gray=True)
imshow(image)

#checking image shape
image.shape, image

（28，28）

矩阵有784个值，而且这只是整个矩阵的一小部分。用一个LIVE编码窗口，不用离开本文就可以运行上述所有代码并查看结果。

下面来深入探讨本文背后的核心思想，并探索使用像素值作为特征的各种方法。

方法#1：灰度像素值特征

从图像创建特征最简单的方法就是将原始的像素用作单独的特征。

考虑相同的示例，就是上面那张图（数字‘8’），图像尺寸为28×28。

能猜出这张图片的特征数量吗？答案是与像素数相同！也就是有784个。

那么问题来了，如何安排这784个像素作为特征呢？这样，可以简单地依次追加每个像素值从而生成特征向量。如下图所示：

下面来用Python绘制图像，并为该图像创建这些特征：

image = imread('puppy.jpeg', as_gray=True)

image.shape, imshow(image)

（650，450）

该图像尺寸为650×450，因此特征数量应为297,000。可以使用NumPy中的reshape函数生成，在其中指定图像尺寸：

#pixel features

features = np.reshape(image, (660*450))

features.shape, features

(297000,)
array([0.96470588, 0.96470588, 0.96470588, ..., 0.96862745, 0.96470588,
0.96470588])

这里就得到了特征——长度为297,000的一维数组。很简单吧？在实时编码窗口中尝试使用此方法提取特征。

但结果只有一个通道或灰度图像，对于彩色图像是否也可以这样呢？来看看吧！

方法#2：通道的平均像素值

在读取上一节中的图像时，设置了参数‘as_gray = True’，因此在图像中只有一个通道，可以轻松附加像素值。下面删除参数并再次加载图像：

image = imread('puppy.jpeg')
image.shape

(660, 450, 3)

这次，图像尺寸为（660，450，3），其中3为通道数量。可以像之前一样继续创建特征，此时特征数量将是660*450*3 = 891,000。

或者，可以使用另一种方法：

生成一个新矩阵，这个矩阵具有来自三个通道的像素平均值，而不是分别使用三个通道中的像素值。

下图可以让读者更清楚地了解这一思路：

这样一来，特征数量保持不变，并且还能考虑来自图像全部三个通道的像素值。

image = imread('puppy.jpeg')
feature_matrix = np.zeros((660,450))
feature_matrix.shape

(660, 450)

现有一个尺寸为（660×450×3）的三维矩阵，其中660为高度，450为宽度，3是通道数。为获取平均像素值，要使用for循环：

for i in range(0,iimage.shape[0]):
for j in range(0,image.shape[1]):
feature_matrix[i][j] = ((int(image[i,j,0]) + int(image[i,j,1]) + int(image[i,j,2]))/3)

新矩阵具有相同的高度和宽度，但只有一个通道。现在，可以按照与上一节相同的步骤进行操作。依次附加像素值以获得一维数组：

features = np.reshape(feature_matrix, (660*450))
features.shape

(297000,)

方法#3：提取边缘特征

请思考，在下图中，如何识别其中存在的对象：

识别出图中的对象很容易——狗、汽车、还有猫，那么在区分的时候要考虑哪些特征呢？形状是一个重要因素，其次是颜色，或者大小。如果机器也能像这样识别形状会怎么样？

类似的想法是提取边缘作为特征并将其作为模型的输入。稍微考虑一下，要如何识别图像中的边缘呢？边缘一般都是颜色急剧变化的地方，请看下图：

笔者在这里突出了两个边缘。这两处边缘之所以可以被识别是因为在图中，可以分别看到颜色从白色变为棕色，或者由棕色变为黑色。如你所知，图像以数字的形式表示，因此就要寻找哪些像素值发生了剧烈变化。

假设图像矩阵如下：

图片源于机器学习应用课程

该像素两侧的像素值差异很大，于是可以得出结论，该像素处存在显着的转变，因此其为边缘。现在问题又来了，是否一定要手动执行此步骤？

当然不！有各种可用于突出显示图像边缘的内核，刚才讨论的方法也可以使用Prewitt内核（在x方向上）来实现。以下是Prewitt内核：

获取所选像素周围的值，并将其与所选内核（Prewitt内核）相乘，然后可以添加结果值以获得最终值。由于±1已经分别存在于两列之中，因此添加这些值就相当于获取差异。

还有其他各种内核，下面是四种最常用的内核：

图片源于机器学习应用课程

现在回到笔记本，为同一图像生成边缘特征：

#importing the required libraries
import numpy as np
from skimage.io import imread, imshow
from skimage.filters import prewitt_h,prewitt_v
import matplotlib.pyplot as plt
%matplotlib inline

#reading the image
image = imread('puppy.jpeg',as_gray=True)

#calculating horizontal edges using prewitt kernel
edges_prewitt_horizontal = prewitt_h(image)
#calculating vertical edges using prewitt kernel
edges_prewitt_vertical = prewitt_v(image)

imshow(edges_prewitt_vertical, cmap='gray')

⑹ Python爬虫爬取图片这个报错怎么处理

你好！你的错误原因在于html页面获取到的img标签src属性中的链接，可能是因为src中的url格式是这样的：

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

这样获取到的链接都没有带上协议：http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的：https://www..com/

即协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为：

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

⑺ 关于python网页图片抓取

看起来你的for循环语句没有对齐，f=....这一行需要跟上面对齐。

阅读全文

热点内容

微信怎么上传头像不了发布：2025-02-13 02:57:04 浏览：118

c语言矩阵的转置发布：2025-02-13 02:38:43 浏览：624

rowphp 发布：2025-02-13 02:37:16 浏览：711

光遇安卓服周年伞在哪里领取发布：2025-02-13 02:22:18 浏览：674

写mv脚本软件发布：2025-02-13 02:21:56 浏览：696

超内核源码发布：2025-02-13 02:12:54 浏览：444

趣粉脚本发布：2025-02-13 02:11:23 浏览：952

压缩的茶叶怎么弄开发布：2025-02-13 02:11:16 浏览：739

n1ftp服务器发布：2025-02-13 02:10:39 浏览：348

没有卡没有密码怎么办啊发布：2025-02-13 01:51:53 浏览：461

python提取图片

与python提取图片相关的资讯