pythonnumpy关系

发布时间: 2023-06-18 14:41:24

1. 为什么python中的NumPy会多进程并行加载数据，而且返回的结果却是相同的

明敏发自凹非寺
量子位报道 | 公众号 QbitAI

到底是怎样的一个bug，能让95%的Pytorch库中招，就连特斯拉AI总监深受困扰？
还别说，这个bug虽小，但有够“狡猾”的。
这就是最近Reddit上热议的一个话题，是一位网友在使用再平常不过的Pytorch+Numpy组合时发现。
最主要的是，在代码能够跑通的情况下，它甚至还会影响模型的准确率！
除此之外，网友热议的另外一个点，竟然是：

而是它到底算不算一个bug？

这究竟是怎么一回事？
事情的起因是一位网友发现，在PyTorch中用NumPy来生成随机数时，受到数据预处理的限制，会多进程并行加载数据，但最后每个进程返回的随机数却是相同的。
他还举出例子证实了自己的说法。
如下是一个示例数据集，它会返回三个元素的随机向量。这里采用的批量大小分别为2，工作进程为4个。
然后神奇的事情发生了：每个进程返回的随机数都是一样的。
这个结果会着实让人有点一头雾水，就好像数学应用题求小明走一段路程需要花费多少时间，而你却算出来了负数。
发现了问题后，这位网友还在GitHub上下载了超过10万个PyTorch库，用同样的方法产生随机数。
结果更加令人震惊：居然有超过95%的库都受到这个问题的困扰！
这其中不乏PyTorch的官方教程和OpenAI的代码，连特斯拉AI总监Karpathy也承认自己“被坑过”！
但有一说一，这个bug想要解决也不难：只需要在每个epoch都重新设置seed，或者用python内置的随机数生成器就可以避免这个问题。
到底是不是bug？
如果这个问题已经可以解决，为什么还会引起如此大的讨论呢？
因为网友们的重点已经上升到了“哲学”层面：
这到底是不是一个bug？
在Reddit上有人认为：这不是一个bug。

虽然这个问题非常常见，但它并不算是一个bug，而是一个在调试时不可以忽略的点。

就是这个观点，激起了千层浪花，许多人都认为他忽略了问题的关键所在。

这不是产生伪随机数的问题，也不是numpy的问题，问题的核心是在于PyTorch中的DataLoader的实现

对于包含随机转换的数据加载pipeline，这意味着每个worker都将选择“相同”的转换。而现在NN中的许多数据加载pipeline，都使用某种类型的随机转换来进行数据增强，所以不重新初始化可能是一个预设。

另一位网友也表示这个bug其实是在预设程序下运行才出现的，应该向更多用户指出来。
并且95%以上的Pytorch库受此困扰，也绝不是危言耸听。
有人就分享出了自己此前的惨痛经历：

我认识到这一点是之前跑了许多进程来创建数据集时，然而发现其中一半的数据是重复的，之后花了很长的时间才发现哪里出了问题。

也有用户补充说，如果 95% 以上的用户使用时出现错误，那么代码就是错的。

顺便一提，这提供了Karpathy定律的另一个例子：即使你搞砸了一些非常基本代码，“neural nets want to work”。

你有踩过PyTorch的坑吗？
如上的bug并不是偶然，随着用PyTorch的人越来越多，被发现的bug也就越来越多，某乎上还有PyTorch的坑之总结，被浏览量高达49w。
其中从向量、函数到model.train()，无论是真bug还是自己出了bug，大家的血泪史还真的是各有千秋。
所以，关于PyTorch你可以分享的经验血泪史吗？
欢迎评论区留言讨论～
参考链接：
[1]https://tanelp.github.io/posts/a-bug-that-plagues-thousands-of-open-source-ml-projects/
[2]https://www.reddit.com/r/MachineLearning/comments/mocpgj/p_using_pytorch_numpy_a_bug_that_plagues/
[3]https://www.hu.com/question/67209417/answer/866488638
— 完 —

2. python关于numpy基础问题

Python发展至今，已经有越来越多的人使用python进行科学技术，NumPY是python中的一款高性能科学计算和数据分析的基础包。
ndarray
ndarray（以下简称数组）是numpy的数组对象，需要注意的是，它是同构的，也就是说其中的所有元素必须是相同的类型。其中每个数组都有一个shape和dtype。
shape既是数组的形状，比如
复制代码
1 import numpy as np
2 from numpy.random import randn
3
4 arr = randn(12).reshape(3, 4)
5
6 arr
7
8 [[ 0.98655235 1.20830283 -0.72135183 0.40292924]
9 [-0.05059849 -0.02714873 -0.62775486 0.83222997]
10 [-0.84826071 -0.29484606 -0.76984902 0.09025059]]
11
12 arr.shape
13 (3, 4)
复制代码
其中(3, 4)即代表arr是3行4列的数组，其中dtype为float64
一下函数可以用来创建数组
array将输入数据转换为ndarray，类型可制定也可默认
asarray将输入转换为ndarray
arange类似内置range
ones、ones_like根据形状创建一个全1的数组、后者可以复制其他数组的形状
zeros、zeros_like类似上面，全0
empty、empty_like创建新数组、只分配空间
eye、identity创建对角线为1的对角矩阵
数组的转置和轴对称
转置是多维数组的基本运算之一。可以使用.T属性或者transpose()来实现。.T就是进行轴对换而transpose则可以接收参数进行更丰富的变换
复制代码
arr = np.arange(6).reshape((2,3))
print arr
[[0 1 2]
[3 4 5]]
print arr.T
[[0 3]
[1 4]
[2 5]]
arr = np.arange(24).reshape((2,3,4))
print arr
[[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
[[12 13 14 15]
[16 17 18 19]
[20 21 22 23]]]
print arr.transpose((0,1,2))
[[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
[[12 13 14 15]
[16 17 18 19]
[20 21 22 23]]]
复制代码
数组的运算
大小相等的数组之间做任何算术运算都会将运算应用到元素级别。
复制代码
1 arr = np.arange(9).reshape(3, 3)
2 print arr
3
4 [[0 1 2]
5 [3 4 5]
6 [6 7 8]]
7
8 print arr*arr
9
10 [[ 0 1 4]
11 [ 9 16 25]
12 [36 49 64]]
13
14 print arr+arr
15
16 [[ 0 2 4]
17 [ 6 8 10]
18 [12 14 16]]
19
20 print arr*4
21
22 [[ 0 4 8]
23 [12 16 20]
24 [24 28 32]]
复制代码
numpy的简单计算中，ufunc通用函数是对数组中的数据执行元素级运算的函数。
如：
复制代码
arr = np.arange(6).reshape((2,3))
print arr
[[0 1 2]
[3 4 5]]
print np.square(arr)
[[ 0 1 4]
[ 9 16 25]]
复制代码
类似的有：abs,fabs,sqrt,square,exp,log,sign,ceil,floor,rint,modf,isnan,isfinite,isinf,cos,cosh,sin,sinh,tan,tanh，
add,subtract,multiply,power,mod,equal,等等

3. 图解Python中数据分析工具包：Numpy

numpy是我学习python遇到的第一个第三方工具包，它可以让我们快速上手数据分析。numpy提供了向量和矩阵计算和处理的大部分接口。目前很多python的基础工具包都是基于numpy开发而来，比如 scikit-learn, SciPy, pandas, 还有 tensorflow。 numpy可以处理表格、图像、文本等数据，极大地方便我们处理和分析数据。本文主要内容来自于Jay Alammar的一篇文章以及自己学习记录。
原文地址： https://jalammar.github.io/visual-numpy/

使用过程中，如果希望 Numpy 能创建并初始化数组的值， Numpy 提供了 ones()、zeros() 和 random.random() 等方法。只需传递希望生成的元素数量（大小）即可：

还可以进行如下操作：

一般，需要数组和单个数字之间也可以进行运算操作（即向量和标量之间的运算）。比如说 data * 1.6 ，numpy利用一个叫做广播机制（broadcasting）的概念实现了这一运算。：

我们可以通过索引对numpy数据获取任意位置数据或者对数据切片

我们可以通过numpy自带的函数对数据进行一些想要的聚合计算，比如min、max 和 sum ，还可以使用 mean 得到平均值，使用 prod 得到所有元素的乘积，使用 std 得到标准差等等。

上述操作不仅可以应用于单维度数据，还可以用于多维度数据{（矩阵）。

同样可以使用ones()、zeros() 和 random.random()创建矩阵，只要写入一个描述矩阵维数的元组即可：

numpy还可以处理更高维度的数据：

创建更高维度数据只需要在创建时，在参数中增加一个维度值即可：

根据数组中数值是否满足条件，输出为True或False.

希望得到满足条件的索引，用np.where函数实现.

根据索引得到对应位置的值.

np.where也可以接受另两个可选择的参数a和b。当条件满足时，输出a，反之输出b.

获取数组最大值和最小值的索引可以使用np.argmax和np.argmin.

1、numpy.tofile()和numpy.fromfile()
保存为二进制格式，但是不保存数组形状和数据类型，即都压缩为一维的数组，需要自己记录数据的形状，读取的时候再reshape.

2、numpy.save() 和 numpy.load()
保存为二进制格式，保存数组形状和数据类型，不需要进行reshape
实例：

3、numpy.savetxt()和numpy.loadtxt()

np.savetxt(fname,array,fmt=’%.18e’,delimiter=None)
Parameter解释：
array:待存入文件的数组。
fmt:写入文件的格式
实例：

4. python数据分析模块：numpy、pandas全解

一维数组情况：

二维数组情况：

3参数情况：

2参数情况：

1参数情况：

一维情况：

二维情况：

一维情况：

二维情况：

一维情况：

二维情况：第三个参数指定维度

只查看行数、或者列数

逗号隔开两个索引

某些行

某些列

可以看出append()函数在二维数组中添加元素，结果转为了一维数组。

那怎么保持二维数组呢？可以设置axis参数按行或者按列添加

可以看出先把二维数组降成了一维数组，再在索引为1的位置添加元素。

那么怎么保持在二维添加元素呢？ 同样设置axis参数

也分按行和按列删除

标记缺失值： isnan()函数

补充缺失值：

同样axis参数可以指定拼接按行还是按列

2. hstack()函数：以水平堆叠的方式拼接数组

3. vstack()函数：以垂直堆叠的方式拼接数组

第二个参数还可以是数组，指定拆分的位置

hsplit()函数：横向拆成几个数组

vsplit()函数：纵向拆成几个数组

数组与数组之间的运算

数组与数值的运算

可以指定整个数组求和，还是按行或者按列

axis=0：每一列的元素求和

axis=1：每一行的元素求和

axis=0：每一列求均值

axis=1：每一行求均值

axis=0：每一列求最大值

axis=1：每一行求最大值

pandas有两个重要的数据结构对象：Series和DataFrame。

Series是创建一个一维数组对象，会自动生成行标签。

会自动生成行列标签

也可以用字典形式生成数据

在用字典生成数据的基础上，同时指定行标签

例如对下表的数据进行读取

4月是第四个表，我们应把sheet_name参数指定为3；因为索引是从0开始的。

可以看出read_excel()函数自动创建了一个DataFrame对象，同时自动把第一行数据当做列标签。

可以看出不给出header参数时，该参数默认为0。

header=1时结果如下：

header=None时结果如下：

index_col=0时，第0列为列标签

index_col=0时

usecols=[2]：指定第二列

指定多列

数据如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j1SHxY8y-1637655972909)(C: ypora-user-imagesimage-20211114192949607.png)]

nrows=3时

head()函数中参数为空默认前5行

指定head(3)时如下

numpy模块也是shape

查看特定列的书库类型

特定列数据类型转换

先查看一下所有数据

与单行相比，结果显示的格式不一样了

iloc()挑选：

或者给出区间

挑选数据要么标签，要么索引挑选

或者

或者写成区间

标签挑选

或者索引挑选

先查看一下数据

或者用字典一对一修改

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a6QKIoie-1637655972912)(C: ypora-user-imagesimage-20211123110431201.png)]

isin()函数查看表中是否有该值

查看特定列是否有该值

可以看出上述代码并没有替换，那怎么替换呢？

末尾插入一列

指定插入到哪列

axis参数可以指定删除行还是删除列

指定标签删除

指定索引删除

方法三

指定行标签删除

指定索引删除

方法三：

先查看所有数据

info()函数查看数据类型，还可以查看是否有缺失值

isnull()函数查看是否有缺失值

在numpy模块中用isnan()函数

删除有缺失值的行

删除整行都为缺失值的行： 需要指定how参数

不同列的缺失值设置不同的填充值

默认保留第一个重复值所在的行，删除其他重复值所在的行

保留第一个重复值所在的行

保留最后一个重复值所在的行

是重复的就删除

降序如下

参数指定first时，表示在数据有重复值时，越先出现的数据排名越靠前

获取产品为单肩包的行数据

获取数量>60的行数据

获取产品为单肩包且数量>60 的行数据

获取产品为单肩包或数量>60 的行数据

stack()函数转换成树形结构

how参数指定外连接

on参数指定按哪一列合并

concat()函数采用 全连接 的方式，没有的数设置为缺失值

重置行标签

效果与concat()一样

末尾添加行元素

指定列求和

指定列求均值

指定列求最值

获取单列的

corr()函数获取相关系数

获取指定列与其他列的相关系数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-46g9qgQw-1637655972913)(C: ypora-user-imagesimage-20211123135643804.png)]

groupby()函数返回的是一个DataFrameBy对象，该对象包含分组后的数据，但是不能直观地显示出来。

分组后获取指定列的汇总情况

获取多列的汇总情况

获取多列的情况

ta = pd.read_excel(‘相关性分析.xlsx’)

print(data)

corr()函数获取相关系数

获取指定列与其他列的相关系数

[外链图片转存中…(img-46g9qgQw-1637655972913)]

groupby()函数返回的是一个DataFrameBy对象，该对象包含分组后的数据，但是不能直观地显示出来。

分组后获取指定列的汇总情况

获取多列的汇总情况

获取多列的情况

5. python numpy有什么用

NumPyis the fundamental package for scientific computing withPython。就是科学计算包。

a powerful N-dimensional array object
sophisticated (broadcasting) functions
tools for integrating C/C++ and Fortran code
useful linear algebra, Fourier transform, and random number capabilities

一个用python实现的科学计算包。包括：1、一个强大的N维数组对象Array；2、比较成熟的（广播）函数库；3、用于整合C/C++和Fortran代码的工具包；4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。

NumPy系统是Python的一种开源的数字扩展。这种工具可用来存储和处理矩阵，比Python自身的嵌套列表结构要高效。据说NumPy将Python相当于变成一种免费的更强大的MatLab系统。

6. python怎样引用numpy

numpy是python的一个科学计算的库，提供了矩阵运算的功能，一般与scipy、matplotlib一起使用。
导入numpy的范例如下:
>>>import numpy as np
>>>print np.version.version
1.6.2

阅读全文

热点内容

stn数据库发布：2025-02-12 09:32:31 浏览：602

iossocket编程发布：2025-02-12 09:32:20 浏览：899

sql语句相等发布：2025-02-12 09:32:19 浏览：351

278源码发布：2025-02-12 09:22:40 浏览：248

13人牛牛源码发布：2025-02-12 09:22:40 浏览：155

win2008r2搭建iscsi服务器发布：2025-02-12 09:18:30 浏览：634

python解压zip 发布：2025-02-12 09:08:46 浏览：921

如何加强人员配置发布：2025-02-12 09:07:54 浏览：417

lol一区为什么服务器好卡发布：2025-02-12 09:02:22 浏览：629

安卓运营商cm是哪个版本发布：2025-02-12 09:00:00 浏览：515

pythonnumpy关系

与pythonnumpy关系相关的资讯