并行python

发布时间: 2024-04-22 18:51:45

❶ python能实现并行吗

Python可以实现并行，Python可以用多进程来实现并行。

进程与线程的定义：

进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。

线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。

线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器，一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源。

进程与线程的联系：

一个线程可以创建和撤销另一个线程;同一个进程中的多个线程之间可以并发执行.

相对进程而言，线程是一个更加接近于执行体的概念，它可以与同进程中的其他线程共享数据，但拥有自己的栈空间，拥有独立的执行序列。

更多Python知识，请关注：Python自学网！！

❷ 为什么Python中的NumPy会多进程并行加载数据，而且返回的结果却是相同的

明敏发自凹非寺
量子位报道 | 公众号 QbitAI

到底是怎样的一个bug，能让95%的Pytorch库中招，就连特斯拉AI总监深受困扰？
还别说，这个bug虽小，但有够“狡猾”的。
这就是最近Reddit上热议的一个话题，是一位网友在使用再平常不过的Pytorch+Numpy组合时发现。
最主要的是，在代码能够跑通的情况下，它甚至还会影响模型的准确率！
除此之外，网友热议的另外一个点，竟然是：

而是它到底算不算一个bug？

这究竟是怎么一回事？
事情的起因是一位网友发现，在PyTorch中用NumPy来生成随机数时，受到数据预处理的限制，会多进程并行加载数据，但最后每个进程返回的随机数却是相同的。
他还举出例子证实了自己的说法。
如下是一个示例数据集，它会返回三个元素的随机向量。这里采用的批量大小分别为2，工作进程为4个。
然后神奇的事情发生了：每个进程返回的随机数都是一样的。
这个结果会着实让人有点一头雾水，就好像数学应用题求小明走一段路程需要花费多少时间，而你却算出来了负数。
发现了问题后，这位网友还在GitHub上下载了超过10万个PyTorch库，用同样的方法产生随机数。
结果更加令人震惊：居然有超过95%的库都受到这个问题的困扰！
这其中不乏PyTorch的官方教程和OpenAI的代码，连特斯拉AI总监Karpathy也承认自己“被坑过”！
但有一说一，这个bug想要解决也不难：只需要在每个epoch都重新设置seed，或者用python内置的随机数生成器就可以避免这个问题。
到底是不是bug？
如果这个问题已经可以解决，为什么还会引起如此大的讨论呢？
因为网友们的重点已经上升到了“哲学”层面：
这到底是不是一个bug？
在Reddit上有人认为：这不是一个bug。

虽然这个问题非常常见，但它并不算是一个bug，而是一个在调试时不可以忽略的点。

就是这个观点，激起了千层浪花，许多人都认为他忽略了问题的关键所在。

这不是产生伪随机数的问题，也不是numpy的问题，问题的核心是在于PyTorch中的DataLoader的实现

对于包含随机转换的数据加载pipeline，这意味着每个worker都将选择“相同”的转换。而现在NN中的许多数据加载pipeline，都使用某种类型的随机转换来进行数据增强，所以不重新初始化可能是一个预设。

另一位网友也表示这个bug其实是在预设程序下运行才出现的，应该向更多用户指出来。
并且95%以上的Pytorch库受此困扰，也绝不是危言耸听。
有人就分享出了自己此前的惨痛经历：

我认识到这一点是之前跑了许多进程来创建数据集时，然而发现其中一半的数据是重复的，之后花了很长的时间才发现哪里出了问题。

也有用户补充说，如果 95% 以上的用户使用时出现错误，那么代码就是错的。

顺便一提，这提供了Karpathy定律的另一个例子：即使你搞砸了一些非常基本代码，“neural nets want to work”。

你有踩过PyTorch的坑吗？
如上的bug并不是偶然，随着用PyTorch的人越来越多，被发现的bug也就越来越多，某乎上还有PyTorch的坑之总结，被浏览量高达49w。
其中从向量、函数到model.train()，无论是真bug还是自己出了bug，大家的血泪史还真的是各有千秋。
所以，关于PyTorch你可以分享的经验血泪史吗？
欢迎评论区留言讨论～
参考链接：
[1]https://tanelp.github.io/posts/a-bug-that-plagues-thousands-of-open-source-ml-projects/
[2]https://www.reddit.com/r/MachineLearning/comments/mocpgj/p_using_pytorch_numpy_a_bug_that_plagues/
[3]https://www.hu.com/question/67209417/answer/866488638
— 完 —

❸ Python进程之并行与并发的区别

并行 :

当系统有一个以上CPU时，则进程的操作有可能非并发。当一个CPU执行一个进程时，另一个CPU可以执行另一个进程，两个进程互不抢占CPU资源，可以同时进行，这种方式我们称之为并行。

并发 :

当有多个进程在操作时，如果系统只有一个CPU，则它根本不可能真正同时执行一个以上的进程，它只能把CPU运行时间划分成若干个时间段，再将时间段分配给各个进程执行，在一个时间段的进程代码运行时，其它进程处于挂起状，这种方式我们称之为并发。

区别：

并发和并行是即相似又有区别的两个概念，并行是指两个或者多个事件在同一时刻同时执行，而并发是指两个或多个事件通过时间片轮流被执行。在多道程序环境下，并发性是指在一段时间内宏观上有多个程序在同时运行，但在单核CPU中，同一时刻仅能有一道程序执行，故微观上这些程序只能是分时地交替执行。倘若在计算机中有多个CPU，则这些可以并发执行的程序便可被分配到多个处理机上，实现并行执行，即利用每个处理机来处理一个可并发执行的程序，这样，多个程序便可以同时执行。

并行python

与并行python相关的资讯