並行python
❶ python能實現並行嗎
Python可以實現並行,Python可以用多進程來實現並行。
進程與線程的定義:
進程是具有一定獨立功能的程序關於某個數據集合上的一次運行活動,進程是系統進行資源分配和調度的一個獨立單位。
線程是進程的一個實體,是CPU調度和分派的基本單位,它是比進程更小的能獨立運行的基本單位。
線程自己基本上不擁有系統資源,只擁有一點在運行中必不可少的資源(如程序計數器,一組寄存器和棧),但是它可與同屬一個進程的其他的線程共享進程所擁有的全部資源。
進程與線程的聯系:
一個線程可以創建和撤銷另一個線程;同一個進程中的多個線程之間可以並發執行.
相對進程而言,線程是一個更加接近於執行體的概念,它可以與同進程中的其他線程共享數據,但擁有自己的棧空間,擁有獨立的執行序列。
更多Python知識,請關註:Python自學網!!
❷ 為什麼Python中的NumPy會多進程並行載入數據,而且返回的結果卻是相同的
明敏 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
到底是怎樣的一個bug,能讓95%的Pytorch庫中招,就連特斯拉AI總監深受困擾?
還別說,這個bug雖小,但有夠「狡猾」的。
這就是最近Reddit上熱議的一個話題,是一位網友在使用再平常不過的Pytorch+Numpy組合時發現。
最主要的是,在代碼能夠跑通的情況下,它甚至還會影響模型的准確率!
除此之外,網友熱議的另外一個點,竟然是:
而是它到底算不算一個bug?
這究竟是怎麼一回事?
事情的起因是一位網友發現,在PyTorch中用NumPy來生成隨機數時,受到數據預處理的限制,會多進程並行載入數據,但最後每個進程返回的隨機數卻是相同的。
他還舉出例子證實了自己的說法。
如下是一個示例數據集,它會返回三個元素的隨機向量。這里採用的批量大小分別為2,工作進程為4個。
然後神奇的事情發生了:每個進程返回的隨機數都是一樣的。
這個結果會著實讓人有點一頭霧水,就好像數學應用題求小明走一段路程需要花費多少時間,而你卻算出來了負數。
發現了問題後,這位網友還在GitHub上下載了超過10萬個PyTorch庫,用同樣的方法產生隨機數。
結果更加令人震驚:居然有超過95%的庫都受到這個問題的困擾!
這其中不乏PyTorch的官方教程和OpenAI的代碼,連特斯拉AI總監Karpathy也承認自己「被坑過」!
但有一說一,這個bug想要解決也不難:只需要在每個epoch都重新設置seed,或者用python內置的隨機數生成器就可以避免這個問題。
到底是不是bug?
如果這個問題已經可以解決,為什麼還會引起如此大的討論呢?
因為網友們的重點已經上升到了「哲學」層面:
這到底是不是一個bug?
在Reddit上有人認為:這不是一個bug。
雖然這個問題非常常見,但它並不算是一個bug,而是一個在調試時不可以忽略的點。
就是這個觀點,激起了千層浪花,許多人都認為他忽略了問題的關鍵所在。
這不是產生偽隨機數的問題,也不是numpy的問題,問題的核心是在於PyTorch中的DataLoader的實現
對於包含隨機轉換的數據載入pipeline,這意味著每個worker都將選擇「相同」的轉換。而現在NN中的許多數據載入pipeline,都使用某種類型的隨機轉換來進行數據增強,所以不重新初始化可能是一個預設。
另一位網友也表示這個bug其實是在預設程序下運行才出現的,應該向更多用戶指出來。
並且95%以上的Pytorch庫受此困擾,也絕不是危言聳聽。
有人就分享出了自己此前的慘痛經歷:
我認識到這一點是之前跑了許多進程來創建數據集時,然而發現其中一半的數據是重復的,之後花了很長的時間才發現哪裡出了問題。
也有用戶補充說,如果 95% 以上的用戶使用時出現錯誤,那麼代碼就是錯的。
順便一提,這提供了Karpathy定律的另一個例子:即使你搞砸了一些非常基本代碼,「neural nets want to work」。
你有踩過PyTorch的坑嗎?
如上的bug並不是偶然,隨著用PyTorch的人越來越多,被發現的bug也就越來越多,某乎上還有PyTorch的坑之總結,被瀏覽量高達49w。
其中從向量、函數到model.train(),無論是真bug還是自己出了bug,大家的血淚史還真的是各有千秋。
所以,關於PyTorch你可以分享的經驗血淚史嗎?
歡迎評論區留言討論~
參考鏈接:
[1]https://tanelp.github.io/posts/a-bug-that-plagues-thousands-of-open-source-ml-projects/
[2]https://www.reddit.com/r/MachineLearning/comments/mocpgj/p_using_pytorch_numpy_a_bug_that_plagues/
[3]https://www.hu.com/question/67209417/answer/866488638
— 完 —
❸ Python進程之並行與並發的區別
並行 :
當系統有一個以上CPU時,則進程的操作有可能非並發。當一個CPU執行一個進程時,另一個CPU可以執行另一個進程,兩個進程互不搶佔CPU資源,可以同時進行,這種方式我們稱之為並行。
並發 :
當有多個進程在操作時,如果系統只有一個CPU,則它根本不可能真正同時執行一個以上的進程,它只能把CPU運行時間劃分成若干個時間段,再將時間 段分配給各個進程執行,在一個時間段的進程代碼運行時,其它進程處於掛起狀,這種方式我們稱之為並發。
區別:
並發和並行是即相似又有區別的兩個概念,並行是指兩個或者多個事件在同一時刻同時執行,而並發是指兩個或多個事件通過時間片輪流被執行。在多道程序環境下,並發性是指在一段時間內宏觀上有多個程序在同時運行,但在單核CPU中,同一時刻僅能有一道程序執行,故微觀上這些程序只能是分時地交替執行。倘若在計算機中有多個CPU,則這些可以並發執行的程序便可被分配到多個處理機上,實現並行執行,即利用每個處理機來處理一個可並發執行的程序,這樣,多個程序便可以同時執行。
相關推薦:《Python視頻教程》
進程的狀態如下圖所示
在了解其他概念之前,我們首先要了解進程的幾個狀態。在程序運行的過程中,由於被操作系統的調度演算法控制,程序會進入幾個狀態:就緒,運行和阻塞。
(1)就緒(Ready)狀態
當進程已分配到除CPU以外的所有必要的資源,只要獲得處理機便可立即執行,這時的進程狀態稱為就緒狀態。
(2)執行/運行(Running)狀態當進程已獲得處理機,其程序正在處理機上執行,此時的進程狀態稱為執行狀態。
(3)阻塞(Blocked)狀態正在執行的進程,由於等待某個事件發生而無法執行時,便放棄處理機而處於阻塞狀態。引起進程阻塞的事件可有多種,例如,等待I/O完成、申請緩沖區不能滿足、等待信件(信號)等。
相關推薦:
一文帶你讀懂Python中的進程
❹ Python進程之串列與並行
串列和並行
串列指的是任務的執行方式。串列在執行多個任務時,各個任務按順序執行,完成一個之後才能進行下一個。(早期單核CPU的情況下)
並行指的是多個任務在同一時刻可以同時執行(前提是多核CPU),不需要等待。
同步和非同步
所謂同步就是一個任務的完成需要依賴另外一個任務時,只有等待被依賴的任務完成後,依賴的任務才能算完成,這是一種可靠的任務序列。要成功都成功,失敗都失敗,兩個任務的狀態可以保持一致需要等待、協調運行。
所謂非同步就是彼此獨立的,分配任務後,不需要等待該任務的執行結果,繼續做自己的事,無論被分配的任務是執行成功還是失敗都是不關心的,只要自己完成了整個任務就算完成了。至於其它任務是否真正完成無法確定,所以它是不可靠的任務序列。
相關推薦:《Python視頻教程》
小結:
1、串列和同步的區別:串列指的是在早期單核CPU時,一台電腦在同一時刻只能執行一個程序,如果想要運行另一個程序需要關閉當前程序,才能執行下一個程序,是針對多個程序來說的。同步指的是在一個程序中同一時刻只能執行一個任務。是針對一個程序中多個進程或多個線程來說的。
所以兩者有著本質上的區別。串列是針對多個程序,同步是針對一個程序內部的多個進程或多個線程的。
2、並行和非同步的區別:並行指的是多核CPU,在同一時刻可以執行多個程序。非同步指的是在同一個程序內可以執行多個進程或者多個線程。
兩者本質上的區別就是並行指的是多個程序,非同步指的是一個程序內部的多個進程和多個線程。
3、並行和並發的區別:並行和並發都是指多個程序,但不同的是並行在同一時刻可以同時執行多個任務,而並發在同一時刻只能執行一個任務,通過多道技術在空間上可以開啟多個程序,在時間上通過時間片的方式輪詢多個程序,從用戶的角度來看實現了多個程序同時執行的偽並行,從CPU的角度同一時刻它只能執行一個程序,所以說他是串列的,只不過是由於CPU切換速度太快我們無法從表面看出來而已。
並行是真正的同一時刻執行多個程序,並發是通過時間輪詢的方式實現了偽並行。
阻塞與非阻塞:
阻塞:只要是涉及到I/O操作或者網路請求的都屬於阻塞如read,recv,accept。
非阻塞:只要不涉及到I/O,網路請求的在內存中可以直接計算的就是非阻塞,例如:list.append(8),dict["a"]=1就是非阻塞。
相關推薦:
Python進程之並行與並發的區別