rpython比較
⑴ R和 python 用於統計學分析,哪個更好
總的概括:R主要在學術界流行,python(numpy scipy)在工程方便比較實用。
R是S(Splus)的開源版本,或者下一代。發源地在紐西蘭奧克蘭。這個軟體的統計背景很濃烈。我這里濃烈的意思是,如果你不熟習統計知識(歷史)的話,R的幫助文檔看起來是很累的。由統計背景的人開發。R的維護組叫CRAN-R。在生物信息方便,有個叫bioconctor的組織,裡面有很多生物信息方面可以用的軟體包,他們有一套自己維護package系統。
Python是個綜合語言(這里特指指CPython解釋器),numpy scipy是數值計算的擴展包,pandas是主要用來做數據處理(numpy依賴),sympy做符號計算(類似mathematica?)此外還有一些不太成熟的包如sciki learn,statistical models。成熟度不如R。但是已經到了可用的水平了。是讀計算機的人寫的統計包。ipython 更新到1.0以後,功能基本完善,其notebook非常強大(感覺就像mathematica)而且還是基於web,在合作分享方面非常好用。
性能:
大家都說R慢,特別是CS的人。其實這里主要是兩點:一個R裡面數組的調用都是用復制的,二是Rscript慢。三是處理大數據慢。如果R用的好的話,R是不太慢的。具體來說就是Rscript用的少,多用命令,跑點小數據。這樣的話,實際在跑的都是背後的fortran和C庫。他們都有快二三十年歷史了。可謂異常可靠,優化得不能再優化了(指單線程,如果去看源代碼揮發先許多莫名的常數,永用了以後精度高速度快!)。比如一個自己編寫一個R腳本,loop套loop的那種,那真是想死的心都會有。外加一點,R處理文本文件很慢!
Python歸根揭底還是個有解釋器的腳本語言,而且有致命傷——GIL,但python最難能可貴的就是它很容易變得更快。比如pypy,cython,或者直接ctypes掛C庫。純python寫個原型,然後就開是不斷的profiling和加速吧。很輕易可以達到和C一個數量級的速度,但是寫程序、調試的時間少了很多。
並行計算:
R v15 之後有了自帶的parallel包,用挺輕松的。不過其實就是不停的fork,或者mpi,內存消耗挺厲害的。parSapply,parApply什麼的,真是很好用。
Python雖然有GIL——並行計算的死敵,但是有multiprocessing(fork依賴) ,是可以共享數據的什麼的,估計內存消耗方面比R好點,數據零散的話overhead很多。到了MPI的話,mpi4py還是挺好用的。用cython的話結合openmp可以打破GIL,但是過程中不能調用python的對象。
學習曲線:假設什麼編程都不會的同學。
R一開始還是很容易上手的,查到基本的命令,包,直接print一下就有結果了。但是如果要自己寫演算法、優化性能的時候,學習難度陡增。
Python么,挺好學的,絕大多數的幫助文檔都比R好了許多。有些包用起來沒R方便。總的來說深入吼R陡。
擴展資源:
基本上新的統計方法都會有R的package,安裝實用都不麻煩。但是基本上都是搞統計的人寫的計算機包。所以效能上可能有問好。比較出名的有兩個包的管理網站,cran-r 和bioconctor。 所以搞生化的估計R用起來很方便。
python的統計計算包們比R少,多很年輕,還在不斷的開發中。優於是計算機人寫的統計包,用起來的時候要多漲個心眼。
畫圖:
R自帶的那些工具就挺好用了,然後還有ggplot這種非常優美的得力工具。
python 有matplotlib,畫出來效果感覺比R自帶的好一些些,而且界面基於QT,跨平台支持。可能是R用得多了,pyplot用起來還是不太順手,覺得其各個組建的統一性不高。
IDE:
Rstudio非常不錯,提供類matlab環境。(用過vim-r-plugin,用過emacs + ess現在用vim。)
windows 下有python(x,y) 還有許多商業的工具。(本人現在的emacs環境還不是很順手~)
建議:
如果只是處理(小)數據的,用R。結果更可靠,速度可以接受,上手方便,多有現成的命令、程序可以用。
要自己搞個演算法、處理大數據、計算量大的,用python。開發效率高,一切盡在掌握。
ps:盲目地用R的包比盲目的地用python的包要更安全。起碼R會把你指向一篇論文,而python只是指向一堆代碼。R出問題了還有論文作者、審稿人陪葬。
⑵ r和python數據分析的區別有哪些
什麼是R語言?
R語言,一種自由軟體編程語言與操作環境,主要用於統計分析、繪圖、數據挖掘。R本來是由來自紐西蘭奧克蘭大學的羅斯·伊哈卡和羅伯特·傑特曼開發(也因此稱為R),現在由「R開發核心團隊」負責開發。R基於S語言的一個GNU計劃項目,所以也可以當作S語言的一種實現,通常用S語言編寫的代碼都可以不作修改的在R環境下運行。R的語法是來自Scheme。
R的源代碼可自由下載使用,亦有已編譯的可執行文件版本可以下載,可在多種平台下運行,包括UNIX(也包括FreeBSD和linux)、Windows和MacOS。R主要是以命令行操作,同時有人開發了幾種圖形用戶界面。
相關推薦:《Python教程》
R的功能能夠通過由用戶撰寫的包增強。增加的功能有特殊的統計技術、繪圖功能,以及編程介面和數據輸出/輸入功能。這些軟體包是由R語言、LaTeX、Java及最常用C語言和Fortran撰寫。下載的可執行文件版本會連同一批核心功能的軟體包,而根據CRAN紀錄有過千種不同的軟體包。其中有幾款較為常用,例如用於經濟計量、財經分析、人文科學研究以及人工智慧。
Python與R語言的共同特點
Python和R在數據分析和數據挖掘方面都有比較專業和全面的模塊,很多常用的功能,比如矩陣運算、向量運算等都有比較高級的用法。
Python和R兩門語言有多平台適應性,linux、window都可以使用,並且代碼可移植性強。
Python和R比較貼近MATLAB以及minitab等常用的數學工具。
Python與R語言的區別
數據結構方面,由於是從科學計算的角度出發,R中的數據結構非常的簡單,主要包括向量(一維)、多維數組(二維時為矩陣)、列表(非結構化數據)、數據框(結構化數據)。而Python則包含更豐富的數據結構來實現數據更精準的訪問和內存控制,多維數組(可讀寫、有序)、元組(只讀、有序)、集合(唯一、無序)、字典(Key-Value)等等。
Python與R相比速度要快。Python可以直接處理上G的數據;R不行,R分析數據時需要先通過資料庫把大數據轉化為小數據(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統計結果。
Python是一套比較平衡的語言,各方面都可以,無論是對其他語言的調用,和數據源的連接、讀取,對系統的操作,還是正則表達和文字處理,Python都有著明顯優勢。 而R是在統計方面比較突出。
Python的pandas借鑒了R的dataframes,R中的rvest則參考了Python的BeautifulSoup,兩種語言在一定程度上存在互補性,通常,我們認為Python比R在計算機編程、網路爬蟲上更有優勢,而R在統計分析上是一種更高效的獨立數據分析工具。所以說,同時學會Python和R這兩把刷子才是數據科學的王道。
⑶ python和r語言的區別是什麼
在從事數據分析行業中,我們都會從R與Python當中進行選擇,但是,從這兩個異常強大、靈活好用的數據分析語中選擇,卻是非常難以選擇的。
為了讓大家能選擇出更適合自己的語言,我們將兩種語言進行簡單的對比。
Stack Overflow趨勢對比
相關推薦:《Python視頻教程》
上圖顯示了自從2008年(Stack Overflow 成立)以來,這兩種語言隨著時間的推移而發生的變化。
R和Python在數據科學領域展開激烈競爭,我們來看看他們各自的平台份額,並將2016與2017年進行比較:
我們再從適用場景、任務、數據處理能力、開放環境來分析:
適用場景
R適用於數據分析任務需要獨立計算或單個伺服器的應用場景。Python作為一種粘合劑語言,在數據分析任務中需要與Web應用程序集成或者當一條統計代碼需要插入到生產資料庫中時,使用Python更好。
任務
在進行探索性統計分析時,R勝出。它非常適合初學者,統計模型僅需幾行代碼即可實現。Python作為一個完整而強大的編程語言,是部署用於生產使用的演算法的有力工具。
數據處理能力
有了大量針對專業程序員以及非專業程序員的軟體包和庫的支持,不管是執行統計測試還是創建機器學習模型,R語言都得心應手。
Python最初在數據分析方面不是特別擅長,但隨著NumPy、Pandas以及其他擴展庫的推出,它已經逐漸在數據分析領域獲得了廣泛的應用。
開發環境
對於R語言,需要使用R Studio。對於Python,有很多Python IDE可供選擇,其中Spyder和IPython Notebook是最受歡迎的。
R 和 Python 詳細對比
R和Python之間有很強的關聯,並且這兩種語言日益普及,很難說選對其一,事實上日常用戶和數據科學家可以同時利用這兩種語言。
⑷ python 和 r 的區別 知乎
有人說Python和R的區別是顯而易見的,因為R是針對統計的,python是給程序員設計的,其實這話對Python多多少少有些不公平。2012年的時候我們說R是學術界的主流,但是現在Python正在慢慢取代R在學術界的地位。不知道是不是因為大數據時代的到來。
Python與R相比速度要快。Python可以直接處理上G的數據;R不行,R分析數據時需要先通過資料庫把大數據轉化為小數據(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統計結果。所以有人說:Python=R+SQL/Hive,並不是沒有道理的。
Python的一個最明顯的優勢在於其膠水語言的特性,很多書里也都會提到這一點,一些底層用C寫的演算法封裝在Python包里後性能非常高效(Python的數據挖掘包Orange canve 中的決策樹分析50萬用戶10秒出結果,用R幾個小時也出不來,8G內存全部占滿)。但是,凡事都不絕對,如果R矢量化編程做得好的話(有點小難度),會使R的速度和程序的長度都有顯著性提升。
R的優勢在於有包羅萬象的統計函數可以調用,特別是在時間序列分析方面,無論是經典還是前沿的方法都有相應的包直接使用。
相比之下,Python之前在這方面貧乏不少。但是,現在Python有了pandas。pandas提供了一組標準的時間序列處理工具和數據演算法。因此,你可以高效處理非常大的時間序列,輕松地進行切片/切塊、聚合、對定期/不定期的時間序列進行重采樣等。可能你已經猜到了,這些工具中大部分都對金融和經濟數據尤為有用,但你當然也可以用它們來分析伺服器日誌數據。於是,近年來,由於Python有不斷改良的庫(主要是pandas),使其成為數據處理任務的一大替代方案。
做過幾個實驗:
1. 用python實現了一個統計方法,其中用到了ctypes,multiprocess。
之後一個項目要做方法比較,又用回R,發現一些bioconctor上的包已經默認用parallel了。(但那個包還是很慢,一下子把所有線程都用掉了,導致整個電腦使用不能,看網頁非常卡~)
2. 用python pandas做了一些數據整理工作,類似資料庫,兩三個表來回查、匹配。感覺還是很方便的。雖然這些工作R也能做,但估計會慢點,畢竟幾十萬行的條目了。
3. 用python matplotlib畫圖。pyplot作圖的方式和R差異很大,R是一條命令畫點東西,pylot是准備好了以後一起出來。pyplot的顏色選擇有點尷尬,默認顏色比較少,之後可用html的顏色,但是名字太長了~。pyplot 的legend比R 好用多了,算是半自動化了。pyplot畫出來後可以自由拉升縮放,然後再保存為圖片,這點比R好用。
總的來說Python是一套比較平衡的語言,各方面都可以,無論是對其他語言的調用,和數據源的連接、讀取,對系統的操作,還是正則表達和文字處理,Python都有著明顯優勢。 而R是在統計方面比較突出。但是數據分析其實不僅僅是統計,前期的數據收集,數據處理,數據抽樣,數據聚類,以及比較復雜的數據挖掘演算法,數據建模等等這些任務,只要是100M以上的數據,R都很難勝任,但是Python卻基本勝任。
結合其在通用編程方面的強大實力,我們完全可以只使用Python這一種語言去構建以數據為中心的應用程序。
但世上本沒有最好的軟體或程序,也鮮有人能把單一語言挖掘運用到極致。尤其是很多人早先學了R,現在完全不用又捨不得,所以對於想要學以致用的人來說,如果能把R和Python相結合,就更好不過了,很早看過一篇文章——讓R與Python共舞,咱們壇子里有原帖,就不多說了,看完會有更多啟發。
BTW: 如果之前沒有學過R,可以先學Python然後決定是不是學R,如果學了R,學Python的時候會更快上手。
⑸ 數據挖掘工業界,R和Python哪個比較常用
從全面性方面,我認為Python的確勝過R。無論是對其他語言的調用,和數據源的連接、讀取,對系統的操作,還是正則表達和文字處理,Python都有著明顯優勢。畢竟,python本身是作為一門計算機編程語言出現的,而R本身只是源於統計計算。所以從語言的全面性來說,兩者差異顯著。
這兩個工具都很方便,不需要非常高深的編程能力,都適合演算法開發,有大量的package供你使用。
Python入門簡單,而R則相對比較難一些。
R做文本挖掘現在還有點弱,當然它的優點在於函數都給你寫好了,你只需要知道參數的形式就行了,有時候即使參數形式不對,R也能智能地幫你適應。這種簡單的軟體適合想要專注於業務的人。
Python幾乎都可以做,函數比R多,比R快。它是一門語言,R更像是一種軟體,所以python更能開發出flexible的演算法。
Python適合處理大量數據,而R則在這方面有很多力不從心,當然這么說的前提是對於編程基礎比較一般的童鞋,對於大牛來說,多靈活運用矢量化編程的話,R的速度也不會太差。
論性能,Python介於C/C++/Java這些高級語言與R語言之間,雖然性能不及那些高級語言,但是一般日常的數據用Python基本都能實現,對於性能要求不挑剔的人來說,足夠了
Python語言編程的代碼可讀性高,整體美觀,屬於簡單粗暴性質的,短時間內少量代碼可實現復雜功能;R的語法很奇怪,各種包並不遵守語法規范,導致使用起來經常感覺蛋疼;R程序最終看起來沒有Python那麼簡潔美觀。
⑹ python和r語言哪個好
單就數據分析對比,我認為R的優勢有:
1、學習先易後難,不會把小白們嚇掉;
2、數據科學的包特別多
3、可視化特別吊
R的缺點也不少:
1、R經常更新,更新後經常不支持之前你安裝的包;我電腦里安裝了10+個R的版本,不停的切換
2、R語言的包、函數名起的很隨意,看名字不知道是干什麼用的,記不起名字如何讓小白使用啊。
3、R語言社區人少,遇到問題你只能自己解決
4、即使有RStudio,寫代碼還是不方便
下面再說下python,優點:
1、是一門看的懂的,說人話的語言。庫名、函數名都很好理解記憶,而且你看別人寫的代碼基本知道這代碼的意思,不信你試試。
2、數據獲取占優勢,數據分析第一步是數據獲取,現在人文社科很多數據需要網上抓取,不過就抓數據而言,python更占優勢。各種教程,代碼,網上一大片。
3、社區人數特別多,基本你遇到的問題都能找到
python的缺點:
1、學習起來,開頭很難,學習曲線與R正好相反。
2、公平起見,我還是寫上,python的數據分析庫不如R多
3、可視化不如R
綜合下,建議大家學習python,語言通俗易懂,功能強大,越來越簡單。
⑺ Python語言與R語言區別
數據結構方面,由於是從科學計算的角度出發,R中的數據結構非常的簡單,主要包括向量(一維)、多維數組(二維時為矩陣)、列表(非結構化數據)、數據框(結構化數據)。而
Python
則包含更豐富的數據結構來實現數據更精準的訪問和內存控制,多維數組(可讀寫、有序)、元組(只讀、有序)、集合(一、無序)、字典(Key-Value)等等。Python與R相比速度要快。Python可以直接處理上G的數據;R不行,R分析數據時需要先通過資料庫把大數據轉化為小數據(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統計結果。Python是一套比較平衡的語言,各方面都可以,無論是對其他語言的調用,和數據源的連接、讀取,對系統的操作,還是正則表達和文字處理,Python都有著明顯優勢。
而R是在統計方面比較突出。Python與R語言的應用場景應用Python的場景
⑻ r語言和python哪個更有用
通常,我們認為Python比R在計算機編程、網路爬蟲上更有優勢,而 R 在統計分析上是一種更高效的獨立數據分析工具。所以說,同時學會Python和R這兩把刷子才是數據科學的王道。
R語言,一種自由軟體編程語言與操作環境,主要用於統計分析、繪圖、數據挖掘。R本來是由來自紐西蘭奧克蘭大學的羅斯·伊哈卡和羅伯特·傑特曼開發(也因此稱為R),現在由「R開發核心團隊」負責開發。
R基於S語言的一個GNU計劃項目,所以也可以當作S語言的一種實現,通常用S語言編寫的代碼都可以不作修改的在R環境下運行。R的語法是來自Scheme。
R的源代碼可自由下載使用,亦有已編譯的可執行文件版本可以下載,可在多種平台下運行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。R主要是以命令行操作,同時有人開發了幾種圖形用戶界面。
R的功能能夠通過由用戶撰寫的包增強。增加的功能有特殊的統計技術、繪圖功能,以及編程介面和數據輸出/輸入功能。這些軟體包是由R語言、LaTeX、Java及最常用C語言和Fortran撰寫。
下載的可執行文件版本會連同一批核心功能的軟體包,而根據CRAN紀錄有過千種不同的軟體包。其中有幾款較為常用,例如用於經濟計量、財經分析、人文科學研究以及人工智慧。
Python與R語言的共同特點:
Python和R在數據分析和數據挖掘方面都有比較專業和全面的模塊,很多常用的功能,比如矩陣運算、向量運算等都有比較高級的用法。
Python和R兩門語言有多平台適應性,linux、window都可以使用,並且代碼可移植性強。
Python和R比較貼近MATLAB以及minitab等常用的數學工具。
Python與R語言的區別:
數據結構方面,由於是從科學計算的角度出發,R中的數據結構非常的簡單,主要包括向量(一維)、多維數組(二維時為矩陣)、列表(非結構化數據)、數據框(結構化數據)。
而 Python 則包含更豐富的數據結構來實現數據更精準的訪問和內存控制,多維數組(可讀寫、有序)、元組(只讀、有序)、集合(唯一、無序)、字典(Key-Value)等等。
Python與R相比速度要快。Python可以直接處理上G的數據;R不行,R分析數據時需要先通過資料庫把大數據轉化為小數據(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統計結果。
Python是一套比較平衡的語言,各方面都可以,無論是對其他語言的調用,和數據源的連接、讀取,對系統的操作,還是正則表達和文字處理,Python都有著明顯優勢。 而R是在統計方面比較突出。
Python的pandas借鑒了R的dataframes,R中的rvest則參考了Python的BeautifulSoup,兩種語言在一定程度上存在互補性。
⑼ r和python哪個容易入門
如果只想學一個語言的話,還是推薦python。從我身邊人的情況來看,很多學了很多R的人最後都選擇再去多學一門python,包括我自己也是,而python很厲害的人卻沒聽說過會來學R。(推薦學習:Python視頻教程)
我其實學python是沖著爬蟲來的,然後順便學了一下python的數據分析。讓我感觸最深的是python的規整統一,語法優雅。比如各種機器學習演算法在python中使用方法完全是同一個套路,訓練預測檢驗都是一樣的方法,這極大地減少了學習的成本。在這點上R就顯得很亂,R包雖然很多很全,但是重復太多,調用方法都不一樣,學習成本驟然上升。
不過R也有python無法比擬的優勢。總結起來就是R更方便。
第一,繪圖。
python的繪圖基本上都是基於matplotpb庫,其他庫很多都和這個關聯。這個庫的繪圖靈活性非常強大不可否認,即想調哪裡都可以做到,但是每次畫一個簡單的圖形都要寫一大堆代碼就很麻煩。
第二,數據分析函數的調用。
因為數據科學只是python的一個分支,所以數據科學的數據類型不是python內置的類型,而是放在幾個庫裡面的,每次使用都要載入庫,載入要使用的函數,這在我看來是比較麻煩的。
總結起來,python語法的設計更加規范,用戶可以更自由地實現自己的想法,但是它幫你實現的東西會比R少一些。因為更加靈活所以只學一個語言就推薦這個,否則學R語言的話,有時候會覺得不夠用就很難受。
用一個比喻來說明就是,python好比給了你一把非常好的魚竿,你可以釣取任何你想要吃的魚(但是要你自己釣),R好比給了你一把沒那麼好用的魚竿,還附加吃不完的鯉魚、鯽魚,你可以只吃這兩種魚,但是你想吃草魚就要費比較大的功夫才能吃到。為了防止誤導,加入C語言的對比,C語言就是魚竿也要你自己造。
更多Python相關技術文章,請訪問Python教程欄目進行學習!以上就是小編分享的關於r和python哪個容易入門的詳細內容希望對大家有所幫助,更多有關python教程請關注環球青藤其它相關文章!