python數據科學速查表
A. python數據分析-科學計數法
用python進行數據分析時,查看數據,經常發生數據被自動顯示成科學記數法的模式,或者多行多列數據只顯示前後幾行幾列,中間都是省略號的情形。
import numpy as npnp.set_printoptions(suppress=True, threshold=np.nan)
suppress=True 取消科學記數法
threshold=np.nan 完整輸出(橋卜閉沒有省略號)
display.[max_categories, max_columns, max_colwidth, max_info_columns, max_info_rows, max_rows, max_seq_items, memory_usage, multi_sparse, notebook_repr_html, pprint_nest_depth, precision, show_dimensions]
詳細介紹文檔: pd.set_option
可以在pd.set_option設置display.float_format參敏裂數來以政策小數顯示,比如下面設置顯示到小數點後3位
pd.set_option('display.float_format', lambda x: '%.3f' % x)
set_option中還有其它一些控制設置,包括默認顯示列數,行數等等
pd.set_option('display.max_columns',5, 'display.max_rows', 100)
import pandas as pdpd.set_option('display.max_columns', 10000, 'display.max_rows', 10000)
display.max_columns 顯示最大列數
display.max_rows 顯示最大行數
1、pd.set_option(『expand_frame_repr』, False)
True就是可以換行顯示。設置成False的時候不允許換行
2、pd.set_option(『display.max_rows』弊枝, 10)
pd.set_option(『display.max_columns』, 10)
顯示的最大行數和列數,如果超額就顯示省略號,這個指的是多少個dataFrame的列。如果比較多又不允許換行,就會顯得很亂。
3、pd.set_option(『precision』, 5)
顯示小數點後的位數
4、pd.set_option(『large_repr』, A)
truncate表示截斷,info表示查看信息,一般選truncate
5、pd.set_option(『max_colwidth』, 5)
列長度
6、pd.set_option(『chop_threshold』, 0.5)
絕對值小於0.5的顯示0.0
7、pd.set_option(『colheader_justify』, 『left』)
顯示居中還是左邊,
8、pd.set_option(『display.width』, 200)
橫向最多顯示多少個字元, 一般80不適合橫向的屏幕,平時多用200.
np.set_printoptions(precision=None, threshold=None, edgeitems=None, linewidth=None, suppress=None, nanstr=None, infstr=None, formatter=None)
參數:
precision 設置浮點數的精度 (默認值:8)
threshold 設置顯示的數目(超出部分省略號顯示, np.nan是完全輸出,默認值:1000)
edgeitems 設置顯示前幾個,後幾個 (默認值:3)
suppress 設置是否科學記數法顯示 (默認值:False)
示例如下:
import numpy as npnp.set_printoptions(precision=4, threshold=8, edgeitems=4, linewidth=75, suppress=True, nanstr='nan', infstr='inf')print("precision=4, 浮點數精確小數點後4位: ", np.array([1.23446789]))print("threshold=8, edgeitems=4, 顯示8個,前4後4: ", np.arange(10))np.set_printoptions(formatter={'all': lambda x :'int:'+str(-x)})print("formatter, 格式化輸出: ", np.arange(5))
輸出如下:
[圖片上傳失敗...(image-15f596-1587702700460)]
注意:precision自動四捨五入
詳細介紹文檔: np.set_printoptions
pd.set_option
pd.set_option(pat, value)
B. 如何學習python數據分析
第一階段:Python編程語言核心基礎
快速掌握一門數據科學的有力工具。
第二階段:Python數據分析基本工具
通過介基猛或紹NumPy、Pandas、MatPlotLib、Seaborn等工知巧具,快速具備數據分析的專業范兒。
第三階段:Python語言描述的數學基礎
概率統計、線性代數、時間序列分析、隨機過程是構建數據科學的基石,這里獨樹一幟,通過python語言描述這些數學,快速讓數學知識為我所用,融會貫通。
第四階段:機器學習典型演算法專題
這一部分利用前面介紹的基礎知識,對搏伍機器學習的常用核心演算法進行抽絲剝繭、條分縷析、各個擊破。
第五階段:實戰環節深度應用
在這一部分利用已有的知識進行實戰化的數據分析,例如:對基金投資策略、城市房屋租賃等熱門數據展開圍獵。
C. python可以做數據分析嗎
Python已成為數據分析和數據科學事實上的標准語言和標准平台之一。
下面是Python生態系統為數據分析師和數據科學家提供的常用程序庫。
NumPy:這是一個通用程序庫,不僅支持常用的數值數組,同時提供了用於高效處理這些數組的函數。
SciPy:這是Python的科學計算庫,對NumPy的功能進行了大量擴充,同時也有部分功能是重合的。Numpy和SciPy曾經共享基礎代碼,後來分道揚鑣了。
Pandas:這是一個用於數據處理的程序庫,不僅提供了豐富的數據結構,同時為處理數據表和時間序列提供了相應的函數。
Matplotlib:這是一個2D繪圖庫,在繪制圖形和圖像方面提供了良好的支持。當前,Matplotlib已經並入SciPy中並支持NumPy。
IPython:這個庫為Python提供了強大的互動式Shell,也為Jupyter提供了內核,同時還支持互動式數據可視化功能。
Jupyter Notebook:它提供了一個基於Web的互動式shell,可以創建和共享支持可實時代碼和可視化的文檔。Jupyter Notebook通過IPython提供的內核支持多個版本的Python。
python可以說是數據分析一大利器。
D. 跪求python學習入門教程全集求告知!急急急!!!
電子書集合|數據科學速查表|遷移學習實戰 ,免費下載
鏈接: https://pan..com/s/11qnpoLX1H_XzFB-RdVNG4w 提取碼: z9x7
E. python怎麼做數據分析
無論是自學還是怎麼的,記住自己學習Python的目標——從事數據科學,而非Python軟體開發。所以,Python入門的方向,應該是掌握Python所有的相關概念、基礎知識,為後續Python庫的學習打基礎。
需要掌握的數據分析基本庫有
Numpy
Numpy是Python科學計算的基礎包。
Pandas
它提供了復雜精細的索引功能,能更加便捷地完成重塑、切片和切塊、聚合以及選取數據子集等操作。因為數據操作、准備、清洗是數據分析最重要的技能,所以Pandas也是學習的重點。
Matplotlib
Matplotlib是最流行的用於繪制圖表和其它二維數據可視化的Python庫,它非常適合創建出版物上用的圖表。
Scikit-learn
Scikit-learn是Python的通用機器學習工具包。它的子模塊包括分類、回歸、聚類、降維、選型、預處理,對於Python成為高效數據科學編程語言起到了關鍵作用。
只需要學習Python入門的知識以及4個數據分析相關的庫,就能上手使用Python進行數據分析了。另外如果需要獲取外部網站數據的話,還需要學習爬蟲。