python数据科学速查表
A. python数据分析-科学计数法
用python进行数据分析时,查看数据,经常发生数据被自动显示成科学记数法的模式,或者多行多列数据只显示前后几行几列,中间都是省略号的情形。
import numpy as npnp.set_printoptions(suppress=True, threshold=np.nan)
suppress=True 取消科学记数法
threshold=np.nan 完整输出(桥卜闭没有省略号)
display.[max_categories, max_columns, max_colwidth, max_info_columns, max_info_rows, max_rows, max_seq_items, memory_usage, multi_sparse, notebook_repr_html, pprint_nest_depth, precision, show_dimensions]
详细介绍文档: pd.set_option
可以在pd.set_option设置display.float_format参敏裂数来以政策小数显示,比如下面设置显示到小数点后3位
pd.set_option('display.float_format', lambda x: '%.3f' % x)
set_option中还有其它一些控制设置,包括默认显示列数,行数等等
pd.set_option('display.max_columns',5, 'display.max_rows', 100)
import pandas as pdpd.set_option('display.max_columns', 10000, 'display.max_rows', 10000)
display.max_columns 显示最大列数
display.max_rows 显示最大行数
1、pd.set_option(‘expand_frame_repr’, False)
True就是可以换行显示。设置成False的时候不允许换行
2、pd.set_option(‘display.max_rows’弊枝, 10)
pd.set_option(‘display.max_columns’, 10)
显示的最大行数和列数,如果超额就显示省略号,这个指的是多少个dataFrame的列。如果比较多又不允许换行,就会显得很乱。
3、pd.set_option(‘precision’, 5)
显示小数点后的位数
4、pd.set_option(‘large_repr’, A)
truncate表示截断,info表示查看信息,一般选truncate
5、pd.set_option(‘max_colwidth’, 5)
列长度
6、pd.set_option(‘chop_threshold’, 0.5)
绝对值小于0.5的显示0.0
7、pd.set_option(‘colheader_justify’, ‘left’)
显示居中还是左边,
8、pd.set_option(‘display.width’, 200)
横向最多显示多少个字符, 一般80不适合横向的屏幕,平时多用200.
np.set_printoptions(precision=None, threshold=None, edgeitems=None, linewidth=None, suppress=None, nanstr=None, infstr=None, formatter=None)
参数:
precision 设置浮点数的精度 (默认值:8)
threshold 设置显示的数目(超出部分省略号显示, np.nan是完全输出,默认值:1000)
edgeitems 设置显示前几个,后几个 (默认值:3)
suppress 设置是否科学记数法显示 (默认值:False)
示例如下:
import numpy as npnp.set_printoptions(precision=4, threshold=8, edgeitems=4, linewidth=75, suppress=True, nanstr='nan', infstr='inf')print("precision=4, 浮点数精确小数点后4位: ", np.array([1.23446789]))print("threshold=8, edgeitems=4, 显示8个,前4后4: ", np.arange(10))np.set_printoptions(formatter={'all': lambda x :'int:'+str(-x)})print("formatter, 格式化输出: ", np.arange(5))
输出如下:
[图片上传失败...(image-15f596-1587702700460)]
注意:precision自动四舍五入
详细介绍文档: np.set_printoptions
pd.set_option
pd.set_option(pat, value)
B. 如何学习python数据分析
第一阶段:Python编程语言核心基础
快速掌握一门数据科学的有力工具。
第二阶段:Python数据分析基本工具
通过介基猛或绍NumPy、Pandas、MatPlotLib、Seaborn等工知巧具,快速具备数据分析的专业范儿。
第三阶段:Python语言描述的数学基础
概率统计、线性代数、时间序列分析、随机过程是构建数据科学的基石,这里独树一帜,通过python语言描述这些数学,快速让数学知识为我所用,融会贯通。
第四阶段:机器学习典型算法专题
这一部分利用前面介绍的基础知识,对搏伍机器学习的常用核心算法进行抽丝剥茧、条分缕析、各个击破。
第五阶段:实战环节深度应用
在这一部分利用已有的知识进行实战化的数据分析,例如:对基金投资策略、城市房屋租赁等热门数据展开围猎。
C. python可以做数据分析吗
Python已成为数据分析和数据科学事实上的标准语言和标准平台之一。
下面是Python生态系统为数据分析师和数据科学家提供的常用程序库。
NumPy:这是一个通用程序库,不仅支持常用的数值数组,同时提供了用于高效处理这些数组的函数。
SciPy:这是Python的科学计算库,对NumPy的功能进行了大量扩充,同时也有部分功能是重合的。Numpy和SciPy曾经共享基础代码,后来分道扬镳了。
Pandas:这是一个用于数据处理的程序库,不仅提供了丰富的数据结构,同时为处理数据表和时间序列提供了相应的函数。
Matplotlib:这是一个2D绘图库,在绘制图形和图像方面提供了良好的支持。当前,Matplotlib已经并入SciPy中并支持NumPy。
IPython:这个库为Python提供了强大的交互式Shell,也为Jupyter提供了内核,同时还支持交互式数据可视化功能。
Jupyter Notebook:它提供了一个基于Web的交互式shell,可以创建和共享支持可实时代码和可视化的文档。Jupyter Notebook通过IPython提供的内核支持多个版本的Python。
python可以说是数据分析一大利器。
D. 跪求python学习入门教程全集求告知!急急急!!!
电子书集合|数据科学速查表|迁移学习实战 ,免费下载
链接: https://pan..com/s/11qnpoLX1H_XzFB-RdVNG4w 提取码: z9x7
E. python怎么做数据分析
无论是自学还是怎么的,记住自己学习Python的目标——从事数据科学,而非Python软件开发。所以,Python入门的方向,应该是掌握Python所有的相关概念、基础知识,为后续Python库的学习打基础。
需要掌握的数据分析基本库有
Numpy
Numpy是Python科学计算的基础包。
Pandas
它提供了复杂精细的索引功能,能更加便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。因为数据操作、准备、清洗是数据分析最重要的技能,所以Pandas也是学习的重点。
Matplotlib
Matplotlib是最流行的用于绘制图表和其它二维数据可视化的Python库,它非常适合创建出版物上用的图表。
Scikit-learn
Scikit-learn是Python的通用机器学习工具包。它的子模块包括分类、回归、聚类、降维、选型、预处理,对于Python成为高效数据科学编程语言起到了关键作用。
只需要学习Python入门的知识以及4个数据分析相关的库,就能上手使用Python进行数据分析了。另外如果需要获取外部网站数据的话,还需要学习爬虫。