python相关分析

发布时间: 2023-02-06 11:26:23

① 怎么用python数据分析分析

1、首先打开python并新建文档。
2、其次输入相关的代码信息。
3、最后点击运行即可数据分析分析

② Python数据分析 | 数据描述性分析

首先导入一些必要的数据处理包和可视化的包，读文档数据并通过前几行查看数据字段。

对于我的数据来说，由于数据量比较大，因此对于缺失值可以直接做删除处理。

得到最终的数据，并提取需要的列作为特征。

对类别数据进行统计：

类别型字段包括location、cpc_class、pa_country、pa_state、pa_city、assignee六个字段，其中：

单变量统计描述是数据分析中最简单的形式，其中被分析的数据只包含一个变量，不处理原因或关系。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况，并找出数据的分布模型。
单变量数据统计描述从集中趋势上看，指标有：均值，中位数，分位数，众数；从离散程度上看，指标有：极差、四分位数、方差、标准差、协方差、变异系数，从分布上看，有偏度，峰度等。需要考虑的还有极大值，极小值（数值型变量）和频数，构成比（分类或等级变量）。

对于数值型数据，首先希望了解一下数据取值范围的分布，因此可以用统计图直观展示数据分布特征，如：柱状图、正方图、箱式图、频率多边形和饼状图。

按照发布的时间先后作为横坐标，数值范围的分布情况如图所示.

还可以根据最终分类的结果查看这些数值数据在不同类别上的分布统计。

箱线图可以更直观的查看异常值的分布情况。

异常值指数据中的离群点，此处定义超出上下四分位数差值的1.5倍的范围为异常值，查看异常值的位置。

参考：
python数据分析之数据分布 - yancheng111 - 博客园
python数据统计分析 -

科尔莫戈罗夫检验(Kolmogorov-Smirnov test)，检验样本数据是否服从某一分布，仅适用于连续分布的检验。下例中用它检验正态分布。

在使用k-s检验该数据是否服从正态分布，提出假设：x从正态分布。最终返回的结果，p-value=0.9260909172362317，比指定的显着水平（一般为5%）大，则我们不能拒绝假设：x服从正态分布。这并不是说x服从正态分布一定是正确的，而是说没有充分的证据证明x不服从正态分布。因此我们的假设被接受，认为x服从正态分布。如果p-value小于我们指定的显着性水平，则我们可以肯定的拒绝提出的假设，认为x肯定不服从正态分布，这个拒绝是绝对正确的。

衡量两个变量的相关性至少有以下三个方法：

皮尔森相关系数（Pearson correlation coefficient）是反应俩变量之间线性相关程度的统计量，用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间，以及自变量和因变量之间的相关性。

返回结果的第一个值为相关系数表示线性相关程度，其取值范围在[-1,1]，绝对值越接近1，说明两个变量的相关性越强，绝对值越接近0说明两个变量的相关性越差。当两个变量完全不相关时相关系数为0。第二个值为p-value，统计学上，一般当p-value<0.05时，可以认为两变量存在相关性。

斯皮尔曼等级相关系数(Spearman’s correlation coefficient for ranked data ) ，它主要用于评价顺序变量间的线性相关关系，在计算过程中，只考虑变量值的顺序（rank, 秩或称等级），而不考虑变量值的大小。常用于计算类型变量的相关性。

返回结果的第一个值为相关系数表示线性相关程度，本例中correlation趋近于1表示正相关。第二个值为p-value，p-value越小，表示相关程度越显着。

kendall ：

也可以直接对整体数据进行相关性分析，一般来说，相关系数取值和相关强度的关系是：0.8-1.0 极强 0.6-0.8 强 0.4-0.6 中等 0.2-0.4 弱 0.0-0.2 极弱。

③ 如何利用python进行数据的相关性分析

1. 运算优先级
括号、指数、乘、除、加、减
2
如果你使用了非 ASCII 字符而且碰到了编码错误，记得在最顶端加一行 # -- coding: utf-8 --
3. Python格式化字符
使用更多的格式化字符。例如 %r 就是是非常有用的一个，它的含义是“不管什么都打印出来”。
%s -- string
%% 百分号标记 #就是输出一个%
%c 字符及其ASCII码
%s 字符串
%d 有符号整数(十进制)
%u 无符号整数(十进制)
%o 无符号整数(八进制)
%x 无符号整数(十六进制)
%X 无符号整数(十六进制大写字符)
%e 浮点数字(科学计数法)
%E 浮点数字(科学计数法，用E代替e)
%f 浮点数字(用小数点符号)
%g 浮点数字(根据值的大小采用%e或%f)
%G 浮点数字(类似于%g)
%p 指针(用十六进制打印值的内存地址)
%n 存储输出字符的数量放进参数列表的下一个变量中
%c 转换成字符（ASCII 码值，或者长度为一的字符串）
%r 优先用repr()函数进行字符串转换（Python2.0新增）
%s 优先用str()函数进行字符串转换
%d / %i 转成有符号十进制数
%u 转成无符号十进制数
%o 转成无符号八进制数
%x / %X (Unsigned)转成无符号十六进制数（x / X 代表转换后的十六进制字符的大小写）
%e / %E 转成科学计数法（e / E控制输出e / E）
%f / %F 转成浮点数（小数部分自然截断）
%g / %G : %e和%f / %E和%F 的简写
%% 输出%
辅助符号说明
* 定义宽度或者小数点精度
- 用做左对齐
+ 在正数前面显示加号(+)
<sp> 在正数前面显示空格
# 在八进制数前面显示零(0)，在十六进制前面显示“0x”或者“0X”（取决于用的是“x”还是“X”）
0 显示的数字前面填充“0”而不是默认的空格
m.n m 是显示的最小总宽度，n 是小数点后的位数（如果可用的话）

④ python数据分析是干什么的

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

Python数据分析可以做的事情有很多，具体如下：

第一、检查数据表

Python中使用shape函数来查看数据表的维度，也就是行数和列数。你可以使用info函数查看数据表的整体信息，使用dtypes函数来返回数据格式。Lsnull是Python中检查空置的函数，你可以对整个数据进行检查，也可以单独对某一列进行空置检查，返回的结果是逻辑值，包括空置返回True，不包含则返回False。使用unique函数查看唯一值，使用Values函数用来查看数据表中的数值。

第二，数据表清洗

Python中处理空值的方法比较灵活，可以使用Dropna函数用来删除数据表中包括空值的数据，也可以使用fillna函数对空值进行填充。Python中dtype是查看数据格式的函数，与之对应的是asstype函数，用来更改数据格式，Rename是更改名称的函数，drop_plicate函数函数重复值，replace函数实现数据转换。

第三，数据预处理

数据预处理是对清洗完的数据进行整理以便后期统计和分析工作，主要包括数据表的合并、排序、数值分列、数据分组以及标记等工作。在Python中可以使用merge函数对两个数据表进行合并，合并的方式为inner，此外还有left、right和outer方式。使用ort_values函数和sort_index函数完成排序，使用where函数完成数据分组，使用split函数实现分列。

第四，数据提取

主要是使用三个函数：loc、iloc和ix，其中loc函数按标准值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。除了按标签和位置提取数据意外，还可以按照具体的条件进行提取。

第五，数据筛选汇总

Python中使用loc函数配合筛选条件来完成筛选功能，配合sum和count函数还能实现Excel中sumif和countif函数的功能。Python中使用的主要函数是groupby和pivot_table。

⑤ python数据统计分析

1. 常用函数库

scipy包中的stats模块和statsmodels包是python常用的数据分析工具，scipy.stats以前有一个models子模块，后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。

scipy的stats包含一些比较基本的工具，比如：t检验，正态性检验，卡方检验之类，statsmodels提供了更为系统的统计模型，包括线性模型，时序分析，还包含数据集，做图工具等等。

2. 小样本数据的正态性检验

(1) 用途

夏皮罗维尔克检验法 (Shapiro-Wilk) 用于检验参数提供的一组小样本数据线是否符合正态分布，统计量越大则表示数据越符合正态分布，但是在非正态分布的小样本数据中也经常会出现较大的W值。需要查表来估计其概率。由于原假设是其符合正态分布，所以当P值小于指定显着水平时表示其不符合正态分布。

正态性检验是数据分析的第一步，数据是否符合正态性决定了后续使用不同的分析和预测方法，当数据不符合正态性分布时，我们可以通过不同的转换方法把非正太态数据转换成正态分布后再使用相应的统计方法进行下一步操作。

(2) 示例

(3) 结果分析

返回结果 p-value=0.029035290703177452，比指定的显着水平（一般为5%）小，则拒绝假设：x不服从正态分布。

3. 检验样本是否服务某一分布

(1) 用途

科尔莫戈罗夫检验(Kolmogorov-Smirnov test)，检验样本数据是否服从某一分布，仅适用于连续分布的检验。下例中用它检验正态分布。

(2) 示例

(3) 结果分析

生成300个服从N(0,1)标准正态分布的随机数，在使用k-s检验该数据是否服从正态分布，提出假设：x从正态分布。最终返回的结果，p-value=0.9260909172362317，比指定的显着水平（一般为5%）大，则我们不能拒绝假设：x服从正态分布。这并不是说x服从正态分布一定是正确的，而是说没有充分的证据证明x不服从正态分布。因此我们的假设被接受，认为x服从正态分布。如果p-value小于我们指定的显着性水平，则我们可以肯定地拒绝提出的假设，认为x肯定不服从正态分布，这个拒绝是绝对正确的。

4.方差齐性检验

(1) 用途

方差反映了一组数据与其平均值的偏离程度，方差齐性检验用以检验两组或多组数据与其平均值偏离程度是否存在差异，也是很多检验和算法的先决条件。

(2) 示例

(3) 结果分析

返回结果 p-value=0.19337536323599344, 比指定的显着水平（假设为5%）大，认为两组数据具有方差齐性。

5. 图形描述相关性

(1) 用途

最常用的两变量相关性分析，是用作图描述相关性，图的横轴是一个变量，纵轴是另一变量，画散点图，从图中可以直观地看到相关性的方向和强弱，线性正相关一般形成由左下到右上的图形；负面相关则是从左上到右下的图形，还有一些非线性相关也能从图中观察到。

(2) 示例

(3) 结果分析

从图中可以看到明显的正相关趋势。

6. 正态资料的相关分析

(1) 用途

皮尔森相关系数（Pearson correlation coefficient）是反应两变量之间线性相关程度的统计量，用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间，以及自变量和因变量之间的相关性。

(2) 示例

(3) 结果分析

返回结果的第一个值为相关系数表示线性相关程度，其取值范围在[-1,1]，绝对值越接近1，说明两个变量的相关性越强，绝对值越接近0说明两个变量的相关性越差。当两个变量完全不相关时相关系数为0。第二个值为p-value，统计学上，一般当p-value<0.05时，可以认为两变量存在相关性。

7. 非正态资料的相关分析

(1) 用途

斯皮尔曼等级相关系数(Spearman’s correlation coefficient for ranked data )，它主要用于评价顺序变量间的线性相关关系，在计算过程中，只考虑变量值的顺序（rank, 值或称等级），而不考虑变量值的大小。常用于计算类型变量的相关性。

(2) 示例

(3) 结果分析

返回结果的第一个值为相关系数表示线性相关程度，本例中correlation趋近于1表示正相关。第二个值为p-value，p-value越小，表示相关程度越显着。

8. 单样本T检验

(1) 用途

单样本T检验，用于检验数据是否来自一致均值的总体，T检验主要是以均值为核心的检验。注意以下几种T检验都是双侧T检验。

(2) 示例

(3) 结果分析

本例中生成了2列100行的数组，ttest_1samp的第二个参数是分别对两列估计的均值，p-value返回结果，第一列1.47820719e-06比指定的显着水平（一般为5%）小，认为差异显着，拒绝假设；第二列2.83088106e-01大于指定显着水平，不能拒绝假设：服从正态分布。

9. 两独立样本T检验

(1) 用途

由于比较两组数据是否来自于同一正态分布的总体。注意：如果要比较的两组数据不满足方差齐性，需要在ttest_ind()函数中添加参数equal_var = False。

(2) 示例

(3) 结果分析

返回结果的第一个值为统计量，第二个值为p-value，pvalue=0.19313343989106416，比指定的显着水平（一般为5%）大，不能拒绝假设，两组数据来自于同一总结，两组数据之间无差异。

10. 配对样本T检验

(1) 用途

配对样本T检验可视为单样本T检验的扩展，检验的对象由一群来自正态分布独立样本更改为二群配对样本观测值之差。它常用于比较同一受试对象处理的前后差异，或者按照某一条件进行两两配对分别给与不同处理的受试对象之间是否存在差异。

(2) 示例

(3) 结果分析

返回结果的第一个值为统计量，第二个值为p-value，pvalue=0.80964043445811551，比指定的显着水平（一般为5%）大，不能拒绝假设。

11. 单因素方差分析

(1) 用途

方差分析(Analysis of Variance，简称ANOVA)，又称F检验，用于两个及两个以上样本均数差别的显着性检验。方差分析主要是考虑各组之间的平均数差别。

单因素方差分析（One-wayAnova），是检验由单一因素影响的多组样本某因变量的均值是否有显着差异。

当因变量Y是数值型，自变量X是分类值，通常的做法是按X的类别把实例成分几组，分析Y值在X的不同分组中是否存在差异。

(2) 示例

(3) 结果分析

返回结果的第一个值为统计量，它由组间差异除以组间差异得到，上例中组间差异很大，第二个返回值p-value=6.2231520821576832e-19小于边界值（一般为0.05）,拒绝原假设, 即认为以上三组数据存在统计学差异，并不能判断是哪两组之间存在差异。只有两组数据时，效果同 stats.levene 一样。

12. 多因素方差分析

(1) 用途

当有两个或者两个以上自变量对因变量产生影响时，可以用多因素方差分析的方法来进行分析。它不仅要考虑每个因素的主效应，还要考虑因素之间的交互效应。

(2) 示例

(3) 结果分析

上述程序定义了公式，公式中，"~"用于隔离因变量和自变量，”+“用于分隔各个自变量， ":"表示两个自变量交互影响。从返回结果的P值可以看出，X1和X2的值组间差异不大，而组合后的T:G的组间有明显差异。

13. 卡方检验

(1) 用途

上面介绍的T检验是参数检验，卡方检验是一种非参数检验方法。相对来说，非参数检验对数据分布的要求比较宽松，并且也不要求太大数据量。卡方检验是一种对计数资料的假设检验方法，主要是比较理论频数和实际频数的吻合程度。常用于特征选择，比如，检验男人和女人在是否患有高血压上有无区别，如果有区别，则说明性别与是否患有高血压有关，在后续分析时就需要把性别这个分类变量放入模型训练。

基本数据有R行C列, 故通称RC列联表(contingency table), 简称RC表，它是观测数据按两个或更多属性（定性变量）分类时所列出的频数表。

(2) 示例

(3) 结果分析

卡方检验函数的参数是列联表中的频数，返回结果第一个值为统计量值，第二个结果为p-value值，p-value=0.54543425102570975，比指定的显着水平（一般5%）大，不能拒绝原假设，即相关性不显着。第三个结果是自由度，第四个结果的数组是列联表的期望值分布。

14. 单变量统计分析

(1) 用途

单变量统计描述是数据分析中最简单的形式，其中被分析的数据只包含一个变量，不处理原因或关系。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况，并找出数据的分布模型。

单变量数据统计描述从集中趋势上看，指标有：均值，中位数，分位数，众数；从离散程度上看，指标有：极差、四分位数、方差、标准差、协方差、变异系数，从分布上看，有偏度，峰度等。需要考虑的还有极大值，极小值（数值型变量）和频数，构成比（分类或等级变量）。

此外，还可以用统计图直观展示数据分布特征，如：柱状图、正方图、箱式图、频率多边形和饼状图。

15. 多元线性回归

(1) 用途

多元线性回归模型（multivariable linear regression model ），因变量Y（计量资料）往往受到多个变量X的影响，多元线性回归模型用于计算各个自变量对因变量的影响程度，可以认为是对多维空间中的点做线性拟合。

(2) 示例

(3) 结果分析

直接通过返回结果中各变量的P值与0.05比较，来判定对应的解释变量的显着性，P<0.05则认为自变量具有统计学意义，从上例中可以看到收入INCOME最有显着性。

16. 逻辑回归

(1) 用途

当因变量Y为2分类变量（或多分类变量时）可以用相应的logistic回归分析各个自变量对因变量的影响程度。

(2) 示例

(3) 结果分析

直接通过返回结果中各变量的P值与0.05比较，来判定对应的解释变量的显着性，P<0.05则认为自变量具有统计学意义。

⑥ python怎么做数据分析

无论是自学还是怎么的，记住自己学习Python的目标——从事数据科学，而非Python软件开发。所以，Python入门的方向，应该是掌握Python所有的相关概念、基础知识，为后续Python库的学习打基础。

需要掌握的数据分析基本库有

Numpy

Numpy是Python科学计算的基础包。

Pandas

它提供了复杂精细的索引功能，能更加便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。因为数据操作、准备、清洗是数据分析最重要的技能，所以Pandas也是学习的重点。

Matplotlib

Matplotlib是最流行的用于绘制图表和其它二维数据可视化的Python库，它非常适合创建出版物上用的图表。

Scikit-learn

Scikit-learn是Python的通用机器学习工具包。它的子模块包括分类、回归、聚类、降维、选型、预处理，对于Python成为高效数据科学编程语言起到了关键作用。

只需要学习Python入门的知识以及4个数据分析相关的库，就能上手使用Python进行数据分析了。另外如果需要获取外部网站数据的话，还需要学习爬虫。

⑦ python相关性分析如何生成两个相关性最强的两门

方法/步骤

第一步我们首先需要知道相关性主要有两个方向，一个是正方向一个是负方向，相关性系数是衡量两个变量之间影响程度，如下图所示：

⑧ 如何用python进行相关性分析

用python进行相关性分析应该主要根据数据的内容进行分析，如果是带标注的数据可以通过模型训练的方式来获取进行分析，找出对目标结果有最大影响的因素。如果没有标注的话，可以用python构建网络知识图谱手动分析，或者自己构建数据表格，人为观察数据分布图找到其中规律。一般来说相关性分析，主要依靠人为的观察，并用数据和模型来辅助计算，从而获得相对准确的结果。

⑨ 如何用python进行数据分析

1、Python数据分析流程及学习路径

数据分析的流程概括起来主要是：读写、处理计算、分析建模和可视化四个部分。在不同的步骤中会用到不同的Python工具。每一步的主题也包含众多内容。

根据每个部分需要用到的工具，Python数据分析的学习路径如下：

python相关分析

Numpy

Pandas

Matplotlib

Scikit-learn

与python相关分析相关的资讯