pythonuniquelist
1. python怎么获取list的某个元素的位置
几种方式的回答:
1)
print('*'*15,'想找出里面有重复数据的索引值','*'*15)
listA = [100, 94, 88, 82, 76, 70, 64, 58, 52, 46, 40, 34,76]
print('列表中第1次出现的位置 = ',listA.index(76))
2)
a_list = ['a','b','c','c','d','c']
find = 'c'
print('重复元素出现的位置索引分别是 = ',[i for i,v in enumerate(a_list) if v==find])
-----------------------------------------------------
3)### 求某个元素重复的索引值,函数方式表述如下:
a_list = ['a','b','c','c','d','c']
def unique_index(L,f):
"""L表示列表, i表示索引值,v表示values,f表示要查找的元素 """
return [i for (i,v) in enumerate(L) if v==f]
print('索引值 = ',unique_index(a_list,'c'))
运行结果:
索引值 = [2, 3, 5]
4)还缺一种,列出多个元素重复的索引值,以后再补充
......
2. python删除重复数据
利用集合的不重复属性,可以先转换至集合,再用list()函数转换回来即可。
比如,a是一个列表,a=list(set(a)),即可完成列表去重。
3. python检测一列有多少
导读:今天首席CTO笔记来给各位分享关于python检测一列有多少的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
Python怎么检验数据分布1.每个维度都画出来,看直方图,肉眼判别。python中可以用matplotlib画图。
2.连续的分布:KolmogorovSmirnov(k-s)test或者Cramér–vonMises(CvM)test
3.离散的分布:Chi-Squaretest
4.正态性可以用Lilliforstest
5.通常而言,你会发现这些数据不是从常见分布来的;什么分布并不重要,常见分布只是简化计算用的。
2,3和4的python实现详见scipy.stats或者statsmodels.stats这两个库的文档
像Excel一样使用Python(一)
在进行数据处理时,如果数据简单,数量不多,excel是大家的首选。但是当数据众多,类型复杂,需要灵活地显示切片、进行索引、以及排序时,python会更加方便。借助python中的numpy和pandas库,它能快速完成各种任务,包括数据的创建、检查、清洗、预处理、提取、筛选、汇总、统计等。接下来几篇文章,将以excel为参照,介绍python中数据的处理。
提到pandas,那就不得不提两类重要的数据结构,Series和DataFrame,这两类数据结构都是建立在numpy的数组array基础上。与array相比,Series是一个一维的数据集,但是每个数据元素都带有一个索引,有点类似于字典。而DataFrame在数组的基础上,增加了行索引和列索引,类似于Series的字典,或者说是一个列表集。
所以在数据处理前,要安装好numpy,pandas。接下来就看看如何完成一套完整的数据操作。
创建数据表的方法分两种,分别是从外部导入数据,以及直接写入数据。
在python中,也可外部导入xlsx格式文件,使用read_excel()函数:
importpandasaspd
frompandasimportDataFrame,Series
data=DataFrame(pd.read_excel('c:/python27/test.xlsx'))
printdata
输出:
GeneSizeFunction
0arx1411NaN
1arx2550monooxygenase
2arx3405aminotransferase
……
即:调用pandas中read_excel属性,来读取文件test.xlsx,并转换成DataFrame格式,赋给变量data。在每一行后,自动分了一个索引值。除了excel,还支持以下格式文件的导入和写入:
Python写入的方法有很多,但还是不如excel方便。常用的例如使用相等长度的字典或numpy数组来创建:
data1=DataFrame(
{'Gene':['arx1','arx2','arx3'],
'Size':[411,550,405],
'Func':[np.NaN,'monooxygenase','aminotransferase']})
printdata1
输出
FuncGeneSize
0NaNarx1411
1monooxygarx2550
2aminoarx3405
分配一个行索引后,自动排序并输出。
在python中,可以使用info()函数查看整个数据的详细信息。
printdata.info()
输出
RangeIndex:7entries,0to6
Datacolumns(total3columns):
Gene7non-nullobject
Size7non-nullint64
Function5non-nullobject
dtypes:int64(1),object(2)
memoryusage:240.0+bytes
None
此外,还可以通过shape,column,index,values,dtypes等函数来查看数据维度、行列组成、所有的值、数据类型:
printdata1.shape
printdata1.index
printdata1.columns
printdata1.dtypes
输出
(3,3)
RangeIndex(start=0,stop=3,step=1)
Index([u'Func',u'Gene',u'Size'],dtype='object')
Funcobject
Geneobject
Sizeint64
dtype:object
在excel中可以按“F5”,在“定位条件”中选择“空值”,选中后,输入替换信息,再按“Ctrl+Enter”即可完成替换。
在python中,使用函数isnull和notnull来检测数据丢失,包含空值返回True,不包含则返回False。
pd.isnull(data1)
pd.notnull(data1)
也可以使用函数的实例方法,以及加入参数,对某一列进行检查:
printdata1['Func'].isnull()
输出
FuncGeneSize
0TrueFalseFalse
1FalseFalseFalse
2FalseFalseFalse
再使用fillna对空值进行填充:
data.fillna(value=0)
#用0来填充空值
data['Size'].fillna(data1['Size'].mean())
#用data1中Size列的平均值来填充空值
data['Func']=data['Func'].map(str.strip)
#清理Func列中存在的空格
Excel中可以按“Ctrl+F”,可调出替换对话框,替换相应数据。
Python中,使用replace函数替换:
data['Func'].replace('monooxygenase','oxidase')
将Func列中的'monooxygenase'替换成'oxidase'。
Excel中,通过“数据-筛选-高级”可以选择性地看某一列的唯一值。
Python中,使用unique函数查看:
printdata['Func'].unique()
输出
[nanu'monooxygenase'u'aminotransferase'u'methyltransferase']
Excel中,通过UPPER、LOWER、PROPER等函数来变成大写、小写、首字母大写。
Python中也有同名函数:
data1['Gene'].str.lower()
Excel中可以通过“数据-删除重复项”来去除重复值。
Python中,可以通过drop_plicates函数删除重复值:
printdata['Func'].drop_plicates()
输出
0NaN
1monooxygenase
2aminotransferase
3methyltransferase
Name:Func,dtype:object
还可以设置“keep=’last’”参数,后出现的被保留,先出现的被删除:
printdata['Func'].drop_plicates(keep='last')
输出
2aminotransferase
3methyltransferase
6monooxygenase
8NaN
Name:Func,dtype:object
内容参考:
PythonForDataAnalysis
蓝鲸网站分析博客,作者蓝鲸(王彦平)
python数据统计分析1.常用函数库
?scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。
?scipy的stats包含一些比较基本的工具,比如:t检验,正态性检验,卡方检验之类,statsmodels提供了更为系统的统计模型,包括线性模型,时序分析,还包含数据集,做图工具等等。
2.小样本数据的正态性检验
(1)用途
?夏皮罗维尔克检验法(Shapiro-Wilk)用于检验参数提供的一组小样本数据线是否符合正态分布,统计量越大则表示数据越符合正态分布,但是在非正态分布的小样本数据中也经常会出现较大的W值。需要查表来估计其概率。由于原假设是其符合正态分布,所以当P值小于指定显着水平时表示其不符合正态分布。
?正态性检验是数据分析的第一步,数据是否符合正态性决定了后续使用不同的分析和预测方法,当数据不符合正态性分布时,我们可以通过不同的转换方法把非正太态数据转换成正态分布后再使用相应的统计方法进行下一步操作。
(2)示例
(3)结果分析
?返回结果p-value=0.029035290703177452,比指定的显着水平(一般为5%)小,则拒绝假设:x不服从正态分布。
3.检验样本是否服务某一分布
(1)用途
?科尔莫戈罗夫检验(Kolmogorov-Smirnovtest),检验样本数据是否服从某一分布,仅适用于连续分布的检验。下例中用它检验正态分布。
(2)示例
(3)结果分析
?生成300个服从N(0,1)标准正态分布的随机数,在使用k-s检验该数据是否服从正态分布,提出假设:x从正态分布。最终返回的结果,p-value=0.9260909172362317,比指定的显着水平(一般为5%)大,则我们不能拒绝假设:x服从正态分布。这并不是说x服从正态分布一定是正确的,而是说没有充分的证据证明x不服从正态分布。因此我们的假设被接受,认为x服从正态分布。如果p-value小于我们指定的显着性水平,则我们可以肯定地拒绝提出的假设,认为x肯定不服从正态分布,这个拒绝是绝对正确的。
4.方差齐性检验
(1)用途
?方差反映了一组数据与其平均值的偏离程度,方差齐性检验用以检验两组或多组数据与其平均值偏离程度是否存在差异,也是很多检验和算法的先决条件。
(2)示例
(3)结果分析
?返回结果p-value=0.19337536323599344,比指定的显着水平(假设为5%)大,认为两组数据具有方差齐性。
5.图形描述相关性
(1)用途
?最常用的两变量相关性分析,是用作图描述相关性,图的横轴是一个变量,纵轴是另一变量,画散点图,从图中可以直观地看到相关性的方向和强弱,线性正相关一般形成由左下到右上的图形;负面相关则是从左上到右下的图形,还有一些非线性相关也能从图中观察到。
(2)示例
(3)结果分析
?从图中可以看到明显的正相关趋势。
6.正态资料的相关分析
(1)用途
?皮尔森相关系数(Pearsoncorrelationcoefficient)是反应两变量之间线性相关程度的统计量,用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间,以及自变量和因变量之间的相关性。
(2)示例
(3)结果分析
?返回结果的第一个值为相关系数表示线性相关程度,其取值范围在[-1,1],绝对值越接近1,说明两个变量的相关性越强,绝对值越接近0说明两个变量的相关性越差。当两个变量完全不相关时相关系数为0。第二个值为p-value,统计学上,一般当p-value0.05时,可以认为两变量存在相关性。
7.非正态资料的相关分析
(1)用途
?斯皮尔曼等级相关系数(Spearman’),它主要用于评价顺序变量间的线性相关关系,在计算过程中,只考虑变量值的顺序(rank,值或称等级),而不考虑变量值的大小。常用于计算类型变量的相关性。
(2)示例
(3)结果分析
?返回结果的第一个值为相关系数表示线性相关程度,本例中correlation趋近于1表示正相关。第二个值为p-value,p-value越小,表示相关程度越显着。
8.单样本T检验
(1)用途
?单样本T检验,用于检验数据是否来自一致均值的总体,T检验主要是以均值为核心的检验。注意以下几种T检验都是双侧T检验。
(2)示例
(3)结果分析
?本例中生成了2列100行的数组,ttest_1samp的第二个参数是分别对两列估计的均值,p-value返回结果,第一列1.47820719e-06比指定的显着水平(一般为5%)小,认为差异显着,拒绝假设;第二列2.83088106e-01大于指定显着水平,不能拒绝假设:服从正态分布。
9.两独立样本T检验
(1)用途
?由于比较两组数据是否来自于同一正态分布的总体。注意:如果要比较的两组数据不满足方差齐性,需要在ttest_ind()函数中添加参数equal_var=False。
(2)示例
(3)结果分析
?返回结果的第一个值为统计量,第二个值为p-value,pvalue=0.19313343989106416,比指定的显着水平(一般为5%)大,不能拒绝假设,两组数据来自于同一总结,两组数据之间无差异。
10.配对样本T检验
(1)用途
?配对样本T检验可视为单样本T检验的扩展,检验的对象由一群来自正态分布独立样本更改为二群配对样本观测值之差。它常用于比较同一受试对象处理的前后差异,或者按照某一条件进行两两配对分别给与不同处理的受试对象之间是否存在差异。
(2)示例
(3)结果分析
?返回结果的第一个值为统计量,第二个值为p-value,pvalue=0.80964043445811551,比指定的显着水平(一般为5%)大,不能拒绝假设。
11.单因素方差分析
(1)用途
?方差分析(AnalysisofVariance,简称ANOVA),又称F检验,用于两个及两个以上样本均数差别的显着性检验。方差分析主要是考虑各组之间的平均数差别。
?单因素方差分析(One-wayAnova),是检验由单一因素影响的多组样本某因变量的均值是否有显着差异。
?当因变量Y是数值型,自变量X是分类值,通常的做法是按X的类别把实例成分几组,分析Y值在X的不同分组中是否存在差异。
(2)示例
(3)结果分析
?返回结果的第一个值为统计量,它由组间差异除以组间差异得到,上例中组间差异很大,第二个返回值p-value=6.2231520821576832e-19小于边界值(一般为0.05),拒绝原假设,即认为以上三组数据存在统计学差异,并不能判断是哪两组之间存在差异。只有两组数据时,效果同stats.levene一样。
12.多因素方差分析
(1)用途
?当有两个或者两个以上自变量对因变量产生影响时,可以用多因素方差分析的方法来进行分析。它不仅要考虑每个因素的主效应,还要考虑因素之间的交互效应。
(2)示例
(3)结果分析
?上述程序定义了公式,公式中,"~"用于隔离因变量和自变量,”+“用于分隔各个自变量,":"表示两个自变量交互影响。从返回结果的P值可以看出,X1和X2的值组间差异不大,而组合后的T:G的组间有明显差异。
13.卡方检验
(1)用途
?上面介绍的T检验是参数检验,卡方检验是一种非参数检验方法。相对来说,非参数检验对数据分布的要求比较宽松,并且也不要求太大数据量。卡方检验是一种对计数资料的假设检验方法,主要是比较理论频数和实际频数的吻合程度。常用于特征选择,比如,检验男人和女人在是否患有高血压上有无区别,如果有区别,则说明性别与是否患有高血压有关,在后续分析时就需要把性别这个分类变量放入模型训练。
?基本数据有R行C列,故通称RC列联表(contingencytable),简称RC表,它是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。
(2)示例
(3)结果分析
?卡方检验函数的参数是列联表中的频数,返回结果第一个值为统计量值,第二个结果为p-value值,p-value=0.54543425102570975,比指定的显着水平(一般5%)大,不能拒绝原假设,即相关性不显着。第三个结果是自由度,第四个结果的数组是列联表的期望值分布。
14.单变量统计分析
(1)用途
?单变量统计描述是数据分析中最简单的形式,其中被分析的数据只包含一个变量,不处理原因或关系。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况,并找出数据的分布模型。
?单变量数据统计描述从集中趋势上看,指标有:均值,中位数,分位数,众数;从离散程度上看,指标有:极差、四分位数、方差、标准差、协方差、变异系数,从分布上看,有偏度,峰度等。需要考虑的还有极大值,极小值(数值型变量)和频数,构成比(分类或等级变量)。
?此外,还可以用统计图直观展示数据分布特征,如:柱状图、正方图、箱式图、频率多边形和饼状图。
15.多元线性回归
(1)用途
?多元线性回归模型(),因变量Y(计量资料)往往受到多个变量X的影响,多元线性回归模型用于计算各个自变量对因变量的影响程度,可以认为是对多维空间中的点做线性拟合。
(2)示例
(3)结果分析
?直接通过返回结果中各变量的P值与0.05比较,来判定对应的解释变量的显着性,P0.05则认为自变量具有统计学意义,从上例中可以看到收入INCOME最有显着性。
16.逻辑回归
(1)用途
?当因变量Y为2分类变量(或多分类变量时)可以用相应的logistic回归分析各个自变量对因变量的影响程度。
(2)示例
(3)结果分析
?直接通过返回结果中各变量的P值与0.05比较,来判定对应的解释变量的显着性,P0.05则认为自变量具有统计学意义。
急急急!python根据原excel数据新加一列数字从1-75,如何实现?网络会吞缩进,我发其他网站了。paste.ubuntu
#安装
whileTrue:
try:
importopenpyxl
break
except:
print('未安装openpyxl库,正在安装')
fromosimportsystem
system('pipinstall-iopenpyxl')
#保存xlsx
defsave_xlsx(list1,path):
#创建一个excel工作簿
wb=openpyxl.Workbook()
#创建之后可以通过active获取默认的第一个
ws1=wb.active
#通过append来添加一行数据
forconteninlist1:
ws1.append(conten)
#保存
wb.save(path)
#读取xlsx
defread_xlsx(path):
#打开文件:
excel=openpyxl.load_workbook(path)
#获取sheet,索引获取
table=excel.get_sheet_by_name(excel.get_sheet_names()[0])
#返回数据
returnlist(map(list,table.values))
#1-75循环生成器
defloop(s,e):
i=s
whileTrue:
ifi==e:
i=s
yieldi
i+=1
if__name__=='__main__':
path='D://book.xlsx'?#文件路径
l=loop(1,75)?#左闭右开,不包括75
datas=read_xlsx(path)?#读取文件
#处理数据,不确定是不是有多个数字的情况,这里按多个数字写的
lins=None
forrowindatas[1:]:
iflins!=row[0]:?#判断的数字在哪一列?索引值
lins=row[0]
l=loop(1,75)
row.append(l.__next__())
save_xlsx(datas,path)?#覆盖保存新文件
print('完成')
python如何读取excel指定单元格内容1、首先打开电脑上编写python的软件。
2、然后新建一个py文件,如下图所示。
3、接着就是导入xlrd包,读取表格的函数就在这里面,如下图所示。
4、然后就是打开想要读取的表格,如下图所示。
5、接着就是指定要读取一个excel表中的那个表格。
6、然后就是根据sheet索引获取sheet内容。
7、最后就是读取一个表格中的行或列的值,就完成了。
python检测人数代码?您好!下面是一
4. python删除列表中的重复值
答: 主要总结了以下三种方法进行列表中的重复值删除。具体代码如图所示。
其中最简单的就是方法一和方法三了,因为他们只需要进行相关函数的调用。
- 在方法一中,借助集合set中元素不能重复的特性,先将list转为set,然后再将set转回list,即可除重复元素;
- 在方法三中,借助 Numpy中的 Unique()方法也可将重复的元素去除,同时注意其元素返回类型为ndarray,因此也需要将其转为list。
同学们如果对方法二感兴趣的话,也可以进行动手复现,它相比于方法一和三会更难一点,但是更有利于锻炼代码思维。
5. python list找出一个元素的位置(重复元素怎么分别找出位置)
几种方式的回答:
1)
print('*'*15,'想找出里面有重复数据的索引值','*'*15)
listA = [100, 94, 88, 82, 76, 70, 64, 58, 52, 46, 40, 34,76]
print('列表中第1次出现的位置 = ',listA.index(76))
2)
a_list = ['a','b','c','c','d','c']
find = 'c'
print('重复元素出现的位置索引分别是 = ',[i for i,v in enumerate(a_list) if v==find])
-----------------------------------------------------
3)### 求某个元素重复的索引值,函数方式表述如下:
a_list = ['a','b','c','c','d','c']
def unique_index(L,f):
"""L表示列表, i表示索引值,v表示values,f表示要查找的元素 """
return [i for (i,v) in enumerate(L) if v==f]
print('索引值 = ',unique_index(a_list,'c'))
运行结果:
索引值 = [2, 3, 5]
4)还缺一种,列出多个元素重复的索引值,以后再补充
......
6. 如何在python列表中查找某个元素的索引
1、方法一: 利用数组自身的特性 a.index(target), 其中a是目标list,target是需要的下标对应的值。代码如下:
2、分片:
分片用于截取某个范围内的元素,通过:来指定起始区间(左闭右开区间,包含左侧索引值对应的元素,但不包含右测索引值对应的元素)。
分片包括起始索引对应的元素,但不包括终止索引对应的元素,索引为正值时可以发生越界但只会取到最后一个元素。如果索引值为负值,则表示从最右边元素开始,此时需避免索引越界。