熵python
⑴ python里怎么计算信息增益,信息增益比,基尼指数
1、首先自定义一份数据,分别计算信息熵,条件信息熵,从而计算信息增益。
⑵ 求python 熵值法实现代码
一、基本原理
在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。
根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大,其熵值越小。
二、熵值法步骤
1. 选取n个国家,m个指标,则为第i个国家的第j个指标的数值(i=1, 2…, n; j=1,2,…, m);
2. 指标的归一化处理:异质指标同质化
由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要对它们进行标准化处理,即把指标的绝对值转化为相对值,并令,从而解决各项不同质指标值的同质化问题。而且,由于正向指标和负向指标数值代表的含义不同(正向指标数值越高越好,负向指标数值越低越好),因此,对于高低指标我们用不同的算法进行数据标准化处理。其具体方法如下:
正向指标:
负向指标:
则为第i个国家的第j个指标的数值(i=1, 2…, n; j=1, 2,…, m)。为了方便起见,归一化后的数据仍记为;
3. 计算第j项指标下第i个国家占该指标的比重:
4. 计算第j项指标的熵值:
其中. 满足;
5. 计算信息熵冗余度:
6. 计算各项指标的权值:
7. 计算各国家的综合得分:
[code]function [s,w]=shang(x)
% 函数shang.m, 实现用熵值法求各指标(列)的权重及各数据行的得分
% x为原始数据矩阵, 一行代表一个国家, 每列对应一个指标
% s返回各行得分, w返回各列权重
[n,m]=size(x); % n=23个国家, m=5个指标
%% 数据的归一化处理
% Matlab2010b,2011a,b版本都有bug,需如下处理. 其它版本直接用[X,ps]=mapminmax(x',0,1);即可
[X,ps]=mapminmax(x');
ps.ymin=0.002; % 归一化后的最小值
ps.ymax=0.996; % 归一化后的最大值
ps.yrange=ps.ymax-ps.ymin; % 归一化后的极差,若不调整该值, 则逆运算会出错
X=mapminmax(x',ps);
% mapminmax('reverse',xx,ps); % 反归一化, 回到原数据
X=X'; % X为归一化后的数据, 23行(国家), 5列(指标)
%% 计算第j个指标下,第i个记录占该指标的比重p(i,j)
for i=1:n
for j=1:m
p(i,j)=X(i,j)/sum(X(:,j));
end
end
%% 计算第j个指标的熵值e(j)
k=1/log(n);
for j=1:m
e(j)=-k*sum(p(:,j).*log(p(:,j)));
end
d=ones(1,m)-e; % 计算信息熵冗余度
w=d./sum(d); % 求权值w
s=w*p'; % 求综合得分[\code]
测试程序:
data.txt 数据如下:
114.6 1.1 0.71 85.0 346
55.3 0.96 0.4 69.0 300
132.4 0.97 0.54 73.0 410
152.1 1.04 0.49 77.0 433
103.5 0.96 0.66 67.0 385
81.0 1.08 0.54 96.0 336
179.3 0.88 0.59 89.0 446
29.8 0.83 0.49 120.0 289
92.7 1.15 0.44 154.0 300
248.6 0.79 0.5 147.0 483
115.0 0.74 0.65 252.0 453
64.9 0.59 0.5 167.0 402
163.6 0.85 0.58 220.0 495
95.7 1.02 0.48 160.0 384
139.5 0.70 0.59 217.0 478
89.9 0.96 0.39 105.0 314
76.7 0.95 0.51 162.0 341
121.8 0.83 0.60 140.0 401
42.1 1.08 0.47 110.0 326
78.5 0.89 0.44 94.0 280
77.8 1.19 0.57 91.0 364
90.0 0.95 0.43 89.0 301
100.6 0.82 0.59 83.0 456
执行代码:
[code]x=load('data.txt'); % 读入数据
[s,w]=shang(x)[\code]
运行结果:
s =
Columns 1 through 9
0.0431 0.0103 0.0371 0.0404 0.0369 0.0322 0.0507 0.0229 0.0397
Columns 10 through 18
0.0693 0.0878 0.0466 0.0860 0.0503 0.0800 0.0234 0.0456 0.0536
Columns 19 through 23
0.0272 0.0181 0.0364 0.0202 0.0420
w =
0.1660 0.0981 0.1757 0.3348 0.2254
⑶ python中有哪些简单的算法
首先谢谢邀请,
python中有的算法还是比较多的?
python之所以火是因为人工智能的发展,人工智能的发展离不开算法!
感觉有本书比较适合你,不过可惜的是这本书没有电子版,只有纸质的。
这本书对于算法从基本的入门到实现,循序渐进的介绍,比如里面就涵盖了数学建模的常用算法。
第 1章从数学建模到人工智能
1.1数学建模1.1.1数学建模与人工智能1.1.2数学建模中的常见问题1.2人工智能下的数学1.2.1统计量1.2.2矩阵概念及运算1.2.3概率论与数理统计1.2.4高等数学——导数、微分、不定积分、定积分
第2章 Python快速入门
2.1安装Python2.1.1Python安装步骤2.1.2IDE的选择2.2Python基本操作2.2.1第 一个小程序2.2.2注释与格式化输出2.2.3列表、元组、字典2.2.4条件语句与循环语句2.2.5break、continue、pass2.3Python高级操作2.3.1lambda2.3.2map2.3.3filter
第3章Python科学计算库NumPy
3.1NumPy简介与安装3.1.1NumPy简介3.1.2NumPy安装3.2基本操作3.2.1初识NumPy3.2.2NumPy数组类型3.2.3NumPy创建数组3.2.4索引与切片3.2.5矩阵合并与分割3.2.6矩阵运算与线性代数3.2.7NumPy的广播机制3.2.8NumPy统计函数3.2.9NumPy排序、搜索3.2.10NumPy数据的保存
第4章常用科学计算模块快速入门
4.1Pandas科学计算库4.1.1初识Pandas4.1.2Pandas基本操作4.2Matplotlib可视化图库4.2.1初识Matplotlib4.2.2Matplotlib基本操作4.2.3Matplotlib绘图案例4.3SciPy科学计算库4.3.1初识SciPy4.3.2SciPy基本操作4.3.3SciPy图像处理案例第5章Python网络爬虫5.1爬虫基础5.1.1初识爬虫5.1.2网络爬虫的算法5.2爬虫入门实战5.2.1调用API5.2.2爬虫实战5.3爬虫进阶—高效率爬虫5.3.1多进程5.3.2多线程5.3.3协程5.3.4小结
第6章Python数据存储
6.1关系型数据库MySQL6.1.1初识MySQL6.1.2Python操作MySQL6.2NoSQL之MongoDB6.2.1初识NoSQL6.2.2Python操作MongoDB6.3本章小结6.3.1数据库基本理论6.3.2数据库结合6.3.3结束语
第7章Python数据分析
7.1数据获取7.1.1从键盘获取数据7.1.2文件的读取与写入7.1.3Pandas读写操作7.2数据分析案例7.2.1普查数据统计分析案例7.2.2小结
第8章自然语言处理
8.1Jieba分词基础8.1.1Jieba中文分词8.1.2Jieba分词的3种模式8.1.3标注词性与添加定义词8.2关键词提取8.2.1TF-IDF关键词提取8.2.2TextRank关键词提取8.3word2vec介绍8.3.1word2vec基础原理简介8.3.2word2vec训练模型8.3.3基于gensim的word2vec实战
第9章从回归分析到算法基础
9.1回归分析简介9.1.1“回归”一词的来源9.1.2回归与相关9.1.3回归模型的划分与应用9.2线性回归分析实战9.2.1线性回归的建立与求解9.2.2Python求解回归模型案例9.2.3检验、预测与控制
第10章 从K-Means聚类看算法调参
10.1K-Means基本概述10.1.1K-Means简介10.1.2目标函数10.1.3算法流程10.1.4算法优缺点分析10.2K-Means实战
第11章 从决策树看算法升级
11.1决策树基本简介11.2经典算法介绍11.2.1信息熵11.2.2信息增益11.2.3信息增益率11.2.4基尼系数11.2.5小结11.3决策树实战11.3.1决策树回归11.3.2决策树的分类
第12章 从朴素贝叶斯看算法多变193
12.1朴素贝叶斯简介12.1.1认识朴素贝叶斯12.1.2朴素贝叶斯分类的工作过程12.1.3朴素贝叶斯算法的优缺点12.23种朴素贝叶斯实战
第13章 从推荐系统看算法场景
13.1推荐系统简介13.1.1推荐系统的发展13.1.2协同过滤13.2基于文本的推荐13.2.1标签与知识图谱推荐案例13.2.2小结
第14章 从TensorFlow开启深度学习之旅
14.1初识TensorFlow14.1.1什么是TensorFlow14.1.2安装TensorFlow14.1.3TensorFlow基本概念与原理14.2TensorFlow数据结构14.2.1阶14.2.2形状14.2.3数据类型14.3生成数据十二法14.3.1生成Tensor14.3.2生成序列14.3.3生成随机数14.4TensorFlow实战
希望对你有帮助!!!
贵在坚持,自己掌握一些,在工作中不断打磨,高薪不是梦!!
⑷ 提取颜色特征并计算熵,使用python实现
正好学到这,练下手。比较晚了,所以写的比较简单,不明白了明天再说
⑸ python怎么样好学吗
谢谢邀请,学习选择很重要!!!
从未接触过编程,首先应该选择一门语言那么我推荐python
学习重要是选对方法!!!
python之所以火是因为人工智能的发展,个人整理学习经验仅供参考!
感觉有本书《Python3破冰人工智能从入门到实战》你学的差不多了就基本具备了一名合格的python编程工程师,不过可惜的是这本书没有电子版,只有纸质的。
第 1章从数学建模到人工智能
1.1数学建模
1.1.1数学建模与人工智能1.1.2数学建模中的常见问题1.2人工智能下的数学1.2.1统计量1.2.2矩阵概念及运算1.2.3概率论与数理统计1.2.4高等数学——导数、微分、不定积分、定积分
第2章 Python快速入门
2.1安装Python
2.1.1Python安装步骤2.1.2IDE的选择2.2Python基本操作2.2.1第 一个小程序2.2.2注释与格式化输出2.2.3列表、元组、字典2.2.4条件语句与循环语句2.2.5break、continue、pass2.3Python高级操作2.3.1lambda2.3.2map2.3.3filter
第3章Python科学计算库NumPy
3.1NumPy简介与安装
3.1.1NumPy简介3.1.2NumPy安装3.2基本操作3.2.1初识NumPy3.2.2NumPy数组类型3.2.3NumPy创建数组3.2.4索引与切片3.2.5矩阵合并与分割3.2.6矩阵运算与线性代数3.2.7NumPy的广播机制3.2.8NumPy统计函数3.2.9NumPy排序、搜索3.2.10NumPy数据的保存
第4章常用科学计算模块快速入门
4.1Pandas科学计算库
4.1.1初识Pandas4.1.2Pandas基本操作4.2Matplotlib可视化图库4.2.1初识Matplotlib4.2.2Matplotlib基本操作4.2.3Matplotlib绘图案例4.3SciPy科学计算库4.3.1初识SciPy4.3.2SciPy基本操作4.3.3SciPy图像处理案例第5章Python网络爬虫5.1爬虫基础5.1.1初识爬虫5.1.2网络爬虫的算法5.2爬虫入门实战5.2.1调用API5.2.2爬虫实战5.3爬虫进阶—高效率爬虫5.3.1多进程5.3.2多线程5.3.3协程5.3.4小结
第6章Python数据存储
6.1关系型数据库MySQL
6.1.1初识MySQL6.1.2Python操作MySQL6.2NoSQL之MongoDB6.2.1初识NoSQL6.2.2Python操作MongoDB6.3本章小结6.3.1数据库基本理论6.3.2数据库结合6.3.3结束语
第7章Python数据分析
7.1数据获取
7.1.1从键盘获取数据7.1.2文件的读取与写入7.1.3Pandas读写操作7.2数据分析案例7.2.1普查数据统计分析案例7.2.2小结
第8章自然语言处理
8.1Jieba分词基础
8.1.1Jieba中文分词8.1.2Jieba分词的3种模式8.1.3标注词性与添加定义词8.2关键词提取8.2.1TF-IDF关键词提取8.2.2TextRank关键词提取8.3word2vec介绍8.3.1word2vec基础原理简介8.3.2word2vec训练模型8.3.3基于gensim的word2vec实战
第9章从回归分析到算法基础
9.1回归分析简介
9.1.1“回归”一词的来源9.1.2回归与相关9.1.3回归模型的划分与应用9.2线性回归分析实战9.2.1线性回归的建立与求解9.2.2Python求解回归模型案例9.2.3检验、预测与控制
第10章 从K-Means聚类看算法调参
10.1K-Means基本概述
10.1.1K-Means简介10.1.2目标函数10.1.3算法流程10.1.4算法优缺点分析10.2K-Means实战
第11章 从决策树看算法升级
11.1决策树基本简介
11.2经典算法介绍11.2.1信息熵11.2.2信息增益11.2.3信息增益率11.2.4基尼系数11.2.5小结11.3决策树实战11.3.1决策树回归11.3.2决策树的分类
第12章 从朴素贝叶斯看算法多变193
12.1朴素贝叶斯简介
12.1.1认识朴素贝叶斯12.1.2朴素贝叶斯分类的工作过程12.1.3朴素贝叶斯算法的优缺点12.23种朴素贝叶斯实战
第13章 从推荐系统看算法场景
13.1推荐系统简介
13.1.1推荐系统的发展13.1.2协同过滤13.2基于文本的推荐13.2.1标签与知识图谱推荐案例13.2.2小结
第14章 从TensorFlow开启深度学习之旅
14.1初识TensorFlow
14.1.1什么是TensorFlow14.1.2安装TensorFlow14.1.3TensorFlow基本概念与原理14.2TensorFlow数据结构14.2.1阶14.2.2形状14.2.3数据类型14.3生成数据十二法14.3.1生成Tensor14.3.2生成序列14.3.3生成随机数14.4TensorFlow实战
希望对你有帮助!!!
贵在坚持,自己掌握一些,在工作中不断打磨,高薪不是梦!!!
⑹ python有没有包可以计算信息熵
决策树算法就是一个划分数据集的过程。划分数据集的原则就是:
将无序的数据变得更加有序。我们假设得到的数据是有用的信息,处理信息的一种有效的方法就是利用信息论。
信息增益:划分数据集前后信息的变化成为信息增益,获得信息增益最高的特征就是最好的选择。那么如何计算信息增益?集合信息的度量方式称为熵。
⑺ Python最大熵分类器问题,怎么解决
最大熵模型与处理
日常生活中,很多事情的发生表现出一定的随机性,试验的结果往往是不确定的,而且也不知道这个随机现象所服从的概率分布,所有的只有一些试验样本或样本特征,统计学常常关心的一个问题,在这种情况下如何对分布作出一个合理的推断?根据样本信息对某个未知分布作出推断的方法,最大熵的方法就是这样一个方法。
最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时侯,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。
⑻ 提取HSV颜色特征,并计算维数的熵,最后保存特征和熵,形式:图像名、特征和熵,用python实现,怎么实现
可以使用Python版的opencv 来实现。
现读取图片:
importcv2
importnumpyasnp
image=cv2.imread('./src/q5.png')
HSV=cv2.cvtColor(image,cv2.COLOR_BGR2HSV)
计算熵
img=np.array(HSV)
foriinrange(len(img)):
forjinrange(len(img[i])):
val=img[i][j]
tmp[val]=float(tmp[val]+1)
k=float(k+1)
foriinrange(len(tmp)):
tmp[i]=float(tmp[i]/k)
foriinrange(len(tmp)):
if(tmp[i]==0):
res=res
else:
res=float(res-tmp[i]*(math.log(tmp[i])/math.log(2.0)))
保存:
HSV图形可以直接存储,特征可以存xml中~
cv2.imwrite("具体路径",HSV)
⑼ 提取HSV颜色特征,计算特征的熵,最后保存特征和熵,形式:图像名、特征和熵,用python实现,怎么实现
可以使用Python版的opencv 来实现。
现读取图片:
import cv2import numpy as npfrom matplotlib import pyplot as pltimage=cv2.imread('./src/q5.png')
HSV=cv2.cvtColor(image,cv2.COLOR_BGR2HSV)img = np.array(HSV)for i in range(len(img)): for j in range(len(img[i])): val = img[i][j] tmp[val] = float(tmp[val] + 1) k = float(k + 1)for i in range(len(tmp)): tmp[i] = float(tmp[i] / k)for i in range(len(tmp)): if(tmp[i] == 0): res = res else: res = float(res - tmp[i] * (math.log(tmp[i]) / math.log(2.0)))
⑽ 怎么用熵决策树模型优化 剪枝函数python
一般决策树学习算法是一个递归地选择最优特征并根据特征对训练数据进行分割,使每个子数据集都有一个最好的分类的过程。算法包括:
step1:特征选择(根据熵或基尼指数选择特征)
step2:决策树生成(有ID3、C4.5、CART算法等)
step3:剪枝(防止过拟合)!