特征选择算法
㈠ 关于特征选择有哪些经典文献可以参考
以下为你检索了一些国内顶级刊物的相关文章。希望对你有用。
[1]姚旭,王晓丹,张玉玺,权文. 特征选择方法综述[J]. 控制与决策,2012,02:161-166+192.
[2]单丽莉,刘秉权,孙承杰. 文本分类中特征选择方法的比较与改进[J]. 哈尔滨工业大学学报,2011,S1:319-324.
[3]武建华,宋擒豹,沈均毅,谢建文. 基于关联规则的特征选择算法[J]. 模式识别与人工智能,2009,02:256-262.
[4]张丽新,王家廞,赵雁南,杨泽红. 基于Relief的组合式特征选择[J]. 复旦学报(自然科学版),2004,05:893-898.
[5]赵明渊,唐勇,傅翀,周明天. 基于带特征染色体遗传算法的支持向量机特征选择和参数优化[J]. 控制与决策,2010,08:1133-1138.
㈡ 粒子群算法特征选择
这应该属于粒子的编码问题,给你提供两种。
一种是整数编码,采用连续域的粒子群算法,将得到的粒子值进行取整操作,比如你想选3个特征,取粒子编码长度为3,比如粒子(1.2 5.8 9.8),取整得到(2,6,10)。
还有一个是采用二进制编码(搜索下BPSO),粒子的每一维取值0或1,用来表示该维特征是否被选中,这种可以用来做自适应的特征选择。
㈢ 能具体谈谈特征选择,模型生成和剪枝吗
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位
㈣ 何为光谱特征选择光谱特征选择的方法有哪些
原有的遥感数据处理算法在处理高光谱数据时,常遇到Hughes现象即“维数祸根“。为了有效地处理数据,“降维”就成为一个必然的选择;“降维”即在尽可能地保留信息的同时,对波段进行压缩。目前压缩波段有两种方法:①从众多波段中选择感兴趣的若干波段,或选择信息量大、相关性小的若干波段。②利用所有波段,通过数学变换压缩波段。如主成分分析法(PCA)等。本文主要介绍第一种压缩方法。
㈤ 互信息法是特征提取还是特征选择
特征选择也叫特征子集选择 ( FSS , Feature Subset Selection ) 。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
需要区分特征选择与特征提取。特征提取 ( Feature extraction )是指利用已有的特征计算出一个抽象程度更高的特征集,也指计算得到某个特征的算法。
㈥ 文本分类 特征选择 怎么确定啊
文本中能观察到的量其实只有两个:词频和文档频率,所有的方法一律以这两个量为计算基础。简单综合这两者的TF-IDF选择出来的特征不具有类别区分度。
以文档频率为基础的特征选择算法有文档频次方法(直接依据文档频率大小排序的方法)、卡方检验、信息增益、互信息等。
㈦ 为什么要做特征选择
特征选择也叫特征子集选择 ( FSS , Feature Subset Selection ) 。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。
需要区分特征选择与特征提取。特征提取 ( Feature extraction )是指利用已有的特征计算出一个抽象程度更高的特征集,也指计算得到某个特征的算法。
特征提取与特征选择都能降低特征集的维度。
㈧ 比较特征选择和因子分析算法的异同
因子分析 1输入数据。 2点Analyze 下拉菜单,选Data Rection 下的Factor 。 3打开Factor Analysis后,将数据变量逐个选中进入Variables 对话框中。 4单击主对话框中的Descriptive按扭,打开Factor Analysis: Descriptives子对话框,在Statistics栏中选择Univariate Descriptives项要求输出个变量的均值与标准差,在Correlation Matrix 栏内选择Coefficients项,要求计算相关系数矩阵,单击Continue按钮返回Factor Analysis主对话框。 5单击主对话框中的Extraction 按钮,打开如下图所示的Factor Analysis: Extraction 子对话框。在Method列表中选择默认因子抽取方法——Principal Components,在Analyze 栏中选择默认的Correlation Matrix 项要求从相关系数矩阵出发求解主成分,在Exact 栏中选择Number of Factors;6, 要求显示所有主成分的得分和所能解释的方差。单击Continue按钮返回Factor Analysis主对话框。 6单击主对话框中的OK 按钮,输出结果。
㈨ 机器学习中,有哪些特征选择的工程方法
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征,另外,记得JMLR'03上有一篇论文介绍了一种基于决策树的特征选择方法,本质上是等价的。当选择到了目标特征之后,再用来训练最终的模型;3. 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;5. 通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀疏,组合特征能够同时兼顾全局模型和个性化模型,这个问题有机会可以展开讲。6. 通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。整体上来说,特征选择是一个既有学术价值又有工程价值的问题,目前在研究领域也比较热,值得所有做机器学习的朋友重视。