特徵選擇演算法
㈠ 關於特徵選擇有哪些經典文獻可以參考
以下為你檢索了一些國內頂級刊物的相關文章。希望對你有用。
[1]姚旭,王曉丹,張玉璽,權文. 特徵選擇方法綜述[J]. 控制與決策,2012,02:161-166+192.
[2]單麗莉,劉秉權,孫承傑. 文本分類中特徵選擇方法的比較與改進[J]. 哈爾濱工業大學學報,2011,S1:319-324.
[3]武建華,宋擒豹,沈均毅,謝建文. 基於關聯規則的特徵選擇演算法[J]. 模式識別與人工智慧,2009,02:256-262.
[4]張麗新,王家廞,趙雁南,楊澤紅. 基於Relief的組合式特徵選擇[J]. 復旦學報(自然科學版),2004,05:893-898.
[5]趙明淵,唐勇,傅翀,周明天. 基於帶特徵染色體遺傳演算法的支持向量機特徵選擇和參數優化[J]. 控制與決策,2010,08:1133-1138.
㈡ 粒子群演算法特徵選擇
這應該屬於粒子的編碼問題,給你提供兩種。
一種是整數編碼,採用連續域的粒子群演算法,將得到的粒子值進行取整操作,比如你想選3個特徵,取粒子編碼長度為3,比如粒子(1.2 5.8 9.8),取整得到(2,6,10)。
還有一個是採用二進制編碼(搜索下BPSO),粒子的每一維取值0或1,用來表示該維特徵是否被選中,這種可以用來做自適應的特徵選擇。
㈢ 能具體談談特徵選擇,模型生成和剪枝嗎
特徵選擇是特徵工程中的重要問題(另一個重要的問題是特徵提取),坊間常說:數據和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中佔有相當重要的地位
㈣ 何為光譜特徵選擇光譜特徵選擇的方法有哪些
原有的遙感數據處理演算法在處理高光譜數據時,常遇到Hughes現象即「維數禍根「。為了有效地處理數據,「降維」就成為一個必然的選擇;「降維」即在盡可能地保留信息的同時,對波段進行壓縮。目前壓縮波段有兩種方法:①從眾多波段中選擇感興趣的若干波段,或選擇信息量大、相關性小的若干波段。②利用所有波段,通過數學變換壓縮波段。如主成分分析法(PCA)等。本文主要介紹第一種壓縮方法。
㈤ 互信息法是特徵提取還是特徵選擇
特徵選擇也叫特徵子集選擇 ( FSS , Feature Subset Selection ) 。是指從已有的M個特徵(Feature)中選擇N個特徵使得系統的特定指標最優化,是從原始特徵中選擇出一些最有效特徵以降低數據集維度的過程,是提高學習演算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟。對於一個學習演算法來說,好的學習樣本是訓練模型的關鍵。
需要區分特徵選擇與特徵提取。特徵提取 ( Feature extraction )是指利用已有的特徵計算出一個抽象程度更高的特徵集,也指計算得到某個特徵的演算法。
㈥ 文本分類 特徵選擇 怎麼確定啊
文本中能觀察到的量其實只有兩個:詞頻和文檔頻率,所有的方法一律以這兩個量為計算基礎。簡單綜合這兩者的TF-IDF選擇出來的特徵不具有類別區分度。
以文檔頻率為基礎的特徵選擇演算法有文檔頻次方法(直接依據文檔頻率大小排序的方法)、卡方檢驗、信息增益、互信息等。
㈦ 為什麼要做特徵選擇
特徵選擇也叫特徵子集選擇 ( FSS , Feature Subset Selection ) 。是指從已有的M個特徵(Feature)中選擇N個特徵使得系統的特定指標最優化。
需要區分特徵選擇與特徵提取。特徵提取 ( Feature extraction )是指利用已有的特徵計算出一個抽象程度更高的特徵集,也指計算得到某個特徵的演算法。
特徵提取與特徵選擇都能降低特徵集的維度。
㈧ 比較特徵選擇和因子分析演算法的異同
因子分析 1輸入數據。 2點Analyze 下拉菜單,選Data Rection 下的Factor 。 3打開Factor Analysis後,將數據變數逐個選中進入Variables 對話框中。 4單擊主對話框中的Descriptive按扭,打開Factor Analysis: Descriptives子對話框,在Statistics欄中選擇Univariate Descriptives項要求輸出個變數的均值與標准差,在Correlation Matrix 欄內選擇Coefficients項,要求計算相關系數矩陣,單擊Continue按鈕返回Factor Analysis主對話框。 5單擊主對話框中的Extraction 按鈕,打開如下圖所示的Factor Analysis: Extraction 子對話框。在Method列表中選擇默認因子抽取方法——Principal Components,在Analyze 欄中選擇默認的Correlation Matrix 項要求從相關系數矩陣出發求解主成分,在Exact 欄中選擇Number of Factors;6, 要求顯示所有主成分的得分和所能解釋的方差。單擊Continue按鈕返回Factor Analysis主對話框。 6單擊主對話框中的OK 按鈕,輸出結果。
㈨ 機器學習中,有哪些特徵選擇的工程方法
特徵選擇是特徵工程中的重要問題(另一個重要的問題是特徵提取),坊間常說:數據和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中佔有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好性能的特徵集,工程上常用的方法有以下:1. 計算每一個特徵與響應變數的相關性:工程上常用的手段有計算皮爾遜系數和互信息系數,皮爾遜系數只能衡量線性相關性而互信息系數能夠很好地度量各種相關性,但是計算相對復雜一些,好在很多toolkit里邊都包含了這個工具(如sklearn的MINE),得到相關性之後就可以排序選擇特徵了;2. 構建單個特徵的模型,通過模型的准確性為特徵排序,藉此來選擇特徵,另外,記得JMLR'03上有一篇論文介紹了一種基於決策樹的特徵選擇方法,本質上是等價的。當選擇到了目標特徵之後,再用來訓練最終的模型;3. 通過L1正則項來選擇特徵:L1正則方法具有稀疏解的特性,因此天然具備特徵選擇的特性,但是要注意,L1沒有選到的特徵不代表不重要,原因是兩個具有高相關性的特徵可能只保留了一個,如果要確定哪個特徵重要應再通過L2正則方法交叉檢驗;4. 訓練能夠對特徵打分的預選模型:RandomForest和Logistic Regression等都能對模型的特徵打分,通過打分獲得相關性後再訓練最終模型;5. 通過特徵組合後再來選擇特徵:如對用戶id和用戶特徵最組合來獲得較大的特徵集再來選擇特徵,這種做法在推薦系統和廣告系統中比較常見,這也是所謂億級甚至十億級特徵的主要來源,原因是用戶數據比較稀疏,組合特徵能夠同時兼顧全局模型和個性化模型,這個問題有機會可以展開講。6. 通過深度學習來進行特徵選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領域,原因是深度學習具有自動學習特徵的能力,這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特徵後就可以用來進行最終目標模型的訓練了。整體上來說,特徵選擇是一個既有學術價值又有工程價值的問題,目前在研究領域也比較熱,值得所有做機器學習的朋友重視。