存儲器實驗數據
① 存儲容量為64M、20000數據塊什麼意思
第一個實驗數據流為50 個大小 為20000 的數據塊,記為 stream01. 第二個實驗數據流 為100 個大小為10000 的數據塊,記為stream02. 第三個 實驗數據流為 200 個大小為 5000 的數據塊, 記為 stream03. 第四個實驗數據流為20 個大小為40000 據塊,記為stream04.分類學習演算法 採用決策樹(DT),並基於Weka 包實現,參數取其默認值,各基礎分類器 的權重採用第一種確定策略. 實驗環境是:Intel 奔騰雙 CPU,內存大小2G,Java heap space JVM Xms64m-Xmx512m,操作系統為windowXP. 實驗結果與分析進行實驗時, 實驗數據流 stream01、 stream02、 stream03 在訓練窗口中樣本塊數為5,stream04 驗證IMDWE 在不同正類比例 下的執行情況,我們分別取了9 從構建集成分類器的平均執行時間來看,實驗比較結果表明(圖2):在正類比例 歐陽震諍:一種不平衡數據流集成分類模型範圍內,IMDWE 集成分類器構建分類器的執行時間比 WE 集成分類器少;對於 stream01,平均執行時間最多 減少36 2%,最少減少28 4%;對於stream02,平均執行 時間最多減少51 2%;對於 stream03,平均執行時間最 多減少45 7%;對於 stream04,平均執行時間最多減少 36 2%. 時,此時IMDWE平均執行時間出 現增加的趨勢,主要是由於訓練窗口中樣本個數出現 明顯增加(n ),從而導致訓練時間的增加.實驗採用Gmean 評價 IMDWE 的整體分類性能. Gmean值相比WE Gmean值都出現了明顯的提升, IMDWE的整體分類性能要明顯優於WE 的整體分 類性能. 尤其對於stream01,IMDWE 的整體分類性能提 升明顯,最大提升為 12 4%, 最小為 10 4%; 而對於 stream02、 stream04, IMDWE 的整體分類性能提升在 8%到8% 之間; 對於 stream03, 提升度在 3%之間.從提升整個正類的分類精度來看,從圖 可以看出,相比 WE,IMDWE 對於提高正類的分類精度是明顯 的,尤其對於 stream01,recall 值最大提升達到 26. 7%, 最小也在22%以上,而最小的提升出現在 stream03,相 對提升度在 FValue值來看,從 可以看出,相比WE,IMDWE 對於不同的 現了不同的結果,但是對於stream01,在 的范圍內,FValue值提升都在10 8%以上,最大達 到11 8%;對於stream02,在 的范圍內,FValue 值提升最大在 9%,最小在 4%;而對於 stream03 與stream04,只有在 附近才出提升,而其他 值都出現降低,此時主要是IMDWE precision值出現了降低(圖6) 結論目前多數數據流分類器的設計是基於數據流中類 的分布是大致平衡這一假設的,而某些實際應用中對 於少數類的分類性能是重點關注的. 本文基於權重集 成分類器,綜合利用抽樣技術,提出了一種處理不平衡 數據流的集成分類模型———IMDWE 集成分類器模型. 實驗驗證表明:IMDWE 集成分類器的整體分類性能優 於WE 集成分類器,能明顯提高少數類的分類精度,並 且構建模型的演算法復雜度更低,更適合高速數據流的 分類挖掘. 從實驗中可以看出,相比 WE 集成分類器,IMDWE 集成分類器在提升少數類的Fvalue 值時對於不同的正 類比例 出現了不穩定性,這主要是由於precision 的降低過快造成的.因此根據應用問題中正負類樣本 比例的不同、數據流流速(塊大小)的不同,如何選取適 值變得非常重要,這也是我們下一步研究的方向.