存储器实验数据
① 存储容量为64M、20000数据块什么意思
第一个实验数据流为50 个大小 为20000 的数据块,记为 stream01. 第二个实验数据流 为100 个大小为10000 的数据块,记为stream02. 第三个 实验数据流为 200 个大小为 5000 的数据块, 记为 stream03. 第四个实验数据流为20 个大小为40000 据块,记为stream04.分类学习算法 采用决策树(DT),并基于Weka 包实现,参数取其默认值,各基础分类器 的权重采用第一种确定策略. 实验环境是:Intel 奔腾双 CPU,内存大小2G,Java heap space JVM Xms64m-Xmx512m,操作系统为windowXP. 实验结果与分析进行实验时, 实验数据流 stream01、 stream02、 stream03 在训练窗口中样本块数为5,stream04 验证IMDWE 在不同正类比例 下的执行情况,我们分别取了9 从构建集成分类器的平均执行时间来看,实验比较结果表明(图2):在正类比例 欧阳震诤:一种不平衡数据流集成分类模型范围内,IMDWE 集成分类器构建分类器的执行时间比 WE 集成分类器少;对于 stream01,平均执行时间最多 减少36 2%,最少减少28 4%;对于stream02,平均执行 时间最多减少51 2%;对于 stream03,平均执行时间最 多减少45 7%;对于 stream04,平均执行时间最多减少 36 2%. 时,此时IMDWE平均执行时间出 现增加的趋势,主要是由于训练窗口中样本个数出现 明显增加(n ),从而导致训练时间的增加.实验采用Gmean 评价 IMDWE 的整体分类性能. Gmean值相比WE Gmean值都出现了明显的提升, IMDWE的整体分类性能要明显优于WE 的整体分 类性能. 尤其对于stream01,IMDWE 的整体分类性能提 升明显,最大提升为 12 4%, 最小为 10 4%; 而对于 stream02、 stream04, IMDWE 的整体分类性能提升在 8%到8% 之间; 对于 stream03, 提升度在 3%之间.从提升整个正类的分类精度来看,从图 可以看出,相比 WE,IMDWE 对于提高正类的分类精度是明显 的,尤其对于 stream01,recall 值最大提升达到 26. 7%, 最小也在22%以上,而最小的提升出现在 stream03,相 对提升度在 FValue值来看,从 可以看出,相比WE,IMDWE 对于不同的 现了不同的结果,但是对于stream01,在 的范围内,FValue值提升都在10 8%以上,最大达 到11 8%;对于stream02,在 的范围内,FValue 值提升最大在 9%,最小在 4%;而对于 stream03 与stream04,只有在 附近才出提升,而其他 值都出现降低,此时主要是IMDWE precision值出现了降低(图6) 结论目前多数数据流分类器的设计是基于数据流中类 的分布是大致平衡这一假设的,而某些实际应用中对 于少数类的分类性能是重点关注的. 本文基于权重集 成分类器,综合利用抽样技术,提出了一种处理不平衡 数据流的集成分类模型———IMDWE 集成分类器模型. 实验验证表明:IMDWE 集成分类器的整体分类性能优 于WE 集成分类器,能明显提高少数类的分类精度,并 且构建模型的算法复杂度更低,更适合高速数据流的 分类挖掘. 从实验中可以看出,相比 WE 集成分类器,IMDWE 集成分类器在提升少数类的Fvalue 值时对于不同的正 类比例 出现了不稳定性,这主要是由于precision 的降低过快造成的.因此根据应用问题中正负类样本 比例的不同、数据流流速(块大小)的不同,如何选取适 值变得非常重要,这也是我们下一步研究的方向.