关联挖掘算法
A. 带你了解数据挖掘中的经典算法
数据挖掘的算法有很多,而不同的算法有着不同的优点,同时也发挥着不同的作用。可以这么说,算法在数据挖掘中做出了极大的贡献,如果我们要了解数据挖掘的话就不得不了解这些算法,下面我们就继续给大家介绍一下有关数据挖掘的算法知识。
1.The Apriori algorithm,
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。这个算法是比较复杂的,但也是十分实用的。
2.最大期望算法
在统计计算中,最大期望算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。最大期望经常用在机器学习和计算机视觉的数据集聚领域。而最大期望算法在数据挖掘以及统计中都是十分常见的。
3.PageRank算法
PageRank是Google算法的重要内容。PageRank里的page不是指网页,而是创始人的名字,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”,这个标准就是衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。
3.AdaBoost算法
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,然后把这些弱分类器集合起来,构成一个更强的最终分类器。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。这种算法给数据挖掘工作解决了不少的问题。
数据挖掘算法有很多,这篇文章中我们给大家介绍的算法都是十分经典的算法,相信大家一定可以从中得到有价值的信息。需要告诉大家的是,我们在进行数据挖掘工作之前一定要事先掌握好数据挖掘需呀掌握的各类算法,这样我们才能在工总中得心应手,如果基础不牢固,那么我们迟早是会被淘汰的。职场如战场,我们一定要全力以赴。
B. 加权关联规则挖掘方法,哪位大神能将下面的伪代码转为java代码
有没有加权FP-tree的研究啊,向下封闭性怎么证明
C. 怎样生成数据挖掘的数据集,使用数据集进行关联规则Apriori算法,只想要纯数据集,我想用VF编程实现挖掘。
当你把整个文件打开的时候说明文件已经被load到内存里了。所以请检查你的内存是否够大,或者虚拟内存太小。 按理来说T10I4D100K.dat是很小的一个文件,虽然有10W行,但宽度很小啊。 建议你把虚拟内存调大一点,关闭其他占用大量内存的程序,例如IE,等等。 再么就是看看你的程序是否设计合理。这点儿数据根本不能算做大数据集。 over!
D. 数据挖掘中的Hotspot关联规则
提到关联规则算法,一般会想到Apriori或者FP,一般很少有想到HotSpot的,这个算法不知道是应用少还是我查资料的手段太low了,在网上只找到很少的内容,这篇http://wiki.pentaho.com/display/DATAMINING/HotSpot+Segmentation-Profiling ,大概分析了一点,其他好像就没怎么看到了。比较好用的算法类软件,如weka,其里面已经包含了这个算法,在Associate--> HotSpot里面即可看到,运行算法界面一般如下:
其中,红色方框里面为设置的参数,如下:
-c last ,表示目标所在的目标所在的列,last表示最后一列,也是是数值,表示第几列;
-V first, 表示目标列的某个状态值下标值(这里可以看出目标列应该是离散型),first表示第0个,可以是数值型;
-S 0.13,最小支持度,里面会乘以样本总数得到一个数值型的支持度;
-M 2 , 最大分指数;
-I 0.01 , 在weka里面解释为Minimum improvement in target value,不知道是否传统的置信度一样;
相关说明:本篇相关代码参考weka里面的HotSpot算法的具体实现,本篇只分析离散型数据,代码可以在(http://download.csdn.net/detail/fansy1990/8488971)下载。
1. 数据:
@attribute age {young, pre-presbyopic, presbyopic}
@attribute spectacle-prescrip {myope, hypermetrope}
@attribute astigmatism {no, yes}
@attribute tear-prod-rate {reced, normal}
@attribute contact-lenses {soft, hard, none}
young,myope,no,reced,none
young,myope,no,normal,soft
young,myope,yes,reced,none
。。。
presbyopic,hypermetrope,yes,normal,none
这个数据格式是参考weka里面的,加入最前面的5行是因为需要把各个属性进行编码,所以提前拿到属性的各个状态,方便后续操作;
2. 单个节点定义:
public class HSNode {
private int splitAttrIndex; // 属性的下标
private int attrStateIndex; // 属性state的下标
private int allCount ; // 当前数据集的个数
private int stateCount ; // 属性的state的个数
private double support; // 属性的支持度
private List<HSNode> chidren;
public HSNode(){}}
splitAttrIndex 即对应属性astigmatism的下标(应该是第2个,从0开始);attrStateIndex 则对应这个属性的下标,即no的下标(这里应该是0);allCount即12,stateCount即5,support 对应41.57%(即5/12的值);children即其孩子节点;(这里的下标即是从文件的前面几行编码得到的,比如属性age为第一个属性,编码为0,young为其第一个状态,编码为0);
3. 算法伪代码,(文字描述,太不专业了,如果要看,就将就看?)
1. 创建根节点;
2. 创建孩子节点;
2.1 针对所有数据,计算每列的每个属性的’支持度‘support,
if support>= MINSUPPORT
把该列的当前属性加入潜在的孩子节点列表;
end
2.2 针对潜在孩子节点列表遍历
if (!当前节点产生的规则序in全局规则序列)
把当前节点加入孩子节点列表;
把当前节点产生的规则加入全局规则中;
end
2.3 遍历孩子节点列表
针对当前节点,返回到2,进行递归;
4. 代码关键步骤具体实现:
4.1 数据读取及初始化:
1) 读取文件的前面几行,初始化两个变量,attributes和attributeStates ,分别对应所有的属性和属性的各个状态;
while ((tempString = reader.readLine()) != null) {
// 第一行数据是标题
if(tempString.indexOf(HSUtils.FILEFORMAT)==0){
String attr = tempString.substring(HSUtils.FILEFORMAT.length()
, tempString.indexOf("{")).trim();
String[] attrStates =tempString.substring(tempString.indexOf("{")+1,
tempString.indexOf("}")).split(",");
for(int i=0;i<attrStates.length;i++){
attrStates[i]=attrStates[i].trim();
}
attrList.add( attr);
line++;
this.attributeStates.put(attr, attrStates);
continue;
}
if(flag){
this.attributes= new String[line];
attrList.toArray(this.attributes);// 复制值到数组中
flag=false;
}
String[] tempStrings = tempString.split(splitter);
lists.add(strArr2IntArr(tempStrings));
}
2) 后面就是把下面的数据转为数值型数组了,strArr2IntArr 函数如下:
/**
* String 数组转为int数组
* @param sArr
* @return
* @throws Exception
*/
private int[] strArr2IntArr(String[] sArr) throws Exception{
int[] iArr = new int[sArr.length];
for(int i=0;i<sArr.length;i++){
iArr[i]= getAttrCode(sArr[i],i);
}
return iArr;
}
/**
* 获得第attrIndex属性的attrState的编码
* @param attrState
* @param attrIndex
* @return
* @throws Exception
*/
private int getAttrCode(String attrState,int attrIndex) throws Exception{
String[] attrStates = attributeStates.get(attributes[attrIndex]);
for(int i=0;i<attrStates.length;i++){
if(attrState.equals(attrStates[i])){
return i;
}
}
throw new Exception("编码错误!");
// return -1; // 如果运行到这里应该会报错
}
这里数据读取主要是把离散型的字符串类型数据转换为数值型数据,编码规则如下:
属性age的状态: [young-->0,pre-presbyopic-->1,presbyopic-->2,]
属性spectacle-prescrip的状态: [myope-->0,hypermetrope-->1,]
属性astigmatism的状态: [no-->0,yes-->1,]
属性tear-prod-rate的状态: [reced-->0,normal-->1,]
属性contact-lenses的状态: [soft-->0,hard-->1,none-->2,]
4.2 初始化根节点
// 读取文件并赋值
List<int[]> intData = readFileAndInitial(HSUtils.FILEPATH,HSUtils.SPLITTER);;
int splitAttributeIndex = attributes.length-1;// 下标需减1
int stateIndex = HSUtils.LABELSTATE;
int numInstances = intData.size();// 数据总个数
int[] labelStateCount = attrStateCount(intData,attributes.length-1);
HSUtils.setMinSupportCount(numInstances);
double targetValue=1.0*labelStateCount[HSUtils.LABELSTATE]/numInstances;
// 创建根节点
HSNode root = new HSNode(splitAttributeIndex,stateIndex,labelStateCount[stateIndex],numInstances);
double[] splitVals=new double[attributes.length];
byte[] tests = new byte[attributes.length];
root.setChidren(constructChildrenNodes(intData,targetValue,splitVals,tests));
labelStateCount即目标属性的各个状态的个数,比如这里目标状态为soft,一共有5个值,一共有24个样本,所以其支持度为5/25=20.82%;
constructChildrenNodes函数为创建所有子节点,接收的参数有:intData:所有的数据(经过编码的);targetValue:当前节点支持度;splitVals和tests数组主要用于针对节点产生规则;
4.3 创建孩子节点:
1) 计算潜在孩子节点:
private List<HSNode> constructChildrenNodes(List<int[]> intData,double targetValue,
double[] splitVals,
byte[] tests) {
// 设置孩子节点
// // 获取子数据集
//
// 针对每个属性的每个state值计算其支持度(需要符合置信度)
PriorityQueue<AttrStateSup> pq = new PriorityQueue<AttrStateSup>();
for(int i=0;i<attributes.length-1;i++){// 最后一个属性不用计算(为Label)
evaluateAttr(pq,intData,i,targetValue);
}
这里的evaluateAttr主要是判断每个属性的各个状态是否符合要求,是则加入pq
/**
* 是否把第attrIndex属性的state作为备选节点加入pq
* @param pq
* @param intData
* @param attrIndex
* @param targetValue
* @param stateIndex
* @param labelStateCount
*/
private void evaluateAttr(PriorityQueue<AttrStateSup> pq,
List<int[]> intData, int attrIndex, double targetValue) {
int[] counts = attrStateCount(intData,attrIndex);
boolean ok = false;
// only consider attribute values that result in subsets that meet/exceed min support
for (int i = 0; i < counts.length; i++) {
if (counts[i] >= HSUtils.getMinSupportCount()) {
ok = true;
break;
}
}
if(ok){
double subsetMatrix =0.0;
for(int stateIndex=0;stateIndex<counts.length;
stateIndex++){
subsetMatrix =attrStateCount(intData,attrIndex,stateIndex,attributes.length-1,HSUtils.LABELSTATE);
if(counts[stateIndex]>=HSUtils.getMinSupportCount()&&subsetMatrix>=HSUtils.getMinSupportCount()){
double merit = 1.0*subsetMatrix / counts[stateIndex]; //
double delta = merit - targetValue;
if(delta/targetValue>=HSUtils.MINCONFIDENCE){
pq.add(new AttrStateSup(attrIndex,stateIndex,counts[stateIndex],(int)subsetMatrix));
}
}
}
}// ok
}
这里首先针对当前数据集计算属性下标为attrIndex的各个状态的计数到counts[]数组中;如果各个状态的所有计数都小于最小支持度,则该属性都不作为备选加入pq中;否则继续判断:计算目标属性的设定状态(比如soft)和当前属性的状态(young)共同出现的次数(第一次应该是2),赋值给subsetMatrix(那么该值就是2);判断subsetMatrix是否>=最小支持度,如果是在按照上面的代码进行计算,最后还有个判断是用到置信度的(暂译为置信度),如果满足则把其加入到pq中,即备选子节点列表;
2)生成全局规则,并添加孩子节点
List<HSNode> children = new ArrayList<HSNode>();
List<HotSpotHashKey> keyList = new ArrayList<HotSpotHashKey>();
while(pq.size()>0&&children.size()<HSUtils.MAXBRANCH){
AttrStateSup attrStateSup = pq.poll();
// 再次进行过滤
double[] newSplitVals = splitVals.clone();
byte[] newTests = tests.clone();
newSplitVals[attrStateSup.getAttrIndex()]=attrStateSup.getStateIndex()+1;
newTests[attrStateSup.getAttrIndex()] =(byte)2;
HotSpotHashKey key = new HotSpotHashKey(newSplitVals, newTests);
if (!HSUtils.m_ruleLookup.containsKey(key)) {
// insert it into the hash table
HSUtils.m_ruleLookup.put(key, ""); // 需要先增加规则,然后才处理子节点
HSNode child_i= new HSNode(attrStateSup.getAttrIndex(),attrStateSup.getStateIndex(),
attrStateSup.getStateCount(),attrStateSup.getAllCount());
keyList.add(key);
children.add(child_i);
} else {
System.out.println("The potential ,but not included :"+attrStateSup);
}
}
这里的全局规则使用HotSpotHashKey生成,具体规则的含义没有理解(可能和算法原理有关,都找不到一篇相关的paper!)
添加一个节点后,就会添加相应的规则,这样可以避免孩子节点的孩子有相同的规则被重复添加;
3) 针对每个孩子节点,处理其节点的孩子
// 处理子节点
for(int i=0;i<children.size();i++){
HSNode child = children.get(i);
child.setChidren(constructChildrenNodes(getSubData(intData,child.getSplitAttrIndex(),
child.getAttrStateIndex()),child.getSupport(),keyList.get(i).getM_splitValues(),
keyList.get(i).getM_testTypes()));
}
这里使用递归进行调用,方便处理。需注意节点规则的生成使用的两个数组newSplitValues 和newTests需要往下传递,所以在每个孩子节点生成规则的时候把其加入到一个keyList,这样在遍历孩子节点,处理其节点的孩子时,可以找到对应的规则传递数组;
这里的getSubData即是找到当前数据集中和给定的属性下标即属性状态一样的数据返回,如下:
/**
* 获取和splitAttributeIndex相同下标的属性以及stateIndex的所有数据
* @param intData
* @param splitAttributeIndex
* @param stateIndex
* @return
*/
private List<int[]> getSubData(List<int[]> intData,
int splitAttributeIndex, int stateIndex) {
List<int[]> subData = new ArrayList<int[]>();
for(int[] d:intData){
if(d[splitAttributeIndex]==stateIndex){
subData.add(d);
}
}
return subData;
}
4.4 打印规则树
/**
* 打印规则树
* @param node
* @param level
*/
public void printHSNode(HSNode node,int level){
printLevelTab(level);
System.out.print(node+"\n");
List<HSNode> children= node.getChidren();
for(HSNode child:children){
printHSNode(child,level+1);
}
}
private void printLevelTab(int level) {
for(int i=0;i<level;i++){
System.out.print("|\t");
}
}
这里可以看到针对当前节点,使用直接打印的方式,因为这里覆写了toString方法,所以可以这样,其toString 方法如下:
/**
* 格式化输出
*/
public String toString(){
return HSUtils.getAttr(this.splitAttrIndex)+"="+HSUtils.getAttrState(splitAttrIndex, attrStateIndex)
+" ("+HSUtils.formatPercent(this.support)+" ["+this.stateCount+"/"+this.allCount+"])";
}
4.5 算法调用:
package fz.hotspot;
import fz.hotspot.dataobject.HSNode;
public class HotSpotTest {
/**
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception {
String file = "D:/jars/weka-src/data/contact-lenses.txt";
int labelStateIndex = 0; // 目标属性所在下标
int maxBranches=2; // 最大分支数目
double minSupport =0.13; // 最小支持度
double minConfidence=0.01;// 最小置信度(在weka中使用的是minImprovement)
HotSpot hs = new HotSpot();
HSNode root = hs.run(file,labelStateIndex,maxBranches,minSupport,minConfidence);
System.out.println("\n规则树如下:\n");
hs.printHSNode(root,0);
}
}
打印的规则树如下:
contact-lenses=soft (20.83% [5/24])
| astigmatism=no (41.67% [5/12])
| | tear-prod-rate=normal (83.33% [5/6])
| | | spectacle-prescrip=hypermetrope (100.00% [3/3])
| | spectacle-prescrip=hypermetrope (50.00% [3/6])
| tear-prod-rate=normal (41.67% [5/12])
| | spectacle-prescrip=hypermetrope (50.00% [3/6])
可以看到和weka给出的是一致的。
最近在看《暗时间》,上面提到说有想法最好写下来,这样不仅可以加深自己的理解,同时在写的过程中,比如一些表达之类的 也可以加强(身为程序员,这方面的能力确实欠缺),同时也可以让别人检验到自己的思维盲点。
文中相关算法理解,仅代表自己观点。
分享,成长,快乐
脚踏实地,专注
转载请注明blog地址:http://blog.csdn.net/fansy1990
文章最后发布于: 2015-03-10
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/fansy1990/article/details/44177523
展开全文
E. 数据挖掘算法有哪些
统计和可视化要想建立一个好的预言模型,你必须了解自己的数据。最基本的方法是计算各种统计变量(平均值、方差等)和察看数据的分布情况。你也可以用数据透视表察看多维数据。数据的种类可分为连续的,有一个用数字表示的值(比如销售量)或离散的,分成一个个的类别(如红、绿、蓝)。离散数据可以进一步分为可排序的,数据间可以比较大小(如,高、中、低)和标称的,不可排序(如邮政编码)。图形和可视化工具在数据准备阶段尤其重要,它能让你快速直观的分析数据,而不是给你枯燥乏味的文本和数字。它不仅让你看到整个森林,还允许你拉近每一棵树来察看细节。在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等,直接看数字则很难。可视化工具的问题是模型可能有很多维或变量,但是我们只能在2维的屏幕或纸上展示它。比如,我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。因此,可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。虽然目前有了一些这样的工具,但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。对于眼睛有色盲或空间感不强的人,在使用这些工具时可能会遇到困难。聚集(分群)聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。与分类不同(见后面的预测型数据挖掘),在开始聚集之前你不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好,这时你需要删除或增加变量以影响分群的方式,经过几次反复之后才能最终得到一个理想的结果。神经元网络和K-均值是比较常用的聚集算法。不要把聚集与分类混淆起来。在分类之前,你已经知道要把数据分成哪几类,每个类的性质是什么,聚集则恰恰相反。关联分析关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,他寻找的是事件之间时间上的相关性,如对股票涨跌的分析。关联规则可记为A==>B,A称为前提和左部(LHS),B称为后续或右部(RHS)。如关联规则“买锤子的人也会买钉子”,左部是“买锤子”,右部是“买钉子”。要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联(“锤子和钉子”)在数据库中出现的频率称为支持度。比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”,则此关联的支持度为1.5%。非常低的支持度(比如1百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据(如,“男性和怀孕”)。要找到有意义的规则,我们还要考察规则中项及其组合出现的相对频率。当已有A时,B发生的概率是多少?也即概率论中的条件概率。回到我们的例子,也就是问“当一个人已经买了锤子,那他有多大的可能也会买钉子?”这个条件概率在数据挖掘中也称为可信度,计算方法是求百分比:(A与B同时出现的频率)/(A出现的频率)。让我们用一个例子更详细的解释这些概念: 总交易笔数(事务数):1,000包含“锤子”:50包含“钉子”:80包含“钳子”:20包含“锤子”和“钉子”:15包含“钳子”和“钉子”:10包含“锤子”和“钳子”:10包含“锤子”、“钳子”和“钉子”:5 则可以计算出: “锤子和钉子”的支持度=1.5%(15/1,000)“锤子、钉子和钳子”的支持度=0.5%(5/1,000)“锤子==>钉子”的可信度=30%(15/50)“钉子==>锤子”的可信度=19%(15/80)“锤子和钉子==>钳子”的可信度=33%(5/15)“钳子==>锤子和钉子”的可信度=25%(5/20)
F. 数据挖掘的关联规则算是分类算法么
不是的。分类算法就训练好一个模型,然后根据模型判断新纪录的分类情况。而关联规则则是发现纪录中属性之间的关联程度
G. 数据挖掘关联规则算法如何做仿真实验急呀!
当你把整个文件打开的时候说明文件已经被load到内存里了。所以请检查你的内存是否够大,或者虚拟内存太小。
按理来说T10I4D100K.dat是很小的一个文件,虽然有10W行,但宽度很小啊。
建议你把虚拟内存调大一点,关闭其他占用大量内存的程序,例如IE,等等。
再么就是看看你的程序是否设计合理。这点儿数据根本不能算做大数据集。
over!
H. 常用的数据挖掘算法有哪几类
常用的数据挖掘算法分为以下几类:神经网络,遗传算法,回归算法,聚类分析算法,贝耶斯算法。
目前已经进入大数据的时代,所以数据挖掘和大数据分析的就业前景非常好,学好大数据分析和数据挖掘可以在各个领域中发挥自己的价值;同时,大数据分析并不是一蹴而就的事情,而是需要你日积月累的数据处理经验,不是会被轻易替代的。一家公司的各项工作,基本上都都用数据体现出来,一位高级的数据分析师职位通常是数据职能架构中领航者,拥有较高的分析和思辨能力,对于业务的理解到位,并且深度知晓公司的管理和商业行为,他可以负责一个子产品或模块级别的项目,带领团队来全面解决问题,把控手下数据分析师的工作质量。
想要了解更多有关数据挖掘算法的信息,可以了解一下CDA数据分析师的课程。课程教你学企业需要的敏捷算法建模能力,可以学到前沿且实用的技术,挖掘数据的魅力;教你用可落地、易操作的数据科学思维和技术模板构建出优秀模型,只教实用干货,以专精技术能力提升业务效果与效率。点击预约免费试听课。