粗糙集理论算法与应用
⑴ 什么是智能信息处理
1、粗糙集理论及其应用:粗糙集的约简算法、粗糙集理论的扩展研究以及粗糙集理论在知识发现中的应用等内容。
2、媒体信息处理:图像低层特征的研究、图像高层语义特征的研究、音频特征的提取,以及基于内容的图像检索方法等;
3、数据挖掘与知识发现:Web挖掘、基于概念格的知识表示与知识发现、ontology的理论与应用、智能检索技术、数据库与数据仓库技术的理论与应用等。
(1)粗糙集理论算法与应用扩展阅读:
1981年,8088芯片首次用于IBM的PC(个人电脑Personal Computer)机中,开创了全新的微机时代。也正是从8088开始,PC的概念开始在全世界范围内发展起来。
早期的CPU通常是为大型及特定应用的计算机而订制。但是,这种昂贵为特定应用定制CPU的方法很大程度上已经让位于开发便宜、标准化、适用于一个或多个目的的处理器类。
这个标准化趋势始于由单个晶体管组成的大型机和微机年代,随着集成电路的出现而加速。集成电路使得更为复杂的CPU可以在很小的空间中设计和制造出来(在微米的量级)。
⑵ 计算机学习的分类
大概就是这几个专业:计算机科学与技术(计算机科学)软件工程、电信工程、网络工程、物联网工程、通信工程,不同学校可能会有细微差异。
⑶ 粗糙集理论的理论及核心
面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?
粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,蓝}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},蓝颜色的积木是:X3={x5,x7,x8}。按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然有且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:
A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)
A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)
A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类)
上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},蓝色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},蓝色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3,x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。
下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是 我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“蓝色的大方块或者蓝色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者蓝色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求交得到的。一般的,我们可以用下面的图来表示上、下近似的概念。
这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似 ,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。 整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:
元素 颜色 形状 大小 稳定性
x1 红 三角 大 稳定
x2 红 三角 大 稳定
x3 黄 圆 小 不稳定
x4 黄 圆 小 不稳定
x5 蓝 方块 大 稳定
x6 红 圆 中 不稳定
x7 蓝 圆 小 不稳定
x8 蓝 方块 中 不稳定
可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定?下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合{x1,x2,x5},它在知识系统A/R中的上下近似都是{x1,x2,x5}本身,“不稳定”的集合{x3,x4,x6,x7,x8},在知识系统A/R中的上下近似也都是{x3,x4,x6,x7,x8}它本身。说明该知识库能够对这个概念进行很好的描述。下面考虑是否所有的基本知识:颜色、形状、大小都是必要的?如果我们把这个集合在知识系统中去掉颜色这个基本知识,那么知识系统变成A/(R-R1)={{x1,x2},{x3,x4,x7},,,}以及这些子集的并集。如果用这个新的知识系统表达“稳定”概念得到上下近似仍旧都是:{x1,x2,x5},“不稳定”概念的上下近似也还是{x3,x4,x6,x7,x8},由此看出去掉颜色属性我们表达稳定性的知识不会有变化,所以说颜色属性是多余的可以删除。如果再考虑是否能去掉大小属性呢?这个时候知识系统就变为:
A/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}}。同样考虑“稳定”在知识系统A/R2中的上下近似分别为:{x1,x2,x5,x8}和{x1,x2},已经和原来知识系统中的上下近似不一样了,同样考虑“不稳定”的近似表示也变化了,所以删除属性“大小”是对知识表示有影响的故而不能去掉。同样的讨论对于“形状”属性,“形状”属性是不能去掉的。A/(R-R2)={{x1,x2},x6,{x3,x4},x5,x7,x8},通过求并可以得知“稳定”的下近似和上近似都是{x1,x2,x5},“不稳定”的上下近似都是{x3,x4,x6,x7,x8}。最后我们得到化简后的知识库R2,R3,从而能得到下面的决策规则:大三角->稳定,大方块->稳定,小圆->不稳定,中圆->不稳定,中方块->不稳定,利用粗集的理论还可以对这些规则进一步化简得到:大->稳定,圆->不稳定,中方块->不稳定。这就是上面这个数据表所包含的真正有用的知识,而这些知识都是从数据库有粗糙集方法自动学习得到的。因此,粗糙集是数据库中数据挖掘的有效方法。
从上面这个例子中我们不难看出,实际上我们只要把这个数据库输入进粗糙集运算系统,而不用提供任何先验的知识,粗糙集算法就能自动学习出知识来,这正是它能够广泛应用的根源所在。而在模糊集、可拓集等集合论中我们还要事先给定隶属函数。
进入网络信息时代,随着计算机技术和网络技术的飞速发展,使得各个行业领域的信息急剧增加,如何从大量的、杂乱无章的数据中发现潜在的、有价值的、简洁的知识呢?数据挖掘(Data Mining)和知识发现(KDD)技术应运而生。
⑷ 粗糙集的应用
粗糙集理论是一门实用性很强的学科,从诞生到现在虽然只有十几年的时间,但已经在不少领域取得了丰硕的成果,如近似推理,数字逻辑分析和化简,建立预测模型,决策支持,控制算法获取,机器学习算法和模式识别等等. 下面介绍一下粗糙集应用的几个主要领域. 实际系统中有很多复杂对象难于建立严格的数学模型,这样传统的基于数学模型的控制方法就难以奏效. 模糊控制模拟人的模糊推理和决策过程,将操作人员的控制经验总结为一系列语言控制规则,具有鲁棒性和简单性的特点,在工业控制等领域发展较快. 但是有些复杂对象的控制规则难以人工提取,这样就在一定程度上限制了模糊控制的应用.
粗糙集能够自动抽取控制规则的特点为解决这一难题提供了新的手段. 一种新的控制策略—模糊- 粗糙控制(fuzzy-rough control) 正悄然兴起,成为一个有吸引力的发展方向. 有学者应用这种控制方法研究了"小车—倒立摆系统"这一经典控制问题和水泥窑炉的过程控制问题,均取得了较好的控制效果. 应用粗糙集进行控制的基本思路是: 把控制过程的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来,然后利用粗糙集理论处理这些数据,分析操作人员在何种条件下采取何种控制策略,总结出一系列控制规则:
规则1 IF Condit ion 1 满足 THEN 采取decision 1
规则2 IF Condit ion 2 满足 THEN 采取decision 2
规则3 IF Condit ion 3 满足 THEN 采取decision 3
这种根据观测数据获得控制策略的方法通常被称为从范例中学习(learning from examples). 粗糙控制(rough control) 与模糊控制都是基于知识,基于规则的控制,但粗糙控制更加简单迅速,实现容易(因为粗糙控制有时可省却模糊化及去模糊化步骤) ; 另一个优点在于控制算法可以完全来自数据本身,所以从软件工程的角度看,其决策和推理过程与模糊(或神经网络) 控制相比可以很容易被检验和证实(validate). 有研究指出在特别要求控制器结构与算法简单的场合,更适合采取粗糙控制.
美国电力科学研究院(EPR I) 对粗糙集的应用研究的潜力对十分重视,将其作为战略性研究开发(Strategy R&D) 项目,在1996 年拨款196,600 资助San Jose 州立大学进行电力系统模糊- 粗糙控制器的研究. 面对大量的信息以及各种不确定因素,要作出科学,合理的决策是非常困难的.决策支持系统是一组协助制定决策的工具,其重要特征就是能够执行IF THEN 规则进行判断分析. 粗糙集理论可以在分析以往大量经验数据的基础上找到这些规则,基于粗糙集的决策支持系统在这方面弥补了常规决策方法的不足,允许决策对象中存在一些不太明确,不太完整的属性,并经过推理得出基本上肯定的结论.
下面举一个例子,说明粗糙集理论可以根据以往的病例归纳出诊断规则,帮助医生作出判断. 表2描述了八个病人的症状. 从表二中可以归纳出以下几条确定的规则:
表2 症状与感冒的关系 病人编号 病理症状诊断结果 是否头痛 体温 是否感冒 病人1 是 正常 否 病人2 是 高 是 病人3 是 很高 是 病人4 否 正常 否 病人5 否 高 否 病人6 否 很高 是 病人7 否 高 是 病人8 否 很高 否 1. IF (体温正常) THEN (没感冒)
⒉ IF (头痛) AND (体温高) THEN (感冒)
⒊ IF (头痛) AND (体温很高) THEN (感冒)
还有几条可能的规则:
⒋ IF (头不痛) THEN (可能没感冒)
⒌ IF (体温高) THEN (可能感冒了)
⒍ IF (体温很高) THEN (可能感冒了)
病人5 和病人7,病人6 和病人8,症状相同,但是一个感冒另一个却没感冒,这种情况称为不一致(inconsistent). 粗糙集就是靠这种IF THEN 规则的形式表示数据中蕴含的知识.
希腊工业发展银行ETEVA 用粗糙集理论协助制订信贷政策,从大量实例中抽取出的规则条理清晰,得到了金融专家的好评. 相继召开的以粗糙集理论为主题的国际会议,促进了粗糙集理论的推广. 这些会议发表了大量的具有一定学术和应用价值的论文,方便了学术交流,推动了粗糙集在各个科学领域的拓展和应用. 下面列出了近年召开的一些会议:
· 1992 年第一届国际研讨会(Rough Set s: State of the A rt and Perspect ives) 在波兰Kiekrz 召开;
·1993 年第二届国际研讨会(The Second In ternat ionalWo rk shop on Rough Set s and Know ledge D iscovery,RSKDྙ) 在加拿大Banff 召开;
·1994 年第三届国际研讨会(The Th ird In ternat ionalWo rk shop on Rough Set s and Soft Computing,RSSCྚ) 在美国San Jose 召开;
·1995 年在美国North Carolina 召开了题为"Rough Set Theory,RSTྛ"的国际会议;
·1996 年第四届国际研讨会(The Fourth International Work shop on Rough Sets,Fuzzy Sets,and Machine Discovery,RSFDྜ) 在日本东京召开;
·1997 年3 月在美国North Carolina 召开了第五届国际研讨会(The Fifth International Work shop on Rough Sets and Soft Computing,RSSCྜྷ) 目前,国际上研究粗糙集的机构和个人开发了一些应用粗糙集的实用化软件,也出现了商业化的软件.
加拿大Rect System Inc. 公司开发的用于数据库知识发现的软件DataLogic R 是用C 语言开发的,可安装在个人计算机上,为科研领域和工业界服务.
美国肯萨斯大学开发了一套基于粗糙集的经验学习系统,名为LERS (L earning from Examples based on Rough Sets),它能从大量经验数据中抽取出规则. LERS 已被美国国家航空航天管理局(NASA) 的约翰逊(John son) 空间中心采用,作为专家系统开发工具,为"自由号"(F reedom) 空间站上的医疗决策服务. 美国环境保护署(US Environmental Protection Agency) 资助的一个项目中也采用了LERS.
波兰波兹南工业大学(Poznan University of Technology) 开发的软件RoughDAS 和加拿大Regina 大学开发的KDD-R 是用C 编写的,在UNⅨ 环境下运行,KDD-R 基于变精度粗糙集模型 (Variable Precision Rough Set,VPRS),通过改变粗糙程度而使数据中隐含的模式更清楚的显示出来.
⑸ 基于粗糙集和云理论的土地适宜性评价模型的建立
刘明亮1 吴跃民1 杨明2
(1.湖南万源评估咨询有限公司,长沙,410011;2.武汉大学资源与环境科学学院,武汉,430079)
摘要:本文介绍和分析了两种非经典数学方法云理论和粗糙集理论,通过对这两个方法进行比较和结合,建立了以云理论和粗糙集理论相结合为基础的土地适宜性评价模型,并在此基础上进行了实例的研究和应用。
关键词:粗糙集理论;云理论;数据挖掘;土地适宜性评价
土地适宜性评价是针对某种特定土地利用类型的适宜性及适宜程度的评价。它是土地合理利用的重要内容,通过其对地区全部土地资源的研究,为土地利用总体规划工作中的人地平衡、用地布局与土地结构调整、土地开发利用等工作提供了科学依据。因此,对土地适宜性进行正确的评价,对适宜级别做出合理划分是进行规划决策的首要任务之一,而评价方法作为获取正确评价结果的途径就显得尤为重要。
传统的评价方法,如极限条件法、回归分析法、经验指数和法、层次分析法等,由于其评价方法过于简单,在一定程度上不能客观全面地反应实际情况。随着智能化技术的不断发展与完善,评价方法也由传统的简单的数值方法向智能化发展。由于土地适宜程度本身的不确定性,用处理大量的不确定性数据的挖掘技术显得更有优势。
1 粗糙集理论与云理论的特点
粗糙集理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。它能够完全从已有的数据中有效地发现关联规则,它可支持知识获取的多个步骤,如数据预处理、数据约简、规则生成、数据依赖关系获取等。云理论是在传统模糊集理论和概率统计的基础上提出的定性定量转换模型,用期望值Ex、熵En和超熵He表征定性概念,是以研究定性定量间的不确定性转换为基础的系统。作为处理不确定性问题的一种新理论,它可协助数据的离散化,规则的推理,使得该方法更趋近于人类的思维领域,为更好地向人工智能发展打下基础。
云理论和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论,它们都可以用来描述知识的不精确性和不完全性,但它们的出发点和侧重点不同,云理论结合了模糊性和随机性,而粗糙集通过上近似集、下近似集来刻画不可分辨性。粗糙集不需要任何预备的额外的有关数据信息,在推导关联规则方面,有其特有的优势;而云理论处理不确定信息的方法需要一些数据的附加信息或先验知识,但提供了定性定量转换的方法。虽然云理论和粗糙集理论特点不同,但它们之间有着密切的联系,在研究不确定性数据方面,有很强的互补性。把云理论方法引入到粗糙集方法中,对粗糙集的结构化的模型进行改进,不仅可提高发现算法的效率,还可提高系统模型的鲁棒性。土地适宜性是一个定性的概念,利用粗糙集理论和云理论相结合建立土地适宜性评价模型,可以互相补充,取长补短,为土地适宜性评定的客观性提供可能性。
2 基于云理论和粗糙集评价模型的建立
云理论与粗糙集方法相结合是将基于云理论的定量到定性的转换方法作为粗糙集方法的预处理手段,把定量数据转换为定性数据,或把定性数据转换为不同概念层次的新的定性数据,然后应用粗糙集方法发现分类决策知识,最后运用云理论的不确定性推理方法应用这些知识,即根据新的定量或定性条件数据推理出定量或者定性结果,从而表达和传递知识和推理的不确定性。就具体模型建立而言,首先根据原始数据制成初始决策表,对每个条件属性,查看它是否为离散属性,若是,则进行离散化处理,直至整个决策表全部转化为离散数据为止,据此制成最终决策表。在此决策表的基础上,利用粗糙集方法发现关联规则并计算属性重要性,得到关联规则,最后用基于云理论的推理方法得出定性的推理结果。整个模型如图1所示。
图1 评价模型图
其中,基于云理论规则推理的详细过程,如图2 所示。
2.1 决策表的建立
收集影响土地适宜性的数据,如坡度、质地、有机质含量,厚度等等,进行原始数据的采样和整理,并根据土地适宜性评价的目的(如宜林宜牧等)做成信息决策表。
2.2 数据预处理
在很多情况下,所得到待处理的信息表并不是一个完备的信息表,表中的某些属性值是被遗漏的。对于这种情况,可通过将空缺属性值赋予特殊值来处理,以区别于其他属性值。
图2 云理论推理
2.3 数据离散化
用云模型模拟人类的思维划分属性空间。每一个属性看作一个语言变量(或多个语言变量的组合)。对于每一个语言变量,定义几个语言值,相邻的语言值间允许有重叠,表达语言值的云可以由用户交互地给定。设对于一个数字型属性给定云A1 (Ex1,En1,He1),A2 (Ex2,En2,He2),……,An (Exn,Enn,Hen),作为语言项,将任一属性值 x输入到云发生器 CG1,CG2,……,CGn,得到输出值 μ1,μ2,……,μn,即属性值 μ 与A1,A2,……,An的隶属度,检索出最大隶属度μi,则x分配给Ai。如果两个隶属度μi和μj,均等于最大值,则 x 随机地分配给 Ai或 Aj。
2.4 决策表属性约简
基于粗糙集理论的知识获取,通过采用决策表可辨识矩阵和可辨识函数的属性约简算法对原始决策表约简,包括属性约简和属性值约简。
令S=<U,R,V,f>是一个决策表系统,R=P∪ D 是属性集合,子集 P={ai |i=1,…,m} 和 D={d} 分别为条件属性集和决策属性集,U={x1,x2,…,xn} 是论域,ai (xj)是样本 xj在属性ai 上的取值。CD (i,j)表示可辨识矩阵中第 i 行 j 列的元素,则可辨识矩阵CD 定义为: {ak | ak∈ P ∧ak (xi)≠ ak (xj)},d (xi)≠ d (xj);
土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集
其中 i,j=1,…,n。
根据可辨识矩阵的定义可知,当两个样本(实例)的决策属性取值相同时,它们所对应的可辨识矩阵取值为0;当两个样本的决策属性不同而且可以通过某些条件属性的取值不同加以区分时,它们所对应的可辨识矩阵元素的取值为这两个样本属性值不同的条件属性集合,即可以区分这两个样本的条件属性集合;当两个样本发生冲突时,即所有的条件属性取值相同而决策属性的取值不同时,则它们所对应的可辨识矩阵中的元素取值为空。
2.5 计算属性权重
对于属性集C导处的分类的属性子集B′⊆B的重要性,可用两者依赖程度的差来度量,即:
rB (C)-rB-B′(C)
这表示当从集合 B 中去掉某些属性子集B′对象分类时,分类 U/C 的正域受到怎样的影响。
其中,rB (C)=card (posp (Q))/card (U)
是知识依赖性的度量,其中 card 表示集合的基数:
土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集
称为Q的P正域,对于 U/P 的分类,U/Q 的正域是论域中所有通过分类 U/P 表达的知识能够确定地化入 U/Q 类的对象集合。
2.6 基于值约简的决策规则最小化的提取
基于值约简的决策规则的提取是建立在决策表值约简的基础上进行的。假设决策表有三个条件属性 a、b、c,一个决策属性 d。通过对[x]a、[x]b、[x]c、[x]d,进行属性值约简,在规则最小化的原则下,计算得出最小决策规则。
2.7 基于云理论的规则推理
基于云理论的不确定性推理按规则的条数分为单规则和多规则推理,每一条规则又可以根据规则前件的条数分为单条件规则和多条件规则。土地适宜性评价只要求得到定性的推理结果,所以本模型通过计算属性重要性来解决。首先激活一个实例的几条规则,得到各个规则的隶属度的云滴,拟合成虚拟云,该虚拟云的期望值即为结果,最后根据最大隶属度的选择选取定性结果。
根据以上理论设计的土地适用性评价系统如图3 所示。菜单是关于常用理论的基本方法,右侧的一系列步骤是关于组建数学模型的实现方法。中间的坐标界面用来显示图形结果。
图3 评价系统界面
3 应用实例
琼海市地处海南省东部。东临南海,北靠文昌,西接屯昌,南与万宁县交界。琼海市有着优越的农业自然条件、丰富的旅游资源,但全市存在工业底子薄、矿产资源贫乏、能源短缺、科技水平较低以及建设资金不足等制约因素。土地适宜性评价的主要任务是在收集土壤、地形、水利、气候等资料的基础上,对评价范围内的所有土地进行适宜性评价,找出不适宜现状用途的土地,并给出指定用途的适宜性土地的等级。
3.1 收集资料、整理数据
收集所有有关琼海市土地适宜性评价的数据,5个条件属性和1个决策属性,根据原有的单元划分9311个实例。表1是其中一实例的决策表的一部分。
表1 决策表示例
其中,Yjz 表示土壤有机质含量,Hd 表示土壤厚度,Zd 表示土壤质地条件属性,Sl表示水利条件属性,S_c 表示宜水产养殖地类决策属性。
3.2 数据预处理
因为本实例中所得到的初始数据并没有缺失,无需对初始决策表进行预处理,故可以省略这一步,所以得到的最终决策表同表1。
3.3 数据离散化
对决策表中的每个属性,依次进行以下步骤,分别得到离散结果。
3.3.1 计算属性的数据分布函数
对属性 i 定义域中的每一个可能取值,计算得到属性 i 的数据分布函数gi (x);图4是属性厚度(Hd)的数据分布函数的图。
图4 属性数据分布图
3.3.2 计算单个云模型的数据分布函数
寻找数据分布函数 gi (x)的波峰所在的位置,将其属性定义为云的重心位置,然后计算用于拟合 gi (x)的云模型,云模型函数 fi (x)计算如图5 所示。
图5 云模型分布
该图是寻找第二波峰位置时,所拟合的基于云的数据分布函数(红色实线)。云模型参数为:
土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集
3.4 离散化
通过上一步得到的归纳并了解概念云后,对于每个需要离散化的属性值,一一计算出对于每个概念云的隶属度,选取其最大值为离散化的结果,表2 是离散化结果的一部分。
表2 属性离散结果
3.5 属性约简
求出布尔函数表达式,用布尔函数极小化算法计算约简结果。将布尔函数转化为二进制区分矩阵,对二进制区分矩阵实行简化算法,得到决策表的约简结果,如表3所示。
表3 属性化简结果
3.6 计算属性权重
根据条件属性对决策属性的分类产生的影响,计算每个条件属性对决策结果产生的重要性及系数,如表4所示。(这个度量是根据论域中的样例来得到的,不依赖于人的先验知识。)
表4 属性权重结果
3.7 决策推理
根据云理论多条件多规则推理方法,对原有数据参照最小规则进行推理,得到最终的等级划分结果,如图6 所示。
图6 等级划分结果
4 结论
利用上述模型,首先应该尽可能多地收集对土地适宜性问题有影响的因素,运用云理论进行连续数据的离散化之后,可以根据属性重要性确定的方法来筛选评价因素,在此基础之上,运用粗糙集方法获取评价规则。另外应注意的是土地多宜性问题,在土地适宜性评价中,对于每一种土地用途,都要分别确定它的等级,这区别于粗糙集一般的信息处理过程中,把几个不同的决策属性归并为一个决策属性集的综合决策。
应用结果表明,云模型汲取了自然语言的优点,突破了已有方法的局限,能够把模糊性和随机性有机地综合在一起,在空间数据挖掘中构成定性和定量相互间的映射,发现的知识具有可靠性。粗糙集理论对模糊和不完全知识的处理比较出色,但其对原始模糊数据的处理能力比较弱,而基于云模型的定性定量转换方法作为粗糙集的预处理是比较合适的。二者相结合的方法应用于土地适宜性评价可以集两种理论之所长,更具优势地解决对其定性评价的实际问题。
参考文献
张文修,吴伟志等.粗糙集理论与方法[M].北京:科学出版社,2001
曾黄麟.粗糙集理论及其应用[M].重庆:重庆大学出版社,1998
张丽,马良.基于粗糙集属性约简的模糊模式识别[J].上海理工大学学报,2003,25 (1):50~53
杨昭辉,李德毅.二维云模型及其在预测中的运用[J].计算机学报,1998,21 (11):961~969
邸凯昌着.空间数据发掘与知识发现[M].武汉:武汉大学出版社,2001.12
⑹ 什么叫模糊集对分析法
屁屁说的应该是模糊综合评价与模糊集对分析不是一种方法,虽然都用到模糊数学的知识。其它几个也大致是找篇文章的摘要就贴上的。我想简单说几点:
谈到模糊集对分析理论先要说集对分析理论。
集对分析理论(SPA)是我国学者赵克勤先生于1989 年创立的一门新兴学科,它是一种用联系数“a+bi+cj”统一处理模糊、随机、中介等不确定性系统的理论和方法。目前,集对分析理论已在自然科学、社会经济等领域得到了广泛的应用。
在我们对不确定性系统的描述中,一种是描述随机不确定性的概率统计理论,一种是模糊不确定性的模糊集合理论。概率统计理论过分强调系统的独立性,而模糊逻辑理论则过分的依赖主观的经验,因而这两种理论都有不足之处。1989年,赵克勤提出的集对分析理论,也称“联系数学”。
模糊集对理论是将模糊逻辑理论用于集对分析,结合从两个集合的同一性、差异性和对立性三个方面来研究系统的不确定性。在处理不确定性问题时较为客观,运算也较简单,所以模糊集对分析理论已经成功运用于人工职能、系统控制、管理决策等领域。
在分析中要用到模糊理论分析联系度,集合运算和矩阵运算比较多,这里就不过多论述了。详细可以联系我qq68727448注明模糊集对分析