粗糙集演算法
Ⅰ 粗糙集的應用
粗糙集理論是一門實用性很強的學科,從誕生到現在雖然只有十幾年的時間,但已經在不少領域取得了豐碩的成果,如近似推理,數字邏輯分析和化簡,建立預測模型,決策支持,控制演算法獲取,機器學習演算法和模式識別等等. 下面介紹一下粗糙集應用的幾個主要領域. 實際系統中有很多復雜對象難於建立嚴格的數學模型,這樣傳統的基於數學模型的控制方法就難以奏效. 模糊控制模擬人的模糊推理和決策過程,將操作人員的控制經驗總結為一系列語言控制規則,具有魯棒性和簡單性的特點,在工業控制等領域發展較快. 但是有些復雜對象的控制規則難以人工提取,這樣就在一定程度上限制了模糊控制的應用.
粗糙集能夠自動抽取控制規則的特點為解決這一難題提供了新的手段. 一種新的控制策略—模糊- 粗糙控制(fuzzy-rough control) 正悄然興起,成為一個有吸引力的發展方向. 有學者應用這種控制方法研究了"小車—倒立擺系統"這一經典控制問題和水泥窯爐的過程式控制制問題,均取得了較好的控制效果. 應用粗糙集進行控制的基本思路是: 把控制過程的一些有代表性的狀態以及操作人員在這些狀態下所採取的控制策略都記錄下來,然後利用粗糙集理論處理這些數據,分析操作人員在何種條件下採取何種控制策略,總結出一系列控制規則:
規則1 IF Condit ion 1 滿足 THEN 採取decision 1
規則2 IF Condit ion 2 滿足 THEN 採取decision 2
規則3 IF Condit ion 3 滿足 THEN 採取decision 3
這種根據觀測數據獲得控制策略的方法通常被稱為從範例中學習(learning from examples). 粗糙控制(rough control) 與模糊控制都是基於知識,基於規則的控制,但粗糙控制更加簡單迅速,實現容易(因為粗糙控制有時可省卻模糊化及去模糊化步驟) ; 另一個優點在於控制演算法可以完全來自數據本身,所以從軟體工程的角度看,其決策和推理過程與模糊(或神經網路) 控制相比可以很容易被檢驗和證實(validate). 有研究指出在特別要求控制器結構與演算法簡單的場合,更適合採取粗糙控制.
美國電力科學研究院(EPR I) 對粗糙集的應用研究的潛力對十分重視,將其作為戰略性研究開發(Strategy R&D) 項目,在1996 年撥款196,600 資助San Jose 州立大學進行電力系統模糊- 粗糙控制器的研究. 面對大量的信息以及各種不確定因素,要作出科學,合理的決策是非常困難的.決策支持系統是一組協助制定決策的工具,其重要特徵就是能夠執行IF THEN 規則進行判斷分析. 粗糙集理論可以在分析以往大量經驗數據的基礎上找到這些規則,基於粗糙集的決策支持系統在這方面彌補了常規決策方法的不足,允許決策對象中存在一些不太明確,不太完整的屬性,並經過推理得出基本上肯定的結論.
下面舉一個例子,說明粗糙集理論可以根據以往的病例歸納出診斷規則,幫助醫生作出判斷. 表2描述了八個病人的症狀. 從表二中可以歸納出以下幾條確定的規則:
表2 症狀與感冒的關系 病人編號 病理症狀診斷結果 是否頭痛 體溫 是否感冒 病人1 是 正常 否 病人2 是 高 是 病人3 是 很高 是 病人4 否 正常 否 病人5 否 高 否 病人6 否 很高 是 病人7 否 高 是 病人8 否 很高 否 1. IF (體溫正常) THEN (沒感冒)
⒉ IF (頭痛) AND (體溫高) THEN (感冒)
⒊ IF (頭痛) AND (體溫很高) THEN (感冒)
還有幾條可能的規則:
⒋ IF (頭不痛) THEN (可能沒感冒)
⒌ IF (體溫高) THEN (可能感冒了)
⒍ IF (體溫很高) THEN (可能感冒了)
病人5 和病人7,病人6 和病人8,症狀相同,但是一個感冒另一個卻沒感冒,這種情況稱為不一致(inconsistent). 粗糙集就是靠這種IF THEN 規則的形式表示數據中蘊含的知識.
希臘工業發展銀行ETEVA 用粗糙集理論協助制訂信貸政策,從大量實例中抽取出的規則條理清晰,得到了金融專家的好評. 相繼召開的以粗糙集理論為主題的國際會議,促進了粗糙集理論的推廣. 這些會議發表了大量的具有一定學術和應用價值的論文,方便了學術交流,推動了粗糙集在各個科學領域的拓展和應用. 下面列出了近年召開的一些會議:
· 1992 年第一屆國際研討會(Rough Set s: State of the A rt and Perspect ives) 在波蘭Kiekrz 召開;
·1993 年第二屆國際研討會(The Second In ternat ionalWo rk shop on Rough Set s and Know ledge D iscovery,RSKDྙ) 在加拿大Banff 召開;
·1994 年第三屆國際研討會(The Th ird In ternat ionalWo rk shop on Rough Set s and Soft Computing,RSSCྚ) 在美國San Jose 召開;
·1995 年在美國North Carolina 召開了題為"Rough Set Theory,RSTྛ"的國際會議;
·1996 年第四屆國際研討會(The Fourth International Work shop on Rough Sets,Fuzzy Sets,and Machine Discovery,RSFDྜ) 在日本東京召開;
·1997 年3 月在美國North Carolina 召開了第五屆國際研討會(The Fifth International Work shop on Rough Sets and Soft Computing,RSSCྜྷ) 目前,國際上研究粗糙集的機構和個人開發了一些應用粗糙集的實用化軟體,也出現了商業化的軟體.
加拿大Rect System Inc. 公司開發的用於資料庫知識發現的軟體DataLogic R 是用C 語言開發的,可安裝在個人計算機上,為科研領域和工業界服務.
美國肯薩斯大學開發了一套基於粗糙集的經驗學習系統,名為LERS (L earning from Examples based on Rough Sets),它能從大量經驗數據中抽取出規則. LERS 已被美國國家航空航天管理局(NASA) 的約翰遜(John son) 空間中心採用,作為專家系統開發工具,為"自由號"(F reedom) 空間站上的醫療決策服務. 美國環境保護署(US Environmental Protection Agency) 資助的一個項目中也採用了LERS.
波蘭波茲南工業大學(Poznan University of Technology) 開發的軟體RoughDAS 和加拿大Regina 大學開發的KDD-R 是用C 編寫的,在UNⅨ 環境下運行,KDD-R 基於變精度粗糙集模型 (Variable Precision Rough Set,VPRS),通過改變粗糙程度而使數據中隱含的模式更清楚的顯示出來.
Ⅱ 粗糙集的屬性約簡和重要度確定的具體操作步驟
屬性約簡可以先求核再求約簡,約簡中某個屬性的重要程度是有公式的,屬性r相對於屬性集Reds的重要性Imp(r)=1- Count(pos Reds(D))/ Count(pos Reds∪{r}(D))我用的是這個公式,可能還有其它的表現形式。count表示正域的勢,pos表示正域。可以用java連接sql軟體實現。
Ⅲ 粗糙集理論的研究方向
一方面研究了粗糙集理論屬性約簡演算法和規則提取啟發式演算法,例如基於屬性重要性、基於信息度量的啟發式演算法,另一方面研究和其他智能演算法的結合,比如:和神經網路的結合,利用粗糙集理論進行數據預處理,以提高神經網路收斂速度;和支持向量機SVM結合;和遺傳演算法結合;特別是和模糊理論結合,取得許多豐碩的成果,粗糙理論理論和模糊理論雖然兩者都是描述集合的不確定性的理論,但是模糊理論側重的是描述集合內部元素的不確定性,而粗糙集理論側重描述的是集合之間的不確定性,兩者互不矛盾,互補性很強,是當前國內外研究的一個熱點之一。
Ⅳ 粗糙集理論的理論及核心
面對日益增長的資料庫,人們將如何從這些浩瀚的數據中找出有用的知識?我們如何將所學到的知識去粗取精?什麼是對事物的粗線條描述什麼是細線條描述?
粗糙集合論回答了上面的這些問題。要想了解粗糙集合論的思想,我們先要了解一下什麼叫做知識?假設有8個積木構成了一個集合A,我們記:A={x1,x2,x3,x4,x5,x6,x7,x8},每個積木塊都有顏色屬性,按照顏色的不同,我們能夠把這堆積木分成R1={紅,黃,藍}三個大類,那麼所有紅顏色的積木構成集合X1={x1,x2,x6},黃顏色的積木構成集合X2={x3,x4},藍顏色的積木是:X3={x5,x7,x8}。按照顏色這個屬性我們就把積木集合A進行了一個劃分(所謂A的劃分就是指對於A中的任意一個元素必然有且僅屬於一個分類),那麼我們就說顏色屬性就是一種知識。在這個例子中我們不難看到,一種對集合A的劃分就對應著關於A中元素的一個知識,假如還有其他的屬性,比如還有形狀R2={三角,方塊,圓形},大小R3={大,中,小},這樣加上R1屬性對A構成的劃分分別為:
A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (顏色分類)
A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形狀分類)
A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分類)
上面這些所有的分類合在一起就形成了一個基本的知識庫。那麼這個基本知識庫能表示什麼概念呢?除了紅的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}這樣的概念以外還可以表達例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},藍色的小的圓形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},藍色的或者中的積木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而類似這樣的概念可以通過求交運算得到,比如X1與Y1的交就表示紅色的三角。所有的這些能夠用交、並表示的概念以及加上上面的三個基本知識(A/R1,A/R2.A/R3)一起就構成了一個知識系統記為R=R1∩R2∩R3,它所決定的所有知識是A/R={{x1,x2},{x3,x4},{x5},{x6},{x7},{x8}}以及A/R中集合的並。
下面考慮近似這個概念。假設給定了一個A上的子集合X={x2,x5,x7},那麼用我們的知識庫中的知識應該怎樣描述它呢?紅色的三角?****的大圓?都不是,無論是單屬性知識還是由幾個知識進行交、並運算合成的知識,都不能得到這個新的集合X,於是 我們只好用我們已有的知識去近似它。也就是在所有的現有知識裡面找出跟他最像的兩個一個作為下近似,一個作為上近似。於是我們選擇了「藍色的大方塊或者藍色的小圓形」這個概念:{x5,x7}作為X的下近似。選擇「三角形或者藍色的」{x1,x2,x5,x7,x8}作為它的上近似,值得注意的是,下近似集是在那些所有的包含於X的知識庫中的集合中求並得到的,而上近似則是將那些包含X的知識庫中的集合求交得到的。一般的,我們可以用下面的圖來表示上、下近似的概念。
這其中曲線圍的區域是X的區域,藍色的內部方框是內部參考消息,是下近似 ,綠的是邊界加上藍色的部分就是上近似集。其中各個小方塊可以被看成是論域上的知識系統所構成的所有劃分。 整個粗集理論的核心就是上面說的有關知識、集合的劃分、近似集合等等概念。下面我們討論一下關於粗糙集在資料庫中數據挖掘的應用問題。考慮一個資料庫中的二維表如下:
元素 顏色 形狀 大小 穩定性
x1 紅 三角 大 穩定
x2 紅 三角 大 穩定
x3 黃 圓 小 不穩定
x4 黃 圓 小 不穩定
x5 藍 方塊 大 穩定
x6 紅 圓 中 不穩定
x7 藍 圓 小 不穩定
x8 藍 方塊 中 不穩定
可以看出,這個表就是上面的那個例子的二維表格體現,而最後一列是我們的決策屬性,也就是說評價什麼樣的積木穩定。這個表中的每一行表示了類似這樣的信息:紅色的大三角積木穩定,****的小圓形不穩定等等。我們可以把所有的記錄看成是論域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一個列表示一個屬性構成了對論域的元素上的一個劃分,在劃分的每一個類中都具有相同的屬性。而屬性可以分成兩大類,一類叫做條件屬性:顏色、形狀、大小都是,另一類叫做決策屬性:最後一列的是否穩定?下面我們考慮,對於決策屬性來說是否所有的條件屬性都是有用的呢?考慮所有決策屬性是「穩定」的集合{x1,x2,x5},它在知識系統A/R中的上下近似都是{x1,x2,x5}本身,「不穩定」的集合{x3,x4,x6,x7,x8},在知識系統A/R中的上下近似也都是{x3,x4,x6,x7,x8}它本身。說明該知識庫能夠對這個概念進行很好的描述。下面考慮是否所有的基本知識:顏色、形狀、大小都是必要的?如果我們把這個集合在知識系統中去掉顏色這個基本知識,那麼知識系統變成A/(R-R1)={{x1,x2},{x3,x4,x7},,,}以及這些子集的並集。如果用這個新的知識系統表達「穩定」概念得到上下近似仍舊都是:{x1,x2,x5},「不穩定」概念的上下近似也還是{x3,x4,x6,x7,x8},由此看出去掉顏色屬性我們表達穩定性的知識不會有變化,所以說顏色屬性是多餘的可以刪除。如果再考慮是否能去掉大小屬性呢?這個時候知識系統就變為:
A/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}}。同樣考慮「穩定」在知識系統A/R2中的上下近似分別為:{x1,x2,x5,x8}和{x1,x2},已經和原來知識系統中的上下近似不一樣了,同樣考慮「不穩定」的近似表示也變化了,所以刪除屬性「大小」是對知識表示有影響的故而不能去掉。同樣的討論對於「形狀」屬性,「形狀」屬性是不能去掉的。A/(R-R2)={{x1,x2},x6,{x3,x4},x5,x7,x8},通過求並可以得知「穩定」的下近似和上近似都是{x1,x2,x5},「不穩定」的上下近似都是{x3,x4,x6,x7,x8}。最後我們得到化簡後的知識庫R2,R3,從而能得到下面的決策規則:大三角->穩定,大方塊->穩定,小圓->不穩定,中圓->不穩定,中方塊->不穩定,利用粗集的理論還可以對這些規則進一步化簡得到:大->穩定,圓->不穩定,中方塊->不穩定。這就是上面這個數據表所包含的真正有用的知識,而這些知識都是從資料庫有粗糙集方法自動學習得到的。因此,粗糙集是資料庫中數據挖掘的有效方法。
從上面這個例子中我們不難看出,實際上我們只要把這個資料庫輸入進粗糙集運算系統,而不用提供任何先驗的知識,粗糙集演算法就能自動學習出知識來,這正是它能夠廣泛應用的根源所在。而在模糊集、可拓集等集合論中我們還要事先給定隸屬函數。
進入網路信息時代,隨著計算機技術和網路技術的飛速發展,使得各個行業領域的信息急劇增加,如何從大量的、雜亂無章的數據中發現潛在的、有價值的、簡潔的知識呢?數據挖掘(Data Mining)和知識發現(KDD)技術應運而生。
Ⅳ 請問粗糙集里的,決策矩陣、區分矩陣演算法代碼應該怎麼寫是關於知識約簡的
% main.m a=[ 1,1,1,1,0,0,0,0,1,1,0,1; 0,0,0,0,0,0,0,0,0,0,0,0; 1,0,1,0,0,0,0,0,0,1,0,0; 0,0,0,1,1,1,1,0,1,0,1,1; 1,0,0,1,1,1,1,1,0,1,1,0; 0,1,0,1,1,1,1,1,1,0,0,1; 1,0,0,0,1,1,1,0,0,1,1,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1 ]; d=[1;0;0;0;0;0;0;1;1;1;1;1]; pos=posCD(a,d); dismat=dismatrix(a,d,pos); dism=disbe(dismat); core=cor(dism); [red,row]=re(dism); % dismatrix.m % 生成未經處理的區分矩陣dismat function dismat=dismatrix(a,d,pos) [m,n]=size(a); p=1; index1=0;index2=0;index=0; dis=-1*ones(m*(m-1)/2,n); for i=1:m for j=i+1:m if (isxbelongtopos(i,pos)&~isxbelongtopos(j,pos))... |(~isxbelongtopos(i,pos)&isxbelongtopos(j,pos))... |(isxbelongtopos(i,pos)&isxbelongtopos(j,pos)&~isxybelongtoindD(i,j,d)) index2=1; end if index2==0 continue; end for k=1:n if a(i,k)~=a(j,k) dis(p,k)=1; index1=1; else dis(p,k)=0; end end if index1==1 p=p+1;index=1; end index1=0; index2=0; end end if p<=m*(m-1)/2 if index==0 dismat=[]; return; end if dis(p,1)==-1 p=p-1; end else p=m*(m-1)/2; end dismat=dis(1:p,:); % re.m % 對已經處理過的區分矩陣進行知識約簡 function [red,row]=re(dism) [m,n]=size(dism); red=[]; row=0; if m<=0 return; end for i=1:n if dism(1,i)~=0 row=row+1; end end red(1:row,:)=zeros(row,n); j=1; for i=1:row while dism(1,j)==0 j=j+1; end red(i,j)=1; j=j+1; end temp=[];tempdis=[]; rowd=0;rowd1=0; for i=2:m j=1; while j<=row temp=uni(dism(i,:),red(j,:)); [s,n]=size(temp); rowd1=rowd+s; tempdis(rowd+1:rowd1,:)=temp; rowd=rowd1; j=j+1; temp=[]; end red=[]; red=disbe(tempdis); tempdis=[]; [row,n]=size(red); rowd=0;rowd1=0; end % disbe.m % 對區分矩陣或者約簡矩陣進行化簡即去掉包含關系 function dism=disbe(dis) [m,n]=size(dis); p=m; for i=1:m if dis(i,1)~=-1 for j=1:m if i~=j & dis(j,1)~=-1 if dis(i,:)<=dis(j,:) dis(j,1)=-1; p=p-1; elseif dis(i,:)>=dis(j,:) dis(i,:)=dis(j,:); dis(j,1)=-1; p=p-1; end end end end end dism=ones(p,n); j=1; for i=1:p while j<=m & dis(j,1)==-1 j=j+1; end dism(i,:)=dis(j,:); j=j+1; end % posCD.m % a為條件屬性矩陣,d為決策屬性向量 % pos為正域,保存條件屬性矩陣的索引值 function pos=posCD(a,d) [m,n]=size(a); p=m; index=0; for i=1:m if a(i,1)~=-1 for j=i+1:m if a(j,1)~=-1 &(a(i,:)==a(j,:)&d(i)~=d(j)) a(j,1)=-1;p=p-1;index=1; end end if index==1 a(i,1)=-1;p=p-1;index=0; end end end pos=zeros(p,1); i=1; for r=1:p while a(i,1)==-1&i<=m i=i+1; end pos(r)=i; r=r+1; i=i+1; end % cor.m % 對已經處理過的區分矩陣求核 function core=cor(dism) [m,n]=size(dism); core1=zeros(1,n); number=0; for i=1:m num=0;p=0; for j=1:n if dism(i,j)~=0 num=num+1; p=j; end end if num==1 core1(p)=1; number=number+1; end end if number==0 core=0; else core=zeros(1,number); j=1; for i=1:number while core1(j)==0 j=j+1; end core(i)=core1(j); j=j+1; end end % uni.m %對區分矩陣的第i行和red(j,:)運算,即將a中所有的1分別插入到red(j,:)中,待去掉包含關系 function tempred=uni(disa,red) [m,n]=size(red); num=0; for i=1:n if disa(i)~=0 num=num+1; end end tempred=ones(m*num,n); temp=[]; j=1; for i=1:num while disa(j)==0 j=j+1; end temp=red; temp(:,j)=ones(m,1); tempred((i-1)*m+1:i*m,:)=temp; j=j+1; end % isxbelongtopos.m % 判斷x是否在正域pos中 % x為索引值 % 返回值p,如果x在pos中p=1否則p=0 function p=isxbelongtopos(x,pos) [m,n]=size(pos); p=0; if x<=0 p=-1; return; end for i=1:m if x==pos(i) p=1; break; end end % isxybelongtoindD.m % 判斷x,y是否在indD中 % x,y為索引值 % 返回值p,如果x,y在indD中p=1否則p=0 function p=isxybelongtoindD(x,y,d) if x<=0 | x>size(d) | y<=0 | y>size(d) p=-1; return; end if d(x)==d(y) p=1; else p=0; end
Ⅵ 數據挖掘分類演算法中粗糙集的簡約用matlab語言怎麼實現
假設信息系統決策表由矩陣S表示,其中,第c列C屬性中,d列為決策列D屬性中,則從C屬性中相關的列中直接使得決策列D的最少列的求取可用約簡函數re
Ⅶ 基於粗糙集和雲理論的土地適宜性評價模型的建立
劉明亮1 吳躍民1 楊明2
(1.湖南萬源評估咨詢有限公司,長沙,410011;2.武漢大學資源與環境科學學院,武漢,430079)
摘要:本文介紹和分析了兩種非經典數學方法雲理論和粗糙集理論,通過對這兩個方法進行比較和結合,建立了以雲理論和粗糙集理論相結合為基礎的土地適宜性評價模型,並在此基礎上進行了實例的研究和應用。
關鍵詞:粗糙集理論;雲理論;數據挖掘;土地適宜性評價
土地適宜性評價是針對某種特定土地利用類型的適宜性及適宜程度的評價。它是土地合理利用的重要內容,通過其對地區全部土地資源的研究,為土地利用總體規劃工作中的人地平衡、用地布局與土地結構調整、土地開發利用等工作提供了科學依據。因此,對土地適宜性進行正確的評價,對適宜級別做出合理劃分是進行規劃決策的首要任務之一,而評價方法作為獲取正確評價結果的途徑就顯得尤為重要。
傳統的評價方法,如極限條件法、回歸分析法、經驗指數和法、層次分析法等,由於其評價方法過於簡單,在一定程度上不能客觀全面地反應實際情況。隨著智能化技術的不斷發展與完善,評價方法也由傳統的簡單的數值方法向智能化發展。由於土地適宜程度本身的不確定性,用處理大量的不確定性數據的挖掘技術顯得更有優勢。
1 粗糙集理論與雲理論的特點
粗糙集理論是一種刻畫不完整性和不確定性的數學工具,能有效地分析和處理不精確、不一致、不完整等各種不完備信息,並從中發現隱含的知識,揭示潛在的規律。它能夠完全從已有的數據中有效地發現關聯規則,它可支持知識獲取的多個步驟,如數據預處理、數據約簡、規則生成、數據依賴關系獲取等。雲理論是在傳統模糊集理論和概率統計的基礎上提出的定性定量轉換模型,用期望值Ex、熵En和超熵He表徵定性概念,是以研究定性定量間的不確定性轉換為基礎的系統。作為處理不確定性問題的一種新理論,它可協助數據的離散化,規則的推理,使得該方法更趨近於人類的思維領域,為更好地向人工智慧發展打下基礎。
雲理論和粗糙集理論在處理不確定性和不精確性問題方面都推廣了經典集合論,它們都可以用來描述知識的不精確性和不完全性,但它們的出發點和側重點不同,雲理論結合了模糊性和隨機性,而粗糙集通過上近似集、下近似集來刻畫不可分辨性。粗糙集不需要任何預備的額外的有關數據信息,在推導關聯規則方面,有其特有的優勢;而雲理論處理不確定信息的方法需要一些數據的附加信息或先驗知識,但提供了定性定量轉換的方法。雖然雲理論和粗糙集理論特點不同,但它們之間有著密切的聯系,在研究不確定性數據方面,有很強的互補性。把雲理論方法引入到粗糙集方法中,對粗糙集的結構化的模型進行改進,不僅可提高發現演算法的效率,還可提高系統模型的魯棒性。土地適宜性是一個定性的概念,利用粗糙集理論和雲理論相結合建立土地適宜性評價模型,可以互相補充,取長補短,為土地適宜性評定的客觀性提供可能性。
2 基於雲理論和粗糙集評價模型的建立
雲理論與粗糙集方法相結合是將基於雲理論的定量到定性的轉換方法作為粗糙集方法的預處理手段,把定量數據轉換為定性數據,或把定性數據轉換為不同概念層次的新的定性數據,然後應用粗糙集方法發現分類決策知識,最後運用雲理論的不確定性推理方法應用這些知識,即根據新的定量或定性條件數據推理出定量或者定性結果,從而表達和傳遞知識和推理的不確定性。就具體模型建立而言,首先根據原始數據製成初始決策表,對每個條件屬性,查看它是否為離散屬性,若是,則進行離散化處理,直至整個決策表全部轉化為離散數據為止,據此製成最終決策表。在此決策表的基礎上,利用粗糙集方法發現關聯規則並計算屬性重要性,得到關聯規則,最後用基於雲理論的推理方法得出定性的推理結果。整個模型如圖1所示。
圖1 評價模型圖
其中,基於雲理論規則推理的詳細過程,如圖2 所示。
2.1 決策表的建立
收集影響土地適宜性的數據,如坡度、質地、有機質含量,厚度等等,進行原始數據的采樣和整理,並根據土地適宜性評價的目的(如宜林宜牧等)做成信息決策表。
2.2 數據預處理
在很多情況下,所得到待處理的信息表並不是一個完備的信息表,表中的某些屬性值是被遺漏的。對於這種情況,可通過將空缺屬性值賦予特殊值來處理,以區別於其他屬性值。
圖2 雲理論推理
2.3 數據離散化
用雲模型模擬人類的思維劃分屬性空間。每一個屬性看作一個語言變數(或多個語言變數的組合)。對於每一個語言變數,定義幾個語言值,相鄰的語言值間允許有重疊,表達語言值的雲可以由用戶交互地給定。設對於一個數字型屬性給定雲A1 (Ex1,En1,He1),A2 (Ex2,En2,He2),……,An (Exn,Enn,Hen),作為語言項,將任一屬性值 x輸入到雲發生器 CG1,CG2,……,CGn,得到輸出值 μ1,μ2,……,μn,即屬性值 μ 與A1,A2,……,An的隸屬度,檢索出最大隸屬度μi,則x分配給Ai。如果兩個隸屬度μi和μj,均等於最大值,則 x 隨機地分配給 Ai或 Aj。
2.4 決策表屬性約簡
基於粗糙集理論的知識獲取,通過採用決策表可辨識矩陣和可辨識函數的屬性約簡演算法對原始決策表約簡,包括屬性約簡和屬性值約簡。
令S=<U,R,V,f>是一個決策表系統,R=P∪ D 是屬性集合,子集 P={ai |i=1,…,m} 和 D={d} 分別為條件屬性集和決策屬性集,U={x1,x2,…,xn} 是論域,ai (xj)是樣本 xj在屬性ai 上的取值。CD (i,j)表示可辨識矩陣中第 i 行 j 列的元素,則可辨識矩陣CD 定義為: {ak | ak∈ P ∧ak (xi)≠ ak (xj)},d (xi)≠ d (xj);
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
其中 i,j=1,…,n。
根據可辨識矩陣的定義可知,當兩個樣本(實例)的決策屬性取值相同時,它們所對應的可辨識矩陣取值為0;當兩個樣本的決策屬性不同而且可以通過某些條件屬性的取值不同加以區分時,它們所對應的可辨識矩陣元素的取值為這兩個樣本屬性值不同的條件屬性集合,即可以區分這兩個樣本的條件屬性集合;當兩個樣本發生沖突時,即所有的條件屬性取值相同而決策屬性的取值不同時,則它們所對應的可辨識矩陣中的元素取值為空。
2.5 計算屬性權重
對於屬性集C導處的分類的屬性子集B′⊆B的重要性,可用兩者依賴程度的差來度量,即:
rB (C)-rB-B′(C)
這表示當從集合 B 中去掉某些屬性子集B′對象分類時,分類 U/C 的正域受到怎樣的影響。
其中,rB (C)=card (posp (Q))/card (U)
是知識依賴性的度量,其中 card 表示集合的基數:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
稱為Q的P正域,對於 U/P 的分類,U/Q 的正域是論域中所有通過分類 U/P 表達的知識能夠確定地化入 U/Q 類的對象集合。
2.6 基於值約簡的決策規則最小化的提取
基於值約簡的決策規則的提取是建立在決策表值約簡的基礎上進行的。假設決策表有三個條件屬性 a、b、c,一個決策屬性 d。通過對[x]a、[x]b、[x]c、[x]d,進行屬性值約簡,在規則最小化的原則下,計算得出最小決策規則。
2.7 基於雲理論的規則推理
基於雲理論的不確定性推理按規則的條數分為單規則和多規則推理,每一條規則又可以根據規則前件的條數分為單條件規則和多條件規則。土地適宜性評價只要求得到定性的推理結果,所以本模型通過計算屬性重要性來解決。首先激活一個實例的幾條規則,得到各個規則的隸屬度的雲滴,擬合成虛擬雲,該虛擬雲的期望值即為結果,最後根據最大隸屬度的選擇選取定性結果。
根據以上理論設計的土地適用性評價系統如圖3 所示。菜單是關於常用理論的基本方法,右側的一系列步驟是關於組建數學模型的實現方法。中間的坐標界面用來顯示圖形結果。
圖3 評價系統界面
3 應用實例
瓊海市地處海南省東部。東臨南海,北靠文昌,西接屯昌,南與萬寧縣交界。瓊海市有著優越的農業自然條件、豐富的旅遊資源,但全市存在工業底子薄、礦產資源貧乏、能源短缺、科技水平較低以及建設資金不足等制約因素。土地適宜性評價的主要任務是在收集土壤、地形、水利、氣候等資料的基礎上,對評價范圍內的所有土地進行適宜性評價,找出不適宜現狀用途的土地,並給出指定用途的適宜性土地的等級。
3.1 收集資料、整理數據
收集所有有關瓊海市土地適宜性評價的數據,5個條件屬性和1個決策屬性,根據原有的單元劃分9311個實例。表1是其中一實例的決策表的一部分。
表1 決策表示例
其中,Yjz 表示土壤有機質含量,Hd 表示土壤厚度,Zd 表示土壤質地條件屬性,Sl表示水利條件屬性,S_c 表示宜水產養殖地類決策屬性。
3.2 數據預處理
因為本實例中所得到的初始數據並沒有缺失,無需對初始決策表進行預處理,故可以省略這一步,所以得到的最終決策表同表1。
3.3 數據離散化
對決策表中的每個屬性,依次進行以下步驟,分別得到離散結果。
3.3.1 計算屬性的數據分布函數
對屬性 i 定義域中的每一個可能取值,計算得到屬性 i 的數據分布函數gi (x);圖4是屬性厚度(Hd)的數據分布函數的圖。
圖4 屬性數據分布圖
3.3.2 計算單個雲模型的數據分布函數
尋找數據分布函數 gi (x)的波峰所在的位置,將其屬性定義為雲的重心位置,然後計算用於擬合 gi (x)的雲模型,雲模型函數 fi (x)計算如圖5 所示。
圖5 雲模型分布
該圖是尋找第二波峰位置時,所擬合的基於雲的數據分布函數(紅色實線)。雲模型參數為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
3.4 離散化
通過上一步得到的歸納並了解概念雲後,對於每個需要離散化的屬性值,一一計算出對於每個概念雲的隸屬度,選取其最大值為離散化的結果,表2 是離散化結果的一部分。
表2 屬性離散結果
3.5 屬性約簡
求出布爾函數表達式,用布爾函數極小化演算法計算約簡結果。將布爾函數轉化為二進制區分矩陣,對二進制區分矩陣實行簡化演算法,得到決策表的約簡結果,如表3所示。
表3 屬性化簡結果
3.6 計算屬性權重
根據條件屬性對決策屬性的分類產生的影響,計算每個條件屬性對決策結果產生的重要性及系數,如表4所示。(這個度量是根據論域中的樣例來得到的,不依賴於人的先驗知識。)
表4 屬性權重結果
3.7 決策推理
根據雲理論多條件多規則推理方法,對原有數據參照最小規則進行推理,得到最終的等級劃分結果,如圖6 所示。
圖6 等級劃分結果
4 結論
利用上述模型,首先應該盡可能多地收集對土地適宜性問題有影響的因素,運用雲理論進行連續數據的離散化之後,可以根據屬性重要性確定的方法來篩選評價因素,在此基礎之上,運用粗糙集方法獲取評價規則。另外應注意的是土地多宜性問題,在土地適宜性評價中,對於每一種土地用途,都要分別確定它的等級,這區別於粗糙集一般的信息處理過程中,把幾個不同的決策屬性歸並為一個決策屬性集的綜合決策。
應用結果表明,雲模型汲取了自然語言的優點,突破了已有方法的局限,能夠把模糊性和隨機性有機地綜合在一起,在空間數據挖掘中構成定性和定量相互間的映射,發現的知識具有可靠性。粗糙集理論對模糊和不完全知識的處理比較出色,但其對原始模糊數據的處理能力比較弱,而基於雲模型的定性定量轉換方法作為粗糙集的預處理是比較合適的。二者相結合的方法應用於土地適宜性評價可以集兩種理論之所長,更具優勢地解決對其定性評價的實際問題。
參考文獻
張文修,吳偉志等.粗糙集理論與方法[M].北京:科學出版社,2001
曾黃麟.粗糙集理論及其應用[M].重慶:重慶大學出版社,1998
張麗,馬良.基於粗糙集屬性約簡的模糊模式識別[J].上海理工大學學報,2003,25 (1):50~53
楊昭輝,李德毅.二維雲模型及其在預測中的運用[J].計算機學報,1998,21 (11):961~969
邸凱昌著.空間數據發掘與知識發現[M].武漢:武漢大學出版社,2001.12
Ⅷ 在不確定知識與推理研究中,模糊集理論、貝葉斯網路、粗糙集理論各有何特點
看看西北工業大學 任佳 的博士論文,對這幾種演算法做了相應的對比。
Ⅸ 1、 基於粗糙集(RS)理論的約簡方法的核心思想是什麼
保持分類不變