空間聚類演算法
1. 大數據時代空間數據挖掘的認識及其思考
引言
空間數據挖掘(Spatial Data Mining,SDM)即找出開始並不知道但是卻隱藏在空間數據中潛在的、有價值的規則的過程。具體來說,空間數據挖掘就是在海量空間數據集中,結合確定集、模糊集、仿生學等理論,利用人工智慧、模式識別等科學技術,提取出令人相信的、潛在有用的知識,發現空間數據集背後隱藏的規律、聯系,為空間決策提供理論技術上的依據[1]。
1.空間數據挖掘的一般步驟
空間數據挖掘系統大致可以分為以下步驟:
(1)空間數據准備:選擇合適的多種數據來源,包括地圖數據、影像數據、地形數據、屬性數據等。
(2)空間數據預處理和特徵提取:數據預處理目的是去除數據中的雜訊,包括對數據的清洗、數據的轉換、數據的集成等。特徵提取是剔除掉冗餘或不相關的特徵並將特徵轉化為適合數據挖掘的新特徵。
(3)空間數據挖掘和知識評估:採用空間數據挖掘技術對空間數據進行分析處理和預測,從而發現數據背後的某種聯系。然後結合具體的領域知識進行評估,看是否達到預期效果。
2.空間數據挖掘的方法研究
空間數據挖掘是一門綜合型的交叉學科,結合了計算機科學、統計學、地理學等領域的很多特性,產生了大量處理空間數據的挖掘方法。
2.1 空間關聯規則
關聯規則挖掘是尋找數據項之間的聯系,表達式形式是X→Y,其中X與Y是兩種不相交的數據項集,即X∩Y=?覫。KOPERSKI K等人將關聯規則與空間資料庫相結合,提出了空間關聯規則挖掘[2]。空間關聯規則將數據項替換為了空間謂詞,一般表達形式如下:
A1∧A2∧…∧An→B1∧B2∧…∧Bm(3)
令A=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個空間謂詞且A∩B=?覫。SHEKHAR S和HUANG Y針對空間關聯規則的特點提出了把關聯規則的思想泛化成空間索引點集的空間同位規則的概念,在不違背空間相關性的同時用鄰域替換掉了事務[3]。時空關聯不僅涉及事件在空間中的關聯,還考慮了空間位置和時間序列因素。國內的柴思躍、蘇奮振和周成虎提出了基於周期表的時空關聯規則挖掘方法[4]。
2.2 空間聚類
空間聚類分析是普通聚類分析的擴展,不能完全按照處理普通數據的聚類分析方法來處理空間數據。由於存在地理學第一定律,即空間對象之間都存在一定的相關性,因此在空間聚類分析中,對於簇內的定義,要考慮空間自相關這一因素。通過對空間數據進行自相關分析,可判斷對象之間是否存在空間相關性,從而可合理判斷出對象是否可以分為一簇。
基本的聚類挖掘演算法有:
(1)劃分聚類演算法:存在n個數據對象,對於給定k個分組(k≤n),將n個對象通過基於一定目標劃分規則,不停迭代、優化,直到將這n個對象分配到k個分組中,使得每組內部對象相似度大於組之間相似度。
(2)層次聚類演算法:通過將數據不停地拆分與重組,最終把數據轉為一棵符合一定標準的具有層次結構的聚類樹。
(3)密度聚類演算法:用低密度的區域對數據對象進行分割,最終將數據對象聚類成為若干高密度的區域。
(4)圖聚類演算法:用空間結點表示每個數據對象,然後基於一定標准形成若乾子圖,最後把所有子圖聚類成一個包含所有空間對象的整圖,子圖則代表一個個空間簇。
(5)網格聚類演算法:把空間區域分割成具有多重解析度的和有網格結構特性的若干網格單元,在網格單元上對數據進行聚類。
(6)模型聚類演算法:藉助一定的數學模型,使用最佳擬合數據的數學模型來對數據進行聚類,每一個簇用一個概率分布表示。
僅採用一種演算法通常無法達到令人滿意的預期結果,王家耀、張雪萍、周海燕將遺傳演算法與K-均值演算法結合提出了用於空間聚類分析的遺傳K-均值演算法[5]。現實空間環境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把K-Medoids演算法與量子粒子群演算法結合進行帶有空間障礙約束的聚類分析[6]。
2.3 空間分類
分類,簡單地說是通過學習得到一定的分類模型,然後把數據對象按照分類模型劃分至預先給定類的過程。空間分類時,不僅考慮數據對象的非空間屬性,還要顧及鄰近對象的非空間屬性對其類別的影響,是一種監督式的分析方法。
空間分類挖掘方法有統計方法、機器學習的方法和神經網路方法等。貝葉斯分類器是基於統計學的方法,利用數據對象的先驗概率和貝葉斯公式計算出其後驗概率,選擇較大後驗概率的類作為該對象映射的類別。決策樹分類器是機器學習的方法,採取從上到下的貪心策略,比較決策樹內部節點的屬性值來往下建立決策樹的各分支,每個葉節點代表滿足某個條件的屬性值,從根節點到葉節點的路徑表示一條合適的規則。支持向量機也是機器學習的方法,思路是使用非線性映射把訓練數據集映射到較高維,然後尋找出最大邊緣超平面,將數據對象分類。神經網路是一種模擬人神經的網路,由一組連接的輸入和輸出單元組成,賦予各個連接相應的權值,通過調節各連接的權值使得數據對象得到正確分類。
針對融入空間自相關性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基於貝葉斯的馬可夫隨機場進行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機場與支持向量機結合並將其用於遙感圖像的信息提取[8]。
2.4 其他空間挖掘方法
空間數據挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術和理論對空間數據進行加工處理,從而找出未知有用的信息模式;基於模糊集、粗糙集和雲理論的方法可用來分析具有不確定性的空間數據;可視化方法是對空間數據對象的視覺表示,通過一定技術用圖像的形式表達要分析的空間數據,從而得到其隱含的信息;國內張自嘉、岳邦珊、潘琦等人將蟻群演算法與自適應濾波的模糊聚類演算法相結合用以對圖像進行分割[9]。
3.結論
空間數據挖掘作為數據挖掘的延伸,有很好的傳統數據挖掘方法理論的基礎,雖然取得了很大進步,然而其理論和方法仍需進一步的深入研究。伴隨著大數據時代,面對越來越多的空間數據,提升數據挖掘的准確度和精度是一個有待研究的問題。同時現在流行的空間數據挖掘演算法的時間復雜度仍停留在O(nlog(n))~O(n3)之間,處理大量的異構數據,數據挖掘演算法的效率也需要進一步提高。數據挖掘在雲環境下已經得到很好的應用[10],對於處理空間數據的空間雲計算是有待學者們研究的方向。大多數空間數據挖掘演算法沒有考慮含有障礙約束的情況,如何解決現實中障礙約束問題值得探討。帶有時間屬性的空間數據呈現出了一種動態、可變的空間現象,時空數據挖掘將是未來研究的重點。
由於數據挖掘涉及多種學科,其基本理論與方法也已經比較成熟,針對空間數據挖掘,如何合理地利用和拓展這些理論方法以實現對空間數據的挖掘仍將是研究人員們需要長期努力的方向。
參考文獻
[1] 李德仁,王樹良,李德毅.空間數據挖掘理論與應用(第2版)[M].北京:科學出版社,2013.
[2] KOPERSKI K, HAN J W. Discovery of spatial association rules in geographic information databases[C]. Procedings of the 4th International Symposium on Advances in Spatial Databases, 1995: 47-66.
[3] SHEKHAR S, HUANG Y. Discovering spatial co-location patterns: a summary of results[C]. Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases, 2001:236-256.
[4] 柴思躍,蘇奮振,周成虎.基於周期表的時空關聯規則挖掘方法與實驗[J].地球信息科學學報,2011,13(4):455-464.
[5] 王家耀,張雪萍,周海燕.一個用於空間聚類分析的遺傳K-均值演算法[J].計算機工程,2006,32(3):188-190.
[6] Zhang Xueping, Du Haohua, Yang Tengfei, et al. A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C]. Advances in Swarm Intelligence, Lecture Notes in Computer Science (LNCS), 2010: 476-483.
[7] SHEKHAR S, SCHRATER P R, VATSAVAI R R, et al.Spatial contextual classification and prediction models for mining geospatial data[J]. IEEE Transactions on Multimedia, 2002, 4(2):174-187.
[8] 汪閩,駱劍承,周成虎,等.結合高斯馬爾可夫隨機場紋理模型與支撐向量機在高解析度遙感圖像上提取道路網[J].遙感學報,2005,9(3):271-275.
[9] 張自嘉,岳邦珊,潘琦,等.基於蟻群和自適應濾波的模糊聚類圖像分割[J].電子技術應用,2015,41(4):144-147.
[10] 石傑.雲計算環境下的數據挖掘應用[J].微型機與應用,2015,34(5):13-15.
來源 | AET電子技術應用
2. 空間聚類演算法能不能用於圖像分割
空間與圖像是再自然不過的類似數據,尤其灰度圖,(x, y, g) 構成三維空間(g(x,y)是像素灰度),彩色圖只是多了二維,比如 (x, y, r, g, b) ,當然通常不用 RGB 屬性來分類。但是分割本身不是一個簡單概念。
3. 譜聚類演算法的演算法步驟
譜聚類演算法將數據集中的每個對象看作是圖的頂點V,將頂點間的相似度量化作為相應頂點連接邊E的權值,這樣就得到一個基於相似度的無向加權圖G(V, E),於是聚類問題就可以轉化為圖的劃分問題。基於圖論的最優劃分准則就是使劃分成的子圖內部相似度最大,子圖之間的相似度最小。
雖然根據不同的准則函數及譜映射方法,譜聚類演算法有著不同的具體實現方法,但是這些實現方法都可以歸納為下面三個主要步驟:
1) 構建表示對象集的相似度矩陣W;
2) 通過計算相似度矩陣或拉普拉斯矩陣的前k個特徵值與特徵向量,構建特徵向量空間;
3) 利用K-means或其它經典聚類演算法對特徵向量空間中的特徵向量進行聚類。
上面的步驟只是譜聚類演算法的一個總體框架,由於劃分准則、相似度矩陣計算方法等因素的差別,具體的演算法實現同樣會有所差別,但其本質依然是圖劃分問題的連續放鬆形式。
4. 空間聚類、空間聚合是什麼意思啊請從GIS角度解釋,謝謝
空間聚類作為聚類分析的一個研究方向,是指將空間數據集中的對象分成由相似對象組成的類。同類中的對象間具有較高的相似度,而不同類中的對象間差異較大。作為一種無監督的學習方法,空間聚類不需要任何先驗知識。這是聚類的基本思想,因此空間聚類也是要滿足這個基本思想。
5. 子空間聚類的簡介
聚類分析是數據挖掘領域中的關鍵技術之一。高維數據聚類是聚類分析技術的難點和重點,子空間聚類是實現高維數據集聚類的有效途徑,它是在高維數據空間中對傳統聚類演算法的一種擴展,其思想是將搜索局部化在相關維中進行。