optics演算法
『壹』 聚類的計算方法
傳統的聚類分析計算方法主要有如下幾種:
1、劃分方法(partitioning methods)
給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:(1) 每一個分組至少包含一個數據紀錄;(2)每一個數據紀錄屬於且僅屬於一個分組(注意:這個要求在某些模糊聚類演算法中可以放寬);對於給定的K,演算法首先給出一個初始的分組方法,以後通過反復迭代的方法改變分組,使得每一次改進之後的分組方案都較前一次好,而所謂好的標准就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。使用這個基本思想的演算法有:K-MEANS演算法、K-MEDOIDS演算法、CLARANS演算法;
大部分劃分方法是基於距離的。給定要構建的分區數k,劃分方法首先創建一個初始化劃分。然後,它採用一種迭代的重定位技術,通過把對象從一個組移動到另一個組來進行劃分。一個好的劃分的一般准備是:同一個簇中的對象盡可能相互接近或相關,而不同的簇中的對象盡可能遠離或不同。還有許多評判劃分質量的其他准則。傳統的劃分方法可以擴展到子空間聚類,而不是搜索整個數據空間。當存在很多屬性並且數據稀疏時,這是有用的。為了達到全局最優,基於劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數應用都採用了流行的啟發式方法,如k-均值和k-中心演算法,漸近的提高聚類質量,逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的資料庫中小規模的資料庫中的球狀簇。為了發現具有復雜形狀的簇和對超大型數據集進行聚類,需要進一步擴展基於劃分的方法。
2、層次方法(hierarchical methods)
這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。例如在「自底向上」方案中,初始時每一個數據紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合並成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表演算法有:BIRCH演算法、CURE演算法、CHAMELEON演算法等;
層次聚類方法可以是基於距離的或基於密度或連通性的。層次聚類方法的一些擴展也考慮了子空間聚類。層次方法的缺陷在於,一旦一個步驟(合並或分裂)完成,它就不能被撤銷。這個嚴格規定是有用的,因為不用擔心不同選擇的組合數目,它將產生較小的計算開銷。然而這種技術不能更正錯誤的決定。已經提出了一些提高層次聚類質量的方法。
3、基於密度的方法(density-based methods)
基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。這個方法的指導思想就是,只要一個區域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。代表演算法有:DBSCAN演算法、OPTICS演算法、DENCLUE演算法等;
4、基於網格的方法(grid-based methods)
這種方法首先將數據空間劃分成為有限個單元(cell)的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快,通常這是與目標資料庫中記錄的個數無關的,它只與把數據空間分為多少個單元有關。代表演算法有:STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法;
很多空間數據挖掘問題,使用網格通常都是一種有效的方法。因此,基於網格的方法可以和其他聚類方法集成。
5、基於模型的方法(model-based methods)
基於模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統計的方案和神經網路的方案。
當然聚類方法還有:傳遞閉包法,布爾矩陣法,直接聚類法,相關性分析聚類,基於統計的聚類方法等。
『貳』 光學傅立葉變換和計算機快速傅立葉變換各有什麼優缺點
傅立葉變換分為:
連續傅立葉變換;
離散傅立葉變換;
這兩種變換應用到計算機中都有一種近似的快速數值演算法,叫做快速傅立葉變換。
具體的理論推導這里也說不清,我也有點忘了。這個你可以在數學分析、信號與系統等學科的教材里找到。
你所謂的光學傅立葉變換應該就是一般的沒有經過優化近似的傅立葉變換,而且應該是連續的,即「連續傅立葉變換」。
而計算機領域,尤其是信號處理領域,你因該知道計算機處理的數據都是離散的,如果你學過數值計算,就知道計算機都是用離散來逼近連續函數的。
所以計算機的信號處理領域多是用離散傅立葉變換,而且由於計算機要求實時處理,要快,所以又發明了一種快速演算法。所以就是「快速離散傅立葉變換」。
『叄』 optics演算法中可達距離怎麼理解,其大小對聚類是有事么影響急急急急
當兩個點p,q的可達距離為d的意思就是:當p或者q為核心對象,並且鄰域參數\epsilon大於等於d時,p與q是直接密度可達的。對聚類的大小沒有影響,它是一個中間值,可以幫助選擇合適的\epsilon值。它是對DBSCAN的一個改進,DBSCAN需要兩個參數minpts和\epsilon,為了找到適合的聚類需要測試大量的參數,而OPTICS則只依賴於minpts,同時處理小於當前鄰域的所有鄰域值,而只需要O(nlogn),提高了效率。你看一下jiawei han的《data mining》裡面的dbscan和optics,講的更加詳細
『肆』 請問機器視覺與光學有關,學光學想了解一下這方面的知識,難道機器視覺只是涉及電路和演算法
沒有吧。機器視覺也算是一個涉及鄰域比較多的行業了。涉及到的科學有計算機圖形圖像學、電子、幾何光學、機械、信號與通信、軟體工程等多個方面。而且,機器視覺行業里,可以從事的工作也有非常多的類型,做的產品也非常多。如做相機的、做鏡頭的、做光源的、搞軟體的,這些對人員的知識要求也不一樣。如果想了解更多,可以網路石鑫華視覺網了解更多知識。
『伍』 光學+演算法,透霧技術還能走多遠
作為安防行業的排頭兵,視頻監控的首要問題就是要突破「看得見」的瓶頸,達到「看得清」的境界。面對霧霾這一棘手問題,安防人始終在不斷努力和探索中。目前主要有兩種方式來解決霧霾、霧氣環境下的透霧應用,一是通過演算法的方式,提升圖像的清晰度、色彩飽和度;二是通過光學透霧方式,實現霧霾、霧氣的穿透。兩種方式實現的原理是不一樣的,前者的本質是圖像的二次處理,是一種演算法矯正;後者是通過物理的方式,通過光學成像的原理提升畫面清晰度。
在數字透霧興起之前,邊防、海防、森林高空監控、城市高空瞭望等場合的應用,只能通過光學鏡頭吸收紅外線的方式來增強圖像的清晰度,從而滿足這些容易出現水汽、霧氣、霧霾場合的監控使用。但是,光學透霧鏡頭價格昂貴,綜合造價成本高不說,效果也不一定能切實滿足使用需求。
高清成像,還需層層抽絲剝繭
在數字透霧興起之前,邊防、海防、森林高空監控、城市高空瞭望等場合的應用,只能通過光學鏡頭吸收紅外線的方式來增強圖像的清晰度,從而滿足這些容易出現水汽、霧氣、霧霾場合的監控使用。但是,光學透霧鏡頭價格昂貴,綜合造價成本高不說,效果也不一定能切實滿足使用需求。
作為安防行業的排頭兵,視頻監控的首要問題就是要突破「看得見」的瓶頸,達到「看得清」的境界。面對霧霾這一棘手問題,安防人始終在不斷努力和探索中。目前主要有兩種方式來解決霧霾、霧氣環境下的透霧應用,一是通過演算法的方式,提升圖像的清晰度、色彩飽和度;二是通過光學透霧方式,實現霧霾、霧氣的穿透。兩種方式實現的原理是不一樣的,前者的本質是圖像的二次處理,是一種演算法矯正;後者是通過物理的方式,通過光學成像的原理提升畫面清晰度。
由於兩者本質的不同,因此,在測試中,雖然兩者均為安防監控攝像機的透霧技術,但測試重點還是不一樣的。
對於採用數字透霧技術的攝像機,主要是通過模擬霧霾場景來檢測,即讓圖像變得模糊即可,然後觀察開啟與關閉透霧功能時,觀察攝像機的表現如何,透霧效果是否顯現出來。其次是模擬模擬霧霾環境進行測試,這就不得利用一切條件創造煙霧、水汽環境,然後觀察透霧效果的表現。由於數字透霧技術是演算法智能化之一,因此還要觀察攝像機在無霧條件下,開啟「透霧」功能後,攝像機是否繼續「除霧」,以檢驗其智能化效果。而針對光學透霧攝像機,則主要是通過模擬霧霾、水汽、煙霧環境進行模擬測試,以觀察攝像機的紅外接收能力和圖像處理除霧效果如何,是否達到了良好的透霧使用表現。光學透霧是採用物理方式的透霧技術,因此不進行圖像模糊方式進行檢驗。
針對光學透霧技術,還需要檢驗是否支持彩色除霧應用。當然,除了透霧功能外,本次也會就攝像機的畫質、網路控制等功能進行檢測,以給讀者一個全面的設備性能展現。
透霧技術方法論
關於透霧攝像機,a&s已經做過不少檢測,也在不斷接觸、評測中,見證了透霧攝像機的發展。以目前的行業發展水平,透霧技術無外乎三種:
·圖像演算法透霧處理;
·鏡頭光學透霧;
·濾波片光學透霧。
關於演算法透霧技術,最早是在國際品牌產品中出現,如三星的百萬高清攝像機,隨著2012年海康威視推出了130萬明星級SMART攝像機後,支持演算法透霧技術的攝像機如雨後春筍般涌現,而且演算法透霧效果也是越來越好。
但數字透霧技術有很大的局限性。由於數字透霧(也叫除霧功能,與工程實際應用中的設備加熱除霧氣是兩個不同概念)是通過演算法的智能化處理,當圖像出現朦朧化效果時,自動調節銳度、圖像對比度、色度等方式,將朦朧畫面調節至更為適於觀看的效果。數字透霧的優勢是保住了圖像的彩色細節,並增強了可看度,但實際上,圖像的清晰度是沒有提升的。而這也是成本最低、最為普及的一種透霧應用方式,目前主流監控設備商所開發的中高端監控產品,幾乎都支持了數字透霧處理功能。
已知的透霧演算法大致可以分為兩大類:一種是非模型的圖像增強方法,通過增強圖像的對比度,滿足主觀視覺的要求來達到清晰化的目的;另一種是基於模型的圖像復原方法,它考查圖像退化的原因,將退化過程進行建模,採用逆向處理,以最終解決圖像的復原問題。
為了得到更好的處理效果,攝像機廠家會增設專門的圖像處理晶元,可自動偵測圖像的密度,最大限度地保持圖像信號的細節,實現彩色增強、反差增強、邊緣增強、對比度增強和亮度增強,並進行密度分割、去模糊等運算,使不同場景下的攝像畫質得到明顯提高,達到透霧的目的。而根據廠家的能力與研發選擇,會分別選擇在DSP或FPGA等不同晶元上進行相應處理。
晶元會實時讀取視頻流信息,通過對比參數判定是否需要開啟透霧模式,也就是可以達到自動偵測霧氣,甚至可以通過設定的預置模式判定出霧氣濃淡,選擇進入相應的透霧模式。不過,從目前的應用效果看,能夠支持到自動判斷圖像是否有「霧」、濃度多少的攝像機不多,大部分都還是依靠手動開啟、關閉的方式。
而數字透霧技術,由於採用的是演算法處理技術,也不再僅僅限於攝像機,目前已經延伸到後端,如透霧顯示器/監視器、透霧DVR、透霧NVR等,讓透霧應用變得更為廣泛,也滿足了目前透霧產品線不全或原有設備不支持透霧技術的後端升級應用。
接著說光學透霧。光學透霧利用的是光的不同波段有不同的特性這個特點原理來實現的,自然光由不同波長的光波組合而成,波長從長到短分別是紅橙黃綠青藍紫七種顏色,其中波長小於390nm的叫做紫外線,波長大於780nm的叫做紅外線。紅外線波長較長,在傳播時受氣溶膠的影響較小,可穿透一定濃度的霧靄煙塵,實現准確聚焦,這就是光學透霧的依據。
採用鏡頭的方式,就是在鏡頭處增加了IR感知能力,讓更多的紅外線傳達到感測器上。該技術是不分時段、不分場合的「開啟」透霧模式,且無論是彩色模式還是夜間模式,都能較非透霧鏡頭獲得更多的有效光線,從而輔助攝像機實現更為優良的清晰度效果。當然,透霧鏡頭還需要解決一個問題,那就是可見光與紅外非可見光在任意光照環境下,均可准確的聚焦到同一個點上,只有這樣,才能確保成像的高清,否則將會出現虛焦,這也是透霧鏡頭的一個必要的技術難點。
由於採用鏡頭作為光學透霧方式的成本較高,難以在很多場合中普及,因此不少監控設備商一直都在尋求新的解決方案。2013年下半年,宇視科技率先突破了這一技術瓶頸,通過採用濾光片的方式來實現光學的透霧應用,這是安防的一個創新方案。其實現的原理為,當將攝像機切換到光學透霧模式時,攝像機將自動切換透霧濾光片,讓攝像機過濾並吸收紅外線,從而實現清晰度的大幅提升。此類光學透霧技術,對鏡頭的要求則下降了許多,只要是滿足攝像機正常監控使用的鏡頭都可適用。當然,對鏡頭要求支持IR紅外矯正功能是必不可少的,而目前的高清鏡頭,幾乎清一色地支持IR矯正功能,由此可以說,採用濾波片的光學透霧攝像機,基本可以排除對鏡頭的特殊依賴性。
透霧技術再升級
經過了數年的發展,透霧技術也隨著監控技術的發展而不斷得到優化和提升,首先是數字透霧技術的優化;其次是光學透霧方案的創新。下面我們就來介紹一下a&s安防自動化於7月測試的兩款分別代表了當前數字透霧和光學透霧的產品為例進行介紹。
數字透霧效果明顯優化
大華DH-IPC-HFW8331D-Z系列300萬像素超寬動態紅外透霧型攝像機採用的即是數字透霧的方式。大華自從在攝像機中引入數字透霧技術後,一直保持著自己的特色,其產品支持自動和手動可調的方式來處理圖像的模糊情況。而在手動模式下,分別可對透霧強度、大氣模式可調,以增強「除霧」效果。
大華DH-IPC-HFW8331D-Z系列300萬像素超寬動態紅外透霧型攝像機採用的即是數字透霧的方式。大華自從在攝像機中引入數字透霧技術後,一直保持著自己的特色,其產品支持自動和手動可調的方式來處理圖像的模糊情況。而在手動模式下,分別可對透霧強度、大氣模式可調,以增強「除霧」效果。
大華DH-IPC-HFW8331D-Z系列300萬像素超寬動態紅外透霧型攝像機採用的即是數字透霧的方式。大華自從在攝像機中引入數字透霧技術後,一直保持著自己的特色,其產品支持自動和手動可調的方式來處理圖像的模糊情況。而在手動模式下,分別可對透霧強度、大氣模式可調,以增強「除霧」效果。
從實測效果看,該機在自動模式下,即能將透霧效果處理得跟手動模式下的最佳效果一致,自動處理演算法還是比較靠譜、智能化的。但這還不是該機的亮點,其優勢是,雖然為數字透霧處理,但畫面的「去霧」效果明顯,在保持彩色畫面不變的情況下,可將除霧的效果較之前有了很好地提升,經處理後,朦朧的畫面上,「霧」的存在感很低,取而代之的是清爽、通透的畫面。這也看出,該機不僅僅是簡單的圖像增強,更是在透霧演算法方面的智能化提升。
光學透霧技術再突破
過去,國內品牌中,唯有宇視一家提供有非鏡頭的光學透霧技術方案產品;海康威視過去則是清一色的數字透霧產品。此次檢測的海康威視DS-2CD4026FWD/D星光級200萬超寬動態專業透霧型槍型網路攝像機,則是海康威視光學透霧監控攝像機的首次亮相。該機採用了濾波片的方式來吸收紅外光線,從而獲得更為清晰的圖像效果。
該設備支持雙透霧模式,即數字透霧和光學透霧,該機採用了全智能處理方式,一鍵開啟或關閉,不提供透霧等級調節功能。在實測中,該機的數字透霧有著不錯的表現,除了能保持彩色的畫面效果外,畫面的清晰度、色彩都有不錯的提升。但最佳的效果在於透霧技術,根據設計要求,該機的光學透霧需在夜間模式下才能獲得最佳的效果;但實測中,在白天模式下開啟光學透霧功能,其效果要較數字透霧模式下所得的畫面更為清晰;而在開啟夜間模式時,畫面則干凈、整潔,很難察覺到畫面有「霧氣」存在。可以這么說,該機可實現的透霧方式有:數字透霧、彩色模式下的光學透霧、黑白模式下的光學透霧,所得到的透霧效果,也是層層遞進,並以黑白模式下的光學透霧表現最佳。作為一款主打光學透霧的攝像機,該機除了採用物理方式增強清晰度外,也提供了演算法輔助,從而讓光學透霧技術得以更大程度的發揮和展示。
海康威視攝像機可實現的透霧方式有:數字透霧、彩色模式下的光學透霧、黑白模式下的光學透霧,所得到的透霧效果,也是層層遞進,並以黑白模式下的光學透霧表現最佳。作為一款主打光學透霧的攝像機,該機除了採用物理方式增強清晰度外,也提供了演算法輔助,從而讓光學透霧技術得以更大程度的發揮和展示。
海康威視攝像機可實現的透霧方式有:數字透霧、彩色模式下的光學透霧、黑白模式下的光學透霧,所得到的透霧效果,也是層層遞進,並以黑白模式下的光學透霧表現最佳。作為一款主打光學透霧的攝像機,該機除了採用物理方式增強清晰度外,也提供了演算法輔助,從而讓光學透霧技術得以更大程度的發揮和展示。
透霧攝像機的結構設計及散熱性
首先看數字透霧攝像機的結構設計。由於採用的是演算法處理方式,勢必要對晶元造成一定壓力;處理需求的增多,也會相應地提升設備的運行溫度。不過,目前的攝像機都已經比較成熟,在零配件選用上,也是得心應手,什麼樣的功能搭配什麼樣的硬體,都有成熟的方案,因此,單就數字透霧技術來說,此類攝像機的散熱性並不高,以本次的數字透霧攝像機大華DH-IPC-HFW8331D-Z為例,這是一款成熟的筒型槍式攝像機,在整個測試過程中,設備的溫度上升並不明顯。
而光學透霧攝像機,在雖然有演算法的處理,但透霧對攝像機的整體圖像處理功能來說,所能增加的壓力也不多。從之前我們測試過的相關光學透霧型攝像機來看,透霧演算法對攝像機的溫度的提升也不是很明顯的。而本次測試的海康威視DS-2CD4026FWD/D星光級200萬超寬動態專業透霧型槍型網路攝像機,則在測試過程中,在26℃左右的室內環境下,機身溫度竟然達到了50℃以上,這是頗為少見的,為了降低散熱,該機在結構上較海康威視的第一代SMART攝像機來說,增加了易於散熱的片翅設計。而實際上,本次測評的DS-2CD4026FWD/D是一款SMART 2.0智能網路攝像機,內部植入了各種智能分析演算法,同時,對低照度、寬動態、數字降噪等功能也進行了演算法提升,在功能的不斷增加下,該機的處理散熱量會比較大;同時,該設備作為一款新品,軟體版本的演算法優化還在不斷提升當中,由於測試時,版本比較低,散熱量大必不可少;事後,我們對攝像機進行了軟體版本的升級,此時攝像機的工作溫度降到了40℃左右。
再看安裝性。兩個設備均支持PoE供電功能,測試中,只需給攝像機接入一根帶PoE供電的網線,即完成了設備的聯網和使用;同時,設備提供有BNC前端調試圖像輸出功能,對調試也是很便利的;而大華的設備還支持後端變焦、聚焦功能,更省去了前端調試的麻煩。
透霧攝像機畫質及功能表現
我們首先看畫質功能。海康威視的光學透霧攝像機採用的是主流的H.264壓縮演算法;大華採用的是最新的H.265壓縮演算法。前者在4Mbps下可保持良好的1080P畫質效果;後者由於演算法的低壓縮速率,在3Mbps下就可正常運行300萬高清畫質,由於演算法的不一樣,兩者在帶寬處理上不具備典型可比性。不過可以肯定的是,這兩款分別作為各自的最新產品之一,都良好地延續了技術實力,保證了圖像畫質的高清表現,其中海康威視的水平和垂直清晰度接近1100TVL,邊緣清晰度為1000TVL;大華為水平清晰度1300TVL,垂直達到1200TVL;色彩還原、灰階等方面都有良好的還原表現。
再看功能方面,寬動態、背光補償、強光抑制等功能均是支持,而在低照度方面,這兩款攝像機延續了海康威視和大華兩家的星光級優勢,實現0.001Lux的星光級效果是沒有問題的。而在智能分析方面,這兩款設備支持的功能非常豐富:
·大華DH-IPC-HFW8331D-Z:支持虛焦偵測、區域入侵、拌線入侵、物品遺留/消失、場景變更、徘徊檢測、人員聚集、快速移動、非法停車、音頻異常偵測、人臉偵測、外部報警、客流量統計、熱度圖等;
·海康威視DS-2CD4026FWD/D:支持越界偵測、區域入侵偵測、進入/離開區域偵測、徘徊偵測、人員聚集偵測、快速運動偵測、停車偵測、物品遺留/拿取偵測、場景變更偵測、音頻陡升/陡降偵測、音頻有無偵測、虛焦偵測、車輛檢測(支持車牌識別,車型/車標/車身顏色/車牌顏色識別)、混行檢測(檢測正向或逆向行駛的車輛以及行人和非機動車,自動對車輛牌照進行識別,可以抓怕無車牌的車輛圖片)等。
由於兩者可支持的智能分析演算法眾多,尤其是海康威視的DS-2CD4026FWD/D,設備商還提供了定製化服務,可根據客戶的不同需求,針對性地植入所需智能分析功能。
『陸』 DBSCAN與kmeans,OPTICS區別
DBSCAN和Kmeans的區別:
1)K均值和DBSCAN都是將每個對象指派到單個簇的劃分聚類演算法,但是K均值一般聚類所有對象,而DBSCAN丟棄被它識別為雜訊的對象。
2)K均值使用簇的基於原型的概念,而DBSCAN使用基於密度的概念。
3)K均值很難處理非球形的簇和不同大小的簇。DBSCAN可以處理不同大小或形狀的簇,並且不太受雜訊和離群點的影響。當簇具有很不相同的密度時,兩種演算法的性能都很差。
4)K均值只能用於具有明確定義的質心(比如均值或中位數)的數據。DBSCAN要求密度定義(基於傳統的歐幾里得密度概念)對於數據是有意義的。
5)K均值可以用於稀疏的高維數據,如文檔數據。DBSCAN通常在這類數據上的性能很差,因為對於高維數據,傳統的歐幾里得密度定義不能很好處理它們。
6)K均值和DBSCAN的最初版本都是針對歐幾里得數據設計的,但是它們都被擴展,以便處理其他類型的數據。
7)基本K均值演算法等價於一種統計聚類方法(混合模型),假定所有的簇都來自球形高斯分布,具有不同的均值,但具有相同的協方差矩陣。DBSCAN不對數據的分布做任何假定。
8)K均值DBSCAN和都尋找使用所有屬性的簇,即它們都不尋找可能只涉及某個屬性子集的簇。
9)K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是DBSCAN會合並有重疊的簇。
10)K均值演算法的時間復雜度是O(m),而DBSCAN的時間復雜度是O(m^2),除非用於諸如低維歐幾里得數據這樣的特殊情況。
11)DBSCAN多次運行產生相同的結果,而K均值通常使用隨機初始化質心,不會產生相同的結果。
12)DBSCAN自動地確定簇個數,對於K均值,簇個數需要作為參數指定。然而,DBSCAN必須指定另外兩個參數:Eps(鄰域半徑)和MinPts(最少點數)。
13)K均值聚類可以看作優化問題,即最小化每個點到最近質心的誤差平方和,並且可以看作一種統計聚類(混合模型)的特例。DBSCAN不基於任何形式化模型。
DBSCAN與OPTICS的區別:
DBSCAN演算法,有兩個初始參數E(鄰域半徑)和minPts(E鄰域最小點數)需要用戶手動設置輸入,並且聚類的類簇結果對這兩個參數的取值非常敏感,不同的取值將產生不同的聚類結果,其實這也是大多數其他需要初始化參數聚類演算法的弊端。
為了克服DBSCAN演算法這一缺點,提出了OPTICS演算法(Ordering Points to identify the clustering structure)。OPTICS並 不顯示的產生結果類簇,而是為聚類分析生成一個增廣的簇排序(比如,以可達距離為縱軸,樣本點輸出次序為橫軸的坐標圖),這個排序代表了各樣本點基於密度 的聚類結構。它包含的信息等價於從一個廣泛的參數設置所獲得的基於密度的聚類,換句話說,從這個排序中可以得到基於任何參數E和minPts的DBSCAN演算法的聚類結果。
『柒』 光學顯微鏡倍數演算法典例
光學顯微鏡的放大:物鏡倍數*目鏡倍數=總放大倍數.
如果有附加物鏡的還要再乘以附加物鏡等於總放大倍數.
『捌』 OPTICS聚類演算法的matlab實現
OPTICS聚類演算法代碼,從http://www.pudn.com/downloads238/sourcecode/math/detail1113278.html
該處下載。
% -------------------------------------------------------------------------
% Function:
% [RD,CD,order]=optics(x,k)
% -------------------------------------------------------------------------
% Aim:
% Ordering objects of a data set to obtain the clustering structure
% -------------------------------------------------------------------------
% Input:
% x - data set (m,n); m-objects, n-variables
% k - number of objects in a neighborhood of the selected object
% (minimal number of objects considered as a cluster)
% -------------------------------------------------------------------------
% Output:
% RD - vector with reachability distances (m,1)
% CD - vector with core distances (m,1)
% order - vector specifying the order of objects (1,m)
% -------------------------------------------------------------------------
% Example of use:
% x=[randn(30,2)*.4;randn(40,2)*.5+ones(40,1)*[4 4]];
% [RD,CD,order]=optics(x,4)
% -------------------------------------------------------------------------
%
function [RD,CD,order]=optics(x,k)
[m,n]=size(x);
CD=zeros(1,m);
RD=ones(1,m)*10^10;
% Calculate Core Distances
for i=1:m
D=sort(dist(x(i,:),x));
CD(i)=D(k+1);
end
order=[];
seeds=[1:m];
ind=1;
while ~isempty(seeds)
ob=seeds(ind);
seeds(ind)=[];
order=[order ob];
mm=max([ones(1,length(seeds))*CD(ob);dist(x(ob,:),x(seeds,:))]);
ii=(RD(seeds))>mm;
RD(seeds(ii))=mm(ii);
[i1 ind]=min(RD(seeds));
end
RD(1)=max(RD(2:m))+.1*max(RD(2:m));
function [D]=dist(i,x)
% function: [D]=dist(i,x)
%
% Aim:
% Calculates the Euclidean distances between the i-th object and all objects in x
% Input:
% i - an object (1,n)
% x - data matrix (m,n); m-objects, n-variables
%
% Output:
% D - Euclidean distance (m,1)
[m,n]=size(x);
D=(sum((((ones(m,1)*i)-x).^2)'));
if n==1
D=abs((ones(m,1)*i-x))';
end
『玖』 基於web的信息檢索聚類分析工具!
概述
俗話說:「物以類聚,人以群分」,在自然科學和社會科學中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又將多元分析的技術引入到數值分類學形成了聚類分析。聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等。
[編輯本段]聚類演算法分類
聚類分析計算方法主要有如下幾種: 1. 劃分法(partitioning methods):給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:(1) 每一個分組至少包含一個數據紀錄;(2)每一個數據紀錄屬於且僅屬於一個分組(注意:這個要求在某些模糊聚類演算法中可以放寬);對於給定的K,演算法首先給出一個初始的分組方法,以後通過反復迭代的方法改變分組,使得每一次改進之後的分組方案都較前一次好,而所謂好的標准就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。使用這個基本思想的演算法有:K-MEANS演算法、K-MEDOIDS演算法、CLARANS演算法; 2. 層次法(hierarchical methods):這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。例如在「自底向上」方案中,初始時每一個數據紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合並成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表演算法有:BIRCH演算法、CURE演算法、CHAMELEON演算法等; 3. 基於密度的方法(density-based methods):基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。這個方法的指導思想就是,只要一個區域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。代表演算法有:DBSCAN演算法、OPTICS演算法、DENCLUE演算法等; 4. 基於網格的方法(grid-based methods):這種方法首先將數據空間劃分成為有限個單元(cell)的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快,通常這是與目標資料庫中記錄的個數無關的,它只與把數據空間分為多少個單元有關。代表演算法有:STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法; 5. 基於模型的方法(model-based methods):基於模型的方法給每一個聚類假定一個模型,然後去尋找能個很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統計的方案和神經網路的方案。
『拾』 數據挖掘中OPTICS演算法到底是怎樣的
聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類演算法。這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和基於模型方法。
1 、劃分方法(PAM:PArtitioning method)首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2、 層次方法(hierarchical method)創建一個層次以分解給定的數據集。該方法可以分為自上而下(分解)和自下而上(合並)兩種操作方式。為彌補分解與合並的不足,層次合並經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:
第一個是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利用其它聚類方法對這些聚類進行優化。
第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定量(向聚類中心)進行收縮。
第三個是ROCK方法,它利用聚類間的連接進行聚類合並。
最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。
3、 基於密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如 DBSCAN)不斷增長聚類。典型的基於密度方法包括:
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義為一組「密度連接」的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。
4 、基於網格方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利用網格結構完成聚類。
STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基於網格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方法。
5、 基於模型方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的基於模型方法包括:
統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是採用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);並利用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對大資料庫進行聚類處理.