pythonk近鄰演算法
『壹』 python 在編程語言中是什麼地位為什麼很多大學不教 Python
作者看著網上各種數據分析的知識泛濫, 但是沒有什麼體系,初學者不知道學哪些, 不知道學多少, 不知道學多深, 單純一個python語言, 數據分析會用到那種程度, 不可能說像開發那樣去學, numpy如果不是做演算法工程師用到的知識並不多, pandas知識雜亂無章, 哪些才是最常用的功能等等, 作者不忍眾生皆苦, 決定寫一套python數據分析的全套教程, 目前已完成一部分課件的製作。需要說明的是, 作為一名數據分析師, 你應該先會一點Excel和SQL知識,相關的內容, 網上很多。但是, 即便你一點Excel和SQL都不會也不會影響這部分的學習 !目前作者整理的大綱如下:
第一章 python編程基礎
1.1 python語言概述 1.2 數據科學神器--Anaconda介紹與安裝 1.3 標准輸入輸出 1.4 變數定義與賦值 1.5 數據類型 1.6 流程式控制制語句 1.7 函數
1.8 面向對象編程 第二章 python數據清洗之numpy 2.1 核心ndarray對象的創建 2.2 ndarray對象常用的屬性和方法 2.3 ndarray對象的索引和切片 2.4 ndarray對象的分割與合並 2.5 ndarray對象的廣播(Broadcast) 2.6 numpy中的算術運算函數 2.7 numpy中的統計函數 2.8 numpy中的排序 搜索 計數 去重函數 2.9 numpy中的字元串函數 2.10 numpy中可能會用到的線性代數模塊(後期機器學習會用到一點)
第三章 數據清洗神器pandas
3.1 pandas核心對象之Series對象的創建 常用屬性和方法 3.2 pandas核心對象之DataFrame對象的創建 常用屬性和方法 3.3 DataFrame對象的列操作和行操作 3.4 DataFrame對象的索引和切片 3.5 DataFrame對象的布爾索引 3.6 數據的讀入與導出 3.7 groupby分組運算 3.8 數據合並與數據透視
第四章 數據可視化matplotlib seaborn pyecharts
4.1 包括常用圖形的繪制,略
第五章 實戰案列
5.1 拉勾網數據分析相關職位分析 5.2 boss直聘數據分析相關職位分析 5.3 珍愛網女性用戶數據分析
第六章 機器學習
機器學習部分, 簡單的演算法會講手寫, 難的就用scikit-learn實現, 可能有小夥伴說, 這是調包俠乾的, 小哥哥!小姐姐!哪有那麼多公司, 那麼多人自己干寫演算法的, 有幾個人敢說他寫的演算法比scikit-learn寫得好? 再說了, 你是數據分析師, 這些是你的工具, 解決問題的!不是一天到晚拉格朗日對偶性!先來個機器學習介紹, 然後如下:
6.1 K近鄰演算法 6.2 Kmeans演算法 6.3 決策樹 階段案列:決策樹案列(保險行業) 6.4 線性回歸 嶺回歸 Lasso回歸 6.5 邏輯回歸 6.6 樸素貝葉斯 階段案列:推薦系統(電商玩具) 6.7 隨機森林 6.8 Adaboost 6.9 梯度提升樹GBDT 6.10 極端梯度提升樹Xgboost 6.11 支持向量機SVM 6.12 神經網路 階段案例:Xgboost案例
------------------------------本節內容-----------------------------------------
python語言概述
在說python之前, 我們還是先來看看計算機軟硬體的發展歷史。
1 計算機硬體的發展歷史
第一代計算機-電子管計算機(1946-1957)
無論如何,一項技術的突破必然伴隨著其他行業的突破,簡而言之,電子計算機的出現,前提必須有電子技術的進步,否則一切都是空談!下面是我列舉出計算機硬體的發展過程中, 一些比較重要的事件。
1906年, 美國的Lee De Forest 發明了電子管。在這之前造出數字電子計算機是不可能的。這為電子計算機的發 展奠定了基礎。
1924年2月, 一個具有劃時代意義的公司成立,IBM。
1935年, IBM推出IBM 601機。 這是一台能在一秒鍾算出乘法的穿孔卡片計算機。這台機器無論在自然科學還是在商業意義上都具有重要的地位。大約造了1500台。
1937年, 英國劍橋大學的Alan M. Turing (1912-1954)出版了他的論文 ,並提出了被後人稱之為"圖靈機"的數學模型。
1937年, 美國貝爾試驗室的George Stibitz展示了用繼電器表示二進制的裝置。盡管僅僅是個展示品,但卻是世界上第一台二進制電子計算機。
1941年, Atanasoff和學生Berry完成了能解線性代數方程的計算機,取名叫"ABC"(Atanasoff-Berry Computer),用電容作存儲器,用穿孔卡片作輔助存儲器,那些孔實際上是"燒"上的。 時鍾頻率是60HZ,完成一次加法運算用時一秒。這就是ABC計算機。
1946年, 美國賓夕法尼亞大學,第一台通用電子計算機ENIAC (Electronic Numerical Integrator 和 Computer)誕生, 總工程師埃克特在當時年僅25歲。
這時的計算機的基本線路是採用電子管結構,程序從人工手編的 機器指令程序(0 1),過渡到符號語言(匯編),電子管計算機是計算工具革命性發展的開始,它所採用的進位制與程序存貯等基本技術思想,奠定了現代電子計算機技術基礎。以馮·諾依曼為代表。
第二代計算機——晶體管計算機(時間1957~1964)
電子管時代的計算機盡管已經步入了現代計算機的范疇,但其體積之大、能耗之高、故障之多、價格之貴大大制約了它的普及應用。直到晶體管被發明出來,電子計算機才找到了騰飛的起點,一發而不可收……
20世紀50年代中期,晶體管的出現使計算機生產技術得到了根本性的發展,由晶體管代替電子管作為計算機的基礎器件,用 磁芯或磁鼓作存儲器,在整體性能上,比第一代計算機有了很大的提高。
第三代計算機——中小規模集成電路計算機(時間1964~1971)
20世紀60年代中期, 計算機發展歷程隨著半導體工藝的發展,成功製造了集成電路。中小規模集成電路成為計算機的主要部件,主存儲器也漸漸過渡到 半導體存儲器,使計算機的體積更小,大大降低了計算機計算時的功耗,由於減少了 焊點和 接插件,進一步提高了計算機的可靠性。
第四代計算機——大規模和超大規模集成電路計算機(時間1971~至今)
隨著大規模集成電路的成功製作並用於計算機硬體生產過程,計算機的體積進一步縮小,性能進一步提高。集成更高的大容量半導體存儲器作為內存儲器,發展了並行技術和多機系統,出現了 精簡指令集計算機(RISC),軟體系統工程化、理論化,程序設計自動化。微型計算機在社會上的應用范圍進一步擴大,幾乎所有領域都能看到計算機的「身影」。
第五代計算機——泛指具有人工智慧的計算機(至今~未來)
目前還沒有明確地定義
2 簡述計算機軟體的發展歷史
編程語言的發展
計算機軟體系統的發展,也伴隨著編程語言的發展。計算機程序設計語言的發展,經歷了從機器語言、匯編語言到高級語言的歷程。
機器語言:簡單點說,機器本身也只認識0和1,電路無非就只有通和斷兩種狀態,對應的二進制就是二進制的1和1。
匯編語言:匯編語言只是把一些特殊的二進制用特殊的符號表示,例如,機器要傳送一個數據,假設「傳送」這個指令對應的機器碼是000101,則人們把000101用一個特殊符號,比如mov來表示,當人們要用這個指令時用mov就行,但是mov的本質還是000101,沒有脫離硬體的范圍,有可能這個指令不能在其他機器上用。
高級語言:高級語言完全脫離了硬體范疇,所有的語法更貼近人類的自然語言,人們只需要清楚高級語言的語法,寫出程序就行了,剩下的交給編譯器或者解釋器去編譯或者解釋成機器語言就行了,看,這樣就完全脫離了硬體的范疇,大大提高了程序的開發效率。接下來我們就來看看高級語言的發展,高級語言非常多,我們主要看看比較經典的幾個。
高級語言的發展
B語言與Unix
20世紀60年代,貝爾實驗室的研究員Ken Thompson(肯·湯普森)發明了B語言,並使用B編了個游戲 - Space Travel,他想玩自己這個游戲,所以他背著老闆找到了台空閑的機器 - PDP-7,但是這台機器沒有操作系統,於是Thompson著手為PDP-7開發操作系統,後來這個OS被命名為 - UNIX。
C語言
1971年,Ken Thompson(肯·湯普森)的同事D.M.Ritchie(DM里奇),也很想玩Space Travel,所以加入了Ken Thompson,合作開發UNIX,他的主要工作是改進Thompson的B語言。最終,在1972年這個新語言被稱為C,取BCPL的第二個字母,也是B的下一個字母。
C語言和Unix
1973年,C主體完成。Ken Thompson和D.M.Ritchie迫不及待的開始用C語言完全重寫了UNIX。此時編程的樂趣已經使他們完全忘記了那個「Space Travel」,一門心思的投入到了UNIX和C語言的開發中。自此,C語言和UNIX相輔相成的發展至今。
類C語言起源、歷史
C++(C plus plus Programming Language) - 1983
還是貝爾實驗室的人,Bjarne Stroustrup(本賈尼·斯特勞斯特盧普) 在C語言的基礎上推出了C++,它擴充和完善了C語言,特別是在面向對象編程方面。一定程度上克服了C語言編寫大型程序時的不足。
Python (Python Programming Language)--1991
1989年聖誕節期間,Guido van Rossum 在阿姆斯特丹,Guido van Rossum為了打發聖誕節的無趣,決心開發一個新的腳本解釋程序,做為ABC語言的一種繼承。之所以選中Python(大蟒蛇的意思)作為該編程語言的名字,是因為他是一個叫Monty Python的喜劇團體的愛好者。第一個Python的版本發布於1991年。
Java(Java Programming Language) - 1995
Sun公司的Patrick Naughton的工作小組研發了Java語言,主要成員是James Gosling(詹姆斯·高斯林)
C(C Sharp Programming Language) - 2000
Microsoft公司的Anders Hejlsberg(安德斯·海爾斯伯格)發明了C,他也是Delphi語言之父。
當然現在還有一些新語言,比如2009年Google的go語言,以及麻省理工的julia等。
3 為什麼是Python
Python有哪些優點
1 語法簡單 漂亮:我們可以說Python是簡約的語言,非常易於讀寫。在遇到問題時,我們可以把更多的注意力放在問題本身上,而不用花費太多精力在程序語言、語法上。
2 豐富而免費的庫:Python社區創造了各種各樣的Python庫。在他們的幫助下,你可以管理文檔,執行單元測試、資料庫、web瀏覽器、電子郵件、密碼學、圖形用戶界面和更多的東西。所有東西包括在標准庫,然而,除了它,還有很多其他的庫。
3 開源:Python是免費開源的。這意味著我們不用花錢,就可以共享、復制和交換它,這也幫助Python形成了豐富的社區資源,使其更加完善,技術發展更快。
4 Python既支持面向過程,也支持面向對象編程。在面向過程編程中,程序員復用代碼,在面向對象編程中,使用基於數據和函數的對象。盡管面向對象的程序語言通常十分復雜,Python卻設法保持簡潔。
5 Python兼容眾多平台,所以開發者不會遇到使用其他語言時常會遇到的困擾。
Python有哪些作用
Python是什麼都能做,但是我們學的是數據分析,我們看看在數據分析領域Python能做什麼。
數據採集:以Scrapy 為代表的各類方式的爬蟲
數據鏈接:Python有大量各類資料庫的第三方包,方便快速的實現增刪改查
數據清洗:Numpy、Pandas,結構化和非結構化的數據清洗及數據規整化的利器
數據分析:Scikit-Learn、Scipy,統計分析,科學計算、建模等
數據可視化:Matplotlib、Seaborn等等大量各類可視化的庫
所以說總結, 為什麼數據科學選的是python, 最重要就是兩個原因:
1 語法簡單漂亮
2 大量豐富免費的第三方庫
『貳』 python 求lna滿足給定誤差的值
需要有特定的題才能求的哦。
拓展:
模型方差
模型的方差是模型在擬合不同的訓練數據時性能的變化大小。它反映特定數據對模型的影響。
「方差指的是,用不同訓練數據進行模型評估時,模型表現的變化程度。」
——《統計學習及其在R中的應用》2014年版,第34頁
一個高方差的模型在訓練數據集發生細小變化時預測結果會發生很大變化。相反,對於低方差的模型,訓練數據發生或大或小的改變時,預測結果的變化都很小。
低方差:訓練數據集的變化對於模型來說影響很小。
高方差:訓練數據集的變化對於模型來說影響很大。
模型誤差 = 可約誤差 + 不可約誤差
方差一定是正值。
不可約誤差
整體而言,模型的誤差包含可約誤差和不可約誤差。
可約誤差是我們可以去優化的成分。在模型通過學習訓練集後這一數值會下降,我們會努力讓這一數值盡可能地接近於零。
不可約誤差是我們無法從模型中剔除的誤差,在任何模型中都不可能被去除。
這一誤差源於不可控因素,例如觀測中的統計雜訊。
「……通常會稱之為「不可約雜訊」,且不能在建模過程中剔除。」
——《預測模型應用》2013年版,第97頁
同樣的,盡管我們能夠把可約誤差壓縮到接近於零或者非常小的值,甚至有時能夠等於零,但不可約誤差依然會存在。這決定了模型性能的下限。
「有一點是我們是需要牢牢記住的,那就是不可約誤差始終會作為我們對目標Y預測精確率的下限值,這個邊界在實踐中永遠是未知的。」
——《統計學習及其在R中的應用》2014年版,第19頁
這提醒我們任何模型都不是完美的。
偏差-方差的權衡
對於模型的表現來說,偏差和方差是有關聯的。
理想情況下,我們希望一個模型能有低偏差和低方差,但是在實際操作中這是非常具有挑戰性的。實際上這是機器學習建模的目標。
降低偏差很容易使方差升高。相反,降低方差也會使得偏差升高。
「這被稱之為一種『權衡』,因為一般的方法很容易得到極低的偏差和很高的方差……或很低的方差和很高的偏差……」
——《統計學習及其在R中的應用》2014年版,第36頁
這種關系一般被稱為「偏差與方差的權衡」。這是一個關於思考如何選擇模型和調整模型的概念框架。
我們可以基於偏差和方差來選擇模型。簡單的模型,例如線性回歸和邏輯回歸,通常具有高偏差和低方差。而復雜的模型,例如隨機森林,通常具有低偏差和高方差。
我們通常會基於模型的偏差和方差所造成的影響來調整模型。對於K-近鄰演算法來說,超參數k控制著模型的偏差-方差權衡。k取值較小,例如k=1,會得到低偏差高方差的結果。反之k取值較大,如k=21,導致高偏差和低方差。
高偏差和高方差都不一定是壞的,但他們有可能會導致不良的結果。
我們時常要對一組不同的模型和模型參數進行測試,從而在給定的數據集中得到最好的結果。一個高偏差的模型有可能會是過於保守的,出現欠擬合。相反的,一個高方差的模型可能會出現過擬合。
我們有可能會選擇提高偏差或方差,來減少模型的整體誤差。
『叄』 如何用python實現k近鄰演算法
import numpy as np
def read_data(filename):
'''讀取文本數據,格式:特徵1 特徵2 …… 類別'''
f=open(filename,'rt')
row_list=f.readlines() #以每行作為列表
f.close()
data_array=[]
labels_vector=[]
while True:
if not row_list:
break
row=row_list.pop(0).strip().split('\t') #去除換行號,分割製表符
temp_data_row=[float(a) for a in row[:-1]] #將字元型轉換為浮點型
data_array.append(temp_data_row) #取特徵值
labels_vector.append(row[-1]) #取最後一個作為類別標簽
return np.array(data_array),np.array(labels_vector)
def classify(test_data,dataset,labels,k):
'''分類'''
diff_dis_array=test_data-dataset #使用numpy的broadcasting
dis_array=(np.add.rece(diff_dis_array**2,axis=-1))**0.5 #求距離
dis_array_index=np.argsort(dis_array) #升序距離的索引
class_count={}
for i in range(k):
temp_label=labels[dis_array_index[i]]
class_count[temp_label]=class_count.get(temp_label,0)+1 #獲取類別及其次數的字典
sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True) #字典的值按降序排列
return sorted_class_count[0][0] #返回元組列表的[0][0]
def normalize(dataset):
'''數據歸一化'''
return (dataset-dataset.min(0))/(dataset.max(0)-dataset.min(0))
k=3 #近鄰數
test_data=[0,0] #待分類數據
data,labels=read_data('testdata.txt')
print('數據集:\n',data)
print('標簽集:\n',labels)
result=classify(test_data,normalize(data),labels,k)
print('分類結果:',result)
『肆』 python之k-近鄰演算法(sklearn版)
上文借用了numpy和pandas等模塊自編了k-近鄰演算法 python之k-近鄰演算法(非sklearn版) ,這次借用sklearn輪子來實現一下
數據還是用上篇文章的數據來 https://pan..com/s/1zIGz6GtEU20UeT6hemP4MQ
上篇文章我們是利用KNN.py中的自編函數panan在讀取數據的過程中來實現的,而這種轉變在sklearn中已經有輪子調用了
這里再補充一點:對於類別數據(對於特徵值也是適用的),可以分為 標稱特徵(nominal feature) 和 有序特徵(ordinal feature) .
對於我們這里的數據largeDoses,smallDoses,didntLike應該是對應著有序特徵
如果在這里'喜歡的類別'本身不帶有有序的含義的話,即largeDoses,smallDoses,didntLike三個類別沒有序別之分,可以借用sklearn里的功能
可以看到借用sklearn是比較方便的
但是。。。。。但是。。。。以上的0,1,2在演算法看來依然是有順序的,所以我們可以利用 獨熱編碼(one-hot encoding) ,即創建一個新的虛擬特徵(mmy feature)
也可以利用pandas里的功能
————————————————————————————————————
特徵縮放(feature scaling)對於除了決策樹和隨機森林兩個演算法沒用以外,對其他演算法和優化演算法來講都是必不可少的
即上篇文章所涉及到的
對於線性模型來講,標准化更加好,一是符合線性模型對權重的處理,二是保留了異常值的信息
———————————————————————————————————
上篇文章對於此類問題的處理見 datingClassTest 函數
K-近鄰演算法被稱之為 惰性演算法 ,和其他機器學習演算法不一樣,因為他僅僅是對訓練數據集有記憶功能,而不是從訓練集中通過學習得到一個判別函數,即不需要訓練,看過上篇文章的小夥伴應該會有體會。 缺點是計算復雜度會隨著樣本數量的增長而呈線性增長,除非數據集中特徵數量有限
『伍』 繞暈大多數Python初學者的argsort()函數
使用python做機器學習的一般都是從k-近鄰演算法開始學習。
這就很難繞開argsort()函數,但是在使用argsort()函數時大部分初學者都會被繞暈進去。
argsort()函數是用來返回數組值從小到大索引值的。舉例
那麼
下面講一下詳細邏輯:
我們把矩陣a從小到大排序,記排序後的矩陣為b:
矩陣a和b的關系:
所以a.argsort(),也就是a排序後索引值就是[1,2,0]
PS:索引值相當於頁數,是一個排序值,不等於元素的值。
像書的目錄一樣,對於例子中的矩陣,我們有如下索引:
6............0
4............1
5............2
所以排序後b=[4,5,6],用索引值來表達就是[1,2,0]
『陸』 python可以做哪些有趣的事情
1. Python3 實現色情圖片識別
2. Python3 圖片隱寫術
3. 200 行 Python 代碼實現 2048
4. Python實現3D建模工具
5. 使用 Python 定製詞雲
6. Python3 智能裁切圖片
7.微信變為聊天機器人
8. 使用 Python 解數學方程
9. 使用 Python 創建照片馬賽克
10. Python 基於共現提取《釜山行》人物關系
11. Python 氣象數據分析:《Python 數據分析實戰》
12. NBA常規賽結果預測:利用Python進行比賽數據分析
13. Python 的循環語句和隱含波動率的計算
14. K-近鄰演算法實現手寫數字識別系統
15. 數獨游戲的 Python 實現與破解
16. 基於 Flask 與 MySQL 實現番劇推薦系
17. Python 實現英文新聞摘要自動提取
18. Python 解決哲學家就餐問題
19. Ebay 在線拍賣數據分析
20. 神經網路實現人臉識別任務
21. 使用 Python 解數學方程
22. Python3 實現火車票查詢工具
23. Python 實現埠掃描器
24. Python3 實現可控制肉雞的反向Shell
25. Python 實現 FTP 弱口令掃描器
26. 基於PyQt5 實現地圖中定位相片拍攝位置
27. Python實現網站模擬登陸
28.Python實現簡易區域網視頻聊天工具
29. 基於 TCP 的 python 聊天程序
30. Python3基於Scapy實現DDos
31. 高德API + Python 解決租房問題
32. 基於 Flask 與 RethinkDB 實現TODO List
『柒』 如何用python實現k近鄰演算法
1. 數據分類:離散型標簽 2. 數據回歸:連續型標簽 近鄰演算法的准則是:尋找接近新數據點的訓練樣本的數目,根據訓練樣本的信息來預測新數據點的某些信息。
『捌』 python能做什麼有趣的東西
python能做什麼有趣的東西?下面給大家介紹35個Python實例:
1. Python3 實現圖片識別
2. Python3 圖片隱寫術
3. 200 行 Python 代碼實現 2048
4. Python實現3D建模工具
5. 使用 Python 定製詞雲
相關推薦:《Python教程》
6. Python3 智能裁切圖片
7.微信變為聊天機器人
8. 使用 Python 解數學方程
9. 使用 Python 創建照片馬賽克
10. Python 基於共現提取《釜山行》人物關系
11. Python 氣象數據分析:《Python 數據分析實戰》
12. NBA常規賽結果預測:利用Python進行比賽數據分析
13. Python 的循環語句和隱含波動率的計算
14. K-近鄰演算法實現手寫數字識別系統
15. 數獨游戲的 Python 實現與破解
16. 基於 Flask 與 MySQL 實現番劇推薦系
17. Python 實現英文新聞摘要自動提取
18. Python 解決哲學家就餐問題
19. Ebay 在線拍賣數據分析
20. 神經網路實現人臉識別任務
21. 使用 Python 解數學方程
22. Python3 實現火車票查詢工具
23. Python 實現埠掃描器
24. Python3 實現可控制肉雞的反向Shell
25. Python 實現 FTP 弱口令掃描器
26. 基於PyQt5 實現地圖中定位相片拍攝位置
27. Python實現網站模擬登陸
28.Python實現簡易區域網視頻聊天工具
29. 基於 TCP 的 python 聊天程序
30. Python3基於Scapy實現DDos
31. 高德API + Python 解決租房問題
32. 基於 Flask 與 RethinkDB 實現TODO List
33. Python3 實現簡單的 Web 伺服器
34. Python 實現 Redis 非同步客戶端
35. 仿 StackOverflow 開發在線問答系統
『玖』 python 如何畫出KD數
簡單的KNN演算法在為每個數據點預測類別時都需要遍歷整個訓練數據集來求解距離,這樣的做法在訓練數據集特別大的時候並不高效,一種改進的方法就是使用kd樹來存儲訓練數據集,這樣可以使KNN分類器更高效。
KD樹的主要思想跟二叉樹類似,我們先來回憶一下二叉樹的結構,二叉樹中每個節點可以看成是一個數,當前節點總是比左子樹中每個節點大,比右子樹中每個節點小。而KD樹中每個節點是一個向量(也可能是多個向量),和二叉樹總是按照數的大小劃分不同的是,KD樹每層需要選定向量中的某一維,然後根據這一維按左小右大的方式劃分數據。在構建KD樹時,關鍵需要解決2個問題:(1)選擇向量的哪一維進行劃分(2)如何劃分數據。第一個問題簡單的解決方法可以是選擇隨機選擇某一維或按順序選擇,但是更好的方法應該是在數據比較分散的那一維進行劃分(分散的程度可以根據方差來衡量)。好的劃分方法可以使構建的樹比較平衡,可以每次選擇中位數來進行劃分,這樣問題2也得到了解決。下面是建立KD樹的Python代碼:
def build_tree(data, dim, depth):
"""
建立KD樹
Parameters
----------
data:numpy.array
需要建樹的數據集
dim:int
數據集特徵的維數
depth:int
當前樹的深度
Returns
-------
tree_node:tree_node namedtuple
樹的跟節點
"""
size = data.shape[0]
if size == 0:
return None
# 確定本層劃分參照的特徵
split_dim = depth % dim
mid = size / 2
# 按照參照的特徵劃分數據集
r_indx = np.argpartition(data[:, split_dim], mid)
data = data[r_indx, :]
left = data[0: mid]
right = data[mid + 1: size]
mid_data = data[mid]
# 分別遞歸建立左右子樹
left = build_tree(left, dim, depth + 1)
right = build_tree(right, dim, depth + 1)
# 返回樹的根節點
return Tree_Node(left=left,
right=right,
data=mid_data,
split_dim=split_dim)
對於一個新來的數據點x,我們需要查找KD樹中距離它最近的節點。KD樹的查找演算法還是和二叉樹查找的演算法類似,但是因為KD樹每次是按照某一特定的維來劃分,所以當從跟節點沿著邊查找到葉節點時候並不能保證當前的葉節點就離x最近,我們還需要回溯並在每個父節點上判斷另一個未查找的子樹是否有可能存在離x更近的點(如何確定的方法我們可以思考二維的時候,以x為原點,當前最小的距離為半徑畫園,看是否與劃分的直線相交,相交則另一個子樹中可能存在更近的點),如果存在就進入子樹查找。
當我們需要查找K個距離x最近的節點時,我們只需要維護一個長度為K的優先隊列保持當前距離x最近的K個點。在回溯時,每次都使用第K短距離來判斷另一個子節點中是否存在更近的節點即可。下面是具體實現的python代碼:
def search_n(cur_node, data, queue, k):
"""
查找K近鄰,最後queue中的k各值就是k近鄰
Parameters
----------
cur_node:tree_node namedtuple
當前樹的跟節點
data:numpy.array
數據
queue:Queue.PriorityQueue
記錄當前k個近鄰,距離大的先輸出
k:int
查找的近鄰個數
"""
# 當前節點為空,直接返回上層節點
if cur_node is None:
return None
if type(data) is not np.array:
data = np.asarray(data)
cur_data = cur_node.data
# 得到左右子節點
left = cur_node.left
right = cur_node.right
# 計算當前節點與數據點的距離
distance = np.sum((data - cur_data) ** 2) ** .5
cur_split_dim = cur_node.split_dim
flag = False # 標記在回溯時是否需要進入另一個子樹查找
# 根據參照的特徵來判斷是先進入左子樹還是右子樹
if data[cur_split_dim] > cur_data[cur_split_dim]:
tmp = right
right = left
left = tmp
# 進入子樹查找
search_n(left, data, queue, k)
# 下面是回溯過程
# 當隊列中沒有k個近鄰時,直接將當前節點入隊,並進入另一個子樹開始查找
if len(queue) < k:
neg_distance = -1 * distance
heapq.heappush(queue, (neg_distance, cur_node))
flag = True
else:
# 得到當前距離數據點第K遠的節點
top_neg_distance, top_node = heapq.heappop(queue)
# 如果當前節點與數據點的距離更小,則更新隊列(當前節點入隊,原第k遠的節點出隊)
if - 1 * top_neg_distance > distance:
top_neg_distance, top_node = -1 * distance, cur_node
heapq.heappush(queue, (top_neg_distance, top_node))
# 判斷另一個子樹內是否可能存在跟數據點的距離比當前第K遠的距離更小的節點
top_neg_distance, top_node = heapq.heappop(queue)
if abs(data[cur_split_dim] - cur_data[cur_split_dim]) < -1 * top_neg_distance:
flag = True
heapq.heappush(queue, (top_neg_distance, top_node))
# 進入另一個子樹搜索
if flag:
search_n(right, data, queue, k)525354555657
以上就是KD樹的Python實踐的全部內容,由於本人剛接觸python不久,可能實現上並不優雅,也可能在演算法理解上存在偏差,如果有任何的錯誤或不足,希望各位賜教。
『拾』 如何用python做基於k近鄰演算法的手寫數字識別系統
這東西太簡單了埃不過你要有些演算法基矗如果實在是沒有,就拿現成的手寫識別演算法。 界面這東西,基本上剛剛入門的GUI設計都會有畫圖這樣的例子,拿過來略略改一下就要可以用。 沒有調查過。如果我去設計會考慮1.筆畫,2.拐點, 3.曲度 4.分段長度...