半監督演算法
A. 半監督學習和無監督學習的區別
無監督與半監督學習的區別在於一個無教學值,一個有教學值。但是,個人認為他們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而半監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。但是無監督學習沒有反向傳播修改權值操作。
無監督學習:訓練樣本的標記信息未知,目標是通過對無標記訓練樣本的學習來揭示數據的內在性質及規律,為進一步的數據分析提供基礎,此類學習任務中研究最多、應用最廣的是"聚類" ,其他無監督演算法還有:密度估計、異常檢測等。
半監督學習:訓練集同時包含有標記樣本數據和未標記樣本數據,不需要人工干預,讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能。
想要了解更多有關半監督學習和無監督學習的信息,可以了解一下CDA數據分析師的課程。CDA證書已得到中國成人教育協會的認可和工信部認可,考過CDA認證考生可以得到經管之家CDA數據分析師中文證書,CDAINSTITUTE英文證書以及可額外申請工信部數據分析師證書。幫助學員掌握真正過硬的解決業務問題的數據挖掘能力。點擊預約免費試聽課。
B. 半監督學習的基本假設
SSL的成立依賴於模型假設,當模型假設正確時,無類標簽的樣例能夠幫助改進學習性能。SSL依賴的假設有以下三個:
1)平滑假設(Smoothness Assumption):位於稠密數據區域的兩個距離很近的樣例的類標簽相似,也就是說,當兩個樣例被稠密數據區域中的邊連接時,它們在很大的概率下有相同的類標簽;相反地,當兩個樣例被稀疏數據區域分開時,它們的類標簽趨於不同。
2)聚類假設(Cluster Assumption):當兩個樣例位於同一聚類簇時,它們在很大的概率下有相同的類標簽。這個假設的等價定義為低密度分離假設(Low Sensity Separation Assumption),即分類決策邊界應該穿過稀疏數據區域,而避免將稠密數據區域的樣例分到決策邊界兩側。
聚類假設是指樣本數據間的距離相互比較近時,則他們擁有相同的類別。根據該假設,分類邊界就必須盡可能地通過數據較為稀疏的地方,以能夠避免把密集的樣本數據點分到分類邊界的兩側。在這一假設的前提下,學習演算法就可以利用大量未標記的樣本數據來分析樣本空間中樣本數據分布情況,從而指導學習演算法對分類邊界進行調整,使其盡量通過樣本數據布局比較稀疏的區域。例如,Joachims提出的轉導支持向量機演算法,在訓練過程中,演算法不斷修改分類超平面並交換超平面兩側某些未標記的樣本數據的標記,使得分類邊界在所有訓練數據上最大化間隔,從而能夠獲得一個通過數據相對稀疏的區域,又盡可能正確劃分所有有標記的樣本數據的分類超平面。
3)流形假設(Manifold Assumption):將高維數據嵌入到低維流形中,當兩個樣例位於低維流形中的一個小局部鄰域內時,它們具有相似的類標簽。
流形假設的主要思想是同一個局部鄰域內的樣本數據具有相似的性質,因此其標記也應該是相似。這一假設體現了決策函數的局部平滑性。和聚類假設的主要不同是,聚類假設主要關注的是整體特性,流形假設主要考慮的是模型的局部特性。在該假設下,未標記的樣本數據就能夠讓數據空間變得更加密集,從而有利於更加標准地分析局部區域的特徵,也使得決策函數能夠比較完滿地進行數據擬合。流形假設有時候也可以直接應用於半監督學習演算法中。例如,Zhu 等人利用高斯隨機場和諧波函數進行半監督學習,首先利用訓練樣本數據建立一個圖,圖中每個結點就是代表一個樣本,然後根據流形假設定義的決策函數的求得最優值,獲得未標記樣本數據的最優標記;Zhou 等人利用樣本數據間的相似性建立圖,然後讓樣本數據的標記信息不斷通過圖中的邊的鄰近樣本傳播,直到圖模型達到全局穩定狀態為止。
從本質上說,這三類假設是一致的,只是相互關注的重點不同。其中流行假設更具有普遍性。
C. 回歸演算法屬於半監督演算法嗎
回歸演算法是監督演算法,用於查找不同橡並絕變數之間的可能關系,以了解自變數對因變數的影響程度。可以將回歸分析視為一個方程,例如,假設有方程蔽纖y = 2x + z,y是因變數,則x,z是自變數。梁姿回歸分析就是找出x和z在多大程度上影響y的值。