當前位置:首頁 » 操作系統 » 標准演算法

標准演算法

發布時間: 2024-01-15 13:24:54

A. 數據挖掘十大演算法-

整理里一晚上的數據挖掘演算法,其中主要引自wiki和一些論壇。發布到上作為知識共享,但是發現Latex的公式轉碼到網頁的時候出現了丟失,暫時沒找到解決方法,有空再回來填坑了。

——編者按

一、 C4.5

C4.5演算法是由Ross Quinlan開發的用於產生決策樹的演算法[1],該演算法是對Ross Quinlan之前開發的ID3演算法的一個擴展。C4.5演算法主要應用於統計分類中,主要是通過分析數據的信息熵建立和修剪決策樹。

1.1 決策樹的建立規則

在樹的每個節點處,C4.5選擇最有效地方式對樣本集進行分裂,分裂規則是分析所有屬性的歸一化的信息增益率,選擇其中增益率最高的屬性作為分裂依據,然後在各個分裂出的子集上進行遞歸操作。

依據屬性A對數據集D進行分類的信息熵可以定義如下:

劃分前後的信息增益可以表示為:

那麼,歸一化的信息增益率可以表示為:

1.2 決策樹的修剪方法

C4.5採用的剪枝方法是悲觀剪枝法(Pessimistic Error Pruning,PEP),根據樣本集計運算元樹與葉子的經驗錯誤率,在滿足替換標准時,使用葉子節點替換子樹。

不妨用K表示訓練數據集D中分類到某一個葉子節點的樣本數,其中其中錯誤分類的個數為J,由於用估計該節點的樣本錯誤率存在一定的樣本誤差,因此用表示修正後的樣本錯誤率。那麼,對於決策樹的一個子樹S而言,設其葉子數目為L(S),則子樹S的錯誤分類數為:

設數據集的樣本總數為Num,則標准錯誤可以表示為:

那麼,用表示新葉子的錯誤分類數,則選擇使用新葉子節點替換子樹S的判據可以表示為:

二、KNN

最近鄰域演算法(k-nearest neighbor classification, KNN)[2]是一種用於分類和回歸的非參數統計方法。KNN演算法採用向量空間模型來分類,主要思路是相同類別的案例彼此之間的相似度高,從而可以藉由計算未知樣本與已知類別案例之間的相似度,來實現分類目標。KNN是一種基於局部近似和的實例的學習方法,是目前最簡單的機器學習演算法之一。

在分類問題中,KNN的輸出是一個分類族群,它的對象的分類是由其鄰居的「多數表決」確定的,k個最近鄰居(k為正整數,通常較小)中最常見的分類決定了賦予該對象的類別。若k = 1,則該對象的類別直接由最近的一個節點賦予。在回歸問題中,KNN的輸出是其周圍k個鄰居的平均值。無論是分類還是回歸,衡量鄰居的權重都非常重要,目標是要使較近鄰居的權重比較遠鄰居的權重大,例如,一種常見的加權方案是給每個鄰居權重賦值為1/d,其中d是到鄰居的距離。這也就自然地導致了KNN演算法對於數據的局部結構過於敏感。

三、Naive Bayes

在機器學習的眾多分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)[3]。樸素貝葉斯模型發源於古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,演算法也比較簡單。

在假設各個屬性相互獨立的條件下,NBC模型的分類公式可以簡單地表示為:

但是實際上問題模型的屬性之間往往是非獨立的,這給NBC模型的分類准確度帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型;而在屬性相關性較小時,NBC模型的性能最為良好。

四、CART

CART演算法(Classification And Regression Tree)[4]是一種二分遞歸的決策樹,把當前樣本劃分為兩個子樣本,使得生成的每個非葉子結點都有兩個分支,因此CART演算法生成的決策樹是結構簡潔的二叉樹。由於CART演算法構成的是一個二叉樹,它在每一步的決策時只能是「是」或者「否」,即使一個feature有多個取值,也是把數據分為兩部分。在CART演算法中主要分為兩個步驟:將樣本遞歸劃分進行建樹過程;用驗證數據進行剪枝。

五、K-means

k-平均演算法(k-means clustering)[5]是源於信號處理中的一種向量量化方法,現在則更多地作為一種聚類分析方法流行於數據挖掘領域。k-means的聚類目標是:把n個點(可以是樣本的一次觀察或一個實例)劃分到k個聚類中,使得每個點都屬於離他最近的均值(此即聚類中心)對應的聚類。

5.1 k-means的初始化方法

通常使用的初始化方法有Forgy和隨機劃分(Random Partition)方法。Forgy方法隨機地從數據集中選擇k個觀測作為初始的均值點;而隨機劃分方法則隨機地為每一觀測指定聚類,然後執行「更新」步驟,即計算隨機分配的各聚類的圖心,作為初始的均值點。Forgy方法易於使得初始均值點散開,隨機劃分方法則把均值點都放到靠近數據集中心的地方;隨機劃分方法一般更適用於k-調和均值和模糊k-均值演算法。對於期望-最大化(EM)演算法和標准k-means演算法,Forgy方法作為初始化方法的表現會更好一些。

5.2 k-means的標准演算法

k-means的標准演算法主要包括分配(Assignment)和更新(Update),在初始化得出k個均值點後,演算法將會在這兩個步驟中交替執行。

分配(Assignment):將每個觀測分配到聚類中,使得組內平方和達到最小。

更新(Update):對於上一步得到的每一個聚類,以聚類中觀測值的圖心,作為新的均值點。

六、Apriori

Apriori演算法[6]是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法,其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。Apriori採用自底向上的處理方法,每次只擴展一個對象加入候選集,並且使用數據集對候選集進行檢驗,當不再產生匹配條件的擴展對象時,演算法終止。

Apriori的缺點在於生成候選集的過程中,演算法總是嘗試掃描整個數據集並盡可能多地添加擴展對象,導致計算效率較低;其本質上採用的是寬度優先的遍歷方式,理論上需要遍歷次才可以確定任意的最大子集S。

七、SVM

支持向量機(Support Vector Machine, SVM)[7]是在分類與回歸分析中分析數據的監督式學習模型與相關的學習演算法。給定一組訓練實例,每個訓練實例被標記為屬於兩個類別中的一個或另一個,SVM訓練演算法創建一個將新的實例分配給兩個類別之一的模型,使其成為非概率二元線性分類器。SVM模型是將實例表示為空間中的點,這樣映射就使得單獨類別的實例被盡可能寬的明顯的間隔分開。然後,將新的實例映射到同一空間,並基於它們落在間隔的哪一側來預測所屬類別。

除了進行線性分類之外,SVM還可以使用所謂的核技巧有效地進行非線性分類,將其輸入隱式映射到高維特徵空間中,即支持向量機在高維或無限維空間中構造超平面或超平面集合,用於分類、回歸或其他任務。直觀來說,分類邊界距離最近的訓練數據點越遠越好,因為這樣可以縮小分類器的泛化誤差。

八、EM

最大期望演算法(Expectation–Maximization Algorithm, EM)[7]是從概率模型中尋找參數最大似然估計的一種演算法。其中概率模型依賴於無法觀測的隱性變數。最大期望演算法經常用在機器學習和計算機視覺的數據聚類(Data Clustering)領域。最大期望演算法經過兩個步驟交替進行計算,第一步是計算期望(E),利用對隱藏變數的現有估計值,計算其最大似然估計值;第二步是最大化(M),最大化在E步上求得的最大似然值來計算參數的值。M步上找到的參數估計值被用於下一個E步計算中,這個過程不斷交替進行。

九、PageRank

PageRank演算法設計初衷是根據網站的外部鏈接和內部鏈接的數量和質量對網站的價值進行衡量。PageRank將每個到網頁的鏈接作為對該頁面的一次投票,被鏈接的越多,就意味著被其他網站投票越多。

演算法假設上網者將會不斷點網頁上的鏈接,當遇到了一個沒有任何鏈接出頁面的網頁,這時候上網者會隨機轉到另外的網頁開始瀏覽。設置在任意時刻,用戶到達某頁面後並繼續向後瀏覽的概率,該數值是根據上網者使用瀏覽器書簽的平均頻率估算而得。PageRank值可以表示為:

其中,是被研究的頁面集合,N表示頁面總數,是鏈接入頁面的集合,是從頁面鏈接處的集合。

PageRank演算法的主要缺點是的主要缺點是舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多外鏈,除非它是某個站點的子站點。

十、AdaBoost

AdaBoost方法[10]是一種迭代演算法,在每一輪中加入一個新的弱分類器,直到達到某個預定的足夠小的錯誤率。每一個訓練樣本都被賦予一個權重,表明它被某個分類器選入訓練集的概率。如果某個樣本點已經被准確地分類,那麼在構造下一個訓練集中,它被選中的概率就被降低;相反,如果某個樣本點沒有被准確地分類,那麼它的權重就得到提高。通過這樣的方式,AdaBoost方法能「聚焦於」那些較難分的樣本上。在具體實現上,最初令每個樣本的權重都相等,對於第k次迭代操作,我們就根據這些權重來選取樣本點,進而訓練分類器Ck。然後就根據這個分類器,來提高被它分錯的的樣本的權重,並降低被正確分類的樣本權重。然後,權重更新過的樣本集被用於訓練下一個分類器Ck[,並且如此迭代地進行下去。

AdaBoost方法的自適應在於:前一個分類器分錯的樣本會被用來訓練下一個分類器。AdaBoost方法對於雜訊數據和異常數據很敏感。但在一些問題中,AdaBoost方法相對於大多數其它學習演算法而言,不會很容易出現過擬合現象。AdaBoost方法中使用的分類器可能很弱(比如出現很大錯誤率),但只要它的分類效果比隨機好一點(比如兩類問題分類錯誤率略小於0.5),就能夠改善最終得到的模型。而錯誤率高於隨機分類器的弱分類器也是有用的,因為在最終得到的多個分類器的線性組合中,可以給它們賦予負系數,同樣也能提升分類效果。

引用

[1] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

[2] Altman, N. S. An introction to kernel and nearest-neighbor nonparametric regression. The American Statistician. 1992, 46 (3): 175–185. doi:10.1080/00031305.1992.10475879

[3] Webb, G. I.; Boughton, J.; Wang, Z. Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005, 58 (1): 5–24. doi:10.1007/s10994-005-4258-6

[4] decisiontrees.net Interactive Tutorial

[5] Hamerly, G. and Elkan, C. Alternatives to the k-means algorithm that find better clusterings (PDF). Proceedings of the eleventh international conference on Information and knowledge management (CIKM). 2002

[6] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.

[7] Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning. 1995, 20 (3): 273–297. doi:10.1007/BF00994018

[8] Arthur Dempster, Nan Laird, and Donald Rubin. "Maximum likelihood from incomplete data via the EM algorithm". Journal of the Royal Statistical Society, Series B, 39 (1):1–38, 1977

[9] Susan Moskwa. PageRank Distribution Removed From WMT. [October 16, 2009]

[10] Freund, Yoav; Schapire, Robert E. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting. 1995. CiteSeerX: 10.1.1.56.9855

B. 標准體重的演算法

計算標准體重的方法很多,不同國家的的標准體重可能也不一樣,世界衛生組織的的標准體重是這樣計算的,男性是(身高cm-80×70﹪=標准體重,女性是(身高cm-70×60﹪=標准體重,標准體重是反映和衡量一個人健康狀況的重要標志之一。

成人標准體重,一般是身高(cm)-105再乘2,而計算體重指數的方式是體重(kg)/身高(m)的平方,如果身體BMI指數在18.5-24之間,則屬於正常體重范圍,BMI在24-28之間,屬於超重。BMI大於等於28則屬於肥胖。老年人的體重指數一般在25左右屬於正常。

(2)標准演算法擴展閱讀

標准體重是反映和衡量一個人健康狀況的重要標志之一。過胖和過瘦都不利於健康,也不會給人以健美感。不同體型的大量統計材料表明,反映正常體重較理想和簡單的指標,可用身高體重的關系來表示。

輕度肥胖:超過標准體重 20% - 30 %

中度肥胖:超過標准體重 30% - 50 %

重度肥胖:超過標准體重 50% 以上

C. 標准體重怎麼計算

普遍採用的計算方法有兩種:

一種是:成年:〔身高(cm)-100〕×0.9=標准體重(kg)

另一種是:

男性:身高(cm)-105=標准體重(kg);女性:身高(cm)-100=標准體重(kg)

以上兩種計算方法,基本已被廣泛採用。

兒童標准體重的計算,簡便的方法是:

1~6個月:出生體重(kg)+月齡×0.6=標准體重(kg)

7~12個月:出生體重(kg)+月齡×0.5=標准體重(kg)

1歲以上:8+年齡×2=標准體重(kg)

(3)標准演算法擴展閱讀

標准體重是反映和衡量一個人健康的重要指標之一。太胖太瘦不利於健康,也不會給人一種健康的感覺。大量不同體型的統計資料表明,反映正常體重的理想而簡單的指標可以用身高與體重的關系來表示。

體重指數是用體重除以身高的平方得到的數字。它是世界上普遍使用的標准,用來測量身體的脂肪和瘦度,以及它是否健康。當我們需要比較和分析一個人的體重對不同身高的人的健康影響時,體重指數是一個中性和可靠的指標。

體重控制計劃可以使用四種療法:飲食和營養咨詢、行為療法、葯物和手術。飲食現在很少使用傳統的飲食療法;取而代之的是強調改變長期習慣。大多數項目教顧客如何安全、明智、漸進地進食。

D. 標准體重怎樣算

標准體重怎樣算

標准體重怎樣算,很多人不知道好身材的標準是什麼,其實主要還要看比例,那麼體重的標准呢,不同性別不同年齡不同身高都有不一樣的標准體重,以下分享標准體重怎樣算。

標准體重怎樣算1

標准體重計算公式:

男性=(身高cm-80)×70%;

女性=(身高cm-70)×60%;

BMI指數計算公式: BMI = 體重 ÷ 身高2;

所謂的標題體重,就是指在人體在健康狀態下合理范圍內的體重與身高比,而這個標准體重指數也是國際醫療組織、體檢機構來衡量人體胖瘦與健康的標准之一。

一胖百病來,身體太瘦或者太胖都是不正常的,太瘦就會出現營養不良,太胖就會出現「三高」,過胖和過瘦還會降低的身體的美感。

標准體重計算公式又稱為BMI計算公式,一個健康人的正常BMI值范圍應該是在:18.5~24之間,而標准體重只是一個相對的概念,並沒有一個固定的數值,可以說BMI是一種相當簡陋的健康評估方式,因為它沒有考慮到身體的外觀或機能表現等,雖然它對於宏觀人口研究是個不錯的工具,但對於個體而言並不適合。

由於標准體重(BMI)指數不會考慮男女性別、年齡因素,但是BMI只要超過24就是過重,超過28就是肥胖,然而正常情況下超過35歲的成年人體重應該比青少年重,這屬於正常現象。

標准體重計算公式算出的答案只是一個參考標准,如果想要更准確的了解自己的身體肥胖程度,那麼還要藉助「體脂率計算器」來完成,因為這個計算器是整合了性別、年齡、身高、體重等綜合數據算出來的結果,所以更加的科學精準。

不管我們的BMI值或者體重怎麼樣,我們都應該保持良好的生活以及飲食習慣,畢竟病從口入,多運動才是健康長壽的核心要素。

(4)標准演算法擴展閱讀

體重是反映和衡量一個人健康狀況的重要標志之一,過胖和過瘦都不利於健康,身高體重不協調也不會給人以美感。

體重的變化,會直接反映身體長期的熱量平衡狀態。

可以參考BMI指數,看自己的體重是否超標,因為每個人的骨骼大小存在差異,單純的標准體重不一定適合自己,要找到適合自己最佳體重。

標准體重怎樣算2

根據世界衛生組織推薦的計算方法:

男性標准體重計算方法為(身高cm-80)×70%

女性標准體重計算方法為(身高cm-70)×60%

評判標准如下表。

根據年齡的不同,標准體重演算法為:

年齡 x 2 + 8 ( 7 - 16 歲 )

評判標准如圖所示。

還有一種簡單的演算法是:標准體重=自身身高-105,不過這種演算法只適用於成年人。

而兒童的身高多少會跟兒童發育的快慢有關,所以也不一定在標準的范圍內才是健康的寶寶,希望在爸爸媽媽們悉心照料下健康的成長。

關於標准體重的計算方法有很多種,簡單的復雜的國際的通用的,大家僅作參考就好,不管符不符合標准體重都要愛惜身體,保持健康。

標准體重怎樣算3

身體比例標准

1、上、下身比例:以肚臍為界.上下身比例應為5比8。

2、胸圍:由腋下沿胸部的上方最豐滿處測量胸圍.應為身高的一半。

3、腰圍:在正常情況下.量腰的最細部位.腰圍較胸圍小20厘米。

4、髖圍:在體前恥骨平行於臀部最大部位.髖圍較胸圍大4厘米。

5、大腿圍:在大腿的最上部位.臀折線下.大腿圍較腰圍小10厘米。

6、小腿圍:在小腿最豐滿處.小腿圍較大腿圍小20厘米。

7、足頸圍:在足頸的最細部位.足頸圍較小腿圍小10厘米。

8、上臂圍:在肩關節與肘關節之間的中部.上臂圍等於大腿圍的'一半。

9、頸圍:在頸的中部最細處.頸圍與小腿圍相等。

10、肩寬:兩肩峰之間的距離.肩寬等於胸圍的一半減4厘米。

(4)標准演算法擴展閱讀

人體即一個人的身體,主要組成部分有頭、頸、軀干、雙臂及雙腿。在一般生物學或醫學而言,人體除包括以上各部分,亦包括呼吸、心血管、神經系統和其他內臟,而每部分皆由細胞構成。

人體表面是皮膚。皮膚下面有肌肉和骨骼。在頭部和軀幹部,由皮膚、肌肉和骨骼圍成為兩個大的腔:顱腔和體腔顱腔和脊柱里的椎管相通。

顱腔內有腦,與椎管中的脊髓相連。體腔又由膈分為上下兩個腔:上面的叫胸腔,內有心、肺等器官;下面的叫腹腔,腹腔的最下部(即骨盆內的部分)又叫盆腔,腹腔內有胃、腸、肝、腎等器官,盆腔內有膀胱和直腸,女性還有卵巢、子宮等器官。

骨骼結構是人體構造的關鍵,在外形上決定著人體比例的長短、體形的大小以及各肢體的生長形狀。人體約有206塊骨,組成人體的支架。

E. 30天標准工資演算法公式是什麼

按年、季、月的天數進行核算

年工作日:365天-104天(休息日)-11天(法定節假日)=250天

季工作日:250天÷4季=62.5天/季

月工作日:250天÷12月=20.83天/月

工作小時數的計算:以月、季、年的工作日乘以每日的8小時。

(5)標准演算法擴展閱讀:

按照《勞動法》第五十一條的規定,法定節假日用人單位應當依法支付工資,即折算日工資、小時工資時不剔除國家規定的11天法定節假日。據此,日工資、小時工資的折算為:

日工資:月工資收入÷月計薪天數

小時工資:月工資收入÷(月計薪天數×8小時)

月計薪天數=(365天-104天)÷12月=21.75天

根據計算方式的不同,各有所長。所以結合薪資,可根據實際情況判斷哪種情況更為符合自身。

熱點內容
如何給u盤文件夾加密 發布:2024-11-29 03:48:37 瀏覽:692
傳奇打元寶腳本 發布:2024-11-29 03:39:52 瀏覽:842
如何裝linux系統 發布:2024-11-29 03:38:17 瀏覽:182
咋清理緩存 發布:2024-11-29 03:18:38 瀏覽:12
linux伺服器的配置文件 發布:2024-11-29 03:18:31 瀏覽:615
安卓軟體誤刪軟體如何恢復 發布:2024-11-29 02:55:58 瀏覽:232
我的世界安卓手機如何改成官服 發布:2024-11-29 02:43:11 瀏覽:290
域伺服器如何進行管理 發布:2024-11-29 02:43:08 瀏覽:186
ftp失火 發布:2024-11-29 02:42:27 瀏覽:194
flashas編程 發布:2024-11-29 02:38:49 瀏覽:369