數據測演算法

發布時間: 2023-06-03 11:38:44

⑴ 大數據科學家需要掌握的幾種異常值檢測方法

引言

異常值檢測與告警一直是工業界非常關注的問題，自動准確地檢測出系統的異常值，不僅可以節約大量的人力物力，還能盡早發現系統的異常情況，挽回不必要的損失。個推也非常重視大數據中的異常值檢測，例如在運維部門的流量管理業務中，個推很早便展開了對異常值檢測的實踐，也因此積累了較為豐富的經驗。本文將從以下幾個方面介紹異常值檢測。

1、異常值檢測研究背景

2、異常值檢測方法原理

3、異常值檢測應用實踐

異常值檢測研究背景

異常值，故名思議就是不同於正常值的值。在數學上，可以用離群點來表述，這樣便可以將異常值檢測問題轉化為數學問題來求解。

異常值檢測在很多場景都有廣泛的應用，比如：

1、流量監測

互聯網上某些伺服器的訪問量，可能具有周期性或趨勢性：一般情況下都是相對平穩的，但是當受到某些黑客攻擊後，其訪問量可能發生顯著的變化，及早發現這些異常變化對企業而言有著很好的預防告警作用。

2、金融風控

正常賬戶中，用戶的轉賬行為一般屬於低頻事件，但在某些金融詐騙案中，一些嫌犯的賬戶就可能會出現高頻的轉賬行為，異常檢測系統如果能發現這些異常行為，及時採取相關措施，則會規避不少損失。

3、機器故障檢測

一個運行中的流水線，可能會裝有不同的感測器用來監測運行中的機器，這些感測器數據就反應了機器運行的狀態，這些實時的監測數據具有數據量大、維度廣的特點，用人工盯著看的話成本會非常高，高效的自動異常檢測演算法將能很好地解決這一問題。

異常值檢測方法原理

本文主要將異常值檢測方法分為兩大類：一類是基於統計的異常值檢測，另一類是基於模型的異常值檢測。

基於統計的方法

基於模型的方法

1、基於統計的異常值檢測方法

常見的基於統計的異常值檢測方法有以下2種，一種是基於3σ法則，一種是基於箱體圖。

3σ法則

箱體圖

3σ法則是指在樣本服從正態分布時，一般可認為小於μ-3σ或者大於μ+3σ的樣本值為異常樣本，其中μ為樣本均值，σ為樣本標准差。在實際使用中，我們雖然不知道樣本的真實分布，但只要真實分布與正太分布相差不是太大，該經驗法則在大部分情況下便是適用的。

箱體圖也是一種比較常見的異常值檢測方法，一般取所有樣本的25%分位點Q1和75%分位點Q3，兩者之間的距離為箱體的長度IQR，可認為小於Q1-1.5IQR或者大於Q3+1.5IQR的樣本值為異常樣本。

基於統計的異常檢測往往具有計算簡單、有堅實的統計學基礎等特點，但缺點也非常明顯，例如需要大量的樣本數據進行統計，難以對高維樣本數據進行異常值檢測等。

2、基於模型的異常值檢測

通常可將異常值檢測看作是一個二分類問題，即將所有樣本分為正常樣本和異常樣本，但這和常規的二分類問題又有所區別，常規的二分類一般要求正負樣本是均衡的，如果正負樣本不均勻的話，訓練結果往往會不太好。但在異常值檢測問題中，往往面臨著正（正常值）負（異常值）樣本不均勻的問題，異常值通常比正常值要少得多，因此需要對常規的二分類模型做一些改進。

基於模型的異常值檢測一般可分為有監督模型異常值檢測和無監督模型異常值檢測，比較典型的有監督模型如oneclassSVM、基於神經網路的自編碼器等。 oneclassSVM就是在經典的SVM基礎上改進而來，它用一個超球面替代了超平面，超球面以內的值為正常值，超球面以外的值為異常值。

經典的SVM

1

基於模型的方法

2

基於神經網路的自編碼器結構如下圖所示。

自編碼器（AE）

將正常樣本用於模型訓練，輸入與輸出之間的損失函數可採用常見的均方誤差，因此檢測過程中，當正常樣本輸入時，均方誤差會較小，當異常樣本輸入時，均方誤差會較大，設置合適的閾值便可將異常樣本檢測出來。但該方法也有缺點，就是對於訓練樣本比較相近的正常樣本判別較好，但若正常樣本與訓練樣本相差較大，則可能會導致模型誤判。

無監督模型的異常值檢測是異常值檢測中的主流方法，因為異常值的標注成本往往較高，另外異常值的產生往往無法預料，因此有些異常值可能在過去的樣本中根本沒有出現過，這將導致某些異常樣本無法標注，這也是有監督模型的局限性所在。較為常見的無監督異常值檢測模型有密度聚類（DBSCAN）、IsolationForest（IF）、RadomCutForest（RCF）等，其中DBSCAN是一種典型的無監督聚類方法，對某些類型的異常值檢測也能起到不錯的效果。該演算法原理網上資料較多，本文不作詳細介紹。

IF演算法最早由南京大學人工智慧學院院長周志華的團隊提出，是一種非常高效的異常值檢測方法，該方法不需要對樣本數據做任何先驗的假設，只需基於這樣一個事實——異常值只是少數，並且它們具有與正常值非常不同的屬性值。與隨機森林由大量決策樹組成一樣，IsolationForest也由大量的樹組成。IsolationForest中的樹叫isolation tree，簡稱iTree。iTree樹和決策樹不太一樣，其構建過程也比決策樹簡單，因為其中就是一個完全隨機的過程。

假設數據集有N條數據，構建一顆iTree時，從N條數據中均勻抽樣(一般是無放回抽樣)出n個樣本出來，作為這顆樹的訓練樣本。

在樣本中，隨機選一個特徵，並在這個特徵的所有值范圍內（最小值與最大值之間）隨機選一個值，對樣本進行二叉劃分，將樣本中小於該值的劃分到節點的左邊，大於等於該值的劃分到節點的右邊。

這樣得到了一個分裂條件和左、右兩邊的數據集，然後分別在左右兩邊的數據集上重復上面的過程，直至達到終止條件。終止條件有兩個，一個是數據本身不可再分(只包括一個樣本，或者全部樣本相同)，另外一個是樹的高度達到log2(n)。不同於決策樹，iTree在演算法裡面已經限制了樹的高度。不限制雖然也可行，但出於效率考慮，演算法一般要求高度達到log2(n)深度即可。

把所有的iTree樹構建好了，就可以對測試數據進行預測了。預測的過程就是把測試數據在iTree樹上沿對應的條件分支往下走，直到達到葉子節點，並記錄這過程中經過的路徑長度h(x)，即從根節點，穿過中間的節點，最後到達葉子節點，所走過的邊的數量(path length)。最後，將h(x)帶入公式，其中E(.)表示計算期望，c(n)表示當樣本數量為n時，路徑長度的平均值，從而便可計算出每條待測數據的異常分數s(Anomaly Score)。異常分數s具有如下性質：

1）如果分數s越接近1，則該樣本是異常值的可能性越高；

2）如果分數s越接近0，則該樣本是正常值的可能性越高；

RCF演算法與IF演算法思想上是比較類似的，前者可以看成是在IF演算法上做了一些改進。針對IF演算法中沒有考慮到的時間序列因素，RCF演算法考慮了該因素，並且在數據樣本采樣策略上作出了一些改進，使得異常值檢測相對IF演算法變得更加准確和高效，並能更好地應用於流式數據檢測。

IF演算法

RCF演算法

上圖展示了IF演算法和RCF演算法對於異常值檢測的異同。我們可以看出原始數據中有兩個突變異常數據值，對於後一個較大的突變異常值，IF演算法和RCF演算法都檢測了出來，但對於前一個較小的突變異常值，IF演算法沒有檢測出來，而RCF演算法依然檢測了出來，這意味著RCF有更好的異常值檢測性能。

異常值檢測應用實踐

理論還需結合實踐，下面我們將以某應用從2016.08.16至2019.09.21的日活變化情況為例，對異常值檢測的實際應用場景予以介紹：

從上圖中可以看出該應用的日活存在著一些顯著的異常值（比如紅色圓圈部分），這些異常值可能由於活動促銷或者更新迭代出現bug導致日活出現了比較明顯的波動。下面分別用基於統計的方法和基於模型的方法對該日活序列數據進行異常值檢測。

基於3σ法則（基於統計）

RCF演算法（基於模型）

從圖中可以看出，對於較大的突變異常值，3σ法則和RCF演算法都能較好地檢測出來，但對於較小的突變異常值，RCF演算法則要表現得更好。

總結

上文為大家講解了異常值檢測的方法原理以及應用實踐。綜合來看，異常值檢測演算法多種多樣，每一種都有自己的優缺點和適用范圍，很難直接判斷哪一種異常檢測演算法是最佳的，具體在實戰中，我們需要根據自身業務的特點，比如對計算量的要求、對異常值的容忍度等，選擇合適的異常值檢測演算法。

接下來，個推也會結合自身實踐，在大數據異常檢測方面不斷深耕，繼續優化演算法模型在不同業務場景中的性能，持續為開發者們分享前沿的理念與最新的實踐方案。

⑵ 目標檢測演算法（R-CNN，fast R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3）

深度學習目前已經應用到了各個領域，應用場景大體分為三類：物體識別，目標檢測，自然語言處理。目標檢測可以理解為是物體識別和物體定位的綜合，不僅僅要識別出物體屬於哪個分類，更重要的是得到物體在圖片中的具體位置。

2014年R-CNN演算法被提出，基本奠定了two-stage方式在目標檢測領域的應用。它的演算法結構如下圖

演算法步驟如下：

R-CNN較傳統的目標檢測演算法獲得了50%的性能提升，在使用VGG-16模型作為物體識別模型情況下，在voc2007數據集上可以取得66%的准確率，已經算還不錯的一個成績了。其最大的問題是速度很慢，內存佔用量很大，主要原因有兩個

針對R-CNN的部分問題，2015年微軟提出了Fast R-CNN演算法，它主要優化了兩個問題。

R-CNN和fast R-CNN均存在一個問題，那就是由選擇性搜索來生成候選框，這個演算法很慢。而且R-CNN中生成的2000個左右的候選框全部需要經過一次卷積神經網路，也就是需要經過2000次左右的CNN網路，這個是十分耗時的（fast R-CNN已經做了改進，只需要對整圖經過一次CNN網路）。這也是導致這兩個演算法檢測速度較慢的最主要原因。

faster R-CNN 針對這個問題，提出了RPN網路來進行候選框的獲取，從而擺脫了選擇性搜索演算法，也只需要一次卷積層操作，從而大大提高了識別速度。這個演算法十分復雜，我們會詳細分析。它的基本結構如下圖

主要分為四個步驟：

使用VGG-16卷積模型的網路結構：

卷積層採用的VGG-16模型，先將PxQ的原始圖片，縮放裁剪為MxN的圖片，然後經過13個conv-relu層，其中會穿插4個max-pooling層。所有的卷積的kernel都是3x3的，padding為1，stride為1。pooling層kernel為2x2, padding為0，stride為2。

MxN的圖片，經過卷積層後，變為了(M/16) x (N/16)的feature map了。

faster R-CNN拋棄了R-CNN中的選擇性搜索（selective search）方法，使用RPN層來生成候選框，能極大的提升候選框的生成速度。RPN層先經過3x3的卷積運算，然後分為兩路。一路用來判斷候選框是前景還是背景，它先reshape成一維向量，然後softmax來判斷是前景還是背景，然後reshape恢復為二維feature map。另一路用來確定候選框的位置，通過bounding box regression實現，後面再詳細講。兩路計算結束後，挑選出前景候選框（因為物體在前景中），並利用計算得到的候選框位置，得到我們感興趣的特徵子圖proposal。

卷積層提取原始圖像信息，得到了256個feature map，經過RPN層的3x3卷積後，仍然為256個feature map。但是每個點融合了周圍3x3的空間信息。對每個feature map上的一個點，生成k個anchor（k默認為9）。anchor分為前景和背景兩類（我們先不去管它具體是飛機還是汽車，只用區分它是前景還是背景即可）。anchor有[x,y,w,h]四個坐標偏移量，x,y表示中心點坐標，w和h表示寬度和高度。這樣，對於feature map上的每個點，就得到了k個大小形狀各不相同的選區region。

對於生成的anchors，我們首先要判斷它是前景還是背景。由於感興趣的物體位於前景中，故經過這一步之後，我們就可以舍棄背景anchors了。大部分的anchors都是屬於背景，故這一步可以篩選掉很多無用的anchor，從而減少全連接層的計算量。

對於經過了3x3的卷積後得到的256個feature map，先經過1x1的卷積，變換為18個feature map。然後reshape為一維向量，經過softmax判斷是前景還是背景。此處reshape的唯一作用就是讓數據可以進行softmax計算。然後輸出識別得到的前景anchors。

另一路用來確定候選框的位置，也就是anchors的[x,y,w,h]坐標值。如下圖所示，紅色代表我們當前的選區，綠色代表真實的選區。雖然我們當前的選取能夠大概框選出飛機，但離綠色的真實位置和形狀還是有很大差別，故需要對生成的anchors進行調整。這個過程我們稱為bounding box regression。

假設紅色框的坐標為[x,y,w,h], 綠色框，也就是目標框的坐標為[Gx, Gy,Gw,Gh], 我們要建立一個變換，使得[x,y,w,h]能夠變為[Gx, Gy,Gw,Gh]。最簡單的思路是，先做平移，使得中心點接近，然後進行縮放，使得w和h接近。如下：

我們要學習的就是dx dy dw dh這四個變換。由於是線性變換，我們可以用線性回歸來建模。設定loss和優化方法後，就可以利用深度學習進行訓練，並得到模型了。對於空間位置loss，我們一般採用均方差演算法，而不是交叉熵（交叉熵使用在分類預測中）。優化方法可以採用自適應梯度下降演算法Adam。

得到了前景anchors，並確定了他們的位置和形狀後，我們就可以輸出前景的特徵子圖proposal了。步驟如下：

1，得到前景anchors和他們的[x y w h]坐標。

2，按照anchors為前景的不同概率，從大到小排序，選取前pre_nms_topN個anchors，比如前6000個

3，剔除非常小的anchors。

4，通過NMS非極大值抑制，從anchors中找出置信度較高的。這個主要是為了解決選取交疊問題。首先計算每一個選區面積，然後根據他們在softmax中的score（也就是是否為前景的概率）進行排序，將score最大的選區放入隊列中。接下來，計算其餘選區與當前最大score選區的IOU（IOU為兩box交集面積除以兩box並集面積，它衡量了兩個box之間重疊程度）。去除IOU大於設定閾值的選區。這樣就解決了選區重疊問題。

5，選取前post_nms_topN個結果作為最終選區proposal進行輸出，比如300個。

經過這一步之後，物體定位應該就基本結束了，剩下的就是物體識別了。

和fast R-CNN中類似，這一層主要解決之前得到的proposal大小形狀各不相同，導致沒法做全連接。全連接計算只能對確定的shape進行運算，故必須使proposal大小形狀變為相同。通過裁剪和縮放的手段，可以解決這個問題，但會帶來信息丟失和圖片形變問題。我們使用ROI pooling可以有效的解決這個問題。

ROI pooling中，如果目標輸出為MxN，則在水平和豎直方向上，將輸入proposal劃分為MxN份，每一份取最大值，從而得到MxN的輸出特徵圖。

ROI Pooling層後的特徵圖，通過全連接層與softmax，就可以計算屬於哪個具體類別，比如人，狗，飛機，並可以得到cls_prob概率向量。同時再次利用bounding box regression精細調整proposal位置，得到bbox_pred，用於回歸更加精確的目標檢測框。

這樣就完成了faster R-CNN的整個過程了。演算法還是相當復雜的，對於每個細節需要反復理解。faster R-CNN使用resNet101模型作為卷積層，在voc2012數據集上可以達到83.8%的准確率，超過yolo ssd和yoloV2。其最大的問題是速度偏慢，每秒只能處理5幀，達不到實時性要求。

針對於two-stage目標檢測演算法普遍存在的運算速度慢的缺點， yolo創造性的提出了one-stage。也就是將物體分類和物體定位在一個步驟中完成。 yolo直接在輸出層回歸bounding box的位置和bounding box所屬類別，從而實現one-stage。通過這種方式， yolo可實現45幀每秒的運算速度，完全能滿足實時性要求（達到24幀每秒，人眼就認為是連續的）。它的網路結構如下圖：

主要分為三個部分：卷積層，目標檢測層，NMS篩選層。

採用Google inceptionV1網路，對應到上圖中的第一個階段，共20層。這一層主要是進行特徵提取，從而提高模型泛化能力。但作者對inceptionV1進行了改造，他沒有使用inception mole結構，而是用一個1x1的卷積，並聯一個3x3的卷積來替代。（可以認為只使用了inception mole中的一個分支，應該是為了簡化網路結構）

先經過4個卷積層和2個全連接層，最後生成7x7x30的輸出。先經過4個卷積層的目的是為了提高模型泛化能力。yolo將一副448x448的原圖分割成了7x7個網格，每個網格要預測兩個bounding box的坐標(x,y,w,h)和box內包含物體的置信度confidence，以及物體屬於20類別中每一類的概率（yolo的訓練數據為voc2012，它是一個20分類的數據集）。所以一個網格對應的參數為（4x2+2+20) = 30。如下圖

其中前一項表示有無人工標記的物體落入了網格內，如果有則為1，否則為0。第二項代表bounding box和真實標記的box之間的重合度。它等於兩個box面積交集，除以面積並集。值越大則box越接近真實位置。

分類信息： yolo的目標訓練集為voc2012，它是一個20分類的目標檢測數據集。常用目標檢測數據集如下表：

| Name | # Images (trainval) | # Classes | Last updated |

| --------------- | ------------------- | --------- | ------------ |

| ImageNet | 450k | 200 | 2015 |

| COCO | 120K | 90 | 2014 |

| Pascal VOC | 12k | 20 | 2012 |

| Oxford-IIIT Pet | 7K | 37 | 2012 |

| KITTI Vision | 7K | 3 | |

每個網格還需要預測它屬於20分類中每一個類別的概率。分類信息是針對每個網格的，而不是bounding box。故只需要20個，而不是40個。而confidence則是針對bounding box的，它只表示box內是否有物體，而不需要預測物體是20分類中的哪一個，故只需要2個參數。雖然分類信息和confidence都是概率，但表達含義完全不同。

篩選層是為了在多個結果中（多個bounding box）篩選出最合適的幾個，這個方法和faster R-CNN 中基本相同。都是先過濾掉score低於閾值的box，對剩下的box進行NMS非極大值抑制，去除掉重疊度比較高的box（NMS具體演算法可以回顧上面faster R-CNN小節）。這樣就得到了最終的最合適的幾個box和他們的類別。

yolo的損失函數包含三部分，位置誤差，confidence誤差，分類誤差。具體公式如下：

誤差均採用了均方差演算法，其實我認為，位置誤差應該採用均方差演算法，而分類誤差應該採用交叉熵。由於物體位置只有4個參數，而類別有20個參數，他們的累加和不同。如果賦予相同的權重，顯然不合理。故yolo中位置誤差權重為5，類別誤差權重為1。由於我們不是特別關心不包含物體的bounding box，故賦予不包含物體的box的置信度confidence誤差的權重為0.5，包含物體的權重則為1。

Faster R-CNN准確率mAP較高，漏檢率recall較低，但速度較慢。而yolo則相反，速度快，但准確率和漏檢率不盡人意。SSD綜合了他們的優缺點，對輸入300x300的圖像，在voc2007數據集上test，能夠達到58 幀每秒( Titan X 的 GPU )，72.1%的mAP。

SSD網路結構如下圖：

和yolo一樣，也分為三部分：卷積層，目標檢測層和NMS篩選層

SSD論文採用了VGG16的基礎網路，其實這也是幾乎所有目標檢測神經網路的慣用方法。先用一個CNN網路來提取特徵，然後再進行後續的目標定位和目標分類識別。

這一層由5個卷積層和一個平均池化層組成。去掉了最後的全連接層。SSD認為目標檢測中的物體，只與周圍信息相關，它的感受野不是全局的，故沒必要也不應該做全連接。SSD的特點如下。

每一個卷積層，都會輸出不同大小感受野的feature map。在這些不同尺度的feature map上，進行目標位置和類別的訓練和預測，從而達到多尺度檢測的目的，可以克服yolo對於寬高比不常見的物體，識別准確率較低的問題。而yolo中，只在最後一個卷積層上做目標位置和類別的訓練和預測。這是SSD相對於yolo能提高准確率的一個關鍵所在。

如上所示，在每個卷積層上都會進行目標檢測和分類，最後由NMS進行篩選，輸出最終的結果。多尺度feature map上做目標檢測，就相當於多了很多寬高比例的bounding box，可以大大提高泛化能力。

和faster R-CNN相似，SSD也提出了anchor的概念。卷積輸出的feature map，每個點對應為原圖的一個區域的中心點。以這個點為中心，構造出6個寬高比例不同，大小不同的anchor（SSD中稱為default box）。每個anchor對應4個位置參數(x,y,w,h)和21個類別概率（voc訓練集為20分類問題，在加上anchor是否為背景，共21分類）。如下圖所示：

另外，在訓練階段，SSD將正負樣本比例定位1：3。訓練集給定了輸入圖像以及每個物體的真實區域（ground true box），將default box和真實box最接近的選為正樣本。然後在剩下的default box中選擇任意一個與真實box IOU大於0.5的，作為正樣本。而其他的則作為負樣本。由於絕大部分的box為負樣本，會導致正負失衡，故根據每個box類別概率排序，使正負比例保持在1：3。SSD認為這個策略提高了4%的准確率

另外，SSD採用了數據增強。生成與目標物體真實box間IOU為0.1 0.3 0.5 0.7 0.9的patch，隨機選取這些patch參與訓練，並對他們進行隨機水平翻轉等操作。SSD認為這個策略提高了8.8%的准確率。

和yolo的篩選層基本一致，同樣先過濾掉類別概率低於閾值的default box，再採用NMS非極大值抑制，篩掉重疊度較高的。只不過SSD綜合了各個不同feature map上的目標檢測輸出的default box。

SSD基本已經可以滿足我們手機端上實時物體檢測需求了，TensorFlow在Android上的目標檢測官方模型ssd_mobilenet_v1_android_export.pb，就是通過SSD演算法實現的。它的基礎卷積網路採用的是mobileNet，適合在終端上部署和運行。

針對yolo准確率不高，容易漏檢，對長寬比不常見物體效果差等問題，結合SSD的特點，提出了yoloV2。它主要還是採用了yolo的網路結構，在其基礎上做了一些優化和改進，如下

網路採用DarkNet-19：19層，裡麵包含了大量3x3卷積，同時借鑒inceptionV1，加入1x1卷積核全局平均池化層。結構如下

yolo和yoloV2隻能識別20類物體，為了優化這個問題，提出了yolo9000，可以識別9000類物體。它在yoloV2基礎上，進行了imageNet和coco的聯合訓練。這種方式充分利用imageNet可以識別1000類物體和coco可以進行目標位置檢測的優點。當使用imageNet訓練時，只更新物體分類相關的參數。而使用coco時，則更新全部所有參數。

YOLOv3可以說出來直接吊打一切圖像檢測演算法。比同期的DSSD(反卷積SSD), FPN（feature pyramid networks）准確率更高或相仿，速度是其1/3.。

YOLOv3的改動主要有如下幾點：

不過如果要求更精準的預測邊框，採用COCO AP做評估標準的話，YOLO3在精確率上的表現就弱了一些。如下圖所示。

當前目標檢測模型演算法也是層出不窮。在two-stage領域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 演算法，將對抗學習引入到目標檢測領域。Face++也提出了Light-Head R-CNN，主要探討了 R-CNN 如何在物體檢測中平衡精確度和速度。

one-stage領域也是百花齊放，2017年首爾大學提出 R-SSD 演算法，主要解決小尺寸物體檢測效果差的問題。清華大學提出了 RON 演算法，結合 two stage 名的方法和 one stage 方法的優勢，更加關注多尺度對象定位和負空間樣本挖掘問題。

目標檢測領域的深度學習演算法，需要進行目標定位和物體識別，演算法相對來說還是很復雜的。當前各種新演算法也是層不出窮，但模型之間有很強的延續性，大部分模型演算法都是借鑒了前人的思想，站在巨人的肩膀上。我們需要知道經典模型的特點，這些tricks是為了解決什麼問題，以及為什麼解決了這些問題。這樣才能舉一反三，萬變不離其宗。綜合下來，目標檢測領域主要的難點如下：

一文讀懂目標檢測AI演算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2

從YOLOv1到v3的進化之路

SSD-Tensorflow超詳細解析【一】：載入模型對圖片進行測試 https://blog.csdn.net/k87974/article/details/80606407

YOLO https://pjreddie.com/darknet/yolo/ https://github.com/pjreddie/darknet

C#項目參考：https://github.com/AlturosDestinations/Alturos.Yolo

項目實踐貼個圖。

⑶ 經典目標檢測演算法介紹

姓名：牛曉銀；學號：20181213993；學院：計算機科學與技術

轉自：https://zhuanlan.hu.com/p/34142321

【嵌牛導讀】：目標檢測，也叫目標提取，是一種基於目標幾何和統計特徵的圖像分割。隨著計算機技術的發展和計算機視覺原理的廣泛應用，利用計算機圖像處理技術對目標進行實時跟蹤研究越來越熱門，對目標進行動態實時跟蹤定位在智能化交通系統、軍事目標檢測及醫學導航手術中手術器械定位等方面具有廣泛的應用價值。

【嵌牛鼻子】：目標檢測、檢測模型、計算機視覺

【嵌牛提問】：你知道或者用過哪些目標檢測演算法？

【嵌牛正文】：

（一）目標檢測經典工作回顧

本文結構

兩階段模型因其對圖片的兩階段處理得名，也稱為基於區域（Region-based）的方法，我們選取R-CNN系列工作作為這一類型的代表。

R-CNN: R-CNN系列的開山之作

論文鏈接： Rich feature hierarchies for accurate object detection and semantic segmentation

本文的兩大貢獻：1）CNN可用於基於區域的定位和分割物體；2）監督訓練樣本數緊缺時，在額外的數據上預訓練的模型經過fine-tuning可以取得很好的效果。第一個貢獻影響了之後幾乎所有2-stage方法，而第二個貢獻中用分類任務（Imagenet）中訓練好的模型作為基網路，在檢測問題上fine-tuning的做法也在之後的工作中一直沿用。

傳統的計算機視覺方法常用精心設計的手工特徵(如SIFT, HOG)描述圖像，而深度學習的方法則倡導習得特徵，從圖像分類任務的經驗來看，CNN網路自動習得的特徵取得的效果已經超出了手工設計的特徵。本篇在局部區域應用卷積網路，以發揮卷積網路學習高質量特徵的能力。

R-CNN將檢測抽象為兩個過程，一是基於圖片提出若干可能包含物體的區域（即圖片的局部裁剪，被稱為Region Proposal），文中使用的是Selective Search演算法；二是在提出的這些區域上運行當時表現最好的分類網路（AlexNet），得到每個區域內物體的類別。

另外，文章中的兩個做法值得注意。

一是數據的准備。輸入CNN前，我們需要根據Ground Truth對提出的Region Proposal進行標記，這里使用的指標是IoU（Intersection over Union，交並比）。IoU計算了兩個區域之交的面積跟它們之並的比，描述了兩個區域的重合程度。

文章中特別提到，IoU閾值的選擇對結果影響顯著，這里要談兩個threshold，一個用來識別正樣本（如跟ground truth的IoU大於0.5），另一個用來標記負樣本（即背景類，如IoU小於0.1），而介於兩者之間的則為難例（Hard Negatives），若標為正類，則包含了過多的背景信息，反之又包含了要檢測物體的特徵，因而這些Proposal便被忽略掉。

另一點是位置坐標的回歸（Bounding-Box Regression），這一過程是Region Proposal向Ground Truth調整，實現時加入了log/exp變換來使損失保持在合理的量級上，可以看做一種標准化（Normalization)操作。

小結

R-CNN的想法直接明了，即將檢測任務轉化為區域上的分類任務，是深度學習方法在檢測任務上的試水。模型本身存在的問題也很多，如需要訓練三個不同的模型（proposal, classification, regression）、重復計算過多導致的性能問題等。盡管如此，這篇論文的很多做法仍然廣泛地影響著檢測任務上的深度模型革命，後續的很多工作也都是針對改進這一工作而展開，此篇可以稱得上"The First Paper"。

Fast R-CNN: 共享卷積運算

論文鏈接： Fast R-CNN

文章指出R-CNN耗時的原因是CNN是在每一個Proposal上單獨進行的，沒有共享計算，便提出將基礎網路在圖片整體上運行完畢後，再傳入R-CNN子網路，共享了大部分計算，故有Fast之名。

上圖是Fast R-CNN的架構。圖片經過feature extractor得到feature map, 同時在原圖上運行Selective Search演算法並將RoI（Region of Interset，實為坐標組，可與Region Proposal混用）映射到到feature map上，再對每個RoI進行RoI Pooling操作便得到等長的feature vector，將這些得到的feature vector進行正負樣本的整理（保持一定的正負樣本比例），分batch傳入並行的R-CNN子網路，同時進行分類和回歸，並將兩者的損失統一起來。

RoI Pooling 是對輸入R-CNN子網路的數據進行准備的關鍵操作。我們得到的區域常常有不同的大小，在映射到feature map上之後，會得到不同大小的特徵張量。RoI Pooling先將RoI等分成目標個數的網格，再在每個網格上進行max pooling，就得到等長的RoI feature vector。

文章最後的討論也有一定的借鑒意義：

multi-loss traing相比單獨訓練classification確有提升

multi-scale相比single-scale精度略有提升，但帶來的時間開銷更大。一定程度上說明CNN結構可以內在地學習尺度不變性

在更多的數據(VOC)上訓練後，精度是有進一步提升的

Softmax分類器比"one vs rest"型的SVM表現略好，引入了類間的競爭

更多的Proposal並不一定帶來精度的提升

小結

Fast R-CNN的這一結構正是檢測任務主流2-stage方法所採用的元結構的雛形。文章將Proposal, Feature Extractor, Object Classification&Localization統一在一個整體的結構中，並通過共享卷積計算提高特徵利用效率，是最有貢獻的地方。

Faster R-CNN: 兩階段模型的深度化

論文鏈接： Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

Faster R-CNN是2-stage方法的奠基性工作，提出的RPN網路取代Selective Search演算法使得檢測任務可以由神經網路端到端地完成。粗略的講，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷積計算的特性使得RPN引入的計算量很小，使得Faster R-CNN可以在單個GPU上以5fps的速度運行，而在精度方面達到SOTA（State of the Art，當前最佳）。

本文的主要貢獻是提出Regional Proposal Networks，替代之前的SS演算法。RPN網路將Proposal這一任務建模為二分類（是否為物體）的問題。

第一步是在一個滑動窗口上生成不同大小和長寬比例的anchor box（如上圖右邊部分），取定IoU的閾值，按Ground Truth標定這些anchor box的正負。於是，傳入RPN網路的樣本數據被整理為anchor box（坐標）和每個anchor box是否有物體（二分類標簽）。RPN網路將每個樣本映射為一個概率值和四個坐標值，概率值反應這個anchor box有物體的概率，四個坐標值用於回歸定義物體的位置。最後將二分類和坐標回歸的損失統一起來，作為RPN網路的目標訓練。

由RPN得到Region Proposal在根據概率值篩選後經過類似的標記過程，被傳入R-CNN子網路，進行多分類和坐標回歸，同樣用多任務損失將二者的損失聯合。

小結

Faster R-CNN的成功之處在於用RPN網路完成了檢測任務的"深度化"。使用滑動窗口生成anchor box的思想也在後來的工作中越來越多地被採用（YOLO v2等）。這項工作奠定了"RPN+RCNN"的兩階段方法元結構，影響了大部分後續工作。

單階段（1-stage）檢測模型

單階段模型沒有中間的區域檢出過程，直接從圖片獲得預測結果，也被成為Region-free方法。

YOLO

論文鏈接： You Only Look Once: Unified, Real-Time Object Detection

YOLO是單階段方法的開山之作。它將檢測任務表述成一個統一的、端到端的回歸問題，並且以只處理一次圖片同時得到位置和分類而得名。

YOLO的主要優點：

快。

全局處理使得背景錯誤相對少，相比基於局部（區域）的方法，如Fast RCNN。

泛化性能好，在藝術作品上做檢測時，YOLO表現比Fast R-CNN好。

YOLO的工作流程如下：

1.准備數據：將圖片縮放，劃分為等分的網格，每個網格按跟Ground Truth的IoU分配到所要預測的樣本。

2.卷積網路：由GoogLeNet更改而來，每個網格對每個類別預測一個條件概率值，並在網格基礎上生成B個box，每個box預測五個回歸值，四個表徵位置，第五個表徵這個box含有物體（注意不是某一類物體）的概率和位置的准確程度（由IoU表示）。測試時，分數如下計算：

等式左邊第一項由網格預測，後兩項由每個box預測，以條件概率的方式得到每個box含有不同類別物體的分數。因而，卷積網路共輸出的預測值個數為S×S×(B×5+C)，其中S為網格數，B為每個網格生成box個數，C為類別數。

3.後處理：使用NMS（Non-Maximum Suppression，非極大抑制）過濾得到最後的預測框

損失函數的設計

損失函數被分為三部分：坐標誤差、物體誤差、類別誤差。為了平衡類別不均衡和大小物體等帶來的影響，損失函數中添加了權重並將長寬取根號。

小結

YOLO提出了單階段的新思路，相比兩階段方法，其速度優勢明顯，實時的特性令人印象深刻。但YOLO本身也存在一些問題，如劃分網格較為粗糙，每個網格生成的box個數等限制了對小尺度物體和相近物體的檢測。

SSD: Single Shot Multibox Detector

論文鏈接： SSD: Single Shot Multibox Detector

SSD相比YOLO有以下突出的特點：

多尺度的feature map：基於VGG的不同卷積段，輸出feature map到回歸器中。這一點試圖提升小物體的檢測精度。

更多的anchor box，每個網格點生成不同大小和長寬比例的box，並將類別預測概率基於box預測（YOLO是在網格上），得到的輸出值個數為(C+4)×k×m×n，其中C為類別數，k為box個數，m×n為feature map的大小。

小結

SSD是單階段模型早期的集大成者，達到跟接近兩階段模型精度的同時，擁有比兩階段模型快一個數量級的速度。後續的單階段模型工作大多基於SSD改進展開。

檢測模型基本特點

最後，我們對檢測模型的基本特徵做一個簡單的歸納。

檢測模型整體上由基礎網路（Backbone Network）和檢測頭部（Detection Head）構成。前者作為特徵提取器，給出圖像不同大小、不同抽象層次的表示；後者則依據這些表示和監督信息學習類別和位置關聯。檢測頭部負責的類別預測和位置回歸兩個任務常常是並行進行的，構成多任務的損失進行聯合訓練。

相比單階段，兩階段檢測模型通常含有一個串列的頭部結構，即完成前背景分類和回歸後，把中間結果作為RCNN頭部的輸入再進行一次多分類和位置回歸。這種設計帶來了一些優點：

對檢測任務的解構，先進行前背景的分類，再進行物體的分類，這種解構使得監督信息在不同階段對網路參數的學習進行指導

RPN網路為RCNN網路提供良好的先驗，並有機會整理樣本的比例，減輕RCNN網路的學習負擔

這種設計的缺點也很明顯：中間結果常常帶來空間開銷，而串列的方式也使得推斷速度無法跟單階段相比；級聯的位置回歸則會導致RCNN部分的重復計算（如兩個RoI有重疊）。

另一方面，單階段模型只有一次類別預測和位置回歸，卷積運算的共享程度更高，擁有更快的速度和更小的內存佔用。讀者將會在接下來的文章中看到，兩種類型的模型也在互相吸收彼此的優點，這也使得兩者的界限更為模糊。

⑷ 異常值檢測演算法--箱線圖四分位檢測異常值

首先，給大家講下什麼叫四分位數。顧名思義，就是把一堆數據排序會分成四份，找出其中的那三個點。中間那個叫中位數，下面那個叫下四分位數據，上面那個叫上四分位數。如下圖：

中間的兩個數是12和14，平均數13即為中位數。14以上的數字，最中間的數字是20即為上四分位數。12以下中間的數字是4即為下四分位數。

當然，也是更嚴謹的計算方法。對樣本數據或者全部數據線性回歸，找出概率密度函數。反函數y=0.5對應的x值為中位數，y=0.25對應的x值為下四分位數，y=0.75對應的x值為上四分位數

和3σ原則相比，箱線圖依據實際數據繪制，真實、直觀地表現出了數據分布的本來面貌，且沒有對數據作任何限制性要求（3σ原則要求數據服從正態分布或近似服從正態分布），其判斷異常值的標准以四分位數和四分位距為基礎。四分位數給出了數據分布的中心、散布和形狀的某種指示，具有一定的魯棒性，即25%的數據可以變得任意遠而不會很大地擾動四分位數，所以異常值通常不能對這個標准施加影響。鑒於此，箱線圖識別異常值的結果比較客觀，因此在識別異常值方面具有一定的優越性。
箱型圖提供了識別異常值的一個標准，即異常值通常被定義為小於QL-1.5IQR或大於QU+1.5IQR的值。其中，QL稱為下四分位數，表示全部觀察值中有四分之一的數據取值比它小；QU稱為上四分位數，表示全部觀察值中有四分之一的數據取值比它大；IQR稱為四分位數間距，是上四分位數QU與下四分位數QL之差，其間包含了全部觀察值的一半。

⑸ 數據挖掘演算法有哪些

以下主要是常見的10種數據挖掘的演算法，數據挖掘分為：分類（Logistic回歸模型、神經網路、支持向量機等）、關聯分析、聚類分析、孤立點分析。每一大類下都有好幾種演算法，這個具體可以參考數據挖掘概論這本書（英文最新版）

⑹ 數據挖掘中的預測演算法有哪些

數據挖掘（六）：預測
http://blog.csdn.net/kingzone_2008/article/details/8977837

⑺ 數據挖掘演算法有哪些

問題一：常用的數據挖掘演算法有哪幾類？ 10分有十大經典演算法：我是看譚磊的那本書學的。。。
下面是網站給出的答案：
1. C4.5
C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進：
1) 用信息增益率來選擇屬性，克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足；
2) 在樹構造過程中進行剪枝；
3) 能夠完成對連續屬性的離散化處理；
4) 能夠對不完整數據進行處理。
C4.5演算法有如下優點：產生的分類規則易於理解，准確率較高。其缺點是：在構造樹的過程中，需要對數據集進行多次的順序掃描和排序，因而導致演算法的低效。

2. The k-means algorithm 即K-Means演算法
k-means algorithm演算法是一個聚類演算法，把n的對象根據他們的屬性分為k個分割，k >

問題二：數據挖掘中的預測演算法有哪些數據挖掘（六）：預測
blog.csdn/...977837

問題三：用於數據挖掘的分類演算法有哪些，各有何優劣樸素貝葉斯(Naive Bayes, NB)
超級簡單，就像做一些數數的工作。如果條件獨立假設成立的話，NB將比鑒別模型（如Logistic回歸）收斂的更快，所以你只需要少量的訓練數據。即使條件獨立假設不成立，NB在實際中仍然表現出驚人的好。如果你想做類似半監督學習，或者是既要模型簡單又要性能好，NB值得嘗試。
Logistic回歸(Logistic Regression, LR)
LR有很多方法來對模型正則化。比起NB的條件獨立性假設，LR不需要考慮樣本是否是相關的。與決策樹與支持向量機（SVM）不同，NB有很好的概率解釋，且很容易利用新的訓練數據來更新模型（使用在線梯度下降法）。如果你想要一些概率信息（如，為了更容易的調整分類閾值，得到分類的不確定性，得到置信區間），或者希望將來有更多數據時能方便的更新改進模型，LR是值得使用的。
決策樹（Decision Tree, DT）
DT容易理解與解釋（對某些人而言――不確定我是否也在他們其中）。DT是非參數的，所以你不需要擔心野點（或離群點）和數據是否線性可分的問題（例如，DT可以輕松的處理這種情況：屬於A類的樣本的特徵x取值往往非常小或者非常大，而屬於B類的樣本的特徵轎伍x取值在中間范圍）。DT的主要缺點是容易過擬合，這也正是隨機森林（Random Forest, RF）（或者Boosted樹）等集成學習演算法被提出來的原因。此外，RF在很多分類問題中經常表現得最好（我個人相信一般比SVM稍好），且速度快可擴展，也不像SVM那樣需要調整大量的參數，所以最近RF是一個非常流行的演算法。
支持向量機（Support Vector Machine, SVM）
很高的分類正確率，對過擬合有很好的理論保證，選取合適的核函數，面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。由於較大的內存需求和搏帆瞎繁瑣的調參，我認為RF已經開始威脅其地位了。
回到LR與DT的問題（我更傾向是LR與RF的問題），做個簡單的總結：兩種方法都很快且可擴展。在正確率方面，RF比LR更優。但是LR可以在線更新且提供有用的概率信息。鑒於你在Square(不確定推斷科學家是什麼，應該不是有趣的化身)，可能從事欺詐檢測：如果你想快速的調整閾值來改變假陽性率與假陰性率，分類結果中包含概率信息將很有幫助。無論你選擇什麼演算法，如果你的各類樣本數量是不基空均衡的（在欺詐檢測中經常發生），你需要重新采樣各類數據或者調整你的誤差度量方法來使各類更均衡。

問題四：數據挖掘與演算法是什麼關系？ data mining：數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性（屬於Association rule learning）的信息的過程。reference:數據挖掘2.聚類和分類：關於這些，我相信再好的演算法，都會有一定的准確度，我沒有說這些東西不重要。3.如果你的數據量足夠大，舉個例子說明吧，數據挖掘是這樣做的，你要判斷什麼樣的蘋果是甜的，應該這樣做，去超市買蘋果，總結甜蘋果的特徵 A B ，第二次你也去買蘋果，就選具備這些特徵值的。存的的問題有可能買到的蘋果還不是甜的，可能原因是要同時包含特徵C。但是如果你數據量足夠大，足夠大，你要買的蘋果直接能夠找到，一模一樣的蘋果，是不是甜的，都已經知道啦，直接取出來不就好了嗎？前提是數據你想要什麼有什麼。@黃宇恆@肖智博@葛少華@余天升

問題五：數據挖掘的方法有哪些？利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等，它們分別從不同的角度對數據進行挖掘。1、分類分類是找出資料庫中一組數據對象的共同特點並按照分類模式將其劃分為不同的類，其目的是通過分類模型，將資料庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等，如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類，這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中，從而大大增加了商業機會。2、回歸分析回歸分析方法反映的是事務資料庫中屬性值在時間上的特徵，產生一個將數據項映射到一個實值預測變數的函數，發現變數或屬性間的依賴關系，其主要研究問題包括數據序列的趨勢特徵、數據序列的預測以及數據間的相關關系等。它可以應用到市場營銷的各個方面，如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。3、聚類聚類分析是把一組數據按照相似性和差異性分為幾個類別，其目的是使得屬於同一類別的數據間的相似性盡可能大，不同類別中的數據間的相似性盡可能小。它可以應用到客戶群體的分丹、客戶背景分析、客戶購買趨勢預測、市場的細分等。4、關聯規則關聯規則是描述資料庫中數據項之間所存在的關系的規則，即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現，即隱藏在數據間的關聯或相互關系。在客戶關系管理中，通過對企業的客戶資料庫里的大量數據進行挖掘，可以從大量的記錄中發現有趣的關聯關系，找出影響市場營銷效果的關鍵因素，為產品定位、定價與定製客戶群，客戶尋求、細分與保持，市場營銷與推銷，營銷風險評估和詐騙預測等決策支持提供參考依據。5、特徵特徵分析是從資料庫中的一組數據中提取出關於這些數據的特徵式，這些特徵式表達了該數據集的總體特徵。如營銷人員通過對客戶流失因素的特徵提取，可以得到導致客戶流失的一系列原因和主要特徵，利用這些特徵可以有效地預防客戶的流失。6、變化和偏差分析偏差包括很大一類潛在有趣的知識，如分類中的反常實例，模式的例外，觀察結果對期望的偏差等，其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中，管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。7、Web頁挖掘隨著Internet的迅速發展及Web 的全球普及，使得Web上的信息量無比豐富，通過對Web的挖掘，可以利用Web 的海量數據進行分析，收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息，集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息，並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆，對這些信息進行分析和處理，以便識別、分析、評價和管理危機。

問題六：數據挖掘中常見的分類方法有哪些判別分析、規則歸納、決策樹、神經網路、K最近鄰、基於案例的推理、遺傳演算法等等挺多的，這個問題范圍太大了，雲速數據挖掘分類挺多。

問題七：數據挖掘的方法有哪些利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等，它們分別從不同的角度對數據進行挖掘。
1、分類
分類是找出資料庫中一組數據對象的共同特點並按照分類模式將其劃分為不同的類，其目的是通過分類模型，將資料庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等，如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類，這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中，從而大大增加了商業機會。
2、回歸分析
回歸分析方法反映的是事務資料庫中屬性值在時間上的特徵，產生一個將數據項映射到一個實值預測變數的函數，發現變數或屬性間的依賴關系，其主要研究問題包括數據序列的趨勢特徵、數據序列的預測以及數據間的相關關系等。它可以應用到市場營銷的各個方面，如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。
3、聚類
聚類分析是把一組數據按照相似性和差異性分為幾個類別，其目的是使得屬於同一類別的數據間的相似性盡可能大，不同類別中的數據間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。
4、關聯規則
關聯規則是描述資料庫中數據項之間所存在的關系的規則，即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現，即隱藏在數據間的關聯或相互關系。在客戶關系管理中，通過對企業的客戶資料庫里的大量數據進行挖掘，可以從大量的記錄中發現有趣的關聯關系，找出影響市場營銷效果的關鍵因素，為產品定位、定價與定製客戶群，客戶尋求、細分與保持，市場營銷與推銷，營銷風險評估和詐騙預測等決策支持提供參考依據。
5、特徵
特徵分析是從資料庫中的一組數據中提取出關於這些數據的特徵式，這些特徵式表達了該數據集的總體特徵。如營銷人員通過對客戶流失因素的特徵提取，可以得到導致客戶流失的一系列原因和主要特徵，利用這些特徵可以有效地預防客戶的流失。
6、變化和偏差分析
偏差包括很大一類潛在有趣的知識，如分類中的反常實例，模式的例外，觀察結果對期望的偏差等，其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中，管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。
7、Web頁挖掘
隨著Internet的迅速發展及Web 的全球普及，使得Web上的信息量無比豐富，通過對Web的挖掘，可以利用Web 的海量數據進行分析，收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息，集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息，並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆，對這些信息進行分析和處理，以便識別、分析、評價和管理危機。

問題八：用於數據挖掘的分類演算法有哪些，各有何數據挖掘可以看看【雲速數據挖掘】，全中文界面，只要設置好挖掘的熟悉，什麼信息都能挖掘到

問題九：大數據挖掘常用的方法有哪些在大數據時代，數據挖掘是最關鍵的工作。大數據的挖掘是從海量、不完全的、有雜訊的、模糊的、隨機的大型資料庫中發現隱含在其中有價值的、潛在有用的信息和知識的過程，也是一種決策支持過程。其主要基於人工智慧，機器學習，模式學習，統計學等。通過對大數據高度自動化地分析，做出歸納性的推理，從中挖掘出潛在的模式，可以幫助企業、商家、用戶調整市場政策、減少風險、理性面對市場，並做出正確的決策。目前，在很多領域尤其是在商業領域如銀行、電信、電商等，數據挖掘可以解決很多問題，包括市場營銷策略制定、背景分析、企業管理危機等。大數據的挖掘常用的方法有分類、回歸分析、聚類、關聯規則、神經網路方法、Web 數據挖掘等。這些方法從不同的角度對數據進行挖掘。
(1)分類。分類是找出資料庫中的一組數據對象的共同特點並按照分類模式將其劃分為不同的類，其目的是通過分類模型，將資料庫中的數據項映射到摸個給定的類別中。可以應用到涉及到應用分類、趨勢預測中，如淘寶商鋪將用戶在一段時間內的購買情況劃分成不同的類，根據情況向用戶推薦關聯類的商品，從而增加商鋪的銷售量。
(2)回歸分析。回歸分析反映了資料庫中數據的屬性值的特性，通過函數表達數據映射的關系來發現屬性值之間的依賴關系。它可以應用到對數據序列的預測及相關關系的研究中去。在市場營銷中，回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析，對下一季度的銷售趨勢作出預測並做出針對性的營銷改變。
(3)聚類。聚類類似於分類，但與分類的目的不同，是針對數據的相似性和差異性將一組數據分為幾個類別。屬於同一類別的數據間的相似性很大，但不同類別之間數據的相似性很小，跨類的數據關聯性很低。
(4)關聯規則。關聯規則是隱藏在數據項之間的關聯或相互關系，即可以根據一個數據項的出現推導出其他數據項的出現。關聯規則的挖掘過程主要包括兩個階段：第一階段為從海量原始數據中找出所有的高頻項目組;第二極端為從這些高頻項目組產生關聯規則。關聯規則挖掘技術已經被廣泛應用於金融行業企業中用以預測客戶的需求，各銀行在自己的ATM 機上通過捆綁客戶可能感興趣的信息供用戶了解並獲取相應信息來改善自身的營銷。
(5)神經網路方法。神經網路作為一種先進的人工智慧技術，因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據為特徵的處理問題，它的這一特點十分適合解決數據挖掘的問題。典型的神經網路模型主要分為三大類：第一類是以用於分類預測和模式識別的前饋式神經網路模型，其主要代表為函數型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型，以Hopfield 的離散模型和連續模型為代表。第三類是用於聚類的自組織映射方法，以ART 模型為代表。雖然神經網路有多種模型及演算法，但在特定領域的數據挖掘中使用何種模型及演算法並沒有統一的規則，而且人們很難理解網路的學習及決策過程。
(6)Web數據挖掘。Web數據挖掘是一項綜合性技術，指Web 從文檔結構和使用的 *** C 中發現隱含的模式P，如果將C看做是輸入，P 看做是輸出，那麼Web 挖掘過程就可以看做是從輸入到輸出的一個映射過程。
當前越來越多的Web 數據都是以數據流的形式出現的，因此對Web 數據流挖掘就具有很重要的意義。目前常用的Web數據挖掘演算法有：PageRank演算法，HITS演算法以及LOGSOM 演算法。這三種演算法提到的用戶都是籠統的用戶，並沒有區分用戶的個體。目前Web 數據挖掘面臨著一些問題，包括：用戶的分類問題、網站內容時效性問題，用戶在頁面......>>

閱讀全文

熱點內容

scratch少兒編程課程發布：2025-04-16 17:11:44 瀏覽：631

榮耀x10從哪裡設置密碼發布：2025-04-16 17:11:43 瀏覽：360

java從入門到精通視頻發布：2025-04-16 17:11:43 瀏覽：76

php微信介面教程發布：2025-04-16 17:07:30 瀏覽：301

android實現陰影發布：2025-04-16 16:50:08 瀏覽：789

粉筆直播課緩存發布：2025-04-16 16:31:21 瀏覽：339

機頂盒都有什麼配置發布：2025-04-16 16:24:37 瀏覽：204

編寫手游反編譯都需要學習什麼發布：2025-04-16 16:19:36 瀏覽：804

proteus編譯文件位置發布：2025-04-16 16:18:44 瀏覽：358

土壓縮的本質發布：2025-04-16 16:13:21 瀏覽：584

數據測演算法

與數據測演算法相關的資訊