圖像測試演算法

發布時間: 2023-09-11 07:47:30

『壹』計算機視覺——典型的目標檢測演算法(Fast R-CNN演算法)（五）

【嵌牛導讀】目標檢測在現實中的應用很廣泛，我們需要檢測數字圖像中的物體位置以及類別，它需要我們構建一個模型，模型的輸入一張圖片，模型的輸出需要圈出圖片中所有物體的位置以及物體所屬的類別。在深度學習浪潮到來之前，目標檢測精度的進步十分緩慢，靠傳統依靠手工特徵的方法來提高精度已是相當困難的事。而ImageNet分類大賽出現的卷積神經網路（CNN）——AlexNet所展現的強大性能，吸引著學者們將CNN遷移到了其他的任務，這也包括著目標檢測任務，近年來，出現了很多目標檢測演算法。

【嵌牛鼻子】計算機視覺

【嵌牛提問】如何理解目標檢測演算法——Fast R-CNN

【嵌牛正文】

為克服SPP-Net 存衡基在的問題，2015 年Girshick 等提出基於邊界框和多任務損失分類的Fast R-CNN[31]演算法。該演算法將SPP 層簡化，設計出單尺度的ROI Pooling 池化層結構；將整張圖像的候選區域采樣成固定大小，生成特徵圖後作SVD分解，通過RoI Pooling層得到Softmax的分類得分和BoundingBox 外接矩形框的窗口回歸兩個向量；用Softmax 代替SVM 提出多任務損失函數思想，將深度網路和SVM分類兩個階段整合，即將分類問題和邊框回歸問題進行合並。

演算法詳解：

Fast R-CNN的流程圖如下，網路有兩個輸入：圖像和對應的region proposal 。其中region proposal由selective search方法得到，沒有表示在流程圖中。對每個類別都訓練一個回歸器，且只有非背景的region proposal才需要進行回歸。

ROI pooling：ROI Pooling的作用是對不同大小的region proposal，從最後卷積層輸出的feature map提取大小固定的feature map。簡單講可以看做是SPPNet的簡化版本，因為全連接層的輸入需要尺寸大小一樣，所以不能直接將不同大小的region proposal映射到feature map作為輸出，需要做尺寸變換。在文章中，VGG16網路使用搭中H=W=7的參數，即將一個h*w的region proposal分割成H*W大小的網格，然後知攔山將這個region proposal映射到最後一個卷積層輸出的feature map，最後計算每個網格里的最大值作為該網格的輸出，所以不管ROI pooling之前的feature map大小是多少，ROI pooling後得到的feature map大小都是H*W。

因此可以看出Fast RCNN主要有3個改進：1、卷積不再是對每個region proposal進行，而是直接對整張圖像，這樣減少了很多重復計算。原來RCNN是對每個region proposal分別做卷積，因為一張圖像中有2000左右的region proposal，肯定相互之間的重疊率很高，因此產生重復計算。2、用ROI pooling進行特徵的尺寸變換，因為全連接層的輸入要求尺寸大小一樣，因此不能直接把region proposal作為輸入。3、將regressor放進網路一起訓練，每個類別對應一個regressor，同時用softmax代替原來的SVM分類器。

在實際訓練中，每個mini-batch包含2張圖像和128個region proposal（或者叫ROI），也就是每張圖像有64個ROI。然後從這些ROI中挑選約25%的ROI，這些ROI和ground truth的IOU值都大於0.5。另外只採用隨機水平翻轉的方式增加數據集。

測試的時候則每張圖像大約2000個ROI。

損失函數的定義是將分類的loss和回歸的loss整合在一起，其中分類採用log loss，即對真實分類（下圖中的pu）的概率取負log，而回歸的loss和R-CNN基本一樣。分類層輸出K+1維，表示K個類和1個背景類。

這是回歸的loss，其中t^u表示預測的結果，u表示類別。v表示真實的結果，即bounding box regression target。

採用SVD分解改進全連接層。如果是一個普通的分類網路，那麼全連接層的計算應該遠不及卷積層的計算，但是針對object detection，Fast RCNN在ROI pooling後每個region proposal都要經過幾個全連接層，這使得全連接層的計算占網路的計算將近一半，如下圖，所以作者採用SVD來簡化全連接層的計算。另一篇博客鏈接講的R-FCN網路則是對這個全連接層計算優化的新的演算法。

稍微總結下訓練和測試的結構，如下面兩個圖，對演算法的理解會更清晰。

test結構圖在ROI Pooling層是怎麼輸出的畫得比較容易理解。

『貳』 yolo演算法是什麼

Yolo是一種目標檢測演算法。

目標檢測的任務是從圖片中找出物體並給出其類別和位置，對於單張圖片，輸出為圖片中包含的N個物體的每個物體的中心位置（x,y)、寬（w)、高（h)以及其類別。

Yolo的預測基於整個圖片，一次性輸出所有檢測到的目標信號，包括其類別和位置。Yolo首先將圖片分割為sxs個相同大小的grid。

介紹

Yolo只要求grid中識別的物體的中心必須在這個grid內（具體來說，若某個目標的中心點位於一個grid內，該grid輸出該目標類別的概率為1，所有其他grid對該目標預測概率設置為0)。

實現方法：讓sxs個框每個都預測出B個boungding box，bounding box有5個量，分別為物體的x,y,h,w和預測的置信度；每個grid預測B個bounding box和物體類別，類別使用one-hot表示。

『叄』 yolo演算法是什麼

YOLO 是一種使用神經網路提供實時對象檢測的演算法。該演算法因其速度和准確性而廣受歡迎。它已在各種應用中用於檢測交通信號、人員、停車計時器和動物。

YOLO 是「You Only Look Once」一詞的縮寫。這是一種演算法，可以（實時）檢測和識別圖片中的各種對象。YOLO 中的對象檢測是作為回歸問題完成的，並提供檢測到的圖像的類別概率。

YOLO 演算法採用卷積神經網路 (CNN) 實時檢測物體。顧名思義，該演算法只需要通過神經網路進行一次前向傳播來檢測物體。氏笑

這意味著整個圖像中的預測是在單個演算法運行中完成的。CNN 用於同時預測各種類別概率和邊界框。

YOLO 演算法由各種變體組成。

優點

1、速度：該余輪演算法提高了檢測速度，因為它可以實時預測物體。

2、高殲毀含精度：YOLO 是一種預測技術，可提供准確的結果且背景誤差最小。

3、學習能力：該演算法具有出色的學習能力，使其能夠學習對象的表示並將其應用於對象檢測。

『肆』 BP神經網路的原理的BP什麼意思

原文鏈接：http://tecdat.cn/?p=19936

在本教程中，您將學習如何在R語言中創建神經網路模型。

神經網路（或人工神經網路）具有通過樣本進行學習的能力。人工神經網路是一種受生物神經元系統啟發的信息處理模型。它由大量高度互連的處理元件（稱為神經元）組成，以解決問題。它遵循非線性路徑，並在整個節點中並行處理信息。神經網路是一個復雜的自適應系統。自適應意味著它可以通過調整輸入權重來更改其內部結構。

該神經網路旨在解決人類容易遇到的問題和機器難以解決的問題，例如識別貓和狗的圖片，識別編號的圖片。這些問題通常稱為模式識別。它的應用范圍從光學字元識別到目標檢測。

本教程將涵蓋以下主題：

神經網路概論
正向傳播和反向傳播
激活函數
R中神經網路的實現
案例
利弊
結論

神經網路概論

神經網路是受人腦啟發執行特定任務的演算法。它是一組連接的輸入/輸出單元，其中每個連接都具有與之關聯的權重。在學習階段，網路通過調整權重進行學習，來預測給定輸入的正確類別標簽。

人腦由數十億個處理信息的神經細胞組成。每個神經細胞都認為是一個簡單的處理系統。被稱為生物神經網路的神經元通過電信號傳輸信息。這種並行的交互系統使大腦能夠思考和處理信息。一個神經元的樹突接收來自另一個神經元的輸入信號，並根據這些輸入將輸出響應到某個其他神經元的軸突。

創建測試數據集

創建測試數據集：專業知識得分和溝通技能得分

# 創建測試集test=data.frame(專業知識,溝通技能得分)

預測測試集的結果

使用計算函數預測測試數據的概率得分。

## 使用神經網路進行預測Pred$result

0.99282020800.33355439250.9775153014

現在，將概率轉換為二進制類。

# 將概率轉換為設置閾值0.5的二進制類別pred <- ifelse(prob>0.5, 1, 0)pred

預測結果為1,0和1。

利弊

神經網路更靈活，可以用於回歸和分類問題。神經網路非常適合具有大量輸入（例如圖像）的非線性數據集，可以使用任意數量的輸入和層，可以並行執行工作。

還有更多可供選擇的演算法，例如SVM，決策樹和回歸演算法，這些演算法簡單，快速，易於訓練並提供更好的性能。神經網路更多的是黑盒子，需要更多的開發時間和更多的計算能力。與其他機器學習演算法相比，神經網路需要更多的數據。NN僅可用於數字輸入和非缺失值數據集。一位著名的神經網路研究人員說：「神經網路是解決任何問題的第二好的方法。最好的方法是真正理解問題。」

神經網路的用途

神經網路的特性提供了許多應用方面，例如：

模式識別：神經網路非常適合模式識別問題，例如面部識別，物體檢測，指紋識別等。
異常檢測：神經網路擅長異常檢測，它們可以輕松檢測出不適合常規模式的異常模式。
時間序列預測：神經網路可用於預測時間序列問題，例如股票價格，天氣預報。
自然語言處理：神經網路在自然語言處理任務中提供了廣泛的應用，例如文本分類，命名實體識別（NER），詞性標記，語音識別和拼寫檢查。

最受歡迎的見解

1.r語言用神經網路改進nelson-siegel模型擬合收益率曲線分析

2.r語言實現擬合神經網路預測和結果可視化

3.python用遺傳演算法-神經網路-模糊邏輯控制演算法對樂透分析

4.用於nlp的python：使用keras的多標簽文本lstm神經網路分類

5.用r語言實現神經網路預測股票實例

6.R語言基於Keras的小數據集深度學習圖像分類

7.用於NLP的seq2seq模型實例用Keras實現神經機器翻譯

8.python中基於網格搜索演算法優化的深度學習模型分析糖

9.matlab使用貝葉斯優化的深度學習

『伍』一般圖像的清晰度用什麼演算法來檢測

有多種評價函數，需要根據圖像來合理選取一種評價函數；
如果樓主是用matlab模擬來做的話，比較簡單。
常用的有 sobel robert LoG 等等
還用用灰度方差函數的，熵函數的還有用頻率域的。總之不下十種吧。
還可以自己設計一種運算元，只要能實現功能就好~！

『陸』目標檢測演算法是什麼

目標檢測演算法是先通過訓練集學習一個分類器，然後在測試圖像中以不同scale的窗口滑動掃描整個圖像；每次掃描做一下分類，判斷一下當前的這個窗口是否為要檢測的目標。檢測演算法的核心是分類，分類的核心一個是用什麼特徵，一個是用哪種分類器。

(6)圖像測試演算法擴展閱讀：

目標檢測演算法可以分為：

1、背景建模法，包含時間平均模型、混合高斯模型、動態紋理背景、PCA模型、時一空聯合分布背景模型

2、點檢測法，包含Moravec檢測器、Harris檢測器、仿射不變點檢測、S IFT

3、圖像分割法，包含Mean Shift方法、Graph-cut方法、Active Contours方法

4、聚類分析法，包含支持向量機、神經網路、Adaptive Boosting

5、運動矢量場法，包含基於運動矢量場的方法

『柒』如何利用opencv實現彩色圖像邊緣檢測演算法

在opencv中顯示邊緣檢測很簡單，只需調用一個cvCanny函數，其使用的是Canny演算法來實現對圖像的邊緣檢測．
函數原型為：
void cvCanny( const CvArr* image,CvArr* edges,double threshold1,double threshold2, int aperture_size=3 );
第一個參數為待檢測的圖像，注意一點，其必須是灰度圖．
第二個參數為輸出的邊緣圖，其也是一個灰度圖．
後三個參數與Canny演算法直接相關，threshold1和threshold2 當中的小閾值用來控制邊緣連接，大的閾值用來控制強邊緣的初始分割，aperture_size運算元內核大小，可以去看看Canny演算法．
從彩色圖到灰度圖需要使用到cvCvtColor函數，其接受三個參數，第一為輸入，第二為輸出，第三個為轉換的標識，我們這邊是RGB到GRAY，使用的是CV_RGB2GRAY．
參考demo代碼如下：

#include <iostream>

#include <string>
#include <sstream>
#include <opencv/cv.h>
#include <opencv/highgui.h>

using namespace std;

int String2int(const string& str_)
{
int _nre = 0;
stringstream _ss;
_ss << str_;
_ss >> _nre;
return _nre;
}

void DoCanny(const string& strFileName_)
{
//原彩色圖片
IplImage* _pIplImageIn = cvLoadImage(strFileName_.data());

if (_pIplImageIn == NULL)
{
return;
}
//彩色圖片轉換成灰度圖放置的圖片
IplImage* _pIplImageCanny = cvCreateImage(cvGetSize(_pIplImageIn), _pIplImageIn->depth, 1);
cvCvtColor(_pIplImageIn, _pIplImageCanny, CV_RGB2GRAY);//CV_RGB2GRAY將rgb圖轉成灰度圖
//只有邊緣路徑的圖片
IplImage* _pIplImageOut = cvCreateImage(cvGetSize(_pIplImageIn), IPL_DEPTH_8U, 1);

//邊緣檢測只能作用於灰度圖
if (_pIplImageCanny->nChannels != 1)
{
return;
}

//邊緣檢測操作
cvCanny(_pIplImageCanny, _pIplImageOut, 1, 110, 3);

cvNamedWindow("Src");
cvShowImage("Src", _pIplImageIn);
cvNamedWindow("Canny");
cvShowImage("Canny", _pIplImageOut);

cvWaitKey(0);

cvReleaseImage(&_pIplImageIn);
cvReleaseImage(&_pIplImageCanny);
cvReleaseImage(&_pIplImageOut);

cvDestroyWindow("Src");
cvDestroyWindow("Canny");

}

int main(int argc, char* argv[])
{
if (argc < 2)
{
cout << "You should give the filename of picture!" << endl;
return -1;
}
DoCanny(argv[1]);
return 0;
}

『捌』目標檢測演算法（R-CNN，fast R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3）

深度學習目前已經應用到了各個領域，應用場景大體分為三類：物體識別，目標檢測，自然語言處理。目標檢測可以理解為是物體識別和物體定位的綜合，不僅僅要識別出物體屬於哪個分類，更重要的是得到物體在圖片中的具體位置。

2014年R-CNN演算法被提出，基本奠定了two-stage方式在目標檢測領域的應用。它的演算法結構如下圖

演算法步驟如下：

R-CNN較傳統的目標檢測演算法獲得了50%的性能提升，在使用VGG-16模型作為物體識別模型情況下，在voc2007數據集上可以取得66%的准確率，已經算還不錯的一個成績了。其最大的問題是速度很慢，內存佔用量很大，主要原因有兩個

針對R-CNN的部分問題，2015年微軟提出了Fast R-CNN演算法，它主要優化了兩個問題。

R-CNN和fast R-CNN均存在一個問題，那就是由選擇性搜索來生成候選框，這個演算法很慢。而且R-CNN中生成的2000個左右的候選框全部需要經過一次卷積神經網路，也就是需要經過2000次左右的CNN網路，這個是十分耗時的（fast R-CNN已經做了改進，只需要對整圖經過一次CNN網路）。這也是導致這兩個演算法檢測速度較慢的最主要原因。

faster R-CNN 針對這個問題，提出了RPN網路來進行候選框的獲取，從而擺脫了選擇性搜索演算法，也只需要一次卷積層操作，從而大大提高了識別速度。這個演算法十分復雜，我們會詳細分析。它的基本結構如下圖

主要分為四個步驟：

使用VGG-16卷積模型的網路結構：

卷積層採用的VGG-16模型，先將PxQ的原始圖片，縮放裁剪為MxN的圖片，然後經過13個conv-relu層，其中會穿插4個max-pooling層。所有的卷積的kernel都是3x3的，padding為1，stride為1。pooling層kernel為2x2, padding為0，stride為2。

MxN的圖片，經過卷積層後，變為了(M/16) x (N/16)的feature map了。

faster R-CNN拋棄了R-CNN中的選擇性搜索（selective search）方法，使用RPN層來生成候選框，能極大的提升候選框的生成速度。RPN層先經過3x3的卷積運算，然後分為兩路。一路用來判斷候選框是前景還是背景，它先reshape成一維向量，然後softmax來判斷是前景還是背景，然後reshape恢復為二維feature map。另一路用來確定候選框的位置，通過bounding box regression實現，後面再詳細講。兩路計算結束後，挑選出前景候選框（因為物體在前景中），並利用計算得到的候選框位置，得到我們感興趣的特徵子圖proposal。

卷積層提取原始圖像信息，得到了256個feature map，經過RPN層的3x3卷積後，仍然為256個feature map。但是每個點融合了周圍3x3的空間信息。對每個feature map上的一個點，生成k個anchor（k默認為9）。anchor分為前景和背景兩類（我們先不去管它具體是飛機還是汽車，只用區分它是前景還是背景即可）。anchor有[x,y,w,h]四個坐標偏移量，x,y表示中心點坐標，w和h表示寬度和高度。這樣，對於feature map上的每個點，就得到了k個大小形狀各不相同的選區region。

對於生成的anchors，我們首先要判斷它是前景還是背景。由於感興趣的物體位於前景中，故經過這一步之後，我們就可以舍棄背景anchors了。大部分的anchors都是屬於背景，故這一步可以篩選掉很多無用的anchor，從而減少全連接層的計算量。

對於經過了3x3的卷積後得到的256個feature map，先經過1x1的卷積，變換為18個feature map。然後reshape為一維向量，經過softmax判斷是前景還是背景。此處reshape的唯一作用就是讓數據可以進行softmax計算。然後輸出識別得到的前景anchors。

另一路用來確定候選框的位置，也就是anchors的[x,y,w,h]坐標值。如下圖所示，紅色代表我們當前的選區，綠色代表真實的選區。雖然我們當前的選取能夠大概框選出飛機，但離綠色的真實位置和形狀還是有很大差別，故需要對生成的anchors進行調整。這個過程我們稱為bounding box regression。

假設紅色框的坐標為[x,y,w,h], 綠色框，也就是目標框的坐標為[Gx, Gy,Gw,Gh], 我們要建立一個變換，使得[x,y,w,h]能夠變為[Gx, Gy,Gw,Gh]。最簡單的思路是，先做平移，使得中心點接近，然後進行縮放，使得w和h接近。如下：

我們要學習的就是dx dy dw dh這四個變換。由於是線性變換，我們可以用線性回歸來建模。設定loss和優化方法後，就可以利用深度學習進行訓練，並得到模型了。對於空間位置loss，我們一般採用均方差演算法，而不是交叉熵（交叉熵使用在分類預測中）。優化方法可以採用自適應梯度下降演算法Adam。

得到了前景anchors，並確定了他們的位置和形狀後，我們就可以輸出前景的特徵子圖proposal了。步驟如下：

1，得到前景anchors和他們的[x y w h]坐標。

2，按照anchors為前景的不同概率，從大到小排序，選取前pre_nms_topN個anchors，比如前6000個

3，剔除非常小的anchors。

4，通過NMS非極大值抑制，從anchors中找出置信度較高的。這個主要是為了解決選取交疊問題。首先計算每一個選區面積，然後根據他們在softmax中的score（也就是是否為前景的概率）進行排序，將score最大的選區放入隊列中。接下來，計算其餘選區與當前最大score選區的IOU（IOU為兩box交集面積除以兩box並集面積，它衡量了兩個box之間重疊程度）。去除IOU大於設定閾值的選區。這樣就解決了選區重疊問題。

5，選取前post_nms_topN個結果作為最終選區proposal進行輸出，比如300個。

經過這一步之後，物體定位應該就基本結束了，剩下的就是物體識別了。

和fast R-CNN中類似，這一層主要解決之前得到的proposal大小形狀各不相同，導致沒法做全連接。全連接計算只能對確定的shape進行運算，故必須使proposal大小形狀變為相同。通過裁剪和縮放的手段，可以解決這個問題，但會帶來信息丟失和圖片形變問題。我們使用ROI pooling可以有效的解決這個問題。

ROI pooling中，如果目標輸出為MxN，則在水平和豎直方向上，將輸入proposal劃分為MxN份，每一份取最大值，從而得到MxN的輸出特徵圖。

ROI Pooling層後的特徵圖，通過全連接層與softmax，就可以計算屬於哪個具體類別，比如人，狗，飛機，並可以得到cls_prob概率向量。同時再次利用bounding box regression精細調整proposal位置，得到bbox_pred，用於回歸更加精確的目標檢測框。

這樣就完成了faster R-CNN的整個過程了。演算法還是相當復雜的，對於每個細節需要反復理解。faster R-CNN使用resNet101模型作為卷積層，在voc2012數據集上可以達到83.8%的准確率，超過yolo ssd和yoloV2。其最大的問題是速度偏慢，每秒只能處理5幀，達不到實時性要求。

針對於two-stage目標檢測演算法普遍存在的運算速度慢的缺點， yolo創造性的提出了one-stage。也就是將物體分類和物體定位在一個步驟中完成。 yolo直接在輸出層回歸bounding box的位置和bounding box所屬類別，從而實現one-stage。通過這種方式， yolo可實現45幀每秒的運算速度，完全能滿足實時性要求（達到24幀每秒，人眼就認為是連續的）。它的網路結構如下圖：

主要分為三個部分：卷積層，目標檢測層，NMS篩選層。

採用Google inceptionV1網路，對應到上圖中的第一個階段，共20層。這一層主要是進行特徵提取，從而提高模型泛化能力。但作者對inceptionV1進行了改造，他沒有使用inception mole結構，而是用一個1x1的卷積，並聯一個3x3的卷積來替代。（可以認為只使用了inception mole中的一個分支，應該是為了簡化網路結構）

先經過4個卷積層和2個全連接層，最後生成7x7x30的輸出。先經過4個卷積層的目的是為了提高模型泛化能力。yolo將一副448x448的原圖分割成了7x7個網格，每個網格要預測兩個bounding box的坐標(x,y,w,h)和box內包含物體的置信度confidence，以及物體屬於20類別中每一類的概率（yolo的訓練數據為voc2012，它是一個20分類的數據集）。所以一個網格對應的參數為（4x2+2+20) = 30。如下圖

其中前一項表示有無人工標記的物體落入了網格內，如果有則為1，否則為0。第二項代表bounding box和真實標記的box之間的重合度。它等於兩個box面積交集，除以面積並集。值越大則box越接近真實位置。

分類信息： yolo的目標訓練集為voc2012，它是一個20分類的目標檢測數據集。常用目標檢測數據集如下表：

| Name | # Images (trainval) | # Classes | Last updated |

| --------------- | ------------------- | --------- | ------------ |

| ImageNet | 450k | 200 | 2015 |

| COCO | 120K | 90 | 2014 |

| Pascal VOC | 12k | 20 | 2012 |

| Oxford-IIIT Pet | 7K | 37 | 2012 |

| KITTI Vision | 7K | 3 | |

每個網格還需要預測它屬於20分類中每一個類別的概率。分類信息是針對每個網格的，而不是bounding box。故只需要20個，而不是40個。而confidence則是針對bounding box的，它只表示box內是否有物體，而不需要預測物體是20分類中的哪一個，故只需要2個參數。雖然分類信息和confidence都是概率，但表達含義完全不同。

篩選層是為了在多個結果中（多個bounding box）篩選出最合適的幾個，這個方法和faster R-CNN 中基本相同。都是先過濾掉score低於閾值的box，對剩下的box進行NMS非極大值抑制，去除掉重疊度比較高的box（NMS具體演算法可以回顧上面faster R-CNN小節）。這樣就得到了最終的最合適的幾個box和他們的類別。

yolo的損失函數包含三部分，位置誤差，confidence誤差，分類誤差。具體公式如下：

誤差均採用了均方差演算法，其實我認為，位置誤差應該採用均方差演算法，而分類誤差應該採用交叉熵。由於物體位置只有4個參數，而類別有20個參數，他們的累加和不同。如果賦予相同的權重，顯然不合理。故yolo中位置誤差權重為5，類別誤差權重為1。由於我們不是特別關心不包含物體的bounding box，故賦予不包含物體的box的置信度confidence誤差的權重為0.5，包含物體的權重則為1。

Faster R-CNN准確率mAP較高，漏檢率recall較低，但速度較慢。而yolo則相反，速度快，但准確率和漏檢率不盡人意。SSD綜合了他們的優缺點，對輸入300x300的圖像，在voc2007數據集上test，能夠達到58 幀每秒( Titan X 的 GPU )，72.1%的mAP。

SSD網路結構如下圖：

和yolo一樣，也分為三部分：卷積層，目標檢測層和NMS篩選層

SSD論文採用了VGG16的基礎網路，其實這也是幾乎所有目標檢測神經網路的慣用方法。先用一個CNN網路來提取特徵，然後再進行後續的目標定位和目標分類識別。

這一層由5個卷積層和一個平均池化層組成。去掉了最後的全連接層。SSD認為目標檢測中的物體，只與周圍信息相關，它的感受野不是全局的，故沒必要也不應該做全連接。SSD的特點如下。

每一個卷積層，都會輸出不同大小感受野的feature map。在這些不同尺度的feature map上，進行目標位置和類別的訓練和預測，從而達到多尺度檢測的目的，可以克服yolo對於寬高比不常見的物體，識別准確率較低的問題。而yolo中，只在最後一個卷積層上做目標位置和類別的訓練和預測。這是SSD相對於yolo能提高准確率的一個關鍵所在。

如上所示，在每個卷積層上都會進行目標檢測和分類，最後由NMS進行篩選，輸出最終的結果。多尺度feature map上做目標檢測，就相當於多了很多寬高比例的bounding box，可以大大提高泛化能力。

和faster R-CNN相似，SSD也提出了anchor的概念。卷積輸出的feature map，每個點對應為原圖的一個區域的中心點。以這個點為中心，構造出6個寬高比例不同，大小不同的anchor（SSD中稱為default box）。每個anchor對應4個位置參數(x,y,w,h)和21個類別概率（voc訓練集為20分類問題，在加上anchor是否為背景，共21分類）。如下圖所示：

另外，在訓練階段，SSD將正負樣本比例定位1：3。訓練集給定了輸入圖像以及每個物體的真實區域（ground true box），將default box和真實box最接近的選為正樣本。然後在剩下的default box中選擇任意一個與真實box IOU大於0.5的，作為正樣本。而其他的則作為負樣本。由於絕大部分的box為負樣本，會導致正負失衡，故根據每個box類別概率排序，使正負比例保持在1：3。SSD認為這個策略提高了4%的准確率

另外，SSD採用了數據增強。生成與目標物體真實box間IOU為0.1 0.3 0.5 0.7 0.9的patch，隨機選取這些patch參與訓練，並對他們進行隨機水平翻轉等操作。SSD認為這個策略提高了8.8%的准確率。

和yolo的篩選層基本一致，同樣先過濾掉類別概率低於閾值的default box，再採用NMS非極大值抑制，篩掉重疊度較高的。只不過SSD綜合了各個不同feature map上的目標檢測輸出的default box。

SSD基本已經可以滿足我們手機端上實時物體檢測需求了，TensorFlow在Android上的目標檢測官方模型ssd_mobilenet_v1_android_export.pb，就是通過SSD演算法實現的。它的基礎卷積網路採用的是mobileNet，適合在終端上部署和運行。

針對yolo准確率不高，容易漏檢，對長寬比不常見物體效果差等問題，結合SSD的特點，提出了yoloV2。它主要還是採用了yolo的網路結構，在其基礎上做了一些優化和改進，如下

網路採用DarkNet-19：19層，裡麵包含了大量3x3卷積，同時借鑒inceptionV1，加入1x1卷積核全局平均池化層。結構如下

yolo和yoloV2隻能識別20類物體，為了優化這個問題，提出了yolo9000，可以識別9000類物體。它在yoloV2基礎上，進行了imageNet和coco的聯合訓練。這種方式充分利用imageNet可以識別1000類物體和coco可以進行目標位置檢測的優點。當使用imageNet訓練時，只更新物體分類相關的參數。而使用coco時，則更新全部所有參數。

YOLOv3可以說出來直接吊打一切圖像檢測演算法。比同期的DSSD(反卷積SSD), FPN（feature pyramid networks）准確率更高或相仿，速度是其1/3.。

YOLOv3的改動主要有如下幾點：

不過如果要求更精準的預測邊框，採用COCO AP做評估標準的話，YOLO3在精確率上的表現就弱了一些。如下圖所示。

當前目標檢測模型演算法也是層出不窮。在two-stage領域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 演算法，將對抗學習引入到目標檢測領域。Face++也提出了Light-Head R-CNN，主要探討了 R-CNN 如何在物體檢測中平衡精確度和速度。

one-stage領域也是百花齊放，2017年首爾大學提出 R-SSD 演算法，主要解決小尺寸物體檢測效果差的問題。清華大學提出了 RON 演算法，結合 two stage 名的方法和 one stage 方法的優勢，更加關注多尺度對象定位和負空間樣本挖掘問題。

目標檢測領域的深度學習演算法，需要進行目標定位和物體識別，演算法相對來說還是很復雜的。當前各種新演算法也是層不出窮，但模型之間有很強的延續性，大部分模型演算法都是借鑒了前人的思想，站在巨人的肩膀上。我們需要知道經典模型的特點，這些tricks是為了解決什麼問題，以及為什麼解決了這些問題。這樣才能舉一反三，萬變不離其宗。綜合下來，目標檢測領域主要的難點如下：

一文讀懂目標檢測AI演算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2

從YOLOv1到v3的進化之路

SSD-Tensorflow超詳細解析【一】：載入模型對圖片進行測試 https://blog.csdn.net/k87974/article/details/80606407

YOLO https://pjreddie.com/darknet/yolo/ https://github.com/pjreddie/darknet

C#項目參考：https://github.com/AlturosDestinations/Alturos.Yolo

項目實踐貼個圖。

閱讀全文

熱點內容

安卓手機連拍圖片怎麼保存發布：2025-01-28 00:48:12 瀏覽：645

怎麼看出車輛配置是不是舊車發布：2025-01-28 00:42:42 瀏覽：3

編譯時的程序在哪裡發布：2025-01-28 00:42:39 瀏覽：345

ftp協議的功能發布：2025-01-28 00:38:53 瀏覽：251

linux統計ip 發布：2025-01-28 00:38:50 瀏覽：153

游戲解壓泥發布：2025-01-28 00:38:04 瀏覽：728

curlandroid下載發布：2025-01-28 00:20:10 瀏覽：873

數控車編程視頻發布：2025-01-28 00:15:02 瀏覽：967

壓縮機帶電發布：2025-01-28 00:06:14 瀏覽：195

雲存儲拓撲圖發布：2025-01-27 23:58:00 瀏覽：830

圖像測試演算法

與圖像測試演算法相關的資訊