ssd檢測演算法

發布時間: 2023-07-30 12:57:52

Ⅰ 目標檢測演算法（R-CNN，fast R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3）

深度學習目前已經應用到了各個領域，應用場景大體分為三類：物體識別，目標檢測，自然語言處理。目標檢測可以理解為是物體識別和物體定位的綜合，不僅僅要識別出物體屬於哪個分類，更重要的是得到物體在圖片中的具體位置。

2014年R-CNN演算法被提出，基本奠定了two-stage方式在目標檢測領域的應用。它的演算法結構如下圖

演算法步驟如下：

R-CNN較傳統的目標檢測演算法獲得了50%的性能提升，在使用VGG-16模型作為物體識別模型情況下，在voc2007數據集上可以取得66%的准確率，已經算還不錯的一個成績了。其最大的問題是速度很慢，內存佔用量很大，主要原因有兩個

針對R-CNN的部分問題，2015年微軟提出了Fast R-CNN演算法，它主要優化了兩個問題。

R-CNN和fast R-CNN均存在一個問題，那就是由選擇性搜索來生成候選框，這個演算法很慢。而且R-CNN中生成的2000個左右的候選框全部需要經過一次卷積神經網路，也就是需要經過2000次左右的CNN網路，這個是十分耗時的（fast R-CNN已經做了改進，只需要對整圖經過一次CNN網路）。這也是導致這兩個演算法檢測速度較慢的最主要原因。

faster R-CNN 針對這個問題，提出了RPN網路來進行候選框的獲取，從而擺脫了選擇性搜索演算法，也只需要一次卷積層操作，從而大大提高了識別速度。這個演算法十分復雜，我們會詳細分析。它的基本結構如下圖

主要分為四個步驟：

使用VGG-16卷積模型的網路結構：

卷積層採用的VGG-16模型，先將PxQ的原始圖片，縮放裁剪為MxN的圖片，然後經過13個conv-relu層，其中會穿插4個max-pooling層。所有的卷積的kernel都是3x3的，padding為1，stride為1。pooling層kernel為2x2, padding為0，stride為2。

MxN的圖片，經過卷積層後，變為了(M/16) x (N/16)的feature map了。

faster R-CNN拋棄了R-CNN中的選擇性搜索（selective search）方法，使用RPN層來生成候選框，能極大的提升候選框的生成速度。RPN層先經過3x3的卷積運算，然後分為兩路。一路用來判斷候選框是前景還是背景，它先reshape成一維向量，然後softmax來判斷是前景還是背景，然後reshape恢復為二維feature map。另一路用來確定候選框的位置，通過bounding box regression實現，後面再詳細講。兩路計算結束後，挑選出前景候選框（因為物體在前景中），並利用計算得到的候選框位置，得到我們感興趣的特徵子圖proposal。

卷積層提取原始圖像信息，得到了256個feature map，經過RPN層的3x3卷積後，仍然為256個feature map。但是每個點融合了周圍3x3的空間信息。對每個feature map上的一個點，生成k個anchor（k默認為9）。anchor分為前景和背景兩類（我們先不去管它具體是飛機還是汽車，只用區分它是前景還是背景即可）。anchor有[x,y,w,h]四個坐標偏移量，x,y表示中心點坐標，w和h表示寬度和高度。這樣，對於feature map上的每個點，就得到了k個大小形狀各不相同的選區region。

對於生成的anchors，我們首先要判斷它是前景還是背景。由於感興趣的物體位於前景中，故經過這一步之後，我們就可以舍棄背景anchors了。大部分的anchors都是屬於背景，故這一步可以篩選掉很多無用的anchor，從而減少全連接層的計算量。

對於經過了3x3的卷積後得到的256個feature map，先經過1x1的卷積，變換為18個feature map。然後reshape為一維向量，經過softmax判斷是前景還是背景。此處reshape的唯一作用就是讓數據可以進行softmax計算。然後輸出識別得到的前景anchors。

另一路用來確定候選框的位置，也就是anchors的[x,y,w,h]坐標值。如下圖所示，紅色代表我們當前的選區，綠色代表真實的選區。雖然我們當前的選取能夠大概框選出飛機，但離綠色的真實位置和形狀還是有很大差別，故需要對生成的anchors進行調整。這個過程我們稱為bounding box regression。

假設紅色框的坐標為[x,y,w,h], 綠色框，也就是目標框的坐標為[Gx, Gy,Gw,Gh], 我們要建立一個變換，使得[x,y,w,h]能夠變為[Gx, Gy,Gw,Gh]。最簡單的思路是，先做平移，使得中心點接近，然後進行縮放，使得w和h接近。如下：

我們要學習的就是dx dy dw dh這四個變換。由於是線性變換，我們可以用線性回歸來建模。設定loss和優化方法後，就可以利用深度學習進行訓練，並得到模型了。對於空間位置loss，我們一般採用均方差演算法，而不是交叉熵（交叉熵使用在分類預測中）。優化方法可以採用自適應梯度下降演算法Adam。

得到了前景anchors，並確定了他們的位置和形狀後，我們就可以輸出前景的特徵子圖proposal了。步驟如下：

1，得到前景anchors和他們的[x y w h]坐標。

2，按照anchors為前景的不同概率，從大到小排序，選取前pre_nms_topN個anchors，比如前6000個

3，剔除非常小的anchors。

4，通過NMS非極大值抑制，從anchors中找出置信度較高的。這個主要是為了解決選取交疊問題。首先計算每一個選區面積，然後根據他們在softmax中的score（也就是是否為前景的概率）進行排序，將score最大的選區放入隊列中。接下來，計算其餘選區與當前最大score選區的IOU（IOU為兩box交集面積除以兩box並集面積，它衡量了兩個box之間重疊程度）。去除IOU大於設定閾值的選區。這樣就解決了選區重疊問題。

5，選取前post_nms_topN個結果作為最終選區proposal進行輸出，比如300個。

經過這一步之後，物體定位應該就基本結束了，剩下的就是物體識別了。

和fast R-CNN中類似，這一層主要解決之前得到的proposal大小形狀各不相同，導致沒法做全連接。全連接計算只能對確定的shape進行運算，故必須使proposal大小形狀變為相同。通過裁剪和縮放的手段，可以解決這個問題，但會帶來信息丟失和圖片形變問題。我們使用ROI pooling可以有效的解決這個問題。

ROI pooling中，如果目標輸出為MxN，則在水平和豎直方向上，將輸入proposal劃分為MxN份，每一份取最大值，從而得到MxN的輸出特徵圖。

ROI Pooling層後的特徵圖，通過全連接層與softmax，就可以計算屬於哪個具體類別，比如人，狗，飛機，並可以得到cls_prob概率向量。同時再次利用bounding box regression精細調整proposal位置，得到bbox_pred，用於回歸更加精確的目標檢測框。

這樣就完成了faster R-CNN的整個過程了。演算法還是相當復雜的，對於每個細節需要反復理解。faster R-CNN使用resNet101模型作為卷積層，在voc2012數據集上可以達到83.8%的准確率，超過yolo ssd和yoloV2。其最大的問題是速度偏慢，每秒只能處理5幀，達不到實時性要求。

針對於two-stage目標檢測演算法普遍存在的運算速度慢的缺點， yolo創造性的提出了one-stage。也就是將物體分類和物體定位在一個步驟中完成。 yolo直接在輸出層回歸bounding box的位置和bounding box所屬類別，從而實現one-stage。通過這種方式， yolo可實現45幀每秒的運算速度，完全能滿足實時性要求（達到24幀每秒，人眼就認為是連續的）。它的網路結構如下圖：

主要分為三個部分：卷積層，目標檢測層，NMS篩選層。

採用Google inceptionV1網路，對應到上圖中的第一個階段，共20層。這一層主要是進行特徵提取，從而提高模型泛化能力。但作者對inceptionV1進行了改造，他沒有使用inception mole結構，而是用一個1x1的卷積，並聯一個3x3的卷積來替代。（可以認為只使用了inception mole中的一個分支，應該是為了簡化網路結構）

先經過4個卷積層和2個全連接層，最後生成7x7x30的輸出。先經過4個卷積層的目的是為了提高模型泛化能力。yolo將一副448x448的原圖分割成了7x7個網格，每個網格要預測兩個bounding box的坐標(x,y,w,h)和box內包含物體的置信度confidence，以及物體屬於20類別中每一類的概率（yolo的訓練數據為voc2012，它是一個20分類的數據集）。所以一個網格對應的參數為（4x2+2+20) = 30。如下圖

其中前一項表示有無人工標記的物體落入了網格內，如果有則為1，否則為0。第二項代表bounding box和真實標記的box之間的重合度。它等於兩個box面積交集，除以面積並集。值越大則box越接近真實位置。

分類信息： yolo的目標訓練集為voc2012，它是一個20分類的目標檢測數據集。常用目標檢測數據集如下表：

| Name | # Images (trainval) | # Classes | Last updated |

| --------------- | ------------------- | --------- | ------------ |

| ImageNet | 450k | 200 | 2015 |

| COCO | 120K | 90 | 2014 |

| Pascal VOC | 12k | 20 | 2012 |

| Oxford-IIIT Pet | 7K | 37 | 2012 |

| KITTI Vision | 7K | 3 | |

每個網格還需要預測它屬於20分類中每一個類別的概率。分類信息是針對每個網格的，而不是bounding box。故只需要20個，而不是40個。而confidence則是針對bounding box的，它只表示box內是否有物體，而不需要預測物體是20分類中的哪一個，故只需要2個參數。雖然分類信息和confidence都是概率，但表達含義完全不同。

篩選層是為了在多個結果中（多個bounding box）篩選出最合適的幾個，這個方法和faster R-CNN 中基本相同。都是先過濾掉score低於閾值的box，對剩下的box進行NMS非極大值抑制，去除掉重疊度比較高的box（NMS具體演算法可以回顧上面faster R-CNN小節）。這樣就得到了最終的最合適的幾個box和他們的類別。

yolo的損失函數包含三部分，位置誤差，confidence誤差，分類誤差。具體公式如下：

誤差均採用了均方差演算法，其實我認為，位置誤差應該採用均方差演算法，而分類誤差應該採用交叉熵。由於物體位置只有4個參數，而類別有20個參數，他們的累加和不同。如果賦予相同的權重，顯然不合理。故yolo中位置誤差權重為5，類別誤差權重為1。由於我們不是特別關心不包含物體的bounding box，故賦予不包含物體的box的置信度confidence誤差的權重為0.5，包含物體的權重則為1。

Faster R-CNN准確率mAP較高，漏檢率recall較低，但速度較慢。而yolo則相反，速度快，但准確率和漏檢率不盡人意。SSD綜合了他們的優缺點，對輸入300x300的圖像，在voc2007數據集上test，能夠達到58 幀每秒( Titan X 的 GPU )，72.1%的mAP。

SSD網路結構如下圖：

和yolo一樣，也分為三部分：卷積層，目標檢測層和NMS篩選層

SSD論文採用了VGG16的基礎網路，其實這也是幾乎所有目標檢測神經網路的慣用方法。先用一個CNN網路來提取特徵，然後再進行後續的目標定位和目標分類識別。

這一層由5個卷積層和一個平均池化層組成。去掉了最後的全連接層。SSD認為目標檢測中的物體，只與周圍信息相關，它的感受野不是全局的，故沒必要也不應該做全連接。SSD的特點如下。

每一個卷積層，都會輸出不同大小感受野的feature map。在這些不同尺度的feature map上，進行目標位置和類別的訓練和預測，從而達到多尺度檢測的目的，可以克服yolo對於寬高比不常見的物體，識別准確率較低的問題。而yolo中，只在最後一個卷積層上做目標位置和類別的訓練和預測。這是SSD相對於yolo能提高准確率的一個關鍵所在。

如上所示，在每個卷積層上都會進行目標檢測和分類，最後由NMS進行篩選，輸出最終的結果。多尺度feature map上做目標檢測，就相當於多了很多寬高比例的bounding box，可以大大提高泛化能力。

和faster R-CNN相似，SSD也提出了anchor的概念。卷積輸出的feature map，每個點對應為原圖的一個區域的中心點。以這個點為中心，構造出6個寬高比例不同，大小不同的anchor（SSD中稱為default box）。每個anchor對應4個位置參數(x,y,w,h)和21個類別概率（voc訓練集為20分類問題，在加上anchor是否為背景，共21分類）。如下圖所示：

另外，在訓練階段，SSD將正負樣本比例定位1：3。訓練集給定了輸入圖像以及每個物體的真實區域（ground true box），將default box和真實box最接近的選為正樣本。然後在剩下的default box中選擇任意一個與真實box IOU大於0.5的，作為正樣本。而其他的則作為負樣本。由於絕大部分的box為負樣本，會導致正負失衡，故根據每個box類別概率排序，使正負比例保持在1：3。SSD認為這個策略提高了4%的准確率

另外，SSD採用了數據增強。生成與目標物體真實box間IOU為0.1 0.3 0.5 0.7 0.9的patch，隨機選取這些patch參與訓練，並對他們進行隨機水平翻轉等操作。SSD認為這個策略提高了8.8%的准確率。

和yolo的篩選層基本一致，同樣先過濾掉類別概率低於閾值的default box，再採用NMS非極大值抑制，篩掉重疊度較高的。只不過SSD綜合了各個不同feature map上的目標檢測輸出的default box。

SSD基本已經可以滿足我們手機端上實時物體檢測需求了，TensorFlow在Android上的目標檢測官方模型ssd_mobilenet_v1_android_export.pb，就是通過SSD演算法實現的。它的基礎卷積網路採用的是mobileNet，適合在終端上部署和運行。

針對yolo准確率不高，容易漏檢，對長寬比不常見物體效果差等問題，結合SSD的特點，提出了yoloV2。它主要還是採用了yolo的網路結構，在其基礎上做了一些優化和改進，如下

網路採用DarkNet-19：19層，裡麵包含了大量3x3卷積，同時借鑒inceptionV1，加入1x1卷積核全局平均池化層。結構如下

yolo和yoloV2隻能識別20類物體，為了優化這個問題，提出了yolo9000，可以識別9000類物體。它在yoloV2基礎上，進行了imageNet和coco的聯合訓練。這種方式充分利用imageNet可以識別1000類物體和coco可以進行目標位置檢測的優點。當使用imageNet訓練時，只更新物體分類相關的參數。而使用coco時，則更新全部所有參數。

YOLOv3可以說出來直接吊打一切圖像檢測演算法。比同期的DSSD(反卷積SSD), FPN（feature pyramid networks）准確率更高或相仿，速度是其1/3.。

YOLOv3的改動主要有如下幾點：

不過如果要求更精準的預測邊框，採用COCO AP做評估標準的話，YOLO3在精確率上的表現就弱了一些。如下圖所示。

當前目標檢測模型演算法也是層出不窮。在two-stage領域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 演算法，將對抗學習引入到目標檢測領域。Face++也提出了Light-Head R-CNN，主要探討了 R-CNN 如何在物體檢測中平衡精確度和速度。

one-stage領域也是百花齊放，2017年首爾大學提出 R-SSD 演算法，主要解決小尺寸物體檢測效果差的問題。清華大學提出了 RON 演算法，結合 two stage 名的方法和 one stage 方法的優勢，更加關注多尺度對象定位和負空間樣本挖掘問題。

目標檢測領域的深度學習演算法，需要進行目標定位和物體識別，演算法相對來說還是很復雜的。當前各種新演算法也是層不出窮，但模型之間有很強的延續性，大部分模型演算法都是借鑒了前人的思想，站在巨人的肩膀上。我們需要知道經典模型的特點，這些tricks是為了解決什麼問題，以及為什麼解決了這些問題。這樣才能舉一反三，萬變不離其宗。綜合下來，目標檢測領域主要的難點如下：

一文讀懂目標檢測AI演算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2

從YOLOv1到v3的進化之路

SSD-Tensorflow超詳細解析【一】：載入模型對圖片進行測試 https://blog.csdn.net/k87974/article/details/80606407

YOLO https://pjreddie.com/darknet/yolo/ https://github.com/pjreddie/darknet

C#項目參考：https://github.com/AlturosDestinations/Alturos.Yolo

項目實踐貼個圖。

Ⅱ 目標檢測-YOLOv3

傳統的目標檢測演算法適用的場景有限，而且維護成本很大。深度學習方法應用於目標檢測，不僅演算法適應性好，還可以進行遷移學習，降低成本。

深度學習目標檢測演算法中，基於錨框（Anchor）的方法主要分為 一階段 方法和 兩階段 方法。

兩階段 方法先對感興趣的區域進行選擇，然後進一步對候選框內做分類和回歸，最終輸出選擇的框以及對應的分類。兩階段的模型有R-CNN系列，比如 R-CNN，Fast-RCNN，Faster-RCNN 等。兩階段模型的優點是精度高，但是速度及較慢。

一階段 方法直接對anchor進行回歸和分類，得到最終目標框和類別，演算法有 YOLOv2，v3，SSD，RetinaNet 等。一階段模型的推理速度較快，但是相對的精度會下降一些。

此外還有一些 anchor-free 的方法，包括基於關鍵點的檢測演算法以及基於中心檢測演算法等。

下面是一些基礎概念和縮寫：
BBox ：Bounding Box 邊界框
Anchor ：錨框
RoI ： Region of Interest 特定的感興趣區域
Region Proposal ：候選區域
RPN : Region proposal network 提取候選區域的網路
IoU : Intersaction over Union （Area of Overlap/ Area of Union）交並比,預測框的質量
mAP ：mean average precision
NMS ：non-maximum suppression 非極大值抑制

YOLO系列的模型在保有一定精度的基礎上擁有很快的推理速度，在下面圖中YOLOv3的推理速度遠超其他模型，因此在實時監測領域中有很好的應用。

YOLO的名字來源於you only look once，從名字上就道出了YOLO的精髓。

YOLOv1將圖像劃分為S*S個網路，物體真實框的中心落在哪個網格上，哪個網格對應的錨框就負責檢測物體。
每個網格會預測一個邊界框以及對應的置信度，這里的置信度反映的是模型認為這個框里包含著物體的把握以及它預測到這個物體的精確程度。所以置信度就等於。如果物體不存在，那麼置信度應該等於零。
每個邊界框會預測5個值。（x，y）坐標表示框相對於網格單元邊界的中心。 w,y是相對於整個圖像預測寬度和高度。最後，置信度預測表示預測框與任何真實框之間的IOU。

YOLOv2在v1的基礎上進行了優化，骨幹網路使用了DarkNet19，並且將輸入圖片給尺寸從224增大到448，並且將網路結構設為全卷積網路結構加上Batch Norm，使用了Kmeans聚類方法來計算anchor，引入了多尺度訓練，使網路在訓練過程中學習不同尺度的圖像。不過待改進的地方有在小目標上召回率不高，靠近的群體目標檢測效果不好，檢測精度還有優化空間。

YOLOv3使用了更加深的骨幹網路DarkNet53，同時加入了多尺度預測，在COCO數據集上聚類； 9中不同尺度的anchor，在分類上使用sigmoid激活函數，支持了目標的多分類。YOLOv3的優點是推理速度快，性價比高，通用性強；缺點是召回率較低，定位精度較差，對於靠近或者遮擋的群體、小物體的檢測能力相對較弱。

YOLOv3在v1的基礎上做了很多改動。

邊界框預測
YOLOv3使用聚類預測到的邊界框作為錨框。網路為邊界框預測4個坐標值，如果單元格從圖像的左上角偏移了 ,並且先驗邊界框的寬度和高度為，則預測如下圖：

YOLOv3給每個邊界框用邏輯回歸預測一個objectness score，如果某個邊界框和真實框重合度比其他都高，那麼它的objectness score應該是1。而其他框雖然也與真實框有重疊，會被忽略掉。

類別預測
使用的是sigmoid函數，沒有用softmax因為沒必要。

不同尺度的預測
YOLOv3使用k-means聚類來確定bounding box priors，選擇了9個clusters和3個scales，然後在整個scales上均勻分割clusters。在COCO數據集上，9個cluster分別為(10×13)，(16×30)，(33×23），(30×61)，(62×45)，(59×119)，(116×90) ，(156×198)，(373×326)。

特徵提取
YOLOv3使用了Darknet-53，特點是加入了殘差，比之前的網路更深了（有53層卷積層所以叫Darknet-53）。

借一張圖看一下YOLOv3的整個流程：

每個輸出分支上對應著三個尺寸的先驗框（總共3 3=9種尺度）。經過32倍下采樣的網格，每一個網格對應著輸入圖像上32 32的區域，適合檢測尺寸較大的目標，而8倍下采樣的網格適合檢測尺寸小的目標。

輸出特徵的高度H和寬度W，相當於將圖像劃分為H*W個網格，而不是直接在圖像上畫網格。也就是說32倍下采樣之後得到的，相當於在輸入圖像上劃一個的網格，每一個網格對應著輸出特徵圖上的一個點。

特徵圖的C通道上表示預測框的信息，包括坐標信息，目標置信度，分類。
C=B*(1+4+class_num)，B為特徵圖上分配的錨框個數。

損失函數有三個，分類損失，定位損失和objectness損失。分類使用sigmoid激活函數，loss是sigmoid cross entropy。定位損失在x,y上使用sigmoid函數和sigmoid cross entropy損失，在w,h上使用L1損失。objectness損失用的是sigmoid激活函數和sigmoid cross entropy損失。

對於與真實框重疊的框，三種損失都要計算
對於沒有真實框重疊的框，只計算objectness（0）；對於與真實框重疊但不是最匹配的框，忽略它們。

Ⅲ 目標檢測演算法的分步介紹（第 1 部分）

英文原文： https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introction-to-the-basic-object-detection-algorithms-part-1/
對原文的表達有部分改動

在本文中，我們將更深入地研究可用於目標檢測的各種演算法。我們將從 RCNN 家族的演算法開始，即 RCNN、Fast RCNN 和 Faster RCNN。在本系列即將發布的文章中，我們將介紹更高級的演算法，如 YOLO、SSD 等。

下圖是說明目標檢測演算法如何工作的一個流行示例。圖像中的每個物體，從一個人到一隻風箏，都以一定的精度被定位和識別。

讓我們從最簡單的深度學習方法開始，也是一種廣泛使用的方法，用於檢測圖像中的目標——卷積神經網路（ CNN）。CNN 的內部工作原理如下：

我們將圖像傳遞給網路，然後通過各種卷積和池化層處理，發送給全連接層。最後，我們以目標類別的形式獲得輸出。這相當簡單，不是嗎？對於每個輸入圖像，我們得到一個相應的類作為輸出。我們可以使用這種技術來檢測圖像中的各種目標嗎？讓我們看看如何使用 CNN 解決一般的目標檢測問題。

使用這種方法的問題在於圖像中的目標可能具有不同的縱橫比和空間位置。例如，在某些情況下，目標可能覆蓋圖像的大部分，而在某些情況下，目標可能僅覆蓋圖像的一小部分。目標的形狀也可能不同（在現實生活中經常發生）。由於這些因素，我們將需要大量的區域，從而導致大量的計算時間。因此，為了解決這個問題並減少區域數量，我們可以使用基於區域的 CNN，它使用提案法選擇區域。讓我們了解這個基於區域的 CNN 可以為我們做什麼。

與在大量區域上工作不同的是，RCNN 演算法是在圖像中選取一堆框並檢查這些框中是否有任何一個包含任何目標。 RCNN 使用 selective search 從圖像中提取這些框（這些框稱為 regions）。

讓我們首先了解什麼是 selective search 以及它如何識別不同的 regions。基本上四個模式可以構成一個物體：不同的尺度、顏色、紋理和外殼。selective search 識別圖像中的這些模式，並在此基礎上提出各種regions。以下是selective search 工作原理的簡要概述：

舉個例子：

到目前為止，我們已經看到了 RCNN 如何實現目標檢測。但是這種技術有其自身的局限性。由於以下步驟，訓練 RCNN 模型既昂貴又緩慢：

所有這些過程結合起來使 RCNN 非常慢。對每張新圖像進行預測大約需要 40-50 秒，這實質上使得模型在面對龐大的數據集時變得笨重且幾乎無法構建。

好消息是——我們有另一種目標檢測技術，它修復了我們在 RCNN 中看到的大部分問題。

我們還能做些什麼來減少 RCNN 演算法通常需要的計算時間？我們是否可以每張圖像只運行一次並獲取所有感興趣的區域（包含某個目標的區域）。

RCNN 的作者 Ross Girshick 提出了這個想法，即每張圖像只運行一次 CNN，然後找到一種方法在 2,000 個區域之間共享該計算。在 Fast RCNN 中，我們將輸入圖像提供給 CNN，後者反過來生成卷積特徵圖。使用這些地圖，提取提議的區域。然後我們使用 RoI 池化層將所有提議的區域重塑為固定大小，以便可以將其饋入全連接網路。

讓我們將其分解為簡化概念的步驟：

因此，Fast RCNN 不是使用三個不同的模型（如 RCNN），而是使用單個模型從區域中提取特徵，將它們分成不同的類，並同時返回識別類的邊界框。

為了進一步分解，我將對每個步驟進行可視化。

這就是 Fast RCNN 如何解決 RCNN 的兩個主要問題，1. 將每個圖像的一個而不是 2,000 個區域傳遞給 ConvNet。2. 使用一個而不是三個不同的模型來提取特徵、分類和生成邊界框。

但即使是 Fast RCNN 也存在某些問題。它還使用 selective search 作為尋找感興趣區域的建議方法，這是一個緩慢且耗時的過程。每張圖像檢測目標大約需要 2 秒，這與 RCNN 相比要好得多。但是當我們考慮大型現實生活數據集時，即使是 Fast RCNN 看起來也不那麼快了。

Faster RCNN 是 Fast RCNN 的修改版本。它們之間的主要區別在於 Fast RCNN 使用 selective search 來生成感興趣的區域，而 Faster RCNN 使用 Region Proposal Network ，又名 RPN。 RPN 將圖像特徵圖作為輸入並生成一組目標提議，每個提議的目標以分數作為輸出。

Faster RCNN 方法通常遵循以下步驟：

讓我簡要解釋一下這個區域提議網路（RPN）實際上是如何工作的。

首先，Faster RCNN 從 CNN 獲取特徵圖並將它們傳遞給區域提議網路。 RPN 在這些特徵圖上使用一個滑動窗口，在每個窗口，它生成 k 個不同形狀和大小的 Anchor 框：

Anchor 框是固定大小的邊界框，它們放置在整個圖像中，具有不同的形狀和大小。對於每個 Anchor，RPN 預測兩件事：

我們現在有不同形狀和大小的邊界框，它們被傳遞到 RoI 池化層。在 RPN 步驟之後，有可能存在沒有分配給它們的類別提議。我們可以獲取每個建議並對其進行裁剪，以便每個建議都包含一個目標。這就是 RoI 池化層所做的。它為每個錨點提取固定大小的特徵圖：

然後將這些特徵圖傳遞到具有 softmax 和線性回歸層的全連接層。它最終對目標進行分類並預測已識別目標的邊界框。

到目前為止，我們討論的所有目標檢測演算法都使用區域來識別目標。網路不會一次性查看完整圖像，而是依次關注圖像的各個部分。這會造成兩個並發症：

Ⅳ 目標檢測演算法ssd 有沒有提供cpu版本的運行

Faster RCNN用了整合了之前的RCNN啊，SPP-net啊，Fast RCNN啊這些網路的region proposal方式，提出了RPN，所謂RPN就是根據圖像自身的色彩以及邊緣信息等等來生成region proposal的一個網路，因此實現了end-to-end，但還是慢
YOLO就是把原圖劃成7x7的小格子，在每個格子里對目標進行預測，相當於固定了region proposal的位置和大小，所以沒有了RPN，加快了速度，但是准確率下去了
SSD用了YOLO的思想，但是選了6個比例來對原圖進行劃分，這樣就保證了大物體有大格子學，小物體有小格子學，不像YOLO只有一種大小的格子，准確率也提高了（相對於YOLO），速度也上去了（相對於Faster，SSD也沒有RPN步驟）
-

Ⅳ 高大上的YOLOV3對象檢測演算法，使用python也可輕松實現

繼續我們的目標檢測演算法的分享，前期我們介紹了SSD目標檢測演算法的python實現以及Faster-RCNN目標檢測演算法的python實現以及yolo目標檢測演算法的darknet的window環境安裝，本期我們簡單介紹一下如何使用python來進行YOLOV3的對象檢測演算法

YOLOV3的基礎知識大家可以參考往期文章，本期重點介紹如何使用python來實現

1、初始化模型

14-16 行：

模型的初始化依然使用cv下的DNN模型來載入模型，需要注意的是CV的版本需要大於3.4.2

5-8行：

初始化模型在coco上的label以便後期圖片識別使用

10-12行：

初始化圖片顯示方框的顏色

2、載入圖片，進行圖片識別

輸入識別的圖片進行圖片識別，這部分代碼跟往期的SSD 以及RCNN目標檢測演算法類似

19-20行：輸入圖片，獲取圖片的長度與寬度

25-29行：計算圖片的blob值，輸入神經網路，進行前向反饋預測圖片

只不過net.forward裡面是ln，神經網路的所有out層

3、遍歷所有的out層，獲取檢測圖片的label與置信度

遍歷out層，獲取檢測到的label值以及置信度，檢測到這里YOLOV3以及把所有的檢測計算完成，但是由於yolov3對重疊圖片或者靠的比較近的圖片檢測存在一定的問題，使用YOLOV3使用非最大值抑制來抑制弱的重疊邊界

竟然把墨鏡識別了手機，體現了YOLOV3在重疊圖片識別的缺點

4、應用非最大值抑制來抑制弱的重疊邊界，顯示圖片

56：使用 非最大值抑制來抑制弱的重疊邊界

58-59行：遍歷所有圖片

61-62行：提取檢測圖片的BOX

64-68行：顯示圖片信息

70-71行：顯示圖片

利用python來實現YOLOV3，與SSD 以及RCNN代碼有很多類似的地方，大家可以參考往期的文章進行對比學習，把代碼執行一遍

進行視頻識別的思路：從視頻中提取圖片，進行圖片識別，識別完成後，再把識別的結果實時體現在視頻中，這部分代碼結合前期的視頻識別，大家可以參考多進程視頻實時識別篇，因為沒有多進程，檢測速度很慢，視頻看著比較卡

1、初始化模型以及視頻流

2、從視頻中提取圖片，進行圖片的blob值計算，進行神經網路的預測

3、提取檢測到圖片的置信度以及ID值

4、 應用非最大值抑制來抑制弱的重疊邊界，顯示圖片

5、關閉資源，顯示圖片處理信息

每個目標檢測演算法都有自己的優缺點，個人感覺，在精度要求不是太高的情況下SSD檢測演算法可以實現較快的速度實現，畢竟精度差不多的情況下，我們希望速度越快越好

閱讀全文

熱點內容

android漂亮的listview 發布：2025-03-14 13:40:26 瀏覽：390

android路線規劃發布：2025-03-14 13:23:22 瀏覽：302

poi瀏覽器島風go緩存發布：2025-03-14 13:10:24 瀏覽：187

具體可要說存儲在鋼瓶中是因為發布：2025-03-14 13:00:36 瀏覽：440

汽車空調壓縮機不轉了發布：2025-03-14 12:55:45 瀏覽：30

安卓和平營地cp怎麼組發布：2025-03-14 12:55:40 瀏覽：604

時序模式演算法發布：2025-03-14 12:50:45 瀏覽：203

爐石傳說標准模式多腳本發布：2025-03-14 12:47:53 瀏覽：210

密碼鎖用密碼打不開是什麼原因發布：2025-03-14 12:31:25 瀏覽：196

低溫存儲測試發布：2025-03-14 12:10:22 瀏覽：245

ssd檢測演算法

與ssd檢測演算法相關的資訊