人臉檢測演算法研究
㈠ 人臉識別的演算法
1、人體面貌識別技術的內容
人體面貌識別技術包含三個部分:
(1) 人體面貌檢測
面貌檢測是指在動態的場景與復雜的背景中判斷是否存在面像,並分離出這種面像。一般有下列幾種方法:
①參考模板法
首先設計一個或數個標准人臉的模板,然後計算測試採集的樣品與標准模板之間的匹配程度,並通過閾值來判斷是否存在人臉;
②人臉規則法
由於人臉具有一定的結構分布特徵,所謂人臉規則的方法即提取這些特徵生成相應的規則以判斷測試樣品是否包含人臉;
③樣品學習法
這種方法即採用模式識別中人工神經網路的方法,即通過對面像樣品集和非面像樣品集的學習產生分類器;
④膚色模型法
這種方法是依據面貌膚色在色彩空間中分布相對集中的規律來進行檢測。
⑤特徵子臉法
這種方法是將所有面像集合視為一個面像子空間,並基於檢測樣品與其在子孔間的投影之間的距離判斷是否存在面像。
值得提出的是,上述5種方法在實際檢測系統中也可綜合採用。
(2)人體面貌跟蹤
面貌跟蹤是指對被檢測到的面貌進行動態目標跟蹤。具體採用基於模型的方法或基於運動與模型相結合的方法。
此外,利用膚色模型跟蹤也不失為一種簡單而有效的手段。
(3)人體面貌比對
面貌比對是對被檢測到的面貌像進行身份確認或在面像庫中進行目標搜索。這實際上就是說,將采樣到的面像與庫存的面像依次進行比對,並找出最佳的匹配對象。所以,面像的描述決定了面像識別的具體方法與性能。目前主要採用特徵向量與面紋模板兩種描述方法:
①特徵向量法
該方法是先確定眼虹膜、鼻翼、嘴角等面像五官輪廓的大小、位置、距離等屬性,然後再計算出它們的幾何特徵量,而這些特徵量形成一描述該面像的特徵向量。
②面紋模板法
該方法是在庫中存貯若干標准面像模板或面像器官模板,在進行比對時,將采樣面像所有象素與庫中所有模板採用歸一化相關量度量進行匹配。
此外,還有採用模式識別的自相關網路或特徵與模板相結合的方法。
人體面貌識別技術的核心實際為「局部人體特徵分析」和「圖形/神經識別演算法。」這種演算法是利用人體面部各器官及特徵部位的方法。如對應幾何關系多數據形成識別參數與資料庫中所有的原始參數進行比較、判斷與確認。一般要求判斷時間低於1秒。
2、人體面貌的識別過程
一般分三步:
(1)首先建立人體面貌的面像檔案。即用攝像機採集單位人員的人體面貌的面像文件或取他們的照片形成面像文件,並將這些面像文件生成面紋(Faceprint)編碼貯存起來。
(2)獲取當前的人體面像
即用攝像機捕捉的當前出入人員的面像,或取照片輸入,並將當前的面像文件生成面紋編碼。
(3)用當前的面紋編碼與檔案庫存的比對
即將當前的面像的面紋編碼與檔案庫存中的面紋編碼進行檢索比對。上述的「面紋編碼」方式是根據人體面貌臉部的本質特徵和開頭來工作的。這種面紋編碼可以抵抗光線、皮膚色調、面部毛發、發型、眼鏡、表情和姿態的變化,具有強大的可靠性,從而使它可以從百萬人中精確地辯認出某個人。
人體面貌的識別過程,利用普通的圖像處理設備就能自動、連續、實時地完成。
㈡ 想問一下有沒有比較方便的人臉識別演算法,求推薦
主流的人臉識別技術基本上可以歸結為三類,即:基於幾何特徵的方法、基於模板的方法和基於模型的方法。
1. 基於幾何特徵的方法是最早、最傳統的方法,通常需要和其他演算法結合才能有比較好的效果;
2. 基於模板的方法可以分為基於相關匹配的方法、特徵臉方法、線性判別分析方法、奇異值分解方法、神經網路方法、動態連接匹配方法等。
3. 基於模型的方法則有基於隱馬爾柯夫模型,主動形狀模型和主動外觀模型的方法等。
1. 基於幾何特徵的方法
人臉由眼睛、鼻子、嘴巴、下巴等部件構成,正因為這些部件的形狀、大小和結構上的各種差異才使得世界上每個人臉千差萬別,因此對這些部件的形狀和結構關系的幾何描述,可以做為人臉識別的重要特徵。幾何特徵最早是用於人臉側面輪廓的描述與識別,首先根據側面輪廓曲線確定若干顯著點,並由這些顯著點導出一組用於識別的特徵度量如距離、角度等。Jia 等由正麵灰度圖中線附近的積分投影模擬側面輪廓圖是一種很有新意的方法。
採用幾何特徵進行正面人臉識別一般是通過提取人眼、口、鼻等重要特徵點的位置和眼睛等重要器官的幾何形狀作為分類特徵,但Roder對幾何特徵提取的精確性進行了實驗性的研究,結果不容樂觀。
可變形模板法可以視為幾何特徵方法的一種改進,其基本思想是 :設計一個參數可調的器官模型 (即可變形模板),定義一個能量函數,通過調整模型參數使能量函數最小化,此時的模型參數即做為該器官的幾何特徵。
這種方法思想很好,但是存在兩個問題,一是能量函數中各種代價的加權系數只能由經驗確定,難以推廣,二是能量函數優化過程十分耗時,難以實際應用。 基於參數的人臉表示可以實現對人臉顯著特徵的一個高效描述,但它需要大量的前處理和精細的參數選擇。同時,採用一般幾何特徵只描述了部件的基本形狀與結構關系,忽略了局部細微特徵,造成部分信息的丟失,更適合於做粗分類,而且目前已有的特徵點檢測技術在精確率上還遠不能滿足要求,計算量也較大。
2. 局部特徵分析方法(Local Face Analysis)
主元子空間的表示是緊湊的,特徵維數大大降低,但它是非局部化的,其核函數的支集擴展在整個坐標空間中,同時它是非拓撲的,某個軸投影後臨近的點與原圖像空間中點的臨近性沒有任何關系,而局部性和拓撲性對模式分析和分割是理想的特性,似乎這更符合神經信息處理的機制,因此尋找具有這種特性的表達十分重要。基於這種考慮,Atick提出基於局部特徵的人臉特徵提取與識別方法。這種方法在實際應用取得了很好的效果,它構成了FaceIt人臉識別軟體的基礎。
3. 特徵臉方法(Eigenface或PCA)
特徵臉方法是90年代初期由Turk和Pentland提出的目前最流行的演算法之一,具有簡單有效的特點, 也稱為基於主成分分析(principal component analysis,簡稱PCA)的人臉識別方法。
特徵子臉技術的基本思想是:從統計的觀點,尋找人臉圖像分布的基本元素,即人臉圖像樣本集協方差矩陣的特徵向量,以此近似地表徵人臉圖像。這些特徵向量稱為特徵臉(Eigenface)。
實際上,特徵臉反映了隱含在人臉樣本集合內部的信息和人臉的結構關系。將眼睛、面頰、下頜的樣本集協方差矩陣的特徵向量稱為特徵眼、特徵頜和特徵唇,統稱特徵子臉。特徵子臉在相應的圖像空間中生成子空間,稱為子臉空間。計算出測試圖像窗口在子臉空間的投影距離,若窗口圖像滿足閾值比較條件,則判斷其為人臉。
基於特徵分析的方法,也就是將人臉基準點的相對比率和其它描述人臉臉部特徵的形狀參數或類別參數等一起構成識別特徵向量,這種基於整體臉的識別不僅保留了人臉部件之間的拓撲關系,而且也保留了各部件本身的信息,而基於部件的識別則是通過提取出局部輪廓信息及灰度信息來設計具體識別演算法。現在Eigenface(PCA)演算法已經與經典的模板匹配演算法一起成為測試人臉識別系統性能的基準演算法;而自1991年特徵臉技術誕生以來,研究者對其進行了各種各樣的實驗和理論分析,FERET'96測試結果也表明,改進的特徵臉演算法是主流的人臉識別技術,也是具有最好性能的識別方法之一。
該方法是先確定眼虹膜、鼻翼、嘴角等面像五官輪廓的大小、位置、距離等屬性,然後再計算出它們的幾何特徵量,而這些特徵量形成一描述該面像的特徵向量。其技術的核心實際為「局部人體特徵分析」和「圖形/神經識別演算法。」這種演算法是利用人體面部各器官及特徵部位的方法。如對應幾何關系多數據形成識別參數與資料庫中所有的原始參數進行比較、判斷與確認。Turk和Pentland提出特徵臉的方法,它根據一組人臉訓練圖像構造主元子空間,由於主元具有臉的形狀,也稱為特徵臉 ,識別時將測試 圖像投影到主元子空間上,得到一組投影系數,和各個已知人的人臉圖像比較進行識別。Pentland等報告了相當好的結果,在 200個人的 3000幅圖像中得到 95%的正確識別率,在FERET資料庫上對 150幅正面人臉象只有一個誤識別。但系統在進行特徵臉方法之前需要作大量預處理工作如歸一化等。
在傳統特徵臉的基礎上,研究者注意到特徵值大的特徵向量 (即特徵臉 )並不一定是分類性能好的方向,據此發展了多種特徵 (子空間 )選擇方法,如Peng的雙子空間方法、Weng的線性歧義分析方法、Belhumeur的FisherFace方法等。事實上,特徵臉方法是一種顯式主元分析人臉建模,一些線性自聯想、線性壓縮型BP網則為隱式的主元分析方法,它們都是把人臉表示為一些向量的加權和,這些向量是訓練集叉積陣的主特徵向量,Valentin對此作了詳細討論。總之,特徵臉方法是一種簡單、快速、實用的基於變換系數特徵的演算法,但由於它在本質上依賴於訓練集和測試集圖像的灰度相關性,而且要求測試圖像與訓練集比較像,所以它有著很大的局限性。
基於KL 變換的特徵人臉識別方法
基本原理:
KL變換是圖象壓縮中的一種最優正交變換,人們將它用於統計特徵提取,從而形成了子空間法模式識別的基礎,若將KL變換用於人臉識別,則需假設人臉處於低維線性空間,且不同人臉具有可分性,由於高維圖象空間KL變換後可得到一組新的正交基,因此可通過保留部分正交基,以生成低維人臉空間,而低維空間的基則是通過分析人臉訓練樣本集的統計特性來獲得,KL變換的生成矩陣可以是訓練樣本集的總體散布矩陣,也可以是訓練樣本集的類間散布矩陣,即可採用同一人的數張圖象的平均來進行訓練,這樣可在一定程度上消除光線等的干擾,且計算量也得到減少,而識別率不會下降。
4. 基於彈性模型的方法
Lades等人針對畸變不變性的物體識別提出了動態鏈接模型 (DLA),將物體用稀疏圖形來描述 (見下圖),其頂點用局部能量譜的多尺度描述來標記,邊則表示拓撲連接關系並用幾何距離來標記,然後應用塑性圖形匹配技術來尋找最近的已知圖形。Wiscott等人在此基礎上作了改進,用FERET圖像庫做實驗,用 300幅人臉圖像和另外 300幅圖像作比較,准確率達到 97.3%。此方法的缺點是計算量非常巨大 。
Nastar將人臉圖像 (Ⅰ ) (x,y)建模為可變形的 3D網格表面 (x,y,I(x,y) ) (如下圖所示 ),從而將人臉匹配問題轉化為可變形曲面的彈性匹配問題。利用有限元分析的方法進行曲面變形,並根據變形的情況判斷兩張圖片是否為同一個人。這種方法的特點在於將空間 (x,y)和灰度I(x,y)放在了一個 3D空間中同時考慮,實驗表明識別結果明顯優於特徵臉方法。
Lanitis等提出靈活表現模型方法,通過自動定位人臉的顯著特徵點將人臉編碼為 83個模型參數,並利用辨別分析的方法進行基於形狀信息的人臉識別。彈性圖匹配技術是一種基於幾何特徵和對灰度分布信息進行小波紋理分析相結合的識別演算法,由於該演算法較好的利用了人臉的結構和灰度分布信息,而且還具有自動精確定位面部特徵點的功能,因而具有良好的識別效果,適應性強識別率較高,該技術在FERET測試中若干指標名列前茅,其缺點是時間復雜度高,速度較慢,實現復雜。
5. 神經網路方法(Neural Networks)
人工神經網路是一種非線性動力學系統,具有良好的自組織、自適應能力。目前神經網路方法在人臉識別中的研究方興未艾。Valentin提出一種方法,首先提取人臉的 50個主元,然後用自相關神經網路將它映射到 5維空間中,再用一個普通的多層感知器進行判別,對一些簡單的測試圖像效果較好;Intrator等提出了一種混合型神經網路來進行人臉識別,其中非監督神經網路用於特徵提取,而監督神經網路用於分類。Lee等將人臉的特點用六條規則描述,然後根據這六條規則進行五官的定位,將五官之間的幾何距離輸入模糊神經網路進行識別,效果較一般的基於歐氏距離的方法有較大改善,Laurence等採用卷積神經網路方法進行人臉識別,由於卷積神經網路中集成了相鄰像素之間的相關性知識,從而在一定程度上獲得了對圖像平移、旋轉和局部變形的不變性,因此得到非常理想的識別結果,Lin等提出了基於概率決策的神經網路方法 (PDBNN),其主要思想是採用虛擬 (正反例 )樣本進行強化和反強化學習,從而得到較為理想的概率估計結果,並採用模塊化的網路結構 (OCON)加快網路的學習。這種方法在人臉檢測、人臉定位和人臉識別的各個步驟上都得到了較好的應用,其它研究還有 :Dai等提出用Hopfield網路進行低解析度人臉聯想與識別,Gutta等提出將RBF與樹型分類器結合起來進行人臉識別的混合分類器模型,Phillips等人將MatchingPursuit濾波器用於人臉識別,國內則採用統計學習理論中的支撐向量機進行人臉分類。
神經網路方法在人臉識別上的應用比起前述幾類方法來有一定的優勢,因為對人臉識別的許多規律或規則進行顯性的描述是相當困難的,而神經網路方法則可以通過學習的過程獲得對這些規律和規則的隱性表達,它的適應性更強,一般也比較容易實現。因此人工神經網路識別速度快,但識別率低 。而神經網路方法通常需要將人臉作為一個一維向量輸入,因此輸入節點龐大,其識別重要的一個目標就是降維處理。
PCA的演算法描述:利用主元分析法 (即 Principle Component Analysis,簡稱 PCA)進行識別是由 Anderson和 Kohonen提出的。由於 PCA在將高維向量向低維向量轉化時,使低維向量各分量的方差最大,且各分量互不相關,因此可以達到最優的特徵抽取。
㈢ 人臉識別的識別演算法
人臉識別的基本方法
人臉識別的方法很多,以下介紹一些主要的人臉識別方法。
(1)幾何特徵的人臉識別方法
幾何特徵可以是眼、鼻、嘴等的形狀和它們之間的幾何關系(如相互之間的距離)。這些演算法識別速度快,需要的內存小,但識別率較低。
(2)基於特徵臉(PCA)的人臉識別方法
特徵臉方法是基於KL變換的人臉識別方法,KL變換是圖像壓縮的一種最優正交變換。高維的圖像空間經過KL變換後得到一組新的正交基,保留其中重要的正交基,由這些基可以張成低維線性空間。如果假設人臉在這些低維線性空間的投影具有可分性,就可以將這些投影用作識別的特徵矢量,這就是特徵臉方法的基本思想。這些方法需要較多的訓練樣本,而且完全是基於圖像灰度的統計特性的。目前有一些改進型的特徵臉方法。
(3)神經網路的人臉識別方法
神經網路的輸入可以是降低解析度的人臉圖像、局部區域的自相關函數、局部紋理的二階矩等。這類方法同樣需要較多的樣本進行訓練,而在許多應用中,樣本數量是很有限的。
(4)彈性圖匹配的人臉識別方法
彈性圖匹配法在二維的空間中定義了一種對於通常的人臉變形具有一定的不變性的距離,並採用屬性拓撲圖來代表人臉,拓撲圖的任一頂點均包含一特徵向量,用來記錄人臉在該頂點位置附近的信息。該方法結合了灰度特性和幾何因素,在比對時可以允許圖像存在彈性形變,在克服表情變化對識別的影響方面收到了較好的效果,同時對於單個人也不再需要多個樣本進行訓練。
(5)線段Hausdorff 距離(LHD) 的人臉識別方法
心理學的研究表明,人類在識別輪廓圖(比如漫畫)的速度和准確度上絲毫不比識別灰度圖差。LHD是基於從人臉灰度圖像中提取出來的線段圖的,它定義的是兩個線段集之間的距離,與眾不同的是,LHD並不建立不同線段集之間線段的一一對應關系,因此它更能適應線段圖之間的微小變化。實驗結果表明,LHD在不同光照條件下和不同姿態情況下都有非常出色的表現,但是它在大表情的情況下識別效果不好。
(6)支持向量機(SVM) 的人臉識別方法
近年來,支持向量機是統計模式識別領域的一個新的熱點,它試圖使得學習機在經驗風險和泛化能力上達到一種妥協,從而提高學習機的性能。支持向量機主要解決的是一個2分類問題,它的基本思想是試圖把一個低維的線性不可分的問題轉化成一個高維的線性可分的問題。通常的實驗結果表明SVM有較好的識別率,但是它需要大量的訓練樣本(每類300個),這在實際應用中往往是不現實的。而且支持向量機訓練時間長,方法實現復雜,該函數的取法沒有統一的理論。
人臉識別的方法很多,當前的一個研究方向是多方法的融合,以提高識別率。
在人臉識別中,第一類的變化是應該放大而作為區分個體的標準的,而第二類的變化應該消除,因為它們可以代表同一個個體。通常稱第一類變化為類間變化,而稱第二類變化為類內變化。對於人臉,類內變化往往大於類間變化,從而使在受類內變化干擾的情況下利用類間變化區分個體變得異常困難。正是基於上述原因,一直到21 世紀初,國外才開始出現人臉識別的商用,但由於人臉識別演算法非常復雜,只能採用龐大的伺服器,基於強大的計算機平台。
如果可以的話,可以Te一下colorreco,更好的技術解答。
㈣ viola jones人臉檢測原理
Viola-jones人臉檢測演算法是一種基於滑動窗口的目標檢測演算法,但它卻克服了滑動窗口檢測帶來的低效問題,可以用於實時人臉檢測,主要歸功於以下三點:
我參考論文[1]實現了Viola Jones中提到的attention cascade檢測框架,此處是 github傳送門 。
下面進一步詳細介紹整個檢測原理。
基於滑窗的目標檢測基本原理很簡單,首先構建一個classifier(分類器),以人臉檢測為例,分類器的工作是判斷給定大小的圖像的是否為人臉,用該分類器從左至右從上到下掃描整幅圖像,掃描獲取的部分圖像稱為子窗(文章中子窗大小為24x24像素),當分類器判斷子窗是人臉時,即完成了人臉檢測。
這樣處理有個問題,如果圖像中包含的人臉變大了,此時採用固定大小的子窗就無法進行檢測。通常有兩種解決方法,1. 採用image-pyramid(圖像金字塔),也就是通過resize獲得多種不同大小圖像並堆疊在一起,用固定大小分類器同時對所有圖像進行掃描;2. 採用不同大小的分類器進行掃描。文章中用到的是第二種方法,盡管如此,雖然避免了調整圖像大小帶來的計算開銷,但不同大小的分類器意味著有更多子窗需要進行處理。
如何構建一個足夠快的分類器來對每個子窗進行快速判斷。
分類器的構建有兩種方式,一種是pixel-based(基於像素),另一種是feature-based(基於特徵)。當把神經網路作為圖像分類器時,輸入是圖像的像素值,即基於像素的分類器。用圖像像素作為輸入不包含任何和待分類目標有關的特定信息,往往訓練這種分類器需要大量數據,並且分類過程較慢。基於特徵的分類器就是先針對圖像進行特徵提取(HOG特徵,SIFT特徵等),再利用獲取的特徵進行分類。這種分類器不需要大量訓練數據,且計算量一般會在特徵計算部分,相對較小。
文章採用的是基於特徵的分類器,選取了一種較為簡單的特徵即haar-like特徵。利用矩形個數對可以將haar-like特徵分為三類,分別由兩個,三個,和四個 大小相同 的矩形組成。全部列舉出來可以分為以下(a)(b)(c)(d)(e)五類(注意是五類不是五個,具體有多少個haar-like特徵是由子窗大小決定的)。如下圖所示(文章[1]中的圖)。
當子窗大小給定後,我們可以用五個參數唯一確定 一個 haar-like特徵,即特徵種類(a/b/c/d/e),左上角x軸坐標,左上角y軸坐標,矩形的長,矩形的寬。對應的特徵值等於位於白色矩形框中像素值總和減去位於黑色矩形框中的像素值總和。文章中用到的子窗大小為24x24像素,可以計算出來總共有162336個特徵(把在子窗中所有可能位置和可能大小的特徵全部列舉出來)。利用haar-like特徵進行分類只需兩步:
haar-like特徵有兩個優點,第一是它是scale-invariant(不隨圖片大小而改變)的,第二是可以通過積分圖像快速計算。簡單的說下第一點的含義,例如我們用24x24像素的訓練樣本訓練獲取一組haar-like特徵和對應的門限值,當對圖像進行掃描時,子窗大小調整為SxS像素,此時只需將特徵中的矩形大小按同樣比例進行縮放(門限值同樣需要縮放),計算所得的特徵值依然是有效的。
積分圖像是受卷積的微分性質啟發而定義一種數據結構。積分圖像定義:
其中 為積分圖像, 為原圖像。積分圖像中 位置處的像素值等於原圖中位於 的左側和上方的所有像素值之和。有了積分圖像我們就可以快速計算haar-like特徵,以特徵(a)為例,如下圖所示。
S1到S6是積分圖像在這六個頂點上的值。該特徵值等於位於A中的像素總和減去位於B中的像素總和,而A中像素總和等於S5+S1-S2-S4,B中像素總和等於S6+S2-S3-S5,並且無論矩形多大,我們總能在固定時間內計算出特徵值(6次索引操作和少量的加法乘法計算)。積分圖像只需計算一次後續可以一直使用,事實上在演算法實現時,我們只需保存樣本的積分圖像,原圖像反而不用保存。
現在找到了一類特徵用於構建分類器,和快速計算該類特徵的方法。分類器是由一組特徵構成的,而不是一個,如何找到一組有效的特徵。
文章列舉了前人的一些特徵選取方法(此處就不列舉了),它們雖然取得了一定的效果,但最終選出來的特徵數量還是太多。文章將adaBoost演算法用於特徵選取(創新點),即每次訓練的弱分類器的過程看做特徵選取的過程,一次從162336個特徵中選取一個特徵(同時還包括了對應的門限值,極性,加權誤差)。
adaboost演算法就不詳細介紹了,它的基本思想是訓練一系列「弱」分類器,組成一個committee(即每個弱分類器都有投票權,但是權重不同,加權誤差越小的弱分類器權重越大)。adaboost採用迭代訓練方式,給定一個t階committee,如何尋找第t+1個弱分類器和對應的權重,以最小化在一定分布下的訓練樣本的加權指數損失。這個優化過程可以轉換為對訓練樣本的分布進行調整(即增大上一輪錯誤判斷的樣本的權重,減小正確判斷的樣本權重),在調整後的樣本分布下尋找最小化加權0-1損失的弱分類器並計算對應的加權0-1損失。
可以利用adaboost找到一組特徵構成分類器,使得該分類器有極高的准確率和召回率(這種分類器勢必會有較大的計算量),這樣會導致圖像中的每一個子窗都享有同等的計算量,掃描一整幅圖會有幾十萬甚至上百萬子窗,總體計算量依然很大。實際上一幅圖像中只有極少可能包含人臉的位置是我們感興趣的,其他不包含人臉的子窗我們希望能夠快速篩除,將更精細的計算用於包含人臉的子窗。
文章引入了attention-cascade的機制(注意力級聯),即訓練多個分類器進行級聯,替代單一的分類器。結構如下圖所示(文章[3]中的圖)。
上圖所示的分類器有三級,上一級的輸出是下一級的輸入,只有預測為正的樣本才能傳遞給下一級,預測為負的樣本直接舍棄。大部分非人臉子窗往往在前幾級分類器就被舍棄,這樣使得掃描每個子窗所需的平均計算量大大減小。
分類器是一級一級訓練之後級聯起來的,訓練分類器時,整個級聯分類器的假負率(fpr_overall)有一個訓練目標(文章[1]中設置為10e-7),同時每一級有一對訓練目標,即假正率和假負率。每級分類器訓練的思想是在假負率極低的情況下(文章[1]中設置為0.005)盡量得到一個較低的假正率(文章中[1]中設置為0.5),即我們保證在正樣本盡可能多的通過該級分類器的情況下盡量篩除更多的負樣本。文章[3]通過一個鬆弛量來調節假正率和假負率。
下一級用到的訓練數據是由所有的正樣本和上一級輸出的假正樣本組成的,這樣訓練的好處是可以讓處於級聯後半部分的分類器「看到」更多負樣本數據,缺點是訓練後期假正樣本很難獲取,訓練時間會比較長。
盡管我們獲取了一個級聯分類器,但依然不能保證對同一幅圖中的一張人臉只會檢測到一次(子窗相對人臉有所便宜或者縮放子窗大小都可能導致重復檢測),如何消除重復檢測,獲得更好的檢測效果。
文章[3]中說的較為簡略,主要是針對檢測框構建並查集,並對並查集中的候選框求平均得出最終的檢測框。
文章[1]中是採用連通分量演算法,計算每種大小檢測框的置信度,根據置信度選取最終結果,但前提是檢測器在圖像中掃描的步進必須是1個像素,處理時間可能會比較長。
只能用於正臉檢測,如果人臉朝屏幕內外或者在屏幕平面上旋轉均有可能失效
在背景較亮,人臉較暗的情況下可能失效。
在有遮擋的情況下大概率失效。