android聲紋識別
⑴ 聲紋識別的關鍵問題
聲紋識別可以說有兩個關鍵問題,一是特徵提取,二是模式匹配(模式識別)。 特徵提取的任務是提取並選擇對說話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特徵。與語音識別不同,聲紋識別的特徵必須是「個性化」特徵,而說話人識別的特徵對說話人來講必須是「共性特徵」。雖然目前大部分聲紋識別系統用的都是聲學層面的特徵,但是表徵一個人特點的特徵應該是多層面的,包括:(1)與人類的發音機制的解剖學結構有關的聲學特徵(如頻譜、倒頻譜、共振峰、基音、反射系數等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發音、言語習慣等;(3)個人特點或受父母影響的韻律、節奏、速度、語調、音量等特徵。從利用數學方法可以建模的角度出發,聲紋自動識別模型目前可以使用的特徵包括:(1)聲學特徵(倒頻譜);(2)詞法特徵(說話人相關的詞n-gram,音素n-gram);(3)韻律特徵(利用n-gram描述的基音和能量「姿勢」);(4)語種、方言和口音信息;(5)通道信息(使用何種通道);等等。
根據不同的任務需求,聲紋識別還面臨一個特徵選擇或特徵選用的問題。例如,對「信道」信息,在刑偵應用上,希望不用,也就是說希望弱化信道對說話人識別的影響,因為我們希望不管說話人用什麼信道系統它都可以辨認出來;而在銀行交易上,希望用信道信息,即希望信道對說話人識別有較大影響,從而可以剔除錄音、模仿等帶來的影響。
總之,較好的特徵,應該能夠有效地區分不同的說話人,但又能在同一說話人語音發生變化時保持相對的穩定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能;……。當然,這些問題也可以通過模型方法去解決。 對於模式識別,有以下幾大類方法:
(1)模板匹配方法:利用動態時間彎折(DTW)以對准訓練和測試特徵序列,主要用於固定片語的應用(通常為文本相關任務);
(2)最近鄰方法:訓練時保留所有特徵矢量,識別時對每個矢量都找到訓練矢量中最近的K個,據此進行識別,通常模型存儲和相似計算的量都很大;
(3)神經網路方法:有很多種形式,如多層感知、徑向基函數(RBF)等,可以顯式訓練以區分說話人和其背景說話人,其訓練量很大,且模型的可推廣性不好;
(4)隱式馬爾可夫模型(HMM)方法:通常使用單狀態的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
(5)VQ聚類方法(如LBG):效果比較好,演算法復雜度也不高,和HMM方法配合起來更可以收到更好的效果;
(6)多項式分類器方法:有較高的精度,但模型存儲和計算量都比較大;
(7)……
聲紋識別需要解決的關鍵問題還有很多,諸如:短話音問題,能否用很短的語音進行模型訓練,而且用很短的時間進行識別,這主要是聲音不易獲取的應用所需求的;聲音模仿(或放錄音)問題,要有效地區分開模仿聲音(錄音)和真正的聲音;多說話人情況下目標說話人的有效檢出;消除或減弱聲音變化(不同語言、內容、方式、身體狀況、時間、年齡等)帶來的影響;消除信道差異和背景噪音帶來的影響;……此時需要用到其他一些技術來輔助完成,如去噪、自適應等技術。
對說話人確認,還面臨一個兩難選擇問題。通常,表徵說話人確認系統性能的兩個重要參數是錯誤拒絕率(False Rejection Rate, FRR)和錯誤接受率(False Acceptation Rate, FAR),前者是拒絕真正說話人而造成的錯誤,後者是接受集外說話人而造成的錯誤,二者與閾值的設定相關,兩者相等的值稱為等錯率(Equal Error Rate, EER)。在現有的技術水平下,兩者無法同時達到最小,需要調整閾值來滿足不同應用的需求,比如在需要「易用性」的情況下,可以讓錯誤拒絕率低一些,此時錯誤接受率會增加,從而安全性降低;在對「安全性」要求高的情況下,可以讓錯誤接受率低一些,此時錯誤拒絕率會增加,從而易用性降低。前者可以概括為「寧錯勿漏」,而後者可以「寧漏勿錯」。我們把真正閾值的調整稱為「操作點」調整。好的系統應該允許對操作點的自由調整。 聲紋識別可以應用的范圍很寬,可以說聲紋識別幾乎可以應用到人們日常生活的各個角落。比如下面舉幾個例子。
(1)信息領域。比如在自動總機系統中,把身份證之聲紋辨認和關鍵詞檢出器結合起來,可以在姓名自動撥號的同時向受話方提供主叫方的身份信息。前者用於身份認證,後者用於內容認證。同樣,聲紋識別技術可以在呼叫中心(Call Center)應用中為注冊的常客戶提供友好的個性化服務。
(2)銀行、證券。鑒於密碼的安全性不高,可以用聲紋識別技術對電話銀行、遠程炒股等業務中的用戶身份進行確認,為了提供安全性,還可以採取一些其他措施,如密碼和聲紋雙保險,如隨機提示文本用文本相關的聲紋識別技術進行身份確認(隨機提示文本保證無法用事先錄好的音去假冒),甚至可以把交易時的聲音錄下來以備查詢。
(3)公安司法。對於各種電話勒索、綁架、電話人身攻擊等案件,聲紋辨認技術可以在一段錄音中查找出嫌疑人或縮小偵察范圍;聲紋確認技術還可以在法庭上提供身份確認(同一性鑒定)的旁證。在監獄親情電話應用中,通過採集犯人家屬的聲紋信息,可有效鑒別家屬身份的合法性。在司法社區矯正應用中,通過識別定位手機位置和呼叫對象說話聲音的個人特徵,系統就可以快速的自動判斷被監控人是否在規定的時間出現在規定的場所,有效地解決人機分離問題。
(4)軍隊和國防。聲紋辨認技術可以察覺電話交談過程中是否有關鍵說話人出現,繼而對交談的內容進行跟蹤(戰場環境監聽);在通過電話發出軍事指令時,可以對發出命令的人的身份進行確認(敵我指戰員鑒別)。目前該技術在國外軍事方面已經有所應用,據報道,迫降在我國海南機場的美軍EP-3偵察機中就載有類似的聲紋識別偵聽模塊。
(5)保安和證件防偽。如機密場所的門禁系統。又如聲紋識別確認可用於信用卡、銀行自動取款機、門、車的鑰匙卡、授權使用的電腦、聲紋鎖以及特殊通道口的身份卡,把聲紋存在卡上,在需要時,持卡者只要將卡插入專用機的插口上,通過一個傳聲器讀出事先已儲存的暗碼,同時儀器接收持卡者發出的聲音,然後進行分析比較,從而完成身份確認。同樣可以把含有某人聲紋特徵的晶元嵌入到證件之中,通過上面所述的過程完成證件防偽。