聲紋識別演算法
㈠ 聲紋識別的關鍵問題
聲紋識別可以說有兩個關鍵問題,一是特徵提取,二是模式匹配(模式識別)。 特徵提取的任務是提取並選擇對說話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特徵。與語音識別不同,聲紋識別的特徵必須是「個性化」特徵,而說話人識別的特徵對說話人來講必須是「共性特徵」。雖然目前大部分聲紋識別系統用的都是聲學層面的特徵,但是表徵一個人特點的特徵應該是多層面的,包括:(1)與人類的發音機制的解剖學結構有關的聲學特徵(如頻譜、倒頻譜、共振峰、基音、反射系數等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發音、言語習慣等;(3)個人特點或受父母影響的韻律、節奏、速度、語調、音量等特徵。從利用數學方法可以建模的角度出發,聲紋自動識別模型目前可以使用的特徵包括:(1)聲學特徵(倒頻譜);(2)詞法特徵(說話人相關的詞n-gram,音素n-gram);(3)韻律特徵(利用n-gram描述的基音和能量「姿勢」);(4)語種、方言和口音信息;(5)通道信息(使用何種通道);等等。
根據不同的任務需求,聲紋識別還面臨一個特徵選擇或特徵選用的問題。例如,對「信道」信息,在刑偵應用上,希望不用,也就是說希望弱化信道對說話人識別的影響,因為我們希望不管說話人用什麼信道系統它都可以辨認出來;而在銀行交易上,希望用信道信息,即希望信道對說話人識別有較大影響,從而可以剔除錄音、模仿等帶來的影響。
總之,較好的特徵,應該能夠有效地區分不同的說話人,但又能在同一說話人語音發生變化時保持相對的穩定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能;……。當然,這些問題也可以通過模型方法去解決。 對於模式識別,有以下幾大類方法:
(1)模板匹配方法:利用動態時間彎折(DTW)以對准訓練和測試特徵序列,主要用於固定片語的應用(通常為文本相關任務);
(2)最近鄰方法:訓練時保留所有特徵矢量,識別時對每個矢量都找到訓練矢量中最近的K個,據此進行識別,通常模型存儲和相似計算的量都很大;
(3)神經網路方法:有很多種形式,如多層感知、徑向基函數(RBF)等,可以顯式訓練以區分說話人和其背景說話人,其訓練量很大,且模型的可推廣性不好;
(4)隱式馬爾可夫模型(HMM)方法:通常使用單狀態的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
(5)VQ聚類方法(如LBG):效果比較好,演算法復雜度也不高,和HMM方法配合起來更可以收到更好的效果;
(6)多項式分類器方法:有較高的精度,但模型存儲和計算量都比較大;
(7)……
聲紋識別需要解決的關鍵問題還有很多,諸如:短話音問題,能否用很短的語音進行模型訓練,而且用很短的時間進行識別,這主要是聲音不易獲取的應用所需求的;聲音模仿(或放錄音)問題,要有效地區分開模仿聲音(錄音)和真正的聲音;多說話人情況下目標說話人的有效檢出;消除或減弱聲音變化(不同語言、內容、方式、身體狀況、時間、年齡等)帶來的影響;消除信道差異和背景噪音帶來的影響;……此時需要用到其他一些技術來輔助完成,如去噪、自適應等技術。
對說話人確認,還面臨一個兩難選擇問題。通常,表徵說話人確認系統性能的兩個重要參數是錯誤拒絕率(False Rejection Rate, FRR)和錯誤接受率(False Acceptation Rate, FAR),前者是拒絕真正說話人而造成的錯誤,後者是接受集外說話人而造成的錯誤,二者與閾值的設定相關,兩者相等的值稱為等錯率(Equal Error Rate, EER)。在現有的技術水平下,兩者無法同時達到最小,需要調整閾值來滿足不同應用的需求,比如在需要「易用性」的情況下,可以讓錯誤拒絕率低一些,此時錯誤接受率會增加,從而安全性降低;在對「安全性」要求高的情況下,可以讓錯誤接受率低一些,此時錯誤拒絕率會增加,從而易用性降低。前者可以概括為「寧錯勿漏」,而後者可以「寧漏勿錯」。我們把真正閾值的調整稱為「操作點」調整。好的系統應該允許對操作點的自由調整。 聲紋識別可以應用的范圍很寬,可以說聲紋識別幾乎可以應用到人們日常生活的各個角落。比如下面舉幾個例子。
(1)信息領域。比如在自動總機系統中,把身份證之聲紋辨認和關鍵詞檢出器結合起來,可以在姓名自動撥號的同時向受話方提供主叫方的身份信息。前者用於身份認證,後者用於內容認證。同樣,聲紋識別技術可以在呼叫中心(Call Center)應用中為注冊的常客戶提供友好的個性化服務。
(2)銀行、證券。鑒於密碼的安全性不高,可以用聲紋識別技術對電話銀行、遠程炒股等業務中的用戶身份進行確認,為了提供安全性,還可以採取一些其他措施,如密碼和聲紋雙保險,如隨機提示文本用文本相關的聲紋識別技術進行身份確認(隨機提示文本保證無法用事先錄好的音去假冒),甚至可以把交易時的聲音錄下來以備查詢。
(3)公安司法。對於各種電話勒索、綁架、電話人身攻擊等案件,聲紋辨認技術可以在一段錄音中查找出嫌疑人或縮小偵察范圍;聲紋確認技術還可以在法庭上提供身份確認(同一性鑒定)的旁證。在監獄親情電話應用中,通過採集犯人家屬的聲紋信息,可有效鑒別家屬身份的合法性。在司法社區矯正應用中,通過識別定位手機位置和呼叫對象說話聲音的個人特徵,系統就可以快速的自動判斷被監控人是否在規定的時間出現在規定的場所,有效地解決人機分離問題。
(4)軍隊和國防。聲紋辨認技術可以察覺電話交談過程中是否有關鍵說話人出現,繼而對交談的內容進行跟蹤(戰場環境監聽);在通過電話發出軍事指令時,可以對發出命令的人的身份進行確認(敵我指戰員鑒別)。目前該技術在國外軍事方面已經有所應用,據報道,迫降在我國海南機場的美軍EP-3偵察機中就載有類似的聲紋識別偵聽模塊。
(5)保安和證件防偽。如機密場所的門禁系統。又如聲紋識別確認可用於信用卡、銀行自動取款機、門、車的鑰匙卡、授權使用的電腦、聲紋鎖以及特殊通道口的身份卡,把聲紋存在卡上,在需要時,持卡者只要將卡插入專用機的插口上,通過一個傳聲器讀出事先已儲存的暗碼,同時儀器接收持卡者發出的聲音,然後進行分析比較,從而完成身份確認。同樣可以把含有某人聲紋特徵的晶元嵌入到證件之中,通過上面所述的過程完成證件防偽。
㈡ 繼公安機關人臉識別系統之後,聲紋識別將成為公安系統下一個殺手級應用
在前不久的蘋果 WWDC 2019 全球開發者大會,有一項更新可能很多人沒太多關注,那就是 HomePod 加入了聲紋識別功能,可以通過聲紋識別特定的用戶。
最近也有消息稱 Siri 也將加入聲紋識別,當你說出「Hey Siri」的時候,Siri 可以知道是不是主人在喊它。這或許並非只是傳言,畢竟去年蘋果就曾在技術博客上發文,披露了關於 Siri 的聲紋識別技術細節。
聲紋識別(Voiceprint Recognition),也叫做說話人識別是一項根據語音波形中反映說話人生理和行為特徵的語音參數,來識別語音說話者身份的技術。由於每個人的發聲器官(舌、牙齒、喉頭、肺、鼻腔)在尺寸和形態方面不盡相同,因此聲紋也就成為一種鑒別說話人身份的識別手段。
那麼我們在經歷從指紋識別到人臉識別後,聲音是不是會成為新主流密碼認證模式呢?
雖然目前聲紋識別還沒在智能手機這樣的消費級產品中普及,但其實在銀行交易和國防安全等領域已經廣泛應用。
據市場調查得知,國內平安集團、廣大銀行、華瑞銀行、交通銀行等多家銀行目前都支持聲紋識別,這些銀行背後的技術服務商為老牌聲紋識別廠家--快商通,基於快商通在聲紋識別技術里的國際領先技術實力,目前在登錄、支付、業務核身、信貸等銀行場景中已有非常成熟的落地應用。
你可能沒想到,最青睞這項新技術的人群居然是老年人。一些國外的銀行表示老年的注冊人數激增,因為聲紋識別讓他們不用記住密碼,也降低了被欺詐的可能性。英國漢普郡一位退休音樂教師 Michael Wallis 曾經被騙子盜取賬戶信息後從賬戶里轉賬,銀行建議他使用聲紋識別技術, Michael 目前已經用聲紋識別來進行了 100 多次交易和查詢余額,他表示這讓他更加放心。
其實聲紋識別技術最早的大規模應用是在國防安全領域,據 The Intercept 報道,美國國家安全局(NSA)2006 年 1 月的機密備忘錄顯示,NSA 分析員通過一種「用聲音識別人的技術」,在音頻文件與電話監控中識別出一位間諜。
這裡面所用到顯然就是聲紋識別技術,而且由於 NSA 的特殊地位,得以建立一個龐大的聲紋庫,進一步提高了識別效率,即使監控對象使用的是未知號碼或者不同的語言,演算法都可以與聲紋庫的數據匹配。
在國內,聲紋識別技術目前在公安系統里的應用也非常廣泛,主要有以下幾個應用場景:
1.重點人員聲紋採集和建庫
建立重點人員聲紋資料庫,在110接警、重點區域范圍、重大活動期間等,一旦發現重點人員、黑名單人員聲紋信息,即進行預警,有效進行事前預防,目前行業做的比較好的有快商通、科大等,快商通的聲紋採集器已通過公安部質量檢測。
2.偵查破案
利用聲紋識別技術海量篩查優勢,進行「案查人」、「人查案」、「案查案」與「人查人」等多種排查方式,縮小偵查范圍,提高辦案效率。
3.反電信詐騙
利用聲紋鑒定技術對電信詐騙等案件中的涉案語音進行個體、團伙的識別,確定犯罪嫌疑人身份,為偵查破案、案件訴訟提供技術支撐。
4.治安防控
利用「語種識別」、「內容識別」、「聲紋特徵識別」等聲紋綜合分析技術,對重點人員進行布控,一旦出現立即進行關注控制。
現在類似的聲紋識別技術也被應用到更多消費級產品,最為常見的就是智能音箱,亞馬遜的 Echo,蘋果的 HomePod 和阿里的天貓精靈都已經支持,而且國人最常用的微信其實在 2015 年就推出了基於聲紋識別技術的聲音鎖。
不過消費電子產品領域,大多數消費者對於聲紋識別技術的接受度還不高。比如上線了 4 年微信聲音鎖,有不少用戶吐槽識別率不高,而且安全性也有待提高。據新京報報道,亂讀、讀錯或播放錄音都有可能打開微信聲音鎖,隨後微信方面也承認「確實存在一定的隱患」。
這也是聲紋識別技術在消費級領域還不夠成熟的一個體現,清華大學語音和語言技術中心主任鄭方在接受媒體采訪時表示:
目前在聲紋識別這個領域,不同技術或產品提供商參差不齊、差異很大;與此同時,聲紋識別不再是單一強調准確性,而是變得更為成熟、完備和可用。
如果聲紋識別技術在智能手機和眾多應用中普及,還可能引發更多關於隱私的問題。這意味 app 通過「偷聽」我們的話來給我們進行個性化推薦有可能成為現實。
去年 Facebook 的一項新的專利就可以在遠程激活手機的麥克風,從而對用戶的對話和周圍環境音進行錄音,然後將數據傳回 Facebook 進行分析。
盡管有許多問題需要解決,但不可否認聲紋識別確實有著更廣泛的應用前景。生物特徵認證技術已經被認為將取代各種明文密碼,而聲紋比起其他聲紋特徵也有著特殊的優勢,除了更加安全和方便,語音的採集和識別的成本也比面部識別要低,其實更加適合用於密碼認證。
在聲紋技術研發企業中,位於廈門的快商通,成立於2009年,以聲紋識別等智能生物識別、自然語言處理等人工智慧技術為核心,投入聲紋識別研發超過6年。以李海洲教授領銜的團隊,包括來自聲學所、新加坡國立大學、清華大學、廈門大學、劍橋大學等全球頂級名校的眾多博士和碩士。
產品生態矩陣涵蓋針對公安系統的聲紋標准採集終端、聲紋資料庫、聲紋反欺詐系統、智能聲紋鑒定專家工作站、聲紋採集建庫平台、社保遠程資格綜合認證平台、聲紋識別引擎、模擬營銷客服機器人、智能營銷客服系統等等,先後參與了公安部牽頭起草的《安全防範聲紋識別應用程序介面規范》、《安全防範聲紋識別應用網路語音樣本技術要求》等多項聲紋技術方面的國家標准,與中國標准化研究院合作建立了國內首個國家級「聲紋識別技術標准化研究基地」與「自然語言處理技術應用標准化研究基地」。
㈢ 聲紋識別是啥意思
所謂聲紋(Voiceprint),是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。
人類語言的產生是人體語言中樞與發音器官之間一個復雜的生理物理過程,人在講話時使用的發聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。每個人的語音聲學特徵既有相對穩定性,又有變異性,不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環境干擾有關。盡管如此,由於每個人的發音器官都不盡相同,因此在一般情況下,人們仍能區別不同的人的聲音或判斷是否是同一人的聲音。
聲紋識別及其應用
聲紋識別的應用有一些缺點,比如同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風和信道對識別性能有影響;比如環境噪音對識別有干擾;又比如混合說話人的情形下人的聲紋特徵不易提取;……等等。盡管如此,與其他生物特徵相比,聲紋識別的應用有一些特殊的優勢:(1)蘊含聲紋特徵的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語音的識別成本低廉,使用簡單,一個麥克風即可,在使用通訊設備時更無需額外的錄音設備;(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過網路(通訊網路或互聯網路)實現遠程登錄;(4)聲紋辨認和確認的演算法復雜度低;(5)配合一些其他措施,如通過語音識別進行內容鑒別等,可以提高准確率;……等等。這些優勢使得聲紋識別的應用越來越收到系統開發者和用戶青睞,聲紋識別的世界市場佔有率15.8%,僅次於手指和手的生物特徵識別,並有不斷上升的趨勢。
㈣ 聲紋識別技術在公安案件偵查中如何應用
從《人民的名義》看聲紋識別技術在案件偵查中的應用
被號稱為「史上最大尺度反腐劇」的《人民的名義》即將收官,播出期間,該劇一直備受好評。除了曲折的故事情節之外,該劇最大的看點就是公安機關曲折的案件偵查過程,只不過因為劇中涉及到了貪污受賄犯罪案件、刑事案件、經濟案件等一系列犯罪事件,錯綜復雜的關聯和故事情節給案件偵查帶來了巨大的麻煩。
下面這一幕,相信大家對還有印象:
在《人民的名義》第21集,劇中反貪局長侯亮平與京州市公安局局長趙東來一行在拳擊場就陳海車禍案件進行探討分析時,陳海在車禍前共接到兩個舉報電話,京州公安局將兩個電話交由不同技術部門進行了兩次鑒定,得出了兩個舉報人的聲音並非是舉報人蔡成功同一個人。
顯然,聲音的鑒定給公安機關提供了偵查案件的關鍵證據和調查方向。
隨著科技的發展,尤其是生物科技的不斷發展並逐漸廣泛應用,包括人臉、指紋、掌紋、聲紋等生物特徵類證據已成為公安和司法機關破案偵查的重要證據之一,在熱播的《人民的名義》中,聲音就成了調查原漢東省檢察院反貪局局長陳海車禍案件的重要線索。
這種通過提取說話人聲紋特徵來辨別身份的技術被稱為聲紋識別,特別適用於在無法當面見到當事人的情況。
聲紋識別是如何辨別說話人身份的?
眾所周知,每個人發音講話都是通過鼻腔、口舌、聲道、胸肺幾大器官多重配合的結果,不同人聲音的頻率、音色、語調甚至口音等特質組成了獨特的聲紋圖譜,包含音質、音長、音強、音高等,通過對這些特徵的比對,從而能夠實現身份的認證。
聲紋識別的過程就是通過錄音設備把聲音信號轉換成電信號,再用信號處理演算法提取以上特徵,然後使用機器學習演算法來識別說話人的身份。這種技術最早40年代末由貝爾實驗室開發,主要用於戰爭時期軍事情報領域,技術要求很高,隨著科技的發展目前已經開始逐漸被應用到了案件偵查以及金融等商業應用。
聲紋識別與身份安全解決方案提供商快商通分析介紹:「在《人民的名義》劇情中,公安刑偵人員通過分析兩段電話錄音中的音素,比對兩段音頻中共同音素的頻譜,判斷兩個音素是否來自於同一人。通常來說,如果兩段音頻存在20個匹配的特徵點,那就可以推斷是同一人的聲音,反之則是不同人的聲音。這是聲紋身份驗證應用中的1:1比對方式」,它的目的是確認語音是否來自某個人,也就是說話人的確認。
此外,在聲紋領域還有一種方式是通過1:N的方式來進行聲紋對比,它是將一個人的聲音與現有聲紋資料庫中的聲紋數據進行對比,進而找出最有可能的說話人,簡單來說就是判斷語音是哪個人說的,也被稱為說話人辨認。這種方式在重點人群監控、犯罪嫌疑人排查以及案件司法證據鑒定方面廣泛運用。
快商通表示,過去聲紋識別的對比通常採用人工經驗,通常情況下通過人工進行對比2~15分鍾的音頻需要半天到一天的時間。現在通過人工智慧,採用機器學習的自動化方法,通過大數據樣本序列進行自動化分析,只需要數秒就能判定出結果。更先進的科技技術,也帶來了更高效、智能、安全可靠的鑒別服務。
事實上,就如《人民的名義》里所講的一樣,聲紋鑒定如今已成為公安司法機關檢查辦案的關鍵證據之一,通過語音聲紋的對比分析鑒定,可以鎖定嫌疑人,進而查找出嫌疑人的性別、年齡、戶籍等重要信息,為偵查破案工作提供線索,從而大幅度提高了公安機關的辦案效率,降低了辦案成本。
國內聲紋識別創業公司已經領先全球
聲紋識別的准確率是聲紋識別最重要的指標之一,全球主要的聲紋識別技術廠商都在不斷努力提升這一指標。
據了解,在日常環境中使用短語音進行注冊和驗證,快商通的演算法核心指標已經突破99.6%的准確率,達到了世界領先水平,這也標志著快商通的聲紋識別技術能夠進行大規模的行業應用。從當前世界范圍內發表的學術論文看,目前國內還沒有第二家企業的聲紋識別演算法能夠達到這一準確率。
這家公司又是什麼來頭呢?
快商通創立於2009年,公司近300餘人,總部位於廈門,上海、深圳、新加坡等地有辦事機構和子公司。廈門市人工智慧行業協會發起單位、會長單位。獲得2019年「吳文俊人工智慧科學技術進步獎」、「廈門市科學技術進步獎」等。
2012年開始投入聲紋識別和自然語言處理技術研究。獲得2018年由美國國家標准局舉辦的全球聲紋大賽(NIST SRE 2018)全球第三名、大中華區第一名;獲得由GA部、工信部、網信辦聯合舉辦的中國人工智慧大賽的「聲紋識別」和「同源音頻指紋檢索」項目的全球第三名和第二名。在金融反詐領域,快商通領銜全國1:N聲紋檢索能力,在演算法、數據、落地經驗、演算法引擎架構能力等方面,獨占鰲頭。在醫療教育領域,快商通憑借語義分析和多輪對話技術,佔領全國醫療教育智能對話市場80%以上頂端客戶。
㈤ 什麼是聲紋識別
1.聲紋識別技術
聲紋識別,也叫做說話人識別是一項根據語音波形中反映說話人生理和行為特徵的語音參數,來識別語音說話者身份的技術。由於每個人的發聲器官(舌、牙齒、喉頭、肺、鼻腔)在尺寸和形態方面不盡相同,因此聲紋也就成為一種鑒別說話人身份的識別手段。聲紋識別系統是以說話人的語音作為輸入,用訓練得到的特定人聲紋模型來識別待測語音的話者身份。
聲紋識別系統一般包括兩個步驟:聲紋建模和聲紋驗證,典型的聲紋識別系統如下圖所示。
聲紋識別演算法的完整訓練和識別框架圖
其實聲紋識別目前在公安領域里應用已經比較多了,展開來說主要有以下幾個應用場景:
1.重點人員聲紋數據採集和聲紋資料庫系統建庫
建立重點人員聲紋資料庫,在110接警、重點區域范圍、重大活動期間等,一旦發現重點人員、黑名單人員聲紋信息,即進行預警,有效進行事前預防,這塊目前國內做得比較好的有快商通、科大等。
2.偵查破案
利用聲紋識別技術海量篩查優勢,進行「案查人」、「人查案」、「案查案」與「人查人」等多種排查方式,縮小偵查范圍,提高辦案效率,據說快商通在國內已經協助某市公安局破獲了好幾起案件。
3.反電信詐騙
利用聲紋鑒定技術對電信詐騙等案件中的涉案語音進行個體、團伙的識別,確定犯罪嫌疑人身份,為偵查破案、案件訴訟提供技術支撐。個人覺得這個領域的應用是最有意義的,目前對於電信詐騙這種非接觸式的案件,偵破還是相當有難度,公安能夠拿到的不多的信息基本都是通話記錄。
4.治安防控
利用「語種識別」、「內容識別」、「聲紋特徵識別」等聲紋綜合分析技術,對重點人員進行布控,一旦出現立即進行關注控制。
㈥ 聲紋識別技術主要技術部分有哪些
聲紋主要的技術難點在於如何對語音信號進行說話人相關的信息提取和表示。一般而言對一段語音說話人相關特徵的提取主要是按照如圖所示的流程進行:
㈦ 《最強大腦》人機大戰第二期聲紋識別的難點有幾個
聲紋識別任務,簡單地說就是判斷給定的一句話到底是誰說的任務。主要分為聲紋確認技術(1:1)和聲紋識別技術(1:N)兩類。聲紋確認技術回答的是兩句話到底是不是一個人說的問題,而聲紋識別技術回答的則是」給定的一句話屬於樣本庫中誰說的」問題,見下圖。本次節目就是採用了「聲紋識別」任務,在21位聲音特性及其相似的歌手中,憑借著有限的聲音樣本,來回答樣本屬於誰的問題。
本次任務的難點在哪?
難度一:泛化能力。
目前機器學習演算法大多採用數據驅動的方法,什麼是數據驅動呢?簡單來說,就是「你給了機器什麼樣的數據,機器以後就只認識這樣的數據。」而在面對與學習時不一樣的數據時,機器則往往會存在識別障礙。衡量一個機器學習演算法好壞的一個重要指標,就是機器能夠處理學習時沒有遇見過的樣本的能力,這種能力被稱之為」泛化能力」。例如,如果我們讓機器學習識別狗時,用的學習樣本都是成年的阿拉斯加,那麼演算法在遇到泰迪時,就會極有可能告訴你泰迪不是一隻狗。在聲紋識別中我們也會面臨著同樣的問題,傳統的聲紋識別任務都是注冊和測試都是非常匹配的,即注冊採用正常說話,測試也是正常說話。而在本次比賽中,注冊的語音則變成了唱歌,測試的才是正常說話。因此,我們需要讓我們的模型能夠學到同一個人在唱歌和說話時的差異。這對聲紋識別演算法的泛化能力提出了更高的要求。
難度二:注冊語音的趨同效應
一般而言,正常人說話時的聲音特徵是具有明顯的差異的。而本次節目採用的大合唱形式能顯著的降低了不同人的差異性。由於合唱的要求大家的聲音能像一個人那樣的整齊,因此不同的合唱隊員的唱歌樣本就會有趨同效應,大家會刻意的通過改變發音習慣等來使得合唱的效果更好。這就好比分類難度從貓和狗的識別變成了阿拉斯加和哈士奇的區別。二者的難度有明顯的差異。並且,合唱的內容有長時間的語氣詞內容,更進步增加了注冊語音的混淆程度。
難度三:線人測試聲音的斷斷續續
由於人在發音時,存在協同發音的效應,即前後相連的語音總是彼此影響,後面說的內容會受前面說的內容的影響。而這些特性會被機器已數據驅動的方式學習到模型中,而在面臨斷斷續續的語音時,特定說話人的一些發音習慣就有很大可能被損壞掉,從而加大了說話人特徵提取表徵的難度。
難度四:線人測試聲音時長過短
由於目前的機器學習的演算法要能夠有效的表徵出一段語音能夠表示的說話人信息,那麼這段語音必須要有足夠長。否則,語音過短,提取出來的特徵不足以有效的表徵該說話人的信息,就會導致系統性能出現嚴重下降。這就是聲紋識別領域中的短時語音聲紋驗證難題。在實際測試中,線人說話的聲音過短,不超過10個字,有效時間長短也小於3s。這就給我們的演算法帶來了極大的難度,我們需要更為魯棒的來提取出短時的、斷斷續續的線人說話聲音所能夠表徵的線人特性。
難度五:1:N?1:1
目前國際上的聲紋任務,大多是聲紋確認任務,也就是1:1的任務。識別的任務要更難一點,比如說目標人的得分在二十人里排在第二,作為確認任務,可以認為准確率是95%,而作為識別任務,准確率就是0%。
難度六:信道問題
信道問題一直是聲紋識別領域的一個難點。而這次比賽時現場的信道,和我們之前積累的語音數據有很大的不同,想要收集到大量同信道的數據非常困難,我們必須要想辦法將跨信道的影響降到最低。
㈧ 聲紋識別的分類
聲紋識別(Voiceprint Recognition, VPR),也稱為說話人識別(Speaker Recognition),有兩類,即說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。前者用以判斷某段語音是若幹人中的哪一個所說的,是「多選一」問題;而後者用以確認某段語音是否是指定的某個人所說的,是「一對一判別」問題。不同的任務和應用會使用不同的聲紋識別技術,如縮小刑偵范圍時可能需要辨認技術,而銀行交易時則需要確認技術。不管是辨認還是確認,都需要先對說話人的聲紋進行建模,這就是所謂的「訓練」或「學習」過程。 在對說話的人辨認方面,根據待識別的說話人是否在注冊的說話人集合內,說話人辨認可以分為開集(open-set)辨認和閉集(close-set)辨認。前者假定待識別說話人可以在集合外,而後者假定待識別說話人在集合內。顯然,開集辨認需要有一個對集外說話人的「拒識問題」,而且閉集辨認的結果要好於開集辨認結果。本質上講,說話人確認和開集說話人辨認都需要用到拒識技術,為了達到很好的拒識效果,通常需要訓練一個假冒者模型或背景模型,以便拒識時有可資比較的對象,閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的性能。一個好的背景模型,往往需要通過預先採集好的若干說話人的數據,通過某種演算法去建立。
如果技術達到一定的水平,可以把文本相關識別並入文本無關識別,把閉集辨認並入開集辨認,從而提供更為方便的使用方法。
㈨ 聲紋採集設備採用的是什麼演算法和技術
X90攜帶型審訊記錄系統設備
X90攜帶型審訊記錄系統設備滿足公安部《聲紋數據採集終端技術要求》。對接蝙蝠聲學智能聲紋識別引擎、智能聲紋鑒定專家工作站等,可以輕松實現聲紋識別1:1身份確認、聲紋識別1:N嫌疑人排查、聲紋辨認等功能。同時可以進行實時比對和聲紋鑒定。僅憑一通電話錄音或微信語音即可快速確定嫌疑人和縮小偵查范圍。
五、聲紋市場爆發,蝙蝠聲學佔領行業制高點,打造實用性與創造性雙優口碑
公共安全作為與人們生命財產安全緊密相關的重要領域,在人工智慧的助推下,迎來了一輪技術革新,相關智能化應用涌現。基於生物特徵的身份識別認證技術為偵破案件提供了強有力的幫助。經國務院同意印發的《「十三五」國家戰略性新興產業發展規劃》中,聲紋識別更是被重點列入「推廣期」。
聲紋識別等人工智慧技術正在進入大規模實用階段,只有兼具優良品質和創新價值的AI產品,才能真正助力智慧警務升級。作為行業領頭羊,蝙蝠聲學未來將持續精準匹配公安需求,不斷提升產品性能,致力於公共安全等垂直行業的應用落地,為智慧警務建設貢獻力量。
㈩ 詳解聲紋識別:如何正確評價小度在最強大
本次最強大腦人機挑戰的項目是聽聲識人,背後的技術背景是聲紋識別技術。實際上聲紋識別是一種行為識別技術,是通過測試、採集聲音的波形和變化,與登記過的聲音模板進行匹配。該項技術最早由40年代末的貝爾實驗室開發,主要用於軍事情報領域。隨著技術發展,逐步在法醫鑒定、法庭證據等領域得到廣泛使用。 聲紋識別的理論基礎 每一個聲音都具有獨特的特徵,通過該特徵能將不同人的聲音進行有效的區分。 這種特徵主要由兩個因素決定,第一個是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。就像指紋一樣,每個人的聲音也就有獨特的特徵。第二個因素是發聲器官被操縱的方式,發聲器官之間相互作用就會產生清晰的語音。人在學習說話的過程中,通過模擬周圍不同人的說話方式,就會逐漸形成自己的聲紋特徵。 理論上來說,聲紋就像指紋一樣,很少會有兩個人具有相同的聲紋特徵。 小度聲紋識別技術解析 最強大腦中,小度機器人擁有的聲紋識別技術,實際上屬於動態聲音實時檢測技術,同時還包括VAD、降噪、去混響等(VAD的目的是檢測是不是人的聲音,降噪和去混響是排除環境干擾)。 考慮到挑戰場景是從合唱團中找到特點的人聲,難點在於如何對語音信號中說話人相關的信息提取和表示,以及如何去區分類似人聲的細微差異。一般而言對一段語音說話人相關特徵的提取主要是按照如圖所示的流程進行: 對於收集到的語音,首先會進行有效語音檢測(VAD),將收集到的語音中非有效部分的語音進行切除,然後進行聲學特徵提取。由於語音信號是一種短時非平穩不定長的信號,因此一般提取特徵都是採取加窗得到以幀為單位的特徵。目前採用的聲學特徵普遍為經典的梅爾頻率倒譜系數MFCC、感知現行預測系數PLP,以及目前火熱的基於深度學習的特徵deep feature。在得到聲學特徵之後,就是說話人信息的進一步提取。這里採用的建模方法主要採用ivector演算法以及帶殘差處理的深度卷積神經中國絡演算法。通過建模後,我們就能夠對語音進行更深層次的特徵表示,使得說話人相關的信息進一步被呈現。最後得到的模型,就能夠將特徵提取階段得到的特徵進一步轉化為能夠表徵說話人特性的樣本。 這樣,我們就能夠將特定說話人的語音徹底轉換為能夠表徵該說話人特性的模型。(在實際的比賽過程中,21個合唱隊員在進行唱歌時,我們通過分別將這21個隊員的唱歌聲音送入到該模型中,最後得到21個能夠表徵這些隊員信息的模型)。 識別匹配階段就相對容易理解了,在採集到測試語音之後,進行相應的特徵提取操作,然後通過與模版庫裡面的所有模板樣本進行相似距離計算,然後選擇距離最近的一個作為最後的判決結果。(在實際比賽過程中,這就相當於三次測試,每次測試,我們將線人的暗號語音送入到模型中,提取特徵,然後再分別與21個模型進行打分比較,得分最高者即是機器認為的最有可能的線人)。整個過程如下圖所示: 本次聲紋識別的難度 可能大家最感興趣的是,最強人工智慧的小度和我們的小選手小寶3題只對了1題。這里我簡單說下影響大家發揮的因素,如下: 1、噪音問題 2、多人唱歌 3、聲音記憶遺忘 4、特徵遷移 排名第一的是噪音問題,包括現場噪音和音樂噪音,這個比上場人臉識別的影響更大(上期存在著光線的影響),音樂本身也會影響機器和選手的判斷;第二是多人唱歌,眾所周知,聲紋的識別主要靠頻譜特徵,而多人會出現頻譜混疊的現象,使得特徵分離和識別難度較大;第三,主要是對人類選手的影響,一般的人記憶時間的序列會比空間的要難,尤其是在記憶三串聲音序列後,容易出現混淆,這也是為什麼doctorWei一再希望小寶多聽幾遍的原因;最後說下特徵遷移,挑戰中是通過記憶說話,到辨識唱歌。而往往人們說話和唱歌聲紋是不同的,這就存在一個特徵遷移的問題,對應到我們的兩位選手需要一定的歸納推理能力。 以上4個因素使得最終結果不是那麼完美,但是也正是這些不完美才會讓我們在技術上不斷進步,不斷超越過去的自己