語音識別演算法
『壹』 語音識別:如圖的噪音音頻能夠用什麼演算法識別出來
能詳細描述出來你想達到什麼效果么?如果是問什麼軟體,只是看音頻的雜訊,你圖里的軟體就可以,沒記錯的話應該是Audacity,也可以用cooledit。
『貳』 用C語言進行語音識別
普通要做語音的FFT分析,然後根據一些模型做分析,可以分別找出某些頻譜特徵語音的成分,從而判斷是否有某種聲音(比如某人的說話聲);
但要做到把多個不同的聲音分開,設計這樣的濾波器比較困難
做到將說話聲識別成文字就更難了,要用到市場上成熟的演算法(有可能不是免費的),而且識別率比較低。
『叄』 關於語音識別特徵提取該如何入門
1. Take the Fourier transform of (a windowed excerpt of) a signal.這一步其實說了兩件事:一是把語音信號分幀,二是對每幀做傅里葉變換。要分幀是因為語音信號是快速變化的,而傅里葉變換適用於分析平穩的信號。在語音識別中,一般把幀長取為20~50ms,這樣一幀內既有足夠多的周期,又不會變化太劇烈。每幀信號通常要與一個平滑的窗函數相乘,讓幀兩端平滑地衰減到零,這樣可以降低傅里葉變換後旁瓣的強度,取得更高質量的頻譜。幀和幀之間的時間差(稱為「幀移」)常常取為10ms,這樣幀與幀之間會有重疊,否則,由於幀與幀連接處的信號會因為加窗而被弱化,這部分的信息就丟失了。傅里葉變換是逐幀進行的,為的是取得每一幀的頻譜。一般只保留幅度譜,丟棄相位譜。
2. Map the powers of the spectrum obtained above onto the mel scale, using triangular overlapping windows.這一步做的事情,是把頻譜與下圖中每個三角形相乘並積分,求出頻譜在每一個三角形下的能量:這一步有如下幾個效果:
1) 傅里葉變換得到的序列很長(一般為幾百到幾千個點),把它變換成每個三角形下的能量,可以減少數據量(一般取40個三角形);
2) 頻譜有包絡和精細結構,分別對應音色與音高。對於語音識別來講,音色是主要的有用信息,音高一般沒有用。在每個三角形內積分,就可以消除精細結構,只保留音色的信息。當然,對於有聲調的語言來說,音高也是有用的,所以在MFCC特徵之外,還會使用其它特徵刻畫音高。
3) 三角形是低頻密、高頻疏的,這可以模仿人耳在低頻處解析度高的特性。
3. Take the logs of the powers at each of the mel frequencies.這一步就是取上一步結果的對數。簡單點理解,它是對縱軸的放縮,可以放大低能量處的能量差異;更深層次地,這是在模仿倒譜(cepstrum)的計算步驟。倒譜又是另一個話題,此處不展開講了。
4. Take the discrete cosine transform of the list of mel log powers, as if it were a signal.求倒譜時這一步仍然用的是傅里葉變換。計算MFCC時使用的離散餘弦變換(discrete cosine transform,DCT)是傅里葉變換的一個變種,好處是結果是實數,沒有虛部。DCT還有一個特點是,對於一般的語音信號,這一步的結果的前幾個系數特別大,後面的系數比較小,可以忽略。上面說了一般取40個三角形,所以DCT的結果也是40個點;實際中,一般僅保留前12~20個,這就進一步壓縮了數據。上面整個過程的結果,就把一幀語音信號用一個12~20維向量簡潔地表示了出來;一整段語音信號,就被表示為這種向量的一個序列。語音識別中下面要做的事情,就是對這些向量及它們的序列進行建模了。
『肆』 誰知道語音識別這方面的知識!!!
高性能漢語數碼語音識別演算法
李虎生 劉加 劉潤生
摘 要: 提出了一個高性能的漢語數碼語音識別(MDSR)系統。 MDSR系統使用Mel頻標倒譜系數(MFCC)作為主要的語音特徵參數,同時提取共振峰軌跡和鼻音特徵以區分一些易混語音對,並提出一個基於語音特徵的實時端點檢測演算法,以減少系統資源需求,提高抗干擾能力。採用了兩級識別框架來提高語音的區分能力,其中第一級識別用於確定識別候選結果,第二級識別用於區分易混語音對。由於採用了以上改進, MDSR系統識別率達到了98.8%.
關鍵詞:漢語; 數碼語音識別
分類號:TN 912.34 文獻標識碼:A
文章編號:1000-0054(2000)01-0032-03
High performance digit mandarin
speech recognition
LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)
Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words:mandarin;digit speech recognition▲
漢語數碼語音識別 (mandarin digit speech recognition, MDSR) 是語音識別領域中一個具有廣泛應用背景的分支,它的任務是識別「0」到「9」等10個非特定人漢語數碼語音,在電話語音撥號、工業監控、家電遙控等領域有著極大的應用價值〔1〕。但與英語數碼語音識別相比, MDSR的性能尚未達到成熟應用水平,這是因為 1) 漢語數碼語音的混淆程度較高; 2) 漢語是一個多方言語種,說話人會帶有或多或少的地方口音; 3) 在許多應用背景中,MDSR需要在運算和存儲資源都較為緊張的數字信號處理器(digital signal processor, DSP)系統上實現,這為MDSR演算法的設計帶來了很大的限制。由於以上原因,MDSR是一項相當困難的任務。
針對漢語數碼語音識別提出了一系列高性能的演算法,使MDSR識別率達到了98.8%。由這些演算法構成的識別系統框圖如圖1所示。
MDSR系統〔1〕提取的語音特徵參數包括用於識別的參數和用於端點檢測的參數。
圖1 MDSR系統框圖
1 語音前端處理
語音前端處理包括語音特徵提取和端點檢測兩部分。
1.1 語音特徵提取
1.1.1 基本識別參數
目前常用的語音識別參數有基於線性預測編碼(LPC)的線性預測倒譜系數(LPCC)和基於Mel頻標的倒譜系數(MFCC)〔2〕。實驗證明,採用MFCC參數時系統識別率高於採用LPCC參數。因此本文的基本識別參數採用MFCC參數及一階差分MFCC參數。
1.1.2 共振峰軌跡
在MDSR中,易混淆語音「2」和「8」可以由其第2,3共振峰的變化趨勢區分開〔3〕。因此可將共振峰軌跡作為識別參數之一,並選用峰值選取演算法來提取共振峰軌跡〔3〕。
1.1.3 鼻音特徵參數
漢語數碼語音中,「0」的母音具有鼻音的特徵,而「0」容易與具有非鼻化母音的「6」混淆,因此鼻音特徵可用於提高「0」的識別率。鼻音的特徵包括〔4〕:
1) 鼻音在頻譜低端(約0.25kHz左右)有1個較強的共振峰。
2) 鼻音在中頻段(約0.8~2.3kHz)的能量分布較為均勻,沒有明顯的峰或谷。
採用以下2個參數表徵鼻音的特徵:
1) 低頻能量比:
(1)
其中fn為鼻音低頻共振峰頻率, B為鼻音低頻共振峰帶寬。Fk為對語音作快速Fourior變換(FFT)後第k個頻率點的能量, 〔f1,f2〕則為語音「6」能量集中的頻帶。
2) 頻譜質心:
(2)
其中〔fL,fH〕為0.8~2.3kHz的中頻段。由於MDSR系統採用的基本識別參數為MFCC參數,其計算過程中需要作FFT,所以低頻能量比和頻譜質心兩個參數可以順帶算出,不會影響特徵提取的實時完成。
1.2 端點檢測
本文提出了基於語音特徵的實時端點檢測演算法(feature-based real-time endpoint detection, FRED),充分利用漢語數碼語音的特點,在實時提取特徵參數後完成端點檢測,檢測到的端點只精確到幀的量級。
根據語音學知識〔4〕, MDSR中各類語音的頻譜特點如表1
表1 漢語數碼語音頻譜特點
頻 譜 特 征
濁 音 元 音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較高
濁輔音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較低
清輔音 高頻(3.5kHz以上)能量較高
採用3個頻譜能量分布參數{R1,R2,R3}分別反應頻譜高頻、低頻和中頻的分布特徵。其定義如下:
(3)
(4)
其中: i表示第i幀, N為語音幀長,也即FFT點數, Fk為對語音幀作FFT後各頻率點能量, T為語音的總幀數,式(3),(4) 中求和號的上下限由表1中相應頻率范圍確定,當N為256,采樣頻率為實驗所用語音庫的11kHz時, f0=81, f1=9, f2 =2, f3=65, f4=15.由於進行了能量歸一化,所以上述特徵與語音的強度是無關的。由於計算MFCC參數時需要作FFT,因此頻譜能量分布參數可以順帶算出。此外,用於端點檢測的參數還包括短時能量參數E0(i)〔5〕.
由以上參數, FRED演算法過程為:
1) 根據采入信號首尾兩幀確定能量閾值;
2) 根據參數R2確定語音濁音段;
3) 根據參數R1與E0向濁音段兩端擴展式搜索語音起始幀;
4) 根據參數R3確定母音段。
FRED演算法的特點是:
1) 利用了語音的本質特徵進行端點檢測,能夠很好地適應環境的變化和干擾,實驗證明FRED演算法可以有效地提高識別率; 2) 將語音端點定在幀的量級上,保證了特徵參數在采樣時實時提取,節省了系統運行時間,大大減少了系統所需的存儲量; 3) 能夠准確地確定語音的母音段,從而將輔音與母音分割開,有利於對語音局部特徵的辨識。
2 識別演算法
實驗表明, MDSR的識別錯誤集中在少數幾對易混語音中〔1〕,因此本文採用了兩極識別框架,即第一級完成對識別結果的初步確定,第二級完成對易混淆語音的進一步辨識。
2.1 第一級識別
在第一級識別中採用的基本方法為離散隱含Malkov模型(DHMM)演算法〔5〕,用Viterbi演算法〔5〕計算各個數碼語音模型產生采入語音的概率Pr。
由於HMM是一個有人為假設的模型,所以有不可避免的缺陷。其中一個缺陷是在HMM中各狀態的持續時間呈幾何分布,即
P(Li=n)=anii(1-aii), (5)
其中: Li為狀態i的持續時間, aii為狀態i跳轉回自身的概率。按照式(5),狀態持續時間越長,其概率越小,這是不符合實際情況的。用Γ分布來描述狀態持續時間〔5〕,即
(6)
其中αi和βi為Γ分布的參數, Fi為歸一化因子參數,以上各參數在訓練時由訓練語音樣本估計出。在識別時,用Viterbi演算法獲得的最佳狀態路徑中各狀態持續時間的概率對Pr作修正:
(7)
其中: λ為加權系數, S為狀態數。識別結果則由修正後的概率P�′r獲得。實驗證明,用狀態持續時間分布對Pr進行修正所得的識別性能有明顯的提高。
2.2 第二級識別
對第一級識別的錯誤作分析,我們發現大部分錯誤都集中在少數幾對易混語音中。表2列出了識別錯誤最多的6對語音(其中「1」念為〔yao〕)占所有錯誤的百分比及其區分特徵。可見這6對語音占所有錯誤的91%,所以如果能夠在第二級識別中對這幾對語音作進一步的辯識,整個MDSR系統的性能會有很大的提高。
表2 易混語音錯誤百分比及其區分特徵
易混語音 占識別錯誤百分比/% 區分特徵
「2」「8」 45 共振峰軌跡變化趨勢
「1」「9」 12 不同的輔音
「1」「6」 11 不同的輔音
「0」「6」 11 鼻音特徵的有無
「3」「4」 8 不同的母音
「6」「9」 4 輔音的清濁性
由表2可見,易混語音「2」「8」, 「0」「6」, 「6」「9」可以用表徵其區分特徵的參數,根據一定的規則進行判決,而「1」「9」, 「1」「6」, 「3」「4」則可以利用端點檢測中元、輔音分割的結果,訓練母音部分和輔音部分的HMM參數,在識別時針對相應部分再作一次局部HMM識別。表3列出了各對易混語音第二級識別的方法。
表3 第二級識別方法
易混語音 第二級識別方法 規則判決的特徵參數或
局部HMM的辨識部位
「2」「8」 規則判決 共振峰軌跡
「1」「9」 局部HMM辨識 輔音
「1」「6」 局部HMM辨識 輔音
「0」「6」 規則判決 鼻音特徵
「3」「4」 局部HMM辨識 母音
「6」「9」 規則判決 頻譜分布參數R1
3 實驗結果
實驗使用了一個包含160人從「0」到「9」的各一遍發音的語音庫來測試系統的性能,庫中語音采樣率為11kHz,量化精度為16bit線性量化,錄音背景為普通辦公室環境。
首先測試了特徵參數採用LPCC參數,端點檢測採用快速端點檢測演算法〔6〕,只用Viterbi演算法進行一級識別時的基本結果,然後測試了逐個加入本文所提出的各種方法後的識別率,結果如表4。可見,所採用的每一種方法都使系統性能較之於基本系統有了顯著的提高,最後達到98.8%的識別率。
表4 演算法性能比較
採用的演算法 識別率/%
基本結果 91.1
採用MFCC參數 92.9
FRED演算法 95.4
狀態持續時間分布 96.0
第二級識別 98.8
4 結 論
採用了一系列演算法,有效地提高了MDSR系統的識別率,實現了一個高性能的MDSR系統,其特點為:
1) 採用了兩極識別框架,增強了對易混語音的區分能力。
2) 充分利用針對漢語數碼語音的語音學知識,提高了端點檢測的抗干擾能力,提取了用於區分易混語音的共振峰軌跡、鼻音特徵等聲學特徵,進一步提高了系統識別率。
3) 各演算法所需的運算量和存儲量都較小,有利於MDSR在DSP系統上的實現。■
基金項目:國家自然科學基金項目(69772020)和國家「八六三」高技術項目(863-512-9805-10)
作者簡介:李虎生 (1975-), 男(漢), 四川, 碩士研究生
作者單位:李虎生(清華大學,電子工程系,北京,100084)
劉加(清華大學,電子工程系,北京,100084)
劉潤生(清華大學,電子工程系,北京,100084)
參考文獻:
〔1〕顧良, 劉潤生. 漢語數碼語音識別: 困難分析與方法比較 〔J〕. 電路與系統學報, 1997, 2 (4): 32-39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.
〔3〕李虎生, 楊明傑, 劉潤生. 用共振峰軌跡提高漢語數碼語音識別性能 〔J〕. 清華大學學報, 1999, 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese)
〔4〕吳宗濟, 林茂燦. 實驗語音學教程 〔M〕. 北京: 高等教育出版社, 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Ecation Press, 1989. (in Chinese)
〔5〕楊行峻, 遲惠生. 語音信號數字處理 〔M〕. 北京: 電子工業出版社, 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顧良. 漢語數碼語音識別方法研究及DSP系統設計 〔D〕. 北京: 清華大學, 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM
『伍』 語音識別的原理是什麼
語音識別的原理可以從兩方面理解,分別是資料庫、演算法與自學習。
1、資料庫,其實語音識別的原理是非常好理解的,它是和指紋識別定位原理一樣的,設備會把目標語音收集起來,接著對這些收集來的語音實施處理,然後會得到目標語音的一些信息,下面就會把這些特徵信息和資料庫中已經存在的數據進行相似度的搜索對比,當評分最高的信息出現,那就是識別結果,會經由其他系統的接入把沒有完成的設備語音識別功能。
在實際的操作中,語音識別是非常復雜的,畢竟語音本身就較為復雜,它和指紋識別最大的區別就是,指紋識別只需要把指紋錄入然後由資料庫進行對比識別,可是語音識別就不能如此簡單。
由於語音的復雜性,所以語音的資料庫是非常龐大的,並且這種資料庫還不能放到移動端,這也是使用手機語音助手就必須要進行聯網的最大原因。語音識別自出現以來發展到現在,也是有出現過可以離線使用的,但是經過實際的使用後發現,離線版的無法保證准確率,一個可能會出錯的識別功能自然無法使用。
2、演算法和自學習,語音識別會對收集到的目標進行預處理,其中包括語音信號采樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的雜訊影響等等,總之是非常復雜的,所以之後對於需要處理的語言都會進行特徵的提取。
聲音是具有震動性的,主要的形狀為波形,語言識別也就是對這種波形進行分幀,多個幀構成一個狀態,三個狀態構成一個音素。英語常用音素集是卡內基梅隆大學的一套由39個音素構成的音素集,漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還分有調音調。然後經由音素系統吧這些合成單詞或者是漢字,下面經過相應的演算法處理即可。
自學習系統主要是針對資料庫的,吧語言變為文字的語言識別系統必須擁有兩個資料庫,一個用來提取聲音進行匹配,一個是能夠與之匹配的文本語言資料庫。這兩個資料庫都需要提前對數據機型進行訓練分析,簡單地理解為自學習系統。
『陸』 圖像識別比語音識別演算法的復雜度高多少倍
圖象識別容易,因為圖象可以在一個時間點成像。而語音沒有可能在一個時間點的采樣有用,語音多出來一個時間軸。 而這個時間軸引入的難題就是:換個時間,換個人,換個背景噪音,都變得沒法子識別了。目前,主流的大詞彙量語音識別系統多採用統計模式識別技術。典型的基於統計模式識別方法的 語音識別系統由以下幾個基本模塊所構成信號處理及特徵提取模塊。該模塊的主要任務是從輸入信號中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環境雜訊、信道、說話人等因素對特徵造成的影響。 統計聲學模型。典型系統多採用基於一階隱馬爾科夫模型進行建模。 發音詞典。發音詞典包含系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。 解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。 從數學角度可以更加清楚的了解上述模塊之間的關系。首先,統計語音識別的最基本問題是,給定輸入信號或特徵序列,符號集(詞典),求解符號串使得:圖像識別比語音識別演算法的復雜度高多少倍
『柒』 求語音識別解決方案。
用IBM滴好,支持系統全局語音化
IBM ViaVoice
『捌』 語音識別演算法有哪些
DTW 特定人識別
HMM 非特定人識別
GMM
神經網路
『玖』 國產語音識別演算法取得了重大突破嗎
據報道,近日中國人工智慧產業發展聯盟組建成立,聯盟將快速推動人工智慧技術在生產製造、健康醫療、生活服務、城市治理等場景的應用,據了解目前國產語音識別演算法已經取得了重大突破。
數據顯示,2016年中國數據總量佔全球數據總量的14%。據預測,到2020年,中國的數據總量將佔全球數據總量的20%,屆時中國將成為世界第一數據資源大國和全球的數據中心,此外,許多傳統行業的數據積累在規范程度和流轉效率上還遠未達到可充分發揮人工智慧技術潛能的程度。
中國的大技術公司通過它們專有的平台收集數據,但中國在創建數據友好的生態系統方面落後於美國,缺少統一的標准和跨平台的共享。從世界有關國家看,開放政府數據有助於私營部門的創新,但中國公共部門開放的數據相對較少。
希望中國人工智慧技術可以早日實現彎道超車!
『拾』 語音識別技術的基本方法
朋友進行語音識別,你可以試試ocr文字識別軟體,現在科技發達,軟體可以解決你的問題,下面來說說我的方法吧:
第一步:首先,打開ocr文字識別軟體,點擊上面【語音識別】功能按鈕。
第二步:接著,點擊左上角的【添加文件】,把需要識別的語音文件添加進去。
第三步:然後,點擊右邊開始識別。
第四步:最後,點擊右下角【保存為TXT】文檔。
朋友你試試我的方法可以不。