語音合成演算法
『壹』 現在有能模擬特定人聲音的演算法嗎
如果是從文字到語音,那麼叫做「語音合成」;如果是從一個人的語音到另一個人的語音,那麼叫「語音轉換」。這兩件事情都有人在研究,其中「語音合成」大家可能更為熟悉,比如Siri的聲音就是合成出來的。語音合成或轉換的軟體發布時,一般會內置幾個人的聲音,文字或別人的聲音可以比較容易地轉換成這些內置聲音。但如果要轉換成用戶自己的聲音,就需要錄制用戶自己的聲音作為訓練數據了。我不知道有什麼現成的軟體可以讓小白也能簡單地完成這件事。就像完美地P出一張圖一樣,雖然可行,能以假亂真,但總會有不完美的地方。
『貳』 語音合成的合成技術
波形拼接技術的發展與語音的編、解碼技術的發展密不可分,其中LPC技術(線性預測編碼技術)的發展對波形拼接技術產生了巨大的影響。LPC合成技術本質上是一種時間波形的編碼技術,目的是為了降低時間域信號的傳輸速率。
LPC合成技術的優點是簡單直觀。其合成過程實質上只是一種簡單的解碼和拼接過程。另外,由於波形拼接技術的合成基元是語音的波形數據,保存了語音的全部信息,因而對於單個合成基元來說能夠獲得很高的自然度。
但是,由於自然語流中的語音和孤立狀況下的語音有著極大的區別,如果只是簡單地把各個孤立的語音生硬地拼接在一起,其整個語流的質量勢必是不太理想的。而LPC技術從本質上來說只是一種錄音+重放,對於合成整個連續語流LPC合成技術的效果是不理想的。因此,LPC合成技術必須和其他技術相結合,才能明顯改善LPC合成的質量。 20世紀80年代末提出的PSOLA合成技術(基音同步疊加技術)給波形拼接合成技術注入了新的活力。PSOLA技術著眼於對語音信號超時段特徵的控制,如基頻、時長、音強等的控制。而這些參數對於語音的韻律控制以及修改是至關重要的,因此,PSOLA技術比LPC技術具有可修改性更強的優點,可以合成出高自然度的語音。
PSOLA技術的主要特點是:在拼接語音波形片斷之前,首先根據上下文的要求,用PSOLA演算法對拼接單元的韻律特徵進行調整,使合成波形既保持了原始發音的主要音段特徵,又能使拼接單元的韻律特徵符合上下文的要求,從而獲得很高的清晰度和自然度。
PSOLA技術保持了傳統波形拼接技術的優點,簡單直觀,運算量小,而且還能方便地控制語音信號的韻律參數,具有合成自然連續語流的條件,得到了廣泛的應用。
但是,PSOLA技術也有其缺點。首先,PSOLA技術是一種基音同步的語音分析/合成技術,首先需要准確的基因周期以及對其起始點的判定。基音周期或其起始點的判定誤差將會影響PSOLA技術的效果。其次,PSOLA技術是一種簡單的波形映射拼接合成,這種拼接是否能夠保持平穩過渡以及它對頻域參數有什麼影響等並沒有得到解決,因此,在合成時會產生不理想的結果。 隨著人們對語音合成的自然度和音質的要求越來越高,PSOLA演算法表現出對韻律參數調整能力較弱和難以處理協同發音的缺陷,因此,人們又提出了一種基於LMA聲道模型的語音合成方法。這種方法具有傳統的參數合成可以靈活調節韻律參數的優點,同時又具有比PSOLA演算法更高的合成音質。
這兩種技術各有所長,共振峰技術比較成熟,有大量的研究成果可以利用,而PSOLA技術則是比較新的技術,具有良好的發展前景。過去這兩種技術基本上是互相獨立發展的,
『叄』 TTS是什麼意思呢
TTS是指一項語音合成技術。
語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現。
文字轉語音系統則是將一般語言的文字轉換為語音,其他的系統可以描繪語言符號的表示方式,就像音標轉換至語音一樣。
(3)語音合成演算法擴展閱讀:
發展歷史
1、17世紀法國人研發機械式的說話裝置,直到19世紀,貝爾實驗室對於電子語音合成技術的研究,才開啟近代語音合成技術的發展。
2、貝爾實驗室在1939年製作出第一個電子語音合成器VODER,是一種利用共振峰原理所製作的合成器。
3、1960年,瑞典語言學家G. Fant則提出利用線性預測編碼技術(LPC)來作為語音合成分析技術,並推動了日後的發展。
4、1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA,此技術可以合成比較自然的語音。