語音合成:語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術 -百科知識中文網

名詞解釋

語音合成是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。

TTS的基本結構

（1）語言學處理
在文語轉換系統中起著重要的作用，主要模擬人對自然語言的理解過程——文本規整、詞的切分、語法分析和語義分析，使計算機對輸入的文本能完全理解，並給出後兩部分所需要的各種發音提示。
（2）韻律處理
為合成語音規劃出音段特徵，如音高、音長和音強等，使合成語音能正確表達語意，聽起來更加自然。
（3）聲學處理
根據前兩部分處理結果的要求輸出語音，即合成語音。

語音合成的方法

1. 共振峰合成
----語音合成的理論基礎是語音生成的數學模型。該模型語音生成過程是在激勵信號的激勵下，聲波經諧振腔（聲道），由嘴或鼻輻射聲波。因此，聲道參數、聲道諧振特性一直是研究的重點。在圖1 所示的某一語音的頻率響應圖中，標有Fp1、Fp2、Fp3 … … 處為頻率響應的極點，此時，聲道的傳輸頻率響應有極大值。習慣上，把聲道傳輸頻率響應上的極點稱之為共振峰，而語音的共振峰頻率（極點頻率）的分布特性決定著該語音的音色。
----音色各異的語音具有不同的共振峰模式，因此，以每個共振峰頻率及其帶寬作為參數，可以構成共振峰濾波器。再用若乾個這種濾波器的組合來模擬聲道的傳輸特性（頻率響應），對激勵源發出的信號進行調制，再經過輻射模型就可以得到合成語音。這就是共振峰合成技術的基本原理。基於共振峰的理論有以下三種實用模型。

級聯型共振峰模型在該模型中，聲道被認為是一組串聯的二階諧振器。該模型主要用於絕大部分元音的合成。

----並聯型共振峰模型許多研究者認為，對於鼻化元音等非一般元音以及大部分輔音，上述級聯型模型不能很好地加以描述和模擬，因此，構築和產生了並聯型共振峰模型。

----混合型共振峰模型在級聯型共振峰合成模型中，共振峰濾波器首尾相接；而在並聯型模型中，輸入信號先分別通過幅度調節再加到每一個共振峰濾波器上，然後將各路的輸出疊加起來。將兩者比較，對於合成聲源位於聲道末端的語音（大多數的元音），級聯型合乎語音產生的聲學理論，並且無需為每一個濾波器分設幅度調節；而對於合成聲源位於聲道中間的語音（大多數清擦音和塞音），並聯型則比較合適，但是其幅度調節很復雜。基於此種考慮，人們將兩者結合在一起，提出了混和型共振峰模型，如圖2 所示。

事實上，上述三種共振峰模型在實際中都得到了成功的應用。例如：Fant 的OVE 系統就采用了級聯型的共振峰模型；Holmes 合成器采用的是並聯型的共振峰模型；而最為典型也是最為成功的Klatt 合成器則構築在混合型共振峰模型的基礎之上。

----在漢語語音合成方面，研究人員研制出了一些基於共振峰模型的成功的應用系統。如社科院語言所的 SIFS 合成器、中科院聲學所的KX 1 系統中基於Holmes 的並聯型共振峰合成器模型，而同樣由中科院聲學所開發的第二代共振峰合成器KX FSS 則基於Klatt 合成器。

----共振峰模型是基於對聲道的一種比較準確的模擬，因而可以合成出自然度比較高的語音，另外由於共振峰參數有著明確的物理意義，直接對應於聲道參數，因此，可以容易利用共振峰描述自然語流中的各種現象，並且總結聲學規則，最終用於共振峰合成系統。

----但是，人們同時也發現該技術有明顯的弱點。首先由於它是建立在對聲道的模擬上，因此，對於聲道模型的不精確勢必會影響其合成質量。另外，實際工作表明，共振峰模型雖然描述了語音中最基本最主要的部分，但並不能表征影響語音自然度的其他許多細微的語音成分，從而影響了合成語音的自然度。另外，共振峰合成器控制十分復雜，對於一個好的合成器來說，其控制參數往往達到幾十個，實現起來十分困難。

----基於這些原因，研究者繼續尋求和發現其他新的合成技術。人們從波形的直接錄制和播放得到啟發，提出了基於波形拼接的合成技術，LPC 合成技術和PSOLA 合成技術是其中的代表。與共振峰合成技術不同，波形拼接合成是基於對錄制的合成基元的波形進行拼接，而不是基於對發聲過程的模擬。

LPC 參數合成
----波形拼接技術的發展與語音的編、解碼技術的發展密不可分，其中LPC 技術（線性預測編碼技術）的發展對波形拼接技術產生了巨大的影響。
----LPC 合成技術本質上是一種時間波形的編碼技術，目的是為了降低時間域信號的傳輸速率。

----對於利用LPC 合成技術來進行漢語語音合成和漢語文語轉換的研究，中科院聲學所在這方面做了大量的工作。1987 年，他們引進了多脈沖激勵LPC 技術，1989 年又引入矢量量化，之後，1993 年，他們引入碼激勵技術，他們的這些工作對於LPC 合成技術在漢語合成方面的運用做出了重要的貢獻。

----LPC 合成技術的優點是簡單直觀。其合成過程實質上只是一種簡單的解碼和拼接過程。另外，由於波形拼接技術的合成基元是語音的波形數據，保存了語音的全部信息，因而對於單個合成基元來說能夠獲得很高的自然度。

----但是，由於自然語流中的語音和孤立狀況下的語音有著極大的區別，如果只是簡單地把各個孤立的語音生硬地拼接在一起，其整個語流的質量勢必是不太理想的。而LPC 技術從本質上來說只是一種錄音＋重放，對於合成整個連續語流LPC 合成技術的效果是不理想的。因此，LPC 合成技術必須和其他技術相結合，才能明顯改善LPC 合成的質量。

----一種典型的基於單音節和VQLPC（矢量量化的LPC）技術的文語轉換系統原理圖如圖3 所示。

2. PSOLA 合成技術
----20 世紀80 年代末提出的PSOLA 合成技術（基音同步疊加技術）給波形拼接合成技術注入了新的活力。PSOLA 技術著眼於對語音信號超時段特征的控制，如基頻、時長、音強等的控制。而這些參數對於語音的韻律控制以及修改是至關重要的，因此，PSOLA 技術比LPC 技術具有可修改性更強的優點，可以合成出高自然度的語音。
----PSOLA 技術的主要特點是：在拼接語音波形片斷之前，首先根據上下文的要求，用PSOLA 算法對拼接單元的韻律特征進行調整，使合成波形既保持了原始發音的主要音段特征，又能使拼接單元的韻律特征符合上下文的要求，從而獲得很高的清晰度和自然度。

----如何將PSOLA 技術應用於漢語文語轉換系統，國內許多學校和科研單位對此進行了大量廣泛深入的研究。清華大學、北方交大、中科院聲學所等在對PSOLA 技術研究的基礎上，先後開發出了基於波形拼接的漢語文語轉換系統，並且對於如何進一步完善該技術，如何進一步改善合成語音的自然度等都提出了一些具體措施。

----PSOLA 技術保持了傳統波形拼接技術的優點，簡單直觀，運算量小，而且還能方便地控制語音信號的韻律參數，具有合成自然連續語流的條件，得到了廣泛的應用。

----但是，PSOLA 技術也有其缺點。首先， PSOLA 技術是一種基音同步的語音分析/ 合成技術，首先需要準確的基因周期以及對其起始點的判定。基音周期或其起始點的判定誤差將會影響PSOLA 技術的效果。其次，PSOLA 技術是一種簡單的波形映射拼接合成，這種拼接是否能夠保持平穩過渡以及它對頻域參數有什么影響等並沒有得到解決，因此，在合成時會產生不理想的結果。

LMA 聲道模型
----隨著人們對語音合成的自然度和音質的要求越來越高，PSOLA 算法表現出對韻律參數調整能力較弱和難以處理協同發音的缺陷，因此，人們又提出了一種基於LMA 聲道模型的語音合成方法。這種方法具有傳統的參數合成可以靈活調節韻律參數的優點，同時又具有比PSOLA 算法更高的合成音質。
----目前，主要的語音合成技術是共振峰合成技術和基於PSOLA 算法的波形拼接合成技術。這兩種技術各有所長，共振峰技術比較成熟，有大量的研究成果可以利用，而 PSOLA 技術則是比較新的技術，具有良好的發展前景。

----過去這兩種技術基本上是互相獨立發展的，現在許多學者開始研究它們兩者之間的關系，試圖將兩者有效地結合起來，從而合成出更加自然的語流。例如清華大學的研究人員進行了將共振峰修改技術應用於PSOLA 算法的研究，並用於Sonic 系統的改進，研制出了具有更高自然度的漢語文語轉換系統。

3. 基於隱馬爾可夫模型的語音合成

近年來，基於隱馬爾可夫模型（HMM）的語音合成系統得到廣泛的重視和套用。與一直以來語音合成方法的主流――基於大語料庫的拼接合成方法相比，基於隱馬爾可夫模型的語音合成系統優勢在於系統結構簡單，基本不需要任何語言學知識指導系統訓練，構建時間短，構建過程基本不需要人工干預，而由於系統屬於參數化合成方法，系統的合成結果靈活多變，可以很容易的套用於多個發音人，多種發音風格，多種情感表達的需求中。

基於HMM的語音合成方法主要分為兩個階段：訓練階段和合成階段。首先對用於訓練的語料進行參數提取（包括頻譜參數和基頻參數，本文用到的頻譜參數為LSP線性頻譜對參數）。HMM的觀察向量可分為譜參數和基頻參數兩個部分，其中譜參數部分採用連續機率分布HMM進行建模，基頻部分採用多空間機率分布HMM（MSD-HMM）進行建模。在合成階段，首先對給定的待合成文本進行上下文分析，並將文本轉換成模型的單元序列。然後根據基於HMM語音合成方法的參數生成算法，同時考慮語音參數的靜態參數和動態參數，得到連續的目標語音參數序列，最後通過語音合成器合成出待合成語音。

基於HMM的語音合成方法雖然有系統易小型化、靈活多變等特點，但是和傳統的拼接合成相比，還是有音質下降的缺點。傳統的拼接合成方法由於是將真實的語音片段通過選音算法拼接在一起所以保留了原始語音片斷的音質。而基於HMM的語音合成方法和其他的參數化語音合成方法一樣，通過了一次語音編碼解碼的過程，不可避免的會造成合成音質的下降。另外，在HMM參數估計的過程中的統計方法使得頻譜參數趨於平均化；同時，由於模型自身拓撲結構的限制，模型對頻譜參數在時域方向變化的描述也存在局限性。這兩種在頻譜參數層上導致合成語音音質下降的現象本文稱之為頻域過平滑和時域過平滑。

為了解決這些問題，我們提出了基於離散HMM和連續HMM相結合的思路，這種方法在保持系統靈活性的同時，最大限度的保留了語音的聲學特徵，使得語音合成結果基本接近大語料的語音合成系統的清晰度。這一方法的合成結果不僅要優於傳統HTS的合成結果，而且能夠有效的在各種套用場合進行實際套用。

語音合成

名詞解釋

TTS的基本結構

語音合成的方法

相關詞條

yuki[語音合成軟體]

個性化語音合成

語音合成晶片

語音合成軟體

TTS語音合成系統

NeoSpeech語音合成引擎

漢語語音

語音技術

相關搜尋

熱門詞條