科技改變生活 · 科技引領未來
1.概述
TTS(Text To Speech)又稱語音合成,是一種將文本轉化成相應語音的技術。TTS技術從誕生到現在已經有200多年的歷史。在1779年,德國科學家Kratzenstein首次開發出五個長元音的人類聲道模型,并于1791年加入了舌頭和嘴唇模型,實現元音輔音的聲道模型。隨后TTS技術陷入了漫長的沉寂期,直到20世紀30年代和70年代,兩大技術的突破大大推動了TTS技術的發展,1939年,貝爾實驗室制作出了第一個語音合成器The Voder,1979年MIT開發出了著名的語音合成系統MITalk。1992年,PSOLA(基因同步疊加技術)的提出使合成的語音更加自然。21世紀以來,基于HMM的語音合成系統和基于神經網絡的語音合成系統逐漸成為研究主流,并取得良好的效果。目前,TTS已廣泛應用到日常的生活當中,如語音助手、智能音箱、地圖導航等。
2.TTS系統現狀
對于早期的語音合成系統來說,只要發音清晰,內容流暢并完全可懂就可以算是一個優秀的系統了。但是隨著時代發展,技術的進步以及應用場景的細化,這類系統已經遠遠不能滿足人們的需求。目前業界的TTS系統主要分為通用性TTS,個性化TTS,情感TTS三類。
通用性TTS:這類TTS系統基本已經達到可以商用的地步了,但是由于依舊存在機械感,不能模擬自然人聲的原因,如果用戶預期較高的話很難滿足用戶需求。
個性化TTS:在特定的應用場景下這類TTS系統基本能滿足商用,但是效果沒有通用TTS好。目前以科大訊飛為代表的人工智能企業具備成熟商用所需的技術能力。
情感TTS:隨著TTS技術的發展和數據量逐漸增多,業內研究機構逐步開啟了情感TTS合成技術研究。情感TTS系統的開發更加側重于自然語言處理方面,如“情感意圖識別”、“情感特征挖掘”等技術。情感TTS比傳統的TTS節奏性更強,自然性也更好,但就應用落地來說還處于初步階段。
無論對于哪種TTS系統來說,在技術相差不大的情況下,聲優質量和數據量尤為重要。目前對于TTS系統來說問題之一是數據缺乏,尤其是個性化TTS對于數據量的要求更大,另一方面數據制作的周期長和成本高,都對TTS數據生產提出了更高的要求。下文著重在TTS數據制作方面做出介紹。
3.TTS數據制作流程
3.1語料制作
語料制作環節需遵循覆蓋基本音素組合的原則,然后根據具體使用場景決定語料領域是否要有所偏重。語料的制作需要考慮語料來源、語料長度和語料的量級。語料來源可通過爬取、造句等方式生成,之后經過人工校對(去除拗口、有語病的語料),形成最終語料。語料的長度不同任務要求不同,以中文TTS數據為例,單句的長度在12-15字為宜。語料的數量要求主要取決于TTS系統的級別,簡易的TTS系統要求數據量在3000-5000句之間,一般程度的系統需求數據量在15000句,更為高級的最低要求數據量就在20000句以上。
3.2錄音人挑選
傳統TTS對錄音人要求較高,目前隨著個性化TTS系統的需求量增大,TTS數據制作過程中錄音人為播音專業學生的最低要求也有所放寬,甚至普通人也能參與到數據制作中。錄音人的選取首先要基于TTS系統應用語種(英文、普通話、方言等)、朗讀風格(播音、正常說話、童音、二次元等)和錄音人性別年齡分布劃定錄音人范圍。錄音人范圍確定后需要進行錄音人的篩選工作,首先需要搜集錄音人信息及錄音小樣,經過第一輪篩選挑出3-5人,然后在錄音棚實際錄音50-100句/人,最終經過第二輪綜合篩選確定錄音人,整個過程至少需要3-4周。
3.3錄音環境
TTS數據對于錄制環境要求嚴格,需要在專業錄音棚中錄制并嚴格控制噪聲水平,最大限度還原發音人發音。錄音過程中需要有專業錄音師和監聽人在場,及時矯正錄音過程中的錯誤(如:口水聲、噴麥、咂嘴等錄音人引起噪音,發音錯誤,突發噪音等)。
3.4正式錄音
正式錄音開始前,監聽人員需要跟錄音人磨合語速風格,然后選擇2-3句錄音作為基準參考發音,由現場監聽人員把控,每錄20-30句向錄音人播放基準參考發音。當錄音人出現音質變化時,現場監聽人員具有一票否決權,并可隨時決定是夠繼續錄音。另外,為保證錄音質量,原則上錄音人在錄音棚時間不能超過4小時。
3.5數據標注
3.5.1文本標注
文字標注內容根據發音人實際發音做一致性標注,例如“1990-2-24”需要根據實際錄音轉寫成“一九九零年二月二十四日”。
3.5.2音素標注
中文使用聲母韻母系統標注,西文使用IPA進行標注。以中文為例,標注效果為:
原句:腦袋大就聰明嗎?
音素:nao3 dai4 da4 jiu4 cong1 ming2 ma5?
音素標注會遇到錯讀、輕聲和連續變調等典型問題,可基于下述方案解決:
讀錯字:標注時按照實際發音標注;
輕 聲:標注時按照實際發音標注;
連續變調:遵從普通話變調規則,一不變調、三三變調
3.5.3音素切分
按照實際語音情況,標注出每個音素的起止時間點,此處對于標注員要求較高。
3.5.4詞性標注
標記每個字所屬詞的詞性,對于中文來說基本有39中詞性,常見的有:a(形容詞)、m(數詞)、n(名詞)、ns(地名)、p(介詞)、j(簡稱略語)、d(副詞)等,標注效果如下:
Eg:美國/ns 對/p 港/j 澳/j 政策/n 不/d 會/v 改變/v 。
3.5.5韻律標注
韻律又稱超音段特征、節律或音律,包括節奏、強調、語調等。因為言語信息在時間線上是先后依次出現的,但實際上并不是線性平均分配,而是以層級形式分布的,所以韻律標注一般包含四級,分別為:韻律詞、弱韻律短語、強韻律短語、語調短語。
韻律詞:是韻律層級結構中的基本單位,指口語中緊密連在一起發音的幾個音節的組合,單音節詞往往會跟相鄰的雙音節詞共同構成一個韻律詞(如:“引起了”中的“了”,通常與前面的雙音節詞“引起”共同組成一個韻律詞),包含超過三個音節的詞,往往會被分解成多個雙/三音節韻律詞。不同韻律詞邊界不停頓或聽感不可察覺停頓。
弱韻律短語:由一個或一個以上韻律詞構成,每個弱韻律短語后有較短的停頓或靜音,發音方面具有音高不下傾或稍下傾的特點。另外韻末不可以用作句末。
強韻律短語:由一個或多個弱音律短語構成,每個強韻律短語后可以感知到明顯的停頓,音高曲線有明顯的下傾。
注意:增加層級會增加復雜度,所以有時候會將弱韻律短語和強韻律短語作為一個層級標注
語調短語:由一個或多個強韻律短語構成,每個語調短語后會有較長的停頓且末尾音節韻律上會有延長,這種短語一般位于句末,具有特定的語調模式。語調模式的音調走勢由具體的語氣或句型決定,如陳述句為降調、疑問句為升調、感嘆句為總體音調上升。
為了更好地理解韻律標注各個層級間的關系,我們可以下方關系圖:
4.TTS系統展望
目前,合成語音的可懂度、自然度已經達到用戶可接受的程度,TTS系統也已進入大規模產業化的應用階段。隨著互聯網時代用戶對信息獲取途徑的多樣性需求,語音合成技術將迎來巨大的機會。例如:最近由Dessa開發出的RealTalk語音合成系統,僅需要通過輸入文本即可生成堪比真人的聲音,也就是說在獲得足夠訓練數據的先決條件下,該系統可以復制任何人的聲音。這項技術可能是一個重大突破,這也預示著可能在未來的十幾年甚至幾年,技術可能發展到只要短短幾分鐘的音頻便可以模仿出任何一個人的聲音。
語音合成技術的發展,一方面取決于技術上的進步,另一方面取決于商業化應用能否擴大市場。從技術上來說情感語音合成、個性化語音轉換等是目前的研究方向,從市場角度出發,如何開發出成熟的TTS應用并獲得用戶認可才是關鍵。
李原一