谷歌提供類(lèi)似人類(lèi)的文本到語(yǔ)音轉(zhuǎn)換系統(tǒng)的更新

2019-06-21 16:45:12 編輯：來(lái)源：

導(dǎo)讀谷歌本周通過(guò)博客文章向感興趣的技術(shù)愛(ài)好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語(yǔ)音系統(tǒng)的最新消息。在該帖子中，該團(tuán)隊(duì)描述了該系統(tǒng)如何工作并提供

谷歌本周通過(guò)博客文章向感興趣的技術(shù)愛(ài)好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語(yǔ)音系統(tǒng)的最新消息。在該帖子中，該團(tuán)隊(duì)描述了該系統(tǒng)如何工作并提供了一些音頻樣本，該帖子的作者Ruoming Pang和Jonathan Shen聲稱(chēng)與一組人類(lèi)聽(tīng)眾判斷的專(zhuān)業(yè)錄音相當(dāng)。作者還與其他Google團(tuán)隊(duì)成員一起撰寫(xiě)了一篇論文，描述了他們的努力，并將其發(fā)布到arXiv預(yù)打印服務(wù)器上。

多年來(lái)，科學(xué)家一直致力于使計(jì)算機(jī)生成的語(yǔ)音更具人性化，更少機(jī)器人化。作者指出，該任務(wù)的一部分是開(kāi)發(fā)文本到語(yǔ)音(TTS)應(yīng)用程序。大多數(shù)人都聽(tīng)說(shuō)過(guò)TTS系統(tǒng)的結(jié)果，例如許多公司用于現(xiàn)場(chǎng)客戶(hù)呼叫的自動(dòng)語(yǔ)音系統(tǒng)。在這項(xiàng)新的努力中，谷歌集團(tuán)將其從Tacotron和WaveNet項(xiàng)目中學(xué)到的知識(shí)與創(chuàng)建Tacotron 2-a系統(tǒng)相結(jié)合，將科學(xué)提升到一個(gè)新的水平。在收聽(tīng)提供的樣本時(shí)，很難判斷語(yǔ)音是人還是TTS系統(tǒng)語(yǔ)音是很困難的。

為了達(dá)到這種新的準(zhǔn)確度，Google的團(tuán)隊(duì)使用了經(jīng)過(guò)優(yōu)化的序列到序列模型，以便與TTS一起使用 - 它將字母排列映射到描述音頻的一系列功能。結(jié)果是80維譜圖。然后，該頻譜圖被用作第二系統(tǒng)的輸入，該系統(tǒng)使用基于WaveNet的架構(gòu)輸出24kHz波形。兩者都是使用語(yǔ)音示例(來(lái)自眾包應(yīng)用程序，如亞馬遜的Mechanical Turk)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)及其相應(yīng)的成績(jī)單。新系統(tǒng)能夠融合音量，發(fā)音，語(yǔ)調(diào)和速度，從而創(chuàng)造出更像人類(lèi)的聲音。

該團(tuán)隊(duì)還指出，他們?nèi)栽谂Ω倪M(jìn)系統(tǒng)，最重要的是克服復(fù)雜單詞的問(wèn)題并使其實(shí)時(shí)工作。他們還希望為聲音添加更多??情感，以便聽(tīng)眾可以實(shí)際聽(tīng)到幸?；虮瘋?，或者發(fā)現(xiàn)不快。這樣做不僅會(huì)推動(dòng)科學(xué)發(fā)展，而且會(huì)使與數(shù)字助理的互動(dòng)變得更加親密。

標(biāo)簽：語(yǔ)音轉(zhuǎn)換系統(tǒng)