您的位置: 首頁 >互聯(lián)網(wǎng) >

谷歌提供類似人類的文本到語音轉(zhuǎn)換系統(tǒng)的更新

2019-06-21 16:45:12 編輯: 來源:
導(dǎo)讀 谷歌本周通過博客文章向感興趣的技術(shù)愛好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語音系統(tǒng)的最新消息。在該帖子中,該團(tuán)隊(duì)描述了該系統(tǒng)如何工作并提供

谷歌本周通過博客文章向感興趣的技術(shù)愛好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語音系統(tǒng)的最新消息。在該帖子中,該團(tuán)隊(duì)描述了該系統(tǒng)如何工作并提供了一些音頻樣本,該帖子的作者Ruoming Pang和Jonathan Shen聲稱與一組人類聽眾判斷的專業(yè)錄音相當(dāng)。作者還與其他Google團(tuán)隊(duì)成員一起撰寫了一篇論文,描述了他們的努力,并將其發(fā)布到arXiv預(yù)打印服務(wù)器上。

多年來,科學(xué)家一直致力于使計(jì)算機(jī)生成的語音更具人性化,更少機(jī)器人化。作者指出,該任務(wù)的一部分是開發(fā)文本到語音(TTS)應(yīng)用程序。大多數(shù)人都聽說過TTS系統(tǒng)的結(jié)果,例如許多公司用于現(xiàn)場客戶呼叫的自動(dòng)語音系統(tǒng)。在這項(xiàng)新的努力中,谷歌集團(tuán)將其從Tacotron和WaveNet項(xiàng)目中學(xué)到的知識(shí)與創(chuàng)建Tacotron 2-a系統(tǒng)相結(jié)合,將科學(xué)提升到一個(gè)新的水平。在收聽提供的樣本時(shí),很難判斷語音是人還是TTS系統(tǒng)語音是很困難的。

為了達(dá)到這種新的準(zhǔn)確度,Google的團(tuán)隊(duì)使用了經(jīng)過優(yōu)化的序列到序列模型,以便與TTS一起使用 - 它將字母排列映射到描述音頻的一系列功能。結(jié)果是80維譜圖。然后,該頻譜圖被用作第二系統(tǒng)的輸入,該系統(tǒng)使用基于WaveNet的架構(gòu)輸出24kHz波形。兩者都是使用語音示例(來自眾包應(yīng)用程序,如亞馬遜的Mechanical Turk)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)及其相應(yīng)的成績單。新系統(tǒng)能夠融合音量,發(fā)音,語調(diào)和速度,從而創(chuàng)造出更像人類的聲音。

該團(tuán)隊(duì)還指出,他們?nèi)栽谂Ω倪M(jìn)系統(tǒng),最重要的是克服復(fù)雜單詞的問題并使其實(shí)時(shí)工作。他們還希望為聲音添加更多??情感,以便聽眾可以實(shí)際聽到幸?;虮瘋蛘甙l(fā)現(xiàn)不快。這樣做不僅會(huì)推動(dòng)科學(xué)發(fā)展,而且會(huì)使與數(shù)字助理的互動(dòng)變得更加親密。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。