您的位置: 首頁(yè) >科技 >

谷歌利用WaveNet模型的收益 聽(tīng)起來(lái)更自然

2019-06-24 17:58:57 編輯: 來(lái)源:
導(dǎo)讀 DeepMind的人工智能人才一直致力于消費(fèi)產(chǎn)品的功能。Business Insider UK高級(jí)技術(shù)記者Sam Shead 表示,谷歌應(yīng)用DeepMind開(kāi)發(fā)的軟件用于

DeepMind的人工智能人才一直致力于消費(fèi)產(chǎn)品的功能。Business Insider UK高級(jí)技術(shù)記者Sam Shead 表示,谷歌應(yīng)用DeepMind開(kāi)發(fā)的軟件用于其虛擬助手。

根據(jù)周三發(fā)布的博客文章,人工智能公司DeepMind有一個(gè)適用于美國(guó)英語(yǔ)和日語(yǔ)的WaveNet系統(tǒng)版本。他們說(shuō),“我們很自豪地宣布,WaveNet的更新版本正用于在所有平臺(tái)上為美國(guó)英語(yǔ)和日語(yǔ)生成Google Assistant語(yǔ)音。”

“谷歌將DeepMind的技術(shù)集成到其產(chǎn)品中的速度很慢,迄今為止只宣布了一個(gè)數(shù)據(jù)中心效率項(xiàng)目,盡管在全球范圍內(nèi),”Shead說(shuō)。“現(xiàn)在該公司的WaveNet神經(jīng)網(wǎng)絡(luò)正被用于為美國(guó)英語(yǔ)和日語(yǔ)生成Google Assistant語(yǔ)音。”

Google智能助理是由谷歌開(kāi)發(fā)的虛擬個(gè)人助理。

Pocket-lint將Google 智能助理稱為語(yǔ)音控制智能助手。“它被認(rèn)為是Google Now的升級(jí)版或擴(kuò)展版 - 專為個(gè)人而設(shè)計(jì) - 同時(shí)擴(kuò)展了Google現(xiàn)有的'OK Google'語(yǔ)音控件。”

DeepMind博客文章來(lái)自研究科學(xué)家Tom Walters的研究科學(xué)家Aäronvanden Oord和谷歌語(yǔ)音軟件工程師Trevor Strohman。

他們談?wù)摰母率怯蒁eepMind WaveNet研究和工程團(tuán)隊(duì)以及Google Text-to-Speech團(tuán)隊(duì)完成的。

就在一年多以前,WaveNet被提出,一個(gè)深度神經(jīng)網(wǎng)絡(luò)生成原始音頻波形并能夠產(chǎn)生語(yǔ)音。

它們是如何構(gòu)建的:卷積神經(jīng)網(wǎng)絡(luò)在大量語(yǔ)音樣本數(shù)據(jù)集上進(jìn)行訓(xùn)練。與現(xiàn)有技術(shù)相比,目標(biāo)是更自然的演講。在他們的原始論文中,他們說(shuō)“從頭開(kāi)始創(chuàng)建單獨(dú)的波形,一次創(chuàng)建一個(gè)樣本,每秒16,000個(gè)樣本,并在各個(gè)聲音之間進(jìn)行無(wú)縫過(guò)渡。”

正如博客作者所說(shuō),“WaveNet顯示出了希望,但不是我們可以在現(xiàn)實(shí)世界中部署的東西。” 對(duì)于消費(fèi)品而言,它“計(jì)算量太大”。團(tuán)隊(duì)忙于改進(jìn)模型。他們表示,它現(xiàn)在可以“大規(guī)模運(yùn)行,是第一款在谷歌最新的TPU云基礎(chǔ)設(shè)施上推出的產(chǎn)品。”

主要收益:

“新改進(jìn)的WaveNet模型仍然可以生成原始波形,但速度比原始模型快1000倍,這意味著只需50毫秒即可創(chuàng)建一秒鐘的語(yǔ)音。”

ExtremeTech的瑞恩·惠特瓦姆(Ryan Whitwam)表示:“DeepMind很快將承諾提供一份完整的論文,詳細(xì)說(shuō)明如何實(shí)現(xiàn)這一目標(biāo)。”

他們?cè)诓┛蜕蠈?xiě)道,根據(jù)人類聽(tīng)眾的測(cè)試,結(jié)果更自然。

Whitwam上周五表示:“發(fā)布時(shí)助手使用的語(yǔ)音模式并不差,但谷歌剛剛推出了英語(yǔ)和日語(yǔ)的大幅改進(jìn)版本。”

該博客有一些有趣的摘要,說(shuō)明該技術(shù)的發(fā)展程度。

至于當(dāng)前的文本到語(yǔ)音系統(tǒng),他們注意到拼接TTS不僅會(huì)產(chǎn)生不自然的聲音,而且很難修改這些系統(tǒng):每次有轉(zhuǎn)變時(shí)都需要記錄新的數(shù)據(jù)庫(kù),例如新的情緒或語(yǔ)調(diào)。

為了克服其中一些問(wèn)題,他們說(shuō)有時(shí)會(huì)使用替代模型,即參數(shù)化TTS。這種方法使用關(guān)于嘴部運(yùn)動(dòng)和語(yǔ)法的規(guī)則和參數(shù)來(lái)傳遞聲音,這些聲音聽(tīng)起來(lái)并不完全自然。

有WaveNet。

那么,DeepMind,下一步是什么?他們說(shuō)這只是WaveNet的開(kāi)始。他們表示,他們對(duì)“語(yǔ)音接口的強(qiáng)大功能現(xiàn)在可以解鎖所有世界語(yǔ)言”的可能性感到興奮。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。