您的位置: 首頁 >科技 >

谷歌利用WaveNet模型的收益 聽起來更自然

2019-06-24 17:58:57 編輯: 來源:
導讀 DeepMind的人工智能人才一直致力于消費產品的功能。Business Insider UK高級技術記者Sam Shead 表示,谷歌應用DeepMind開發(fā)的軟件用于

DeepMind的人工智能人才一直致力于消費產品的功能。Business Insider UK高級技術記者Sam Shead 表示,谷歌應用DeepMind開發(fā)的軟件用于其虛擬助手。

根據周三發(fā)布的博客文章,人工智能公司DeepMind有一個適用于美國英語和日語的WaveNet系統版本。他們說,“我們很自豪地宣布,WaveNet的更新版本正用于在所有平臺上為美國英語和日語生成Google Assistant語音。”

“谷歌將DeepMind的技術集成到其產品中的速度很慢,迄今為止只宣布了一個數據中心效率項目,盡管在全球范圍內,”Shead說。“現在該公司的WaveNet神經網絡正被用于為美國英語和日語生成Google Assistant語音。”

Google智能助理是由谷歌開發(fā)的虛擬個人助理。

Pocket-lint將Google 智能助理稱為語音控制智能助手。“它被認為是Google Now的升級版或擴展版 - 專為個人而設計 - 同時擴展了Google現有的'OK Google'語音控件。”

DeepMind博客文章來自研究科學家Tom Walters的研究科學家Aäronvanden Oord和谷歌語音軟件工程師Trevor Strohman。

他們談論的更新是由DeepMind WaveNet研究和工程團隊以及Google Text-to-Speech團隊完成的。

就在一年多以前,WaveNet被提出,一個深度神經網絡生成原始音頻波形并能夠產生語音。

它們是如何構建的:卷積神經網絡在大量語音樣本數據集上進行訓練。與現有技術相比,目標是更自然的演講。在他們的原始論文中,他們說“從頭開始創(chuàng)建單獨的波形,一次創(chuàng)建一個樣本,每秒16,000個樣本,并在各個聲音之間進行無縫過渡。”

正如博客作者所說,“WaveNet顯示出了希望,但不是我們可以在現實世界中部署的東西。” 對于消費品而言,它“計算量太大”。團隊忙于改進模型。他們表示,它現在可以“大規(guī)模運行,是第一款在谷歌最新的TPU云基礎設施上推出的產品。”

主要收益:

“新改進的WaveNet模型仍然可以生成原始波形,但速度比原始模型快1000倍,這意味著只需50毫秒即可創(chuàng)建一秒鐘的語音。”

ExtremeTech的瑞恩·惠特瓦姆(Ryan Whitwam)表示:“DeepMind很快將承諾提供一份完整的論文,詳細說明如何實現這一目標。”

他們在博客上寫道,根據人類聽眾的測試,結果更自然。

Whitwam上周五表示:“發(fā)布時助手使用的語音模式并不差,但谷歌剛剛推出了英語和日語的大幅改進版本。”

該博客有一些有趣的摘要,說明該技術的發(fā)展程度。

至于當前的文本到語音系統,他們注意到拼接TTS不僅會產生不自然的聲音,而且很難修改這些系統:每次有轉變時都需要記錄新的數據庫,例如新的情緒或語調。

為了克服其中一些問題,他們說有時會使用替代模型,即參數化TTS。這種方法使用關于嘴部運動和語法的規(guī)則和參數來傳遞聲音,這些聲音聽起來并不完全自然。

有WaveNet。

那么,DeepMind,下一步是什么?他們說這只是WaveNet的開始。他們表示,他們對“語音接口的強大功能現在可以解鎖所有世界語言”的可能性感到興奮。


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ   備案號:

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)