您的位置: 首頁 >互聯(lián)網(wǎng) >

百度的新系統(tǒng)可以學習模仿每一個口音

2019-05-21 17:42:34 編輯: 來源:
導讀 今年年初,中國搜索巨頭百度推出了一款名為DeepVoice的新系統(tǒng)。它使用深度學習,一種流行的人工智能技術,來構建一個可以轉換文本到語音的

今年年初,中國搜索巨頭百度推出了一款名為DeepVoice的新系統(tǒng)。它使用深度學習,一種流行的人工智能技術,來構建一個可以轉換文本到語音的系統(tǒng)。第一個版本能夠產(chǎn)生簡短的句子,至少在粗略的聽覺上,幾乎與真人無法區(qū)分。該系統(tǒng)可以一次學習一個語音,并且需要數(shù)小時的數(shù)據(jù)來掌握每個語音。

DeepVoice 2于5月份首次亮相,只需半小時的數(shù)據(jù)即可模仿語音,單個系統(tǒng)可以學習數(shù)百種不同的口音。今天,百度正在推出DeepVoice的第三個也是最終版本 ; 該公司表示,這個版本可以學習2,500個聲音,每個聲音只需半小時。百度說,“擁有一個能夠有效產(chǎn)生各種聲音的系統(tǒng),打開了許多用例的大門,否則這些用例將無法實現(xiàn)。例如,有聲書或視頻游戲中的每個角色都有自己獨特的聲音,可以提升用戶體驗。“

百度從DeepVoice 3中展示的合成語音的例子與最初的例子不同。它們顯然是合成的。該公司辯稱,這不是它的目標,并說,“如果我們只產(chǎn)生一兩個聲音,正如我們的單個揚聲器樣本所示,我們的系統(tǒng)已經(jīng)被證明能夠合成非常自然,類似人類的聲音,很容易被用作數(shù)字助理。“

百度試圖做的是制作一個能夠掌握多種口音或人物細微差別的系統(tǒng)。雖然2,500是目前的限制,但該團隊表示,它認為使用更大的數(shù)據(jù)集的未來版本可以掌握10,000或更多。“這是展示可擴展性可能性的初步工作。我們的系統(tǒng)成功地將訓練擴展到以前發(fā)布的文本到語音模型中從未做過的大小和幅度。我們相信,通過使用大量高質量數(shù)據(jù)集進行額外的機器學習工程,可以在不久的將來大幅提高質量。“

百度并不是唯一從事計算機語音合成的搜索巨頭。谷歌的DeepMind部門一直在與WaveNet進行類似的項目。它的最新版本在掌握重音方面得到了更好的表現(xiàn),甚至產(chǎn)生了“嘴唇”,使聲音聽起來更人性化。它現(xiàn)在正在現(xiàn)場使用,為英語和日語的Google智能助理生成語音。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。