百度的新系統(tǒng)可以學習模仿每一個口音

2019-05-21 17:42:34 編輯：來源：

導讀今年年初，中國搜索巨頭百度推出了一款名為DeepVoice的新系統(tǒng)。它使用深度學習，一種流行的人工智能技術，來構建一個可以轉(zhuǎn)換文本到語音的

今年年初，中國搜索巨頭百度推出了一款名為DeepVoice的新系統(tǒng)。它使用深度學習，一種流行的人工智能技術，來構建一個可以轉(zhuǎn)換文本到語音的系統(tǒng)。第一個版本能夠產(chǎn)生簡短的句子，至少在粗略的聽覺上，幾乎與真人無法區(qū)分。該系統(tǒng)可以一次學習一個語音，并且需要數(shù)小時的數(shù)據(jù)來掌握每個語音。

DeepVoice 2于5月份首次亮相，只需半小時的數(shù)據(jù)即可模仿語音，單個系統(tǒng)可以學習數(shù)百種不同的口音。今天，百度正在推出DeepVoice的第三個也是最終版本 ; 該公司表示，這個版本可以學習2,500個聲音，每個聲音只需半小時。百度說，“擁有一個能夠有效產(chǎn)生各種聲音的系統(tǒng)，打開了許多用例的大門，否則這些用例將無法實現(xiàn)。例如，有聲書或視頻游戲中的每個角色都有自己獨特的聲音，可以提升用戶體驗。“

百度從DeepVoice 3中展示的合成語音的例子與最初的例子不同。它們顯然是合成的。該公司辯稱，這不是它的目標，并說，“如果我們只產(chǎn)生一兩個聲音，正如我們的單個揚聲器樣本所示，我們的系統(tǒng)已經(jīng)被證明能夠合成非常自然，類似人類的聲音，很容易被用作數(shù)字助理。“

百度試圖做的是制作一個能夠掌握多種口音或人物細微差別的系統(tǒng)。雖然2,500是目前的限制，但該團隊表示，它認為使用更大的數(shù)據(jù)集的未來版本可以掌握10,000或更多。“這是展示可擴展性可能性的初步工作。我們的系統(tǒng)成功地將訓練擴展到以前發(fā)布的文本到語音模型中從未做過的大小和幅度。我們相信，通過使用大量高質(zhì)量數(shù)據(jù)集進行額外的機器學習工程，可以在不久的將來大幅提高質(zhì)量。“

百度并不是唯一從事計算機語音合成的搜索巨頭。谷歌的DeepMind部門一直在與WaveNet進行類似的項目。它的最新版本在掌握重音方面得到了更好的表現(xiàn)，甚至產(chǎn)生了“嘴唇”，使聲音聽起來更人性化。它現(xiàn)在正在現(xiàn)場使用，為英語和日語的Google智能助理生成語音。

標簽：百度的新系統(tǒng)