2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
今年年初,中國搜索巨頭百度推出了一款名為DeepVoice的新系統(tǒng)。它使用深度學(xué)習(xí),一種流行的人工智能技術(shù),來構(gòu)建一個(gè)可以轉(zhuǎn)換文本到語音的系統(tǒng)。第一個(gè)版本能夠產(chǎn)生簡短的句子,至少在粗略的聽覺上,幾乎與真人無法區(qū)分。該系統(tǒng)可以一次學(xué)習(xí)一個(gè)語音,并且需要數(shù)小時(shí)的數(shù)據(jù)來掌握每個(gè)語音。
DeepVoice 2于5月份首次亮相,只需半小時(shí)的數(shù)據(jù)即可模仿語音,單個(gè)系統(tǒng)可以學(xué)習(xí)數(shù)百種不同的口音。今天,百度正在推出DeepVoice的第三個(gè)也是最終版本 ; 該公司表示,這個(gè)版本可以學(xué)習(xí)2,500個(gè)聲音,每個(gè)聲音只需半小時(shí)。百度說,“擁有一個(gè)能夠有效產(chǎn)生各種聲音的系統(tǒng),打開了許多用例的大門,否則這些用例將無法實(shí)現(xiàn)。例如,有聲書或視頻游戲中的每個(gè)角色都有自己獨(dú)特的聲音,可以提升用戶體驗(yàn)。“
百度從DeepVoice 3中展示的合成語音的例子與最初的例子不同。它們顯然是合成的。該公司辯稱,這不是它的目標(biāo),并說,“如果我們只產(chǎn)生一兩個(gè)聲音,正如我們的單個(gè)揚(yáng)聲器樣本所示,我們的系統(tǒng)已經(jīng)被證明能夠合成非常自然,類似人類的聲音,很容易被用作數(shù)字助理。“
百度試圖做的是制作一個(gè)能夠掌握多種口音或人物細(xì)微差別的系統(tǒng)。雖然2,500是目前的限制,但該團(tuán)隊(duì)表示,它認(rèn)為使用更大的數(shù)據(jù)集的未來版本可以掌握10,000或更多。“這是展示可擴(kuò)展性可能性的初步工作。我們的系統(tǒng)成功地將訓(xùn)練擴(kuò)展到以前發(fā)布的文本到語音模型中從未做過的大小和幅度。我們相信,通過使用大量高質(zhì)量數(shù)據(jù)集進(jìn)行額外的機(jī)器學(xué)習(xí)工程,可以在不久的將來大幅提高質(zhì)量。“
百度并不是唯一從事計(jì)算機(jī)語音合成的搜索巨頭。谷歌的DeepMind部門一直在與WaveNet進(jìn)行類似的項(xiàng)目。它的最新版本在掌握重音方面得到了更好的表現(xiàn),甚至產(chǎn)生了“嘴唇”,使聲音聽起來更人性化。它現(xiàn)在正在現(xiàn)場使用,為英語和日語的Google智能助理生成語音。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)