您的位置: 首頁(yè) >商業(yè) >

谷歌在其云上提供文本到語(yǔ)音的技術(shù)

2020-04-05 14:54:18 編輯: 來(lái)源:
導(dǎo)讀 多年來(lái),谷歌提供了將文本轉(zhuǎn)換為語(yǔ)音的能力,包括搜索、地圖和谷歌助理。 現(xiàn)在,它在其云中提供作為服務(wù)的能力。 該公司今天宣布,其他公司現(xiàn)在可以嘗試云文字技術(shù)在自己的服務(wù) 谷歌最新的機(jī)器學(xué)習(xí)服務(wù)旨在幫助公司開發(fā)更好的會(huì)話接口到他們的服務(wù)。 該服務(wù)針對(duì)三個(gè)主要市場(chǎng),云A I產(chǎn)品經(jīng)理丹·阿哈龍?jiān)诓稍L中說(shuō)。 主要的是呼叫中心的語(yǔ)音響應(yīng)系統(tǒng),Cloud Text-to-Speech可以為其提供實(shí)時(shí)、自

多年來(lái),谷歌提供了將文本轉(zhuǎn)換為語(yǔ)音的能力,包括搜索、地圖和谷歌助理。 現(xiàn)在,它在其云中提供作為服務(wù)的能力。

該公司今天宣布,其他公司現(xiàn)在可以嘗試云文字技術(shù)在自己的服務(wù).. 谷歌最新的機(jī)器學(xué)習(xí)服務(wù)旨在幫助公司開發(fā)更好的會(huì)話接口到他們的服務(wù)。

該服務(wù)針對(duì)三個(gè)主要市場(chǎng),云A I產(chǎn)品經(jīng)理丹·阿哈龍?jiān)诓稍L中說(shuō)。 主要的是呼叫中心的語(yǔ)音響應(yīng)系統(tǒng),Cloud Text-to-Speech可以為其提供實(shí)時(shí)、自然語(yǔ)言的會(huì)話。 “我們認(rèn)為這將對(duì)呼叫中心的空間造成巨大的破壞,”他說(shuō),一種更禮貌的說(shuō)法是,所有去印度和菲律賓的呼叫中心工作可能很快就會(huì)消失。

另外兩個(gè)是使“物聯(lián)網(wǎng)”中的設(shè)備,從汽車到電視到機(jī)器人,能夠與用戶交談,并將新聞文章和書籍等文本轉(zhuǎn)換為語(yǔ)音,如播客和有聲讀物。

該服務(wù)有32種不同的聲音在12種語(yǔ)言,并允許應(yīng)用程序開發(fā)人員自定義語(yǔ)音音高,語(yǔ)速和音量增益。 在一次演示中,所有這些都使一些來(lái)自文本的語(yǔ)音片段非常接近自然。 事實(shí)上,根據(jù)谷歌自己的測(cè)試,有些人非常接近人類言論。

谷歌實(shí)際上正在使用幾種不同的文本到語(yǔ)音技術(shù)——這是它多年來(lái)使用的技術(shù),也是它使用WaveNet的DeepMind人工智能單元的兩個(gè)版本。 這兩種方法從零開始創(chuàng)建原始音頻波形,而不是傳統(tǒng)的方法,即將實(shí)際的語(yǔ)音樣本組合成更大的語(yǔ)音片段或使用轉(zhuǎn)換算法對(duì)它們進(jìn)行變形,以發(fā)出更廣泛的聲音。

第一個(gè)版本的浪潮網(wǎng)絡(luò),發(fā)表在2016年底,使用了一個(gè)所謂的生成模型,訓(xùn)練了大量的真實(shí)聲音樣本,然后提取語(yǔ)音的底層結(jié)構(gòu),如什么音調(diào)跟隨他人。 深層意識(shí)說(shuō),這種轉(zhuǎn)換為言語(yǔ)的文本會(huì)產(chǎn)生更準(zhǔn)確的結(jié)果,有時(shí)在人類言語(yǔ)被評(píng)為4.5(以上)的尺度上超過(guò)四個(gè)。

最近,谷歌開始使用在谷歌的云傳感器處理單元基礎(chǔ)設(shè)施上運(yùn)行的WaveNet更新版本(如圖,頂部)。 它產(chǎn)生的原始波形比原始模型快1000倍,只在50毫秒內(nèi)產(chǎn)生第二次語(yǔ)音,并提供更高的保真度。 阿哈龍說(shuō),這個(gè)版本有70%的聲音聽起來(lái)像人類的演講-盡管演示聽起來(lái)確實(shí)很接近。 包括六個(gè)波網(wǎng)聲音開始,然后在未來(lái)幾個(gè)月的額外聲音。

他說(shuō):“這是我們以前見(jiàn)過(guò)的最接近人類語(yǔ)言的東西。 谷歌將提供六個(gè)波網(wǎng)聲音開始作為云文字到語(yǔ)音,未來(lái)幾個(gè)月將有更多。

有一個(gè)免費(fèi)的層,公司每月使用高達(dá)400萬(wàn)個(gè)字符與標(biāo)準(zhǔn)的云文字技術(shù),之后有一個(gè)400萬(wàn)$字符的收費(fèi)。 波網(wǎng)版本最多可自由使用100萬(wàn)個(gè)字符,然后每增加100萬(wàn)個(gè)字符$16個(gè)。 后者的成本更高,因?yàn)樾枰嗟奶幚砟芰Α?但這兩個(gè)版本都是由100萬(wàn)個(gè)字符的分?jǐn)?shù)收費(fèi)的,所以它可以相當(dāng)便宜,以減少使用,亞倫說(shuō)。

自11月以來(lái),幾十個(gè)阿爾法用戶一直在嘗試它,包括思科系統(tǒng)公司(CiscoSystemsInc.)和管理Calll云電話系統(tǒng)的海豚ONE通信有限責(zé)任公司(DolphinOneCommunicationsLLP)。

谷歌并不是唯一一個(gè)通過(guò)云提供文本到語(yǔ)音服務(wù)的公司。 例如,亞馬遜網(wǎng)絡(luò)服務(wù)公司(AmazonWe bServicesInc.)于2016年底開始提供其Polly文本對(duì)語(yǔ)音服務(wù)。 IBM公司在其云計(jì)算系統(tǒng)的驅(qū)動(dòng)下,以七種語(yǔ)言發(fā)出了13種聲音。

顯示您對(duì)我們的任務(wù)的支持,我們的一鍵訂閱我們的優(yōu)管頻道(下面)。 我們擁有的用戶越多,你就越能向你推薦相關(guān)的企業(yè)和新興技術(shù)內(nèi)容。 謝謝!

支持我們的使命:>;>;>;SUBS CRIBE NOW>;>;>;到我們的優(yōu)管頻道。

我們還想告訴你我們的使命,以及你如何幫助我們完成它。 硅谷媒體公司的商業(yè)模式是基于內(nèi)容的內(nèi)在價(jià)值,而不是廣告。 與許多在線出版物不同,我們沒(méi)有付費(fèi)墻或經(jīng)營(yíng)橫幅廣告,因?yàn)槲覀兿M3治覀兊男侣勯_放,沒(méi)有影響或需要追逐流量。 硅谷的新聞、報(bào)道和評(píng)論-以及我們硅谷工作室的現(xiàn)場(chǎng)、未經(jīng)剪輯的視頻和CUBE的環(huán)球視頻團(tuán)隊(duì)-需要大量的艱苦工作、時(shí)間和金錢。 保持高質(zhì)量需要贊助商的支持,他們與我們的無(wú)廣告新聞內(nèi)容的愿景一致。

如果您喜歡這里的報(bào)道,視頻采訪和其他無(wú)廣告內(nèi)容,請(qǐng)花點(diǎn)時(shí)間查看我們的贊助商支持的視頻內(nèi)容樣本,推特您的支持,并繼續(xù)回到硅安格爾。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。