2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
Facebook研究人員創(chuàng)建了一個AI模型,該模型可以區(qū)分一個麥克風上同時講話的五個語音,而不是任何現(xiàn)有系統(tǒng)。新方法可以改善嘈雜空間中的音頻技術(shù),包括助聽器和語音助手。
人群中的聲音
研究人員在一篇名為《語音分離與多名發(fā)言人數(shù)量未知》的論文中解釋了他們的模型,并將在2020年國際機器學習大會上進行介紹??茖W家教會了AI如何使用遞歸神經(jīng)網(wǎng)絡(luò)上的新變量來區(qū)分不同的聲音,以模擬內(nèi)存并分析音頻,以確定在編碼器網(wǎng)絡(luò)適當組織聲音之前有多少人在說話。模型訓練在2至5個并發(fā)揚聲器上,所有揚聲器都只有一個麥克風。
研究人員在論文中解釋說:“從同時發(fā)生的多個對話中分離出單個聲音的能力構(gòu)成了具有挑戰(zhàn)性的感知任務。”“人類的能力激發(fā)了許多計算嘗試,早期的許多工作都集中在多個麥克風和無監(jiān)督學習上,例如獨立成分分析方法。在這項工作中,我們著重于從單個麥克風進行有聲語音分離的問題,隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),在性能上有了飛躍。”
聽著
Facebook的研究人員指出,他們的模型可以在幾個不同的領(lǐng)域增強現(xiàn)有的音頻技術(shù),例如助聽器。盡管當今的助聽器已經(jīng)超越了簡單地使聲音變大的優(yōu)點,但是使用它們的人仍然很難在嘈雜的情況下聽到與之交談的人的聲音。對于在聚會上或有風的地方使用助聽器的人來說,隔離不同的聲音并消除多余的聲音是理想的選擇。同樣的技術(shù)還可以為語音助手的重大升級奠定基礎(chǔ)。一旦AI可以自己分析不同的語音,它便能夠知道是否使用了它的喚醒詞,并且說話者提出的請求比當前模型要準確得多。
目前,額外的噪音,甚至一次只有兩個語音通話,都會使智能揚聲器上的語音助手感到困惑,這就是為什么多家公司追求類似目標的原因。例如,谷歌花了很長時間開發(fā)“降噪器”,以過濾掉Google Meet電話中不相關(guān)的噪音。為嘈雜和復雜的音頻環(huán)境開發(fā)軟件已經(jīng)吸引了像AudioTelligence這樣的初創(chuàng)公司,從風險投資家那里獲得了數(shù)百萬美元的資金,用于開發(fā)可以在嘈雜的情況下讓人聽得見的軟件。同時,TalkTo噪聲過濾軟件創(chuàng)建的DSP Concepts已通過亞馬遜認證用于Alexa內(nèi)置設(shè)備。Facebook的研究人員現(xiàn)在正在努力將該新模型應用于現(xiàn)實情況,大概是供Facebook最終用于商業(yè)用途,也許將該模型集成到該公司當前正在開發(fā)的語音助手中。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。