Facebook的新AI模式可以同時分辨五種聲音

2022-07-16 10:11:21 編輯：狄婷凡來源：

導(dǎo)讀 Facebook研究人員創(chuàng)建了一個AI模型，該模型可以區(qū)分一個麥克風(fēng)上同時講話的五個語音，而不是任何現(xiàn)有系統(tǒng)。新方法可以改善嘈雜空間中的...

Facebook研究人員創(chuàng)建了一個AI模型，該模型可以區(qū)分一個麥克風(fēng)上同時講話的五個語音，而不是任何現(xiàn)有系統(tǒng)。新方法可以改善嘈雜空間中的音頻技術(shù)，包括助聽器和語音助手。

人群中的聲音

研究人員在一篇名為《語音分離與多名發(fā)言人數(shù)量未知》的論文中解釋了他們的模型，并將在2020年國際機(jī)器學(xué)習(xí)大會上進(jìn)行介紹?？茖W(xué)家教會了AI如何使用遞歸神經(jīng)網(wǎng)絡(luò)上的新變量來區(qū)分不同的聲音，以模擬內(nèi)存并分析音頻，以確定在編碼器網(wǎng)絡(luò)適當(dāng)組織聲音之前有多少人在說話。模型訓(xùn)練在2至5個并發(fā)揚聲器上，所有揚聲器都只有一個麥克風(fēng)。

研究人員在論文中解釋說：“從同時發(fā)生的多個對話中分離出單個聲音的能力構(gòu)成了具有挑戰(zhàn)性的感知任務(wù)。”“人類的能力激發(fā)了許多計算嘗試，早期的許多工作都集中在多個麥克風(fēng)和無監(jiān)督學(xué)習(xí)上，例如獨立成分分析方法。在這項工作中，我們著重于從單個麥克風(fēng)進(jìn)行有聲語音分離的問題，隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)，在性能上有了飛躍。”

聽著

Facebook的研究人員指出，他們的模型可以在幾個不同的領(lǐng)域增強(qiáng)現(xiàn)有的音頻技術(shù)，例如助聽器。盡管當(dāng)今的助聽器已經(jīng)超越了簡單地使聲音變大的優(yōu)點，但是使用它們的人仍然很難在嘈雜的情況下聽到與之交談的人的聲音。對于在聚會上或有風(fēng)的地方使用助聽器的人來說，隔離不同的聲音并消除多余的聲音是理想的選擇。同樣的技術(shù)還可以為語音助手的重大升級奠定基礎(chǔ)。一旦AI可以自己分析不同的語音，它便能夠知道是否使用了它的喚醒詞，并且說話者提出的請求比當(dāng)前模型要準(zhǔn)確得多。

目前，額外的噪音，甚至一次只有兩個語音通話，都會使智能揚聲器上的語音助手感到困惑，這就是為什么多家公司追求類似目標(biāo)的原因。例如，谷歌花了很長時間開發(fā)“降噪器”，以過濾掉Google Meet電話中不相關(guān)的噪音。為嘈雜和復(fù)雜的音頻環(huán)境開發(fā)軟件已經(jīng)吸引了像AudioTelligence這樣的初創(chuàng)公司，從風(fēng)險投資家那里獲得了數(shù)百萬美元的資金，用于開發(fā)可以在嘈雜的情況下讓人聽得見的軟件。同時，TalkTo噪聲過濾軟件創(chuàng)建的DSP Concepts已通過亞馬遜認(rèn)證用于Alexa內(nèi)置設(shè)備。Facebook的研究人員現(xiàn)在正在努力將該新模型應(yīng)用于現(xiàn)實情況，大概是供Facebook最終用于商業(yè)用途，也許將該模型集成到該公司當(dāng)前正在開發(fā)的語音助手中。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！