您的位置: 首頁 >科技 >

用于視聽情感識別的輕量且準確的深度學習模型

2019-06-12 16:43:54 編輯: 來源:
導讀 Orange Labs和Normandie University的研究人員開發(fā)了一種用于視聽情感識別的新型深度神經(jīng)模型,該模型在小型訓練集中表現(xiàn)良好。他們的研

Orange Labs和Normandie University的研究人員開發(fā)了一種用于視聽情感識別的新型深度神經(jīng)模型,該模型在小型訓練集中表現(xiàn)良好。他們的研究預先發(fā)布在arXiv上,遵循簡單的哲學,大大限制了模型從數(shù)據(jù)集中獲取的參數(shù)并使用簡單的學習技術。

用于情緒識別的神經(jīng)網(wǎng)絡在醫(yī)療保健,客戶分析,監(jiān)視甚至動畫的環(huán)境中具有許多有用的應用。雖然最先進的深度學習算法已經(jīng)取得了顯著的成果,但大多數(shù)仍然無法達到人類所獲得的情感的相同理解。

“我們的總體目標是通過讓計算機能夠感知人類表達的各種細微細節(jié)來促進人機交互,”進行這項研究的研究人員FrédéricJurie告訴TechXplore。“感知圖像,視頻,聲音和聲音中包含的情感都屬于這種背景。”

最近,研究將多模態(tài)和時間數(shù)據(jù)集放在一起,其中包含帶注釋的視頻和視聽剪輯。然而,這些數(shù)據(jù)集通常包含相對少量的注釋樣本,而為了表現(xiàn)良好,大多數(shù)現(xiàn)有的深度學習算法需要更大的數(shù)據(jù)集。

研究人員試圖通過開發(fā)一個新的視聽情感識別框架來解決這個問題,該框架融合了視覺和音頻素材的分析,即使在相對較小的訓練數(shù)據(jù)集中也能保持高水平的準確性。他們在AFEW上訓練他們的神經(jīng)模型,AFEW是從電影中提取并用離散情緒注釋的773個視聽片段的數(shù)據(jù)集。

“人們可以將這個模型視為處理視頻的黑匣子,并自動推斷出人們的情緒狀態(tài),”Jurie解釋道。“這種深度神經(jīng)模型的一大優(yōu)勢是,他們自己學習如何通過分析示例處理視頻,而不需要專家提供特定的處理單元。”

研究人員設計的模型遵循奧卡姆的剃刀哲學原理,這表明在兩種方法或解釋之間,最簡單的方法是最佳選擇。因此,與其他用于情感識別的深度學習模型相反,他們的模型保持相對簡單。神經(jīng)網(wǎng)絡從數(shù)據(jù)集中學習有限數(shù)量的參數(shù),并采用基本的學習策略。

“所建議的網(wǎng)絡由級聯(lián)處理層組成,從信號到解釋信息抽象信息,”Jurie說。“音頻和視頻由網(wǎng)絡的兩個不同頻道處理,最近在整個過程中進行組合,幾乎在最后。”

經(jīng)過測試,他們的光模型實現(xiàn)了60.64%的有希望的情感識別準確率。在科羅拉多舉行的ACM國際多模式互動會議(ICMI)上舉行的2018年野外情緒認可(EmotiW)挑戰(zhàn)中,它也排名第四。

“我們的模型證明,遵循奧卡姆的剃刀原則,即總是選擇最簡單的設計神經(jīng)網(wǎng)絡的替代方案,可以限制模型的大小,并獲得非常緊湊但最先進的神經(jīng)網(wǎng)絡,這更容易訓練,“Jurie說。“這與使神經(jīng)網(wǎng)絡變得越來越大的研究趨勢形成對比。”

研究人員現(xiàn)在將繼續(xù)探索通過使用當前可用的有限注釋訓練數(shù)據(jù)集同時分析視覺和聽覺數(shù)據(jù)來實現(xiàn)情緒識別的高精度的方法。

“我們對幾個研究方向感興趣,例如如何更好地融合不同的方式,如何通過緊湊的語義來表示情感,意味著完整的描述符(而不僅僅是類標簽),或者如何使我們的算法能夠用更少的,甚至更少的學習來學習沒有注釋數(shù)據(jù),“Jurie說。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。