用于視聽(tīng)情感識(shí)別的輕量且準(zhǔn)確的深度學(xué)習(xí)模型

2019-06-12 16:43:54 編輯：來(lái)源：

導(dǎo)讀 Orange Labs和Normandie University的研究人員開(kāi)發(fā)了一種用于視聽(tīng)情感識(shí)別的新型深度神經(jīng)模型，該模型在小型訓(xùn)練集中表現(xiàn)良好。他們的研

Orange Labs和Normandie University的研究人員開(kāi)發(fā)了一種用于視聽(tīng)情感識(shí)別的新型深度神經(jīng)模型，該模型在小型訓(xùn)練集中表現(xiàn)良好。他們的研究預(yù)先發(fā)布在arXiv上，遵循簡(jiǎn)單的哲學(xué)，大大限制了模型從數(shù)據(jù)集中獲取的參數(shù)并使用簡(jiǎn)單的學(xué)習(xí)技術(shù)。

用于情緒識(shí)別的神經(jīng)網(wǎng)絡(luò)在醫(yī)療保健，客戶分析，監(jiān)視甚至動(dòng)畫(huà)的環(huán)境中具有許多有用的應(yīng)用。雖然最先進(jìn)的深度學(xué)習(xí)算法已經(jīng)取得了顯著的成果，但大多數(shù)仍然無(wú)法達(dá)到人類(lèi)所獲得的情感的相同理解。

“我們的總體目標(biāo)是通過(guò)讓計(jì)算機(jī)能夠感知人類(lèi)表達(dá)的各種細(xì)微細(xì)節(jié)來(lái)促進(jìn)人機(jī)交互，”進(jìn)行這項(xiàng)研究的研究人員FrédéricJurie告訴TechXplore。“感知圖像，視頻，聲音和聲音中包含的情感都屬于這種背景。”

最近，研究將多模態(tài)和時(shí)間數(shù)據(jù)集放在一起，其中包含帶注釋的視頻和視聽(tīng)剪輯。然而，這些數(shù)據(jù)集通常包含相對(duì)少量的注釋樣本，而為了表現(xiàn)良好，大多數(shù)現(xiàn)有的深度學(xué)習(xí)算法需要更大的數(shù)據(jù)集。

研究人員試圖通過(guò)開(kāi)發(fā)一個(gè)新的視聽(tīng)情感識(shí)別框架來(lái)解決這個(gè)問(wèn)題，該框架融合了視覺(jué)和音頻素材的分析，即使在相對(duì)較小的訓(xùn)練數(shù)據(jù)集中也能保持高水平的準(zhǔn)確性。他們?cè)贏FEW上訓(xùn)練他們的神經(jīng)模型，AFEW是從電影中提取并用離散情緒注釋的773個(gè)視聽(tīng)片段的數(shù)據(jù)集。

“人們可以將這個(gè)模型視為處理視頻的黑匣子，并自動(dòng)推斷出人們的情緒狀態(tài)，”Jurie解釋道。“這種深度神經(jīng)模型的一大優(yōu)勢(shì)是，他們自己學(xué)習(xí)如何通過(guò)分析示例處理視頻，而不需要專家提供特定的處理單元。”

研究人員設(shè)計(jì)的模型遵循奧卡姆的剃刀哲學(xué)原理，這表明在兩種方法或解釋之間，最簡(jiǎn)單的方法是最佳選擇。因此，與其他用于情感識(shí)別的深度學(xué)習(xí)模型相反，他們的模型保持相對(duì)簡(jiǎn)單。神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)集中學(xué)習(xí)有限數(shù)量的參數(shù)，并采用基本的學(xué)習(xí)策略。

“所建議的網(wǎng)絡(luò)由級(jí)聯(lián)處理層組成，從信號(hào)到解釋信息抽象信息，”Jurie說(shuō)。“音頻和視頻由網(wǎng)絡(luò)的兩個(gè)不同頻道處理，最近在整個(gè)過(guò)程中進(jìn)行組合，幾乎在最后。”

經(jīng)過(guò)測(cè)試，他們的光模型實(shí)現(xiàn)了60.64%的有希望的情感識(shí)別準(zhǔn)確率。在科羅拉多舉行的ACM國(guó)際多模式互動(dòng)會(huì)議(ICMI)上舉行的2018年野外情緒認(rèn)可(EmotiW)挑戰(zhàn)中，它也排名第四。

“我們的模型證明，遵循奧卡姆的剃刀原則，即總是選擇最簡(jiǎn)單的設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的替代方案，可以限制模型的大小，并獲得非常緊湊但最先進(jìn)的神經(jīng)網(wǎng)絡(luò)，這更容易訓(xùn)練，“Jurie說(shuō)。“這與使神經(jīng)網(wǎng)絡(luò)變得越來(lái)越大的研究趨勢(shì)形成對(duì)比。”

研究人員現(xiàn)在將繼續(xù)探索通過(guò)使用當(dāng)前可用的有限注釋訓(xùn)練數(shù)據(jù)集同時(shí)分析視覺(jué)和聽(tīng)覺(jué)數(shù)據(jù)來(lái)實(shí)現(xiàn)情緒識(shí)別的高精度的方法。

“我們對(duì)幾個(gè)研究方向感興趣，例如如何更好地融合不同的方式，如何通過(guò)緊湊的語(yǔ)義來(lái)表示情感，意味著完整的描述符(而不僅僅是類(lèi)標(biāo)簽)，或者如何使我們的算法能夠用更少的，甚至更少的學(xué)習(xí)來(lái)學(xué)習(xí)沒(méi)有注釋數(shù)據(jù)，“Jurie說(shuō)。

標(biāo)簽：深度學(xué)習(xí)模型