一種克服深度神經(jīng)網(wǎng)絡(luò)中多模型遺忘的新方法

2019-06-03 10:50:25 編輯：來源：

導(dǎo)讀近年來，研究人員開發(fā)了深度神經(jīng)網(wǎng)絡(luò)，可以執(zhí)行各種任務(wù)，包括視覺識別和自然語言處理(NLP)任務(wù)。盡管這些模型中的許多都取得了顯著的成果

近年來，研究人員開發(fā)了深度神經(jīng)網(wǎng)絡(luò)，可以執(zhí)行各種任務(wù)，包括視覺識別和自然語言處理(NLP)任務(wù)。盡管這些模型中的許多都取得了顯著的成果，但由于所謂的“災(zāi)難性遺忘”，它們通常只能在一項特定任務(wù)上表現(xiàn)良好。

從本質(zhì)上講，災(zāi)難性遺忘意味著當(dāng)最初在任務(wù)A上訓(xùn)練的模型后來在任務(wù)B上進行訓(xùn)練時，其在任務(wù)A上的表現(xiàn)將顯著下降。在arXiv上發(fā)表的一篇論文中，Swisscom和EPFL的研究人員發(fā)現(xiàn)了一種新的遺忘方法，并提出了一種新的方法，可以通過統(tǒng)計學(xué)上合理的重量塑性損失來幫助克服它。

“當(dāng)我們第一次開始研究我們的項目時，自動設(shè)計神經(jīng)架構(gòu)對于大多數(shù)公司而言計算成本昂貴且不可行，”該研究的主要研究人員Yassine Benyahia和Kaicheng Yu通過電子郵件告訴TechXplore。“我們研究的最初目的是確定減少這種費用的新方法。當(dāng)項目開始時，Google的一篇論文聲稱使用稱為重量分擔(dān)的新方法大大減少了構(gòu)建神經(jīng)架構(gòu)所需的時間和資源。使autoML對沒有巨大GPU集群的研究人員可行，鼓勵我們更深入地研究這個話題。“

EWC與WPL的比較。每個子圖中的橢圓表示對應(yīng)于低誤差的參數(shù)區(qū)域。(左上)兩種方法都以單個模型開始，參數(shù)θA= {θs，θ1}，在單個數(shù)據(jù)集D1上訓(xùn)練。(左下)EWC基于p(θA| D1)對所有參數(shù)進行調(diào)整，以在新數(shù)據(jù)集D2上訓(xùn)練相同的初始模型。(右上)相比之下，WPL利用初始數(shù)據(jù)集D1并僅基于p(θA| D1)和v>Ωv對共享參數(shù)θs進行正則化，而參數(shù)θ2可以自由移動。圖片來源：Benyahia，Yu等人。

在研究基于神經(jīng)網(wǎng)絡(luò)的模型時，Benyahia，Yu和他們的同事發(fā)現(xiàn)了體重分擔(dān)的問題。當(dāng)他們按順序訓(xùn)練兩個模型(例如A和B)時，模型A的性能下降，而模型B的性能上升，反之亦然。他們表明，這種被稱為“多模型遺忘”的現(xiàn)象可能會阻礙幾種自動mL方法的表現(xiàn)，包括Google的高效神經(jīng)架構(gòu)搜索(ENAS)。

“我們意識到，體重分享導(dǎo)致模型相互影響，這導(dǎo)致架構(gòu)搜索過程更接近隨機，”Benyahia和Yu解釋說。“我們在架構(gòu)搜索方面也有自己的儲備，只有最終的結(jié)果才能明白，而且沒有良好的框架來公平地評估架構(gòu)搜索的質(zhì)量。我們的方法可以幫助解決這個遺忘問題，如它與幾乎所有最近的autoML論文所依賴的核心方法有關(guān)，我們認為這種影響對社區(qū)來說是巨大的。“

在他們的研究中，研究人員模擬了多模型在數(shù)學(xué)上的遺忘并得出了一種新的損失，稱為重量可塑性損失。這種損失可以通過根據(jù)模型的共享參數(shù)的先前模型的重要性來規(guī)范學(xué)習(xí)模型的共享參數(shù)來大大減少多模型遺忘。

從嚴格到松散的收斂。研究人員使用共享參數(shù)對模型A和B進行MNIST實驗，并在訓(xùn)練模型B(基線，綠色)之前報告模型A的準確性，并在訓(xùn)練模型B時使用(橙色)或不使用(藍色)訓(xùn)練模型A和B的準確性)WPL。在(a)中，它們顯示了嚴格收斂的結(jié)果：A最初訓(xùn)練為收斂。然后，他們放松了這個假設(shè)并將A訓(xùn)練到其最佳準確度的55%(b)，43%(c)和38%(d)。當(dāng)A訓(xùn)練至少達到最優(yōu)性的40%時，WPL非常有效; 在下面，F(xiàn)isher信息變得太不準確，無法提供可靠的重要性權(quán)重。因此，即使權(quán)重不是最優(yōu)的，WPL也有助于減少多模型遺忘。WPL減少(a)和(b)的遺忘率高達99.99%，(c)減少高達2%。信用：

“基本上，由于神經(jīng)網(wǎng)絡(luò)的過度參數(shù)化，我們的損失會減少首先對最終損失”不太重要“的參數(shù)，并保持更重要的參數(shù)不變，”Benyahia和Yu說。“模型A的性能因此不受影響，而模型B的性能不斷提高。在小型數(shù)據(jù)集上，我們的模型可以減少高達99%的遺忘，而對于autoML方法，在訓(xùn)練過程中高達80%。”

在一系列測試中，研究人員證明了他們的方法在減少多模型遺忘方面的有效性，無論是在順序訓(xùn)練兩個模型還是進行神經(jīng)結(jié)構(gòu)搜索的情況下。他們的研究結(jié)果表明，在神經(jīng)結(jié)構(gòu)搜索中增加重量可塑性可以顯著提高NLP和計算機視覺任務(wù)上多個模型的性能。

由Benyahia，Yu和他們的同事進行的研究揭示了災(zāi)難性遺忘的問題，特別是當(dāng)多個模型按順序訓(xùn)練時發(fā)生的問題。在用數(shù)學(xué)方法對這個問題進行建模之后，研究人員引入了一種可以克服它的解決方案，或者至少可以大大降低其影響。

神經(jīng)架構(gòu)搜索中的誤差差異。對于每個體系結(jié)構(gòu)，研究人員計算RNN誤差差異err2-err1，其中err1是在訓(xùn)練該體系結(jié)構(gòu)之后的錯誤，并且err2是在當(dāng)前時期訓(xùn)練所有體系結(jié)構(gòu)之后的錯誤。它們繪制了(a)所有采樣模型的平均差異，(b)具有最低err1的5個模型的平均差異，以及(c)所有模型的最大差異。在(d)中，他們將采樣架構(gòu)的平均獎勵繪制為訓(xùn)練迭代的函數(shù)。盡管WPL最初導(dǎo)致較低的獎勵，但由于等式(8)中的權(quán)重α較大，通過減少遺忘，以后允許控制器對更好的架構(gòu)進行采樣，如下半部分中的較高獎勵所示。圖片來源：Benyahia，Yu等人。

“在多模式遺忘中，我們的指導(dǎo)原則是在公式中思考而不僅僅是通過簡單的直覺或啟發(fā)式思考，”Benyahia和Yu說。“我們堅信，這種'公式思考'可以引導(dǎo)研究人員獲得偉大的發(fā)現(xiàn)。這就是為什么進一步的研究，我們的目標是將這種方法應(yīng)用于機器學(xué)習(xí)的其他領(lǐng)域。此外，我們計劃將我們的損失調(diào)整到最近的狀態(tài)最先進的autoML方法，以證明其有效解決我們觀察到的體重分擔(dān)問題。“

標簽：神經(jīng)網(wǎng)絡(luò)