您的位置: 首頁 >科技 >

微軟發(fā)布DialogGPT AI對話模型

2022-08-25 08:37:10 編輯:尤潔山 來源:
導讀 微軟研究院的 自然語言處理小組發(fā)布了對話生成式預訓練轉換器(DialoGPT),這是一種用于自動對話響應生成的預訓練深度學習自然語言處理(NLP...

微軟研究院的 自然語言處理小組發(fā)布了對話生成式預訓練轉換器(DialoGPT),這是一種用于自動對話響應生成的預訓練深度學習自然語言處理(NLP)模型。該模型經過了超過1.47億次對話的培訓,并在多個基準測試中獲得了最新的結果。

該團隊在arXiv上發(fā)表的一篇論文中介紹了該系統(tǒng)的詳細信息。DialoGPT建立在GPT-2轉換器架構上,并使用從Reddit注釋線程中抓取的數據集進行了訓練。使用兩個測試數據集對模型進行了評估,這兩個數據集是Dialog System Technology Challenges(DSTC-7)數據集,還從Reddit中提取了一個新的6k示例數據集。對于這兩個數據集,該團隊使用機器翻譯指標(例如BLEU和Meteor)來評估DialoGPT與微軟的Personality Chat相比的性能。以及DSTC-7冠軍“ B隊”。DialoGPT在所有指標上均優(yōu)于其他模型。該團隊還利用人類裁判對DialoGPT的輸出與真實人類的反應進行排名。法官們約有50%的時間喜歡DialoGPT的回應。

該變壓器的架構已經成為NLP任務流行的深學習模型。這些模型通常使用無監(jiān)督學習在大型數據集(例如Wikipedia的內容)上進行預訓練。通過預訓練,模型可以在針對特定任務的數據集(例如DSTC-7數據集)上進行微調之前,學習自然的語言結構。即使沒有微調,大型的預訓練模型也可以實現最新的結果在NLP基準上。但是,DialoGPT團隊指出,這些模型中的許多都是“臭名昭著的,因為它們生成的樣本淡淡,內容不詳。” 為了解決這個問題,他們實施了最大互信息(MMI)評分功能,該功能對模型的輸出進行重新排名,對“平淡”的輸出進行懲罰。研究小組還研究了使用強化學習 來改善模型結果的方法,但發(fā)現這樣做通常會導致回答只是重復了源句。

由于缺乏用于對話任務的高質量訓練數據集,預訓練模型對于會話系統(tǒng)特別有吸引力。但是,使用來自Reddit或Twitter之類的Internet網站的自然對話信息會帶來風險,該模型可能會暴露于攻擊性言論并可以從中學習。在與Twitter用戶交談之后,微軟較早的實驗聊天機器人Tay 產生的輸出 “ 絕對不合適且應受到譴責”。微軟的個性聊天云服務試圖解決這個問題通過使用一系列機器學習分類器在自動生成響應之前過濾掉令人反感的輸入。作為預防措施,DialoGPT團隊選擇不發(fā)布將模型輸出轉換為實際文本字符串的解碼器。同樣,由于擔心“技術的惡意應用” ,OpenAI 最初保留了其經過全面訓練的模型。


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。