您的位置: 首頁 >互聯(lián)網(wǎng) >

Facebook研究人員構(gòu)建了一個(gè)數(shù)據(jù)集來訓(xùn)練個(gè)性化對話代理

2019-06-10 17:32:21 編輯: 來源:
導(dǎo)讀 Facebook的研究人員最近編制了一個(gè)包含500萬個(gè)人物角色和7億個(gè)基于人物角色的對話的數(shù)據(jù)集。該數(shù)據(jù)庫可用于訓(xùn)練端到端對話系統(tǒng),從而在計(jì)算

Facebook的研究人員最近編制了一個(gè)包含500萬個(gè)人物角色和7億個(gè)基于人物角色的對話的數(shù)據(jù)集。該數(shù)據(jù)庫可用于訓(xùn)練端到端對話系統(tǒng),從而在計(jì)算機(jī)代理和人類之間產(chǎn)生更具吸引力和豐富的對話。

對話系統(tǒng)或會(huì)話代理(CA)是設(shè)計(jì)用于通過文本,語音,圖形或其他方法以連貫的方式與人類通信的計(jì)算機(jī)系統(tǒng)。到目前為止,已經(jīng)發(fā)現(xiàn)基于神經(jīng)架構(gòu)的對話系統(tǒng)(例如LSTM或存儲(chǔ)器網(wǎng)絡(luò))在實(shí)現(xiàn)流暢的通信方面特別有前途,特別是在直接對話對話日志時(shí)。

“他們的主要優(yōu)勢之一是他們可以依靠現(xiàn)有對話的大型數(shù)據(jù)源來學(xué)習(xí)覆蓋各種領(lǐng)域而無需任何專業(yè)知識,”研究人員在他們的論文中寫道,該論文已預(yù)先發(fā)布在arXiv上。“然而,另一方面,他們也表現(xiàn)出有限的參與度,特別是在閑聊環(huán)境中:他們?nèi)狈σ恢滦裕⑶也粫?huì)像(甚至部分)腳本聊天機(jī)器人那樣利用主動(dòng)參與策略。”

在最近的一項(xiàng)研究中,蒙特利爾學(xué)習(xí)算法研究所(MILA)和Facebook AI的另一組研究人員創(chuàng)建了一個(gè)名為PERSONA-CHAT 的數(shù)據(jù)集,其中包括與文本配置文件或人物角色相關(guān)聯(lián)的代理之間的對話。他們發(fā)現(xiàn),針對特定角色培訓(xùn)對話系統(tǒng)可以提高他們對互動(dòng)的參與度。

“然而,PERSONA-CHAT數(shù)據(jù)集是使用基于Mechanical Turk的人工數(shù)據(jù)收集機(jī)制創(chuàng)建的,”研究人員在他們的論文中解釋道。“因此,對話框和人物角色都不能完全代表真實(shí)的用戶 - 機(jī)器人交互,數(shù)據(jù)集覆蓋范圍仍然有限,包含超過1k個(gè)不同的角色。”

為了解決以前編譯的數(shù)據(jù)集的局限性,F(xiàn)acebook研究人員創(chuàng)建了一個(gè)新的,大規(guī)模的基于角色的對話數(shù)據(jù)集,由從在線平臺(tái)Reddit中提取的對話組成。他們的研究通過使用更具代表性的互動(dòng),使他們的前輩的工作更進(jìn)一步。

“在本文中,我們使用以前從Reddit中提取的對話構(gòu)建了一個(gè)非常大規(guī)模的基于角色的對話數(shù)據(jù)集,”研究人員寫道。“通過簡單的啟發(fā)式方法,我們創(chuàng)建了一個(gè)超過500萬個(gè)角色的語料庫,涵蓋超過7億個(gè)對話。”

為了評估其有效性,研究人員在他們新開發(fā)的數(shù)據(jù)集上訓(xùn)練了基于人物的端對端對話系統(tǒng)。受過數(shù)據(jù)集培訓(xùn)的系統(tǒng)能夠進(jìn)行更具吸引力的對話,優(yōu)于其他在培訓(xùn)期間無法訪問人物角色的會(huì)話代理。

有趣的是,他們的數(shù)據(jù)集導(dǎo)致了最先進(jìn)的結(jié)果,即使對話系統(tǒng)只是在其上進(jìn)行了預(yù)訓(xùn)練。將來,這些發(fā)現(xiàn)可能會(huì)導(dǎo)致更具吸引力的聊天機(jī)器人的發(fā)展,這些聊天機(jī)器人也可以個(gè)性化和訓(xùn)練以獲得特定的角色。

研究人員寫道:“我們表明,訓(xùn)練模型可以將答案與作者的角色和背景相結(jié)合,從而提高預(yù)測性能。” “由于預(yù)訓(xùn)練可以帶來相當(dāng)大的性能提升,未來的工作可以為各種對話系統(tǒng)微調(diào)這個(gè)模型。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。