語(yǔ)言可以幫助人工智能適應(yīng)新環(huán)境

2022-09-01 15:57:02 編輯：司徒珊淑來(lái)源：

導(dǎo)讀在本周在預(yù)印服務(wù)器Arxiv.org上發(fā)表的一項(xiàng)新研究中，多倫多大學(xué)和致力于推進(jìn)人工智能的獨(dú)立非營(yíng)利組織Vector Institute的科學(xué)家提出了嬰兒...

在本周在預(yù)印服務(wù)器Arxiv.org上發(fā)表的一項(xiàng)新研究中，多倫多大學(xué)和致力于推進(jìn)人工智能的獨(dú)立非營(yíng)利組織Vector Institute的科學(xué)家提出了嬰兒人工智能，這是一個(gè)研究描述性文本是否有助于人工智能在動(dòng)態(tài)環(huán)境中推廣的平臺(tái)。它和幾個(gè)基線模型都將很快在GitHub上提供。

機(jī)器學(xué)習(xí)中最強(qiáng)大的技術(shù)之一-強(qiáng)化學(xué)習(xí)，它需要通過(guò)獎(jiǎng)勵(lì)激勵(lì)軟件代理實(shí)現(xiàn)目標(biāo)-也是最有缺陷的技術(shù)之一。它的樣本效率低下，這意味著它需要大量的計(jì)算周期來(lái)完成，并且沒(méi)有額外的數(shù)據(jù)來(lái)覆蓋變化，它很難適應(yīng)與訓(xùn)練環(huán)境不同的環(huán)境。

理論上，通過(guò)結(jié)構(gòu)化語(yǔ)言對(duì)任務(wù)的先驗(yàn)知識(shí)可以與強(qiáng)化學(xué)習(xí)相結(jié)合，以減輕其缺點(diǎn)，而嬰兒人工智能是為了將這一理論付諸實(shí)踐。為此，該平臺(tái)建立在現(xiàn)有的強(qiáng)化學(xué)習(xí)框架-寶貝A I-之上，以生成各種基于動(dòng)態(tài)、彩色瓷磚的環(huán)境，以及詳細(xì)描述其布局的文本。

嬰兒人工智能的水平包括可以拾取和丟棄的物體;可以解鎖和打開(kāi)的門;以及代理必須承擔(dān)的各種任務(wù)。就像環(huán)境本身一樣，任務(wù)是隨機(jī)生成的，它們通過(guò)“嬰兒語(yǔ)言”傳達(dá)給代理，這是一種使用英語(yǔ)詞匯子集的組合語(yǔ)言。

上述文本揭示了使用的瓷磚類型和每個(gè)瓷磚的顏色匹配。由于顏色和瓷磚類型之間的配對(duì)是隨機(jī)的，因此代理必須它的描述才能正確地導(dǎo)航地圖。

在寶貝A I中，每個(gè)級(jí)別被劃分為兩種配置：培訓(xùn)和測(cè)試。在訓(xùn)練配置中，代理暴露在級(jí)別中的所有瓷磚和顏色類型中，但是一些顏色類型對(duì)的組合被保留出來(lái)。在測(cè)試配置中，啟用所有顏色類型對(duì)，迫使代理使用語(yǔ)言接地將瓷磚的類型關(guān)聯(lián)到顏色上。

本文描述了使用基線模型進(jìn)行的幾個(gè)實(shí)驗(yàn)，其中之一-注意力融合-使用所謂的注意機(jī)制將相關(guān)的文本嵌入(數(shù)學(xué)表示)分配給場(chǎng)景嵌入特征映射上的位置(一個(gè)將嵌入映射到特征空間的函數(shù)，或AI過(guò)程駐留的變量的維數(shù))。對(duì)于最困難的水平，這種注意力融合模型在最具挑戰(zhàn)性的水平上比第二最佳模型高16.2%的測(cè)試成功率(5個(gè)步驟或動(dòng)作后約60%)，并且它使用較少的圖像幀完成了該級(jí)別(約65比75)。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！