2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
在本周在預印服務器Arxiv.org上發(fā)表的一項新研究中,多倫多大學和致力于推進人工智能的獨立非營利組織Vector Institute的科學家提出了嬰兒人工智能,這是一個研究描述性文本是否有助于人工智能在動態(tài)環(huán)境中推廣的平臺。 它和幾個基線模型都將很快在GitHub上提供。
機器學習中最強大的技術之一-強化學習,它需要通過獎勵激勵軟件代理實現(xiàn)目標-也是最有缺陷的技術之一。 它的樣本效率低下,這意味著它需要大量的計算周期來完成,并且沒有額外的數據來覆蓋變化,它很難適應與訓練環(huán)境不同的環(huán)境。
理論上,通過結構化語言對任務的先驗知識可以與強化學習相結合,以減輕其缺點,而嬰兒人工智能是為了將這一理論付諸實踐。 為此,該平臺建立在現(xiàn)有的強化學習框架-寶貝A I-之上,以生成各種基于動態(tài)、彩色瓷磚的環(huán)境,以及詳細描述其布局的文本。
嬰兒人工智能的水平包括可以拾取和丟棄的物體;可以解鎖和打開的門;以及代理必須承擔的各種任務。 就像環(huán)境本身一樣,任務是隨機生成的,它們通過“嬰兒語言”傳達給代理,這是一種使用英語詞匯子集的組合語言。
上述文本揭示了使用的瓷磚類型和每個瓷磚的顏色匹配。 由于顏色和瓷磚類型之間的配對是隨機的,因此代理必須它的描述才能正確地導航地圖。
在寶貝A I中,每個級別被劃分為兩種配置:培訓和測試。 在訓練配置中,代理暴露在級別中的所有瓷磚和顏色類型中,但是一些顏色類型對的組合被保留出來。 在測試配置中,啟用所有顏色類型對,迫使代理使用語言接地將瓷磚的類型關聯(lián)到顏色上。
本文描述了使用基線模型進行的幾個實驗,其中之一-注意力融合-使用所謂的注意機制將相關的文本嵌入(數學表示)分配給場景嵌入特征映射上的位置(一個將嵌入映射到特征空間的函數,或AI過程駐留的變量的維數)。 對于最困難的水平,這種注意力融合模型在最具挑戰(zhàn)性的水平上比第二最佳模型高16.2%的測試成功率(5個步驟或動作后約60%),并且它使用較少的圖像幀完成了該級別(約65比75)。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。