2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
谷歌正在研究如何使用AI將自然語言說明植根于智能手機應用程序操作。在2020年計算語言學協(xié)會(ACL)會議接受的一項研究中,該公司的研究人員提出了語料庫來訓練模型,以減輕需要通過應用進行操縱的需求,這可能對視力障礙者有用。
當協(xié)調工作并完成涉及一系列動作的任務時(例如,按照制作生日蛋糕的食譜),人們會相互提供指示。考慮到這一點,研究人員著手為可以幫助進行類似交互的AI代理建立基準。給定一組指令,這些代理將理想地預測一系列應用程序動作以及在應用程序從一個屏幕過渡到另一個屏幕時生成的屏幕和交互元素。
研究人員在論文中描述了一個兩步解決方案,包括一個動作短語提取步驟和一個接地步驟。動作短語提取使用Transformer模型從多步驟指令中識別操作,對象和參數(shù)描述。(模型中的“區(qū)域關注”模塊允許它整體上處理指令中的一組相鄰單詞,以對描述進行解碼。)接地將提取的操作和對象描述與屏幕上的UI對象進行匹配,再次使用一種Transformer模型,但可以在上下文中表示UI對象并為其基礎對象描述。
合著者創(chuàng)建了三個新的數(shù)據(jù)集來訓練和評估他們的動作短語提取和基礎模型:
第一個包含187條多步驟英文說明,用于操作Pixel手機及其相應的操作屏幕序列。
第二個包含來自網絡的英文“操作方法”說明以及描述每個動作的帶注釋短語。
第三個包含295,000個單步命令,這些命令用于UI動作,這些動作來自公共Android UI語料庫的25,000個移動UI屏幕上的178,000個UI對象。
他們報告說,關注區(qū)域的變壓器在預測與地面真實情況完全匹配的跨度序列時可達到85.56%的準確度。同時,在將語言指令端到端映射到更具挑戰(zhàn)性的任務時,短語提取器和基礎模型一起獲得89.21%的局部準確度和70.59%的完全準確度,以匹配地面真實動作序列。
研究人員斷言,數(shù)據(jù)集,模型和結果(所有這些數(shù)據(jù)集,模型和結果都可以從GitHub上的開放源代碼獲得)為解決將自然語言指令扎根于移動UI動作這一具有挑戰(zhàn)性的問題邁出了重要的第一步。
“這項研究以及總體上的語言基礎,是將多階段指令轉換為圖形用戶界面上的動作的重要一步。成功地將任務自動化應用于UI域有潛力顯著提高可訪問性,其中語言界面可以幫助視力障礙的人使用看得到的界面執(zhí)行任務。”“當人們在手頭的任務所困擾的情況下無法輕松訪問設備時,這對于情況損害也很重要。”
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。