您的位置: 首頁 >科技 >

一種可以增強計算機視覺的新機器學習策略

2019-06-13 17:16:50 編輯: 來源:
導讀 來自巴塞羅那自治大學,卡內基梅隆大學和印度海德拉巴國際信息技術研究所的研究人員開發(fā)出一種技術,可以讓深度學習算法以自我監(jiān)督的方式學

來自巴塞羅那自治大學,卡內基梅隆大學和印度海德拉巴國際信息技術研究所的研究人員開發(fā)出一種技術,可以讓深度學習算法以自我監(jiān)督的方式學習圖像的視覺特征,而無需人類研究人員的注釋。

為了在計算機視覺任務中取得顯著成果,深度學習算法需要在包含有關每個圖像的大量信息的大規(guī)模注釋數據集上進行訓練。但是,收集和手動注釋這些圖像需要大量的時間,資源和人力。

“我們的目標是讓計算機能夠閱讀和理解現實世界中任何類型圖像的文本信息,”進行這項研究的研究人員之一Dimosthenis Karatzas在接受Tech Xplore采訪時表示。

人類使用文本信息來解釋呈現給他們的所有情況,以及描述他們周圍或特定圖像中發(fā)生的事情。研究人員現在正在嘗試為機器提供類似的功能,因為這會大大減少用于注釋大型數據集的資源量。

在他們的研究中,Karatzas和他的同事設計了計算模型,使用維基百科或其他在線平臺的數據,將圖像的文本信息與其中包含的視覺信息相結合。然后,他們使用這些模型來訓練深度學習算法,以了解如何選擇語義描述圖像的良好視覺特征。

與基于卷積神經網絡(CNN)的其他模型一樣,端到端學習特征,不同的層自動學習專注于不同的事物,從第一層中的像素級細節(jié)到最后層中的更抽象特征。 。

然而,Karatzas及其同事開發(fā)的模型不需要為每個圖像指定特定的注釋。相反,找到圖像的文本上下文(例如維基百科文章)充當監(jiān)督信號。

換句話說,這個研究小組創(chuàng)建的新技術提供了完全無監(jiān)督算法的替代方案,該算法使用與圖像相關的非視覺元素,作為自我監(jiān)督訓練的來源。

“這將成為學習如何在計算機中表示圖像的一種非常有效的方式,無需任何明確的注釋 - 關于圖像內容的標簽 - 這需要花費大量時間和手動工作,”Karatzas解釋說。“這些新的圖像表示以自我監(jiān)督的方式學習,具有足夠的辨別力,可用于一系列典型的計算機視覺任務,如圖像分類和物體檢測。”

研究人員開發(fā)的方法允許使用文本作為監(jiān)督信號來學習有用的圖像特征。這可以為深度學習開辟新的可能性,允許算法在不需要注釋的情況下學習高質量的圖像特征,只需分析在線即可獲得的文本和視覺資源。

通過使用來自互聯(lián)網的圖像訓練他們的算法,研究人員強調了在線可以獲得的內容的價值。

“我們的研究表明,網絡可以作為一組嘈雜的數據被利用來學習有關圖像內容的有用表現,”Karatzas說。“我們不是第一個,也不是唯一暗示這個方向的人,但我們的工作已經證明了這樣做的具體方法,利用維基百科文章作為數據來學習。”

在未來的研究中,Karatzas和他的同事將嘗試確定使用圖像嵌入文本信息自動描述和回答圖像內容問題的最佳方法。

“我們將繼續(xù)致力于文本和視覺信息的聯(lián)合嵌入,尋找通過利用網絡和社交媒體中可用的嘈雜信息進行語義檢索的新方法,”Karatzas補充道。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ   備案號:

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)