您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

使用感興趣區(qū)域打包在視頻中快速檢測(cè)對(duì)象

2019-06-10 17:30:14 編輯: 來(lái)源:
導(dǎo)讀 羅伯特博世數(shù)據(jù)科學(xué)和人工智能中心和計(jì)算腦研究中心,印度理工學(xué)院馬德拉斯和普渡大學(xué)的研究人員最近開(kāi)發(fā)出一種新方法,用于減少使用神經(jīng)網(wǎng)

羅伯特博世數(shù)據(jù)科學(xué)和人工智能中心和計(jì)算腦研究中心,印度理工學(xué)院馬德拉斯和普渡大學(xué)的研究人員最近開(kāi)發(fā)出一種新方法,用于減少使用神經(jīng)網(wǎng)絡(luò)的視頻中物體檢測(cè)的計(jì)算要求。他們的技術(shù)稱為Pack and Detect(PaD),在arXiv上發(fā)表的一篇論文中進(jìn)行了概述。

對(duì)象檢測(cè)是許多計(jì)算機(jī)視覺(jué)應(yīng)用的關(guān)鍵方面,例如對(duì)象跟蹤,視頻摘要和視頻搜索。雖然最近機(jī)器學(xué)習(xí)的進(jìn)步已經(jīng)導(dǎo)致開(kāi)發(fā)用于完成該任務(wù)的越來(lái)越精確的工具,但是現(xiàn)有方法仍然在計(jì)算上非常密集。例如,使用SSD300 對(duì)象檢測(cè)網(wǎng)絡(luò)以300 x 300分辨率處理視頻,以VGG16為主干,以30 fps為單位,每秒需要1.87萬(wàn)億次浮點(diǎn)運(yùn)算(FLOPS)。

研究人員觀察到,在某些情況下,視頻幀中的大多數(shù)區(qū)域僅僅是背景,顯著對(duì)象僅占據(jù)幀中區(qū)域的一小部分。此外,他們發(fā)現(xiàn)連續(xù)幀之間存在強(qiáng)烈的時(shí)間相關(guān)性。他們利用這些觀察結(jié)果,提出了一種新的視頻對(duì)象檢測(cè)技術(shù),可以降低對(duì)象檢測(cè)任務(wù)的計(jì)算要求。

“我們受到了生物和人工視覺(jué)系統(tǒng)中的中央凹機(jī)制的啟發(fā),”開(kāi)展這項(xiàng)研究的研究人員之一的Athindran Ramesh Kumar告訴TechXplore。“以前關(guān)于人工視覺(jué)系統(tǒng)中的中心凹注意力機(jī)制的研究只關(guān)注圖像中的一個(gè)區(qū)域或一次只關(guān)注一個(gè)物體。我們想知道如果它能夠立即聚焦在場(chǎng)景中的所有顯著區(qū)域,視覺(jué)系統(tǒng)將是怎樣的。 “。

因此,研究人員設(shè)計(jì)的物體檢測(cè)方法受到生物視覺(jué)系統(tǒng)的啟發(fā)。然而,與先前的嘗試相反,他們的系統(tǒng)將所有感興趣的區(qū)域一起打包在單個(gè)幀中,而不是順序地處理它們。

“我們的工作目標(biāo)是通過(guò)僅關(guān)注框架中的顯著區(qū)域并消除背景雜亂來(lái)加速視頻中的物體檢測(cè),”進(jìn)行這項(xiàng)研究的另一位研究員Balaraman Ravindran告訴TechXplore。“為了消除背景雜亂,我們利用了視頻中相鄰幀之間的時(shí)間相關(guān)性。這是視頻壓縮技術(shù)用來(lái)降低存儲(chǔ)和帶寬要求的屬性;我們用它來(lái)加速計(jì)算。”

PaD,Ravindran及其同事提出的物體檢測(cè)方法是通過(guò)以全尺寸定期處理幀來(lái)工作。這些幀被稱為“錨幀”。另一方面,在所有其他幀中,工具基于對(duì)象在前一幀中的位置來(lái)識(shí)別感興趣的區(qū)域。

“這些感興趣的區(qū)域像拼貼一樣排列在一起,用作物體探測(cè)器的輸入,”進(jìn)行這項(xiàng)研究的研究人員之一Anand Raghunathan告訴TechXplore。“然后將檢測(cè)結(jié)果映射回原始圖像中的位置。這種方法更快,因?yàn)槠促N圖像的尺寸小于全幀。我們利用SSD300等流行物體檢測(cè)器的靈活性來(lái)處理全尺寸圖像和更小的尺寸。“

研究人員在ImageNet VID數(shù)據(jù)集上評(píng)估了他們的方法,發(fā)現(xiàn)它的加速時(shí)間為1.25倍,精度下降不到1.6%。此外,他們觀察到處理較小尺寸幀所需的時(shí)間幾乎減少了三倍,F(xiàn)LOP計(jì)數(shù)減少了四倍。

此外,他們的研究突出了兩個(gè)重要方面,可以為開(kāi)發(fā)更快,更少計(jì)算密集的方法來(lái)檢測(cè)視頻中的對(duì)象提供信息。首先,感興趣的對(duì)象通常僅占據(jù)幀中的一小部分像素; 第二,視頻中相鄰幀之間存在相關(guān)性。

“我們的工作可以通過(guò)降低計(jì)算要求,幫助在物聯(lián)網(wǎng)邊緣的資源受限設(shè)備上實(shí)現(xiàn)視頻分析,或者可以改善云中服務(wù)器可能處理的視頻流數(shù)量,”Athindran說(shuō)。

該研究小組開(kāi)展的這項(xiàng)研究是開(kāi)發(fā)更有效的物體檢測(cè)工具的第一步。他們現(xiàn)在正計(jì)劃進(jìn)一步調(diào)查,以進(jìn)一步改進(jìn)他們的方法。

例如,目前,PaD定期選擇錨幀,但研究人員可以開(kāi)發(fā)一種動(dòng)態(tài)識(shí)別這些關(guān)鍵幀的機(jī)制。他們還計(jì)劃在更加資源有限的硬件中測(cè)試他們的技術(shù),例如智能手機(jī),可穿戴設(shè)備和智能家用電器。

“我們手工制作了一種算法來(lái)推斷感興趣的區(qū)域并形成拼貼圖像,”拉文德蘭說(shuō)。“但是一個(gè)完全神經(jīng)系統(tǒng)會(huì)有神經(jīng)網(wǎng)絡(luò),可以根據(jù)前一幀產(chǎn)生拼貼圖像。這是一個(gè)更加雄心勃勃的未來(lái)工作路線。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。