您的位置: 首頁(yè) >科技 >

谷歌的AutoFlip使用人工智能為你裁剪視頻

2022-08-31 23:21:40 編輯:柯珠鴻 來(lái)源:
導(dǎo)讀 為電視拍攝和編輯的視頻通常是在景觀中創(chuàng)建和觀看的,但問(wèn)題是,像16:9和4:3這樣的縱橫比并不總是適合用于觀看的顯示器。 幸運(yùn)的是,谷...

為電視拍攝和編輯的視頻通常是在景觀中創(chuàng)建和觀看的,但問(wèn)題是,像16:9和4:3這樣的縱橫比并不總是適合用于觀看的顯示器。 幸運(yùn)的是,谷歌正在處理這件事。 它今天詳細(xì)介紹了自動(dòng)翻轉(zhuǎn),一個(gè)開源工具的智能視頻重構(gòu)。 給定一個(gè)視頻和一個(gè)目標(biāo)維度,它分析視頻內(nèi)容,并制定最優(yōu)的跟蹤和裁剪策略,然后在期望的縱橫比中產(chǎn)生相同持續(xù)時(shí)間的輸出視頻。

正如Google Research高級(jí)軟件工程師Nathan Frey和高級(jí)軟件工程師鄭孫在一篇博客文章中指出的那樣,傳統(tǒng)的視頻重構(gòu)方法通常涉及靜態(tài)裁剪,這往往導(dǎo)致不滿意的結(jié)果。 更多的定制方法是優(yōu)越的,但它們通常需要視頻策劃者手動(dòng)識(shí)別每個(gè)幀中的突出內(nèi)容,跟蹤它們從幀到幀的轉(zhuǎn)換,并在整個(gè)視頻中相應(yīng)地調(diào)整作物區(qū)域。

相比之下,由于AI對(duì)象檢測(cè)和跟蹤技術(shù)智能地理解視頻內(nèi)容,自動(dòng)翻轉(zhuǎn)是完全自動(dòng)的。 該系統(tǒng)檢測(cè)表示場(chǎng)景變化的構(gòu)圖的變化,以便隔離場(chǎng)景進(jìn)行處理。 在每個(gè)鏡頭中,它使用視頻分析來(lái)識(shí)別突出的內(nèi)容,然后再重新繪制場(chǎng)景,主要是通過(guò)選擇一個(gè)優(yōu)化的相機(jī)模式和路徑。

為了檢測(cè)視頻中的鏡頭何時(shí)發(fā)生變化,自動(dòng)翻轉(zhuǎn)計(jì)算每個(gè)幀的顏色直方圖,并將其與先前的幀進(jìn)行比較。 如果幀顏色的分布以與滑動(dòng)歷史窗口不同的速度變化,則發(fā)出鏡頭變化信號(hào)。 自動(dòng)翻轉(zhuǎn)緩沖視頻,直到場(chǎng)景完成,然后再進(jìn)行重構(gòu)決策,以優(yōu)化整個(gè)場(chǎng)景的重構(gòu)。

自動(dòng)翻轉(zhuǎn)還點(diǎn)擊基于AI的對(duì)象檢測(cè)模型,在框架中找到有趣的內(nèi)容,比如人、動(dòng)物、文本覆蓋、標(biāo)識(shí)和運(yùn)動(dòng)。 人臉和對(duì)象檢測(cè)模型與通過(guò)媒體管道的自動(dòng)翻轉(zhuǎn)集成在一起,這是一個(gè)框架,可以開發(fā)用于處理多模態(tài)數(shù)據(jù)的管道,該框架使用Google的處理器上的TensorFlowLite機(jī)器學(xué)習(xí)框架。 根據(jù)谷歌的說(shuō)法,這種結(jié)構(gòu)允許Auto Flip是可擴(kuò)展的,因此開發(fā)人員可以為不同的用例和視頻內(nèi)容添加檢測(cè)算法。

自動(dòng)翻轉(zhuǎn)自動(dòng)選擇一個(gè)重構(gòu)策略-靜止的,恐慌的,或跟蹤-取決于對(duì)象在場(chǎng)景中的行為方式。 在靜止模式下,重構(gòu)的攝像機(jī)視口固定在一個(gè)位置(就像一個(gè)固定的三腳架),在那里可以在整個(gè)場(chǎng)景中查看重要內(nèi)容。 另一方面,恐慌模式以恒定的速度移動(dòng)視口,而跟蹤模式則提供連續(xù)和穩(wěn)定的跟蹤對(duì)象,因?yàn)樗鼈冊(cè)趲瑑?nèi)移動(dòng)。

在選擇重構(gòu)策略的基礎(chǔ)上,自動(dòng)翻轉(zhuǎn)為每個(gè)幀確定一個(gè)裁剪窗口,同時(shí)保留感興趣的內(nèi)容。 配置圖提供了重新繪制的設(shè)置,以便如果不可能覆蓋所有所需區(qū)域,系統(tǒng)將自動(dòng)切換到一個(gè)不那么激進(jìn)的策略,通過(guò)應(yīng)用字母框效果,填充圖像來(lái)填充框架。 自動(dòng)翻轉(zhuǎn)將繪制背景顏色(如果是純色),以確保填充混合,或以其他方式使用模糊版本的原始框架。

研究人員留給未來(lái)的工作,以提高自動(dòng)翻轉(zhuǎn)的能力,以檢測(cè)“與視頻意圖相關(guān)的對(duì)象”,如揚(yáng)聲器檢測(cè)采訪或動(dòng)畫人臉檢測(cè)卡通,并確保輸入視頻與覆蓋在屏幕邊緣(如文本或徽標(biāo))是不從視圖裁剪。 但他們斷言,即使以目前的形式,自動(dòng)翻轉(zhuǎn)也將“減少設(shè)計(jì)創(chuàng)造力的障礙”。

“通過(guò)結(jié)合文本/徽標(biāo)檢測(cè)和圖像修復(fù)技術(shù),我們希望未來(lái)版本的自動(dòng)翻轉(zhuǎn)能夠重新定位前景對(duì)象,以更好地適應(yīng)新的縱橫比。 [而且]在需要填充的情況下,深度非裁剪技術(shù)可以提供更好的擴(kuò)展能力,超越原來(lái)的可視區(qū)域,“弗雷和Sun寫道。 “我們很高興能將這個(gè)工具直接發(fā)布給開發(fā)人員和電影制作人,減少他們?cè)O(shè)計(jì)創(chuàng)造力的障礙,并通過(guò)視頻編輯的自動(dòng)化來(lái)實(shí)現(xiàn)。 隨著視頻內(nèi)容消費(fèi)設(shè)備的多樣性繼續(xù)迅速增加,使任何視頻格式適應(yīng)各種縱橫比的能力越來(lái)越重要。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。