您的位置: 首頁 >科技 >

谷歌的AutoFlip使用人工智能為你裁剪視頻

2022-08-31 23:21:40 編輯:柯珠鴻 來源:
導讀 為電視拍攝和編輯的視頻通常是在景觀中創(chuàng)建和觀看的,但問題是,像16:9和4:3這樣的縱橫比并不總是適合用于觀看的顯示器。 幸運的是,谷...

為電視拍攝和編輯的視頻通常是在景觀中創(chuàng)建和觀看的,但問題是,像16:9和4:3這樣的縱橫比并不總是適合用于觀看的顯示器。 幸運的是,谷歌正在處理這件事。 它今天詳細介紹了自動翻轉,一個開源工具的智能視頻重構。 給定一個視頻和一個目標維度,它分析視頻內容,并制定最優(yōu)的跟蹤和裁剪策略,然后在期望的縱橫比中產生相同持續(xù)時間的輸出視頻。

正如Google Research高級軟件工程師Nathan Frey和高級軟件工程師鄭孫在一篇博客文章中指出的那樣,傳統(tǒng)的視頻重構方法通常涉及靜態(tài)裁剪,這往往導致不滿意的結果。 更多的定制方法是優(yōu)越的,但它們通常需要視頻策劃者手動識別每個幀中的突出內容,跟蹤它們從幀到幀的轉換,并在整個視頻中相應地調整作物區(qū)域。

相比之下,由于AI對象檢測和跟蹤技術智能地理解視頻內容,自動翻轉是完全自動的。 該系統(tǒng)檢測表示場景變化的構圖的變化,以便隔離場景進行處理。 在每個鏡頭中,它使用視頻分析來識別突出的內容,然后再重新繪制場景,主要是通過選擇一個優(yōu)化的相機模式和路徑。

為了檢測視頻中的鏡頭何時發(fā)生變化,自動翻轉計算每個幀的顏色直方圖,并將其與先前的幀進行比較。 如果幀顏色的分布以與滑動歷史窗口不同的速度變化,則發(fā)出鏡頭變化信號。 自動翻轉緩沖視頻,直到場景完成,然后再進行重構決策,以優(yōu)化整個場景的重構。

自動翻轉還點擊基于AI的對象檢測模型,在框架中找到有趣的內容,比如人、動物、文本覆蓋、標識和運動。 人臉和對象檢測模型與通過媒體管道的自動翻轉集成在一起,這是一個框架,可以開發(fā)用于處理多模態(tài)數(shù)據(jù)的管道,該框架使用Google的處理器上的TensorFlowLite機器學習框架。 根據(jù)谷歌的說法,這種結構允許Auto Flip是可擴展的,因此開發(fā)人員可以為不同的用例和視頻內容添加檢測算法。

自動翻轉自動選擇一個重構策略-靜止的,恐慌的,或跟蹤-取決于對象在場景中的行為方式。 在靜止模式下,重構的攝像機視口固定在一個位置(就像一個固定的三腳架),在那里可以在整個場景中查看重要內容。 另一方面,恐慌模式以恒定的速度移動視口,而跟蹤模式則提供連續(xù)和穩(wěn)定的跟蹤對象,因為它們在幀內移動。

在選擇重構策略的基礎上,自動翻轉為每個幀確定一個裁剪窗口,同時保留感興趣的內容。 配置圖提供了重新繪制的設置,以便如果不可能覆蓋所有所需區(qū)域,系統(tǒng)將自動切換到一個不那么激進的策略,通過應用字母框效果,填充圖像來填充框架。 自動翻轉將繪制背景顏色(如果是純色),以確保填充混合,或以其他方式使用模糊版本的原始框架。

研究人員留給未來的工作,以提高自動翻轉的能力,以檢測“與視頻意圖相關的對象”,如揚聲器檢測采訪或動畫人臉檢測卡通,并確保輸入視頻與覆蓋在屏幕邊緣(如文本或徽標)是不從視圖裁剪。 但他們斷言,即使以目前的形式,自動翻轉也將“減少設計創(chuàng)造力的障礙”。

“通過結合文本/徽標檢測和圖像修復技術,我們希望未來版本的自動翻轉能夠重新定位前景對象,以更好地適應新的縱橫比。 [而且]在需要填充的情況下,深度非裁剪技術可以提供更好的擴展能力,超越原來的可視區(qū)域,“弗雷和Sun寫道。 “我們很高興能將這個工具直接發(fā)布給開發(fā)人員和電影制作人,減少他們設計創(chuàng)造力的障礙,并通過視頻編輯的自動化來實現(xiàn)。 隨著視頻內容消費設備的多樣性繼續(xù)迅速增加,使任何視頻格式適應各種縱橫比的能力越來越重要。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。