2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。
在即將舉行的2020年歐洲計算機視覺歐洲會議上接受的一項研究中,麻省理工學院和麻省理工學院的IBM Watson AI Lab研究人員描述了一種AI系統(tǒng)— Foley Music —可以從演奏樂器的音樂家的無聲視頻中產(chǎn)生“合理的”音樂。他們說,它可以在各種音樂表演中工作,并且在產(chǎn)生令人愉悅的音樂方面,其表現(xiàn)優(yōu)于“幾種”現(xiàn)有系統(tǒng)。
研究人員相信,可以從人體運動中推斷出音樂的AI模型可以作為一系列應用程序的基礎,從自動向視頻添加聲音效果到在虛擬現(xiàn)實中創(chuàng)建沉浸式體驗。來自認知心理學的研究表明,人類具有這種技能,例如,甚至幼兒也報告說,他們聽到的聲音受到他們看到一個人說話后所收到的信號的影響。
Foley Music從視頻幀中提取人體的2D關鍵點(總共25個點)和手指(21個點)作為中間視覺表示,用于建模身體和手部動作。對于音樂,系統(tǒng)采用MIDI表示形式,對每個音符的時間和響度進行編碼。給定關鍵點和MIDI事件(通常約有500個),“圖形轉換器”模塊學習映射功能以將運動與音樂相關聯(lián),捕獲長期關系以產(chǎn)生手風琴,低音,低音管,大提琴,吉他,鋼琴,大號,四弦琴和小提琴夾。
系統(tǒng)不會將MIDI事件轉換為音樂,但研究人員指出,可以將它們導入標準的合成器中。團隊需要培訓神經(jīng)綜合器,以自動執(zhí)行此操作以用于將來的工作。
在實驗中,研究人員在三個數(shù)據(jù)集上對Foley Music進行了訓練,這些數(shù)據(jù)集包含屬于11個類別的1,000個音樂表演視頻:URMP,一種記錄在工作室中的高質量多樂器視頻語料庫,為每個錄制的視頻提供MIDI文件;AtinPiano,這是一個YouTube頻道,其中包含鋼琴視頻錄制,并且相機俯視鍵盤和手;和MUSIC,一種未修剪的視頻數(shù)據(jù)集,可通過從YouTube查詢關鍵字來下載。
研究人員讓受過訓練的Foley Music系統(tǒng)生成了450個視頻的MIDI片段。然后,他們進行了一項傾聽研究,對來自Amazon Mechanical Turk的志愿者進行了任務評估,對四個類別中的50個片段進行了評分:
正確性:生成的歌曲與視頻內(nèi)容之間的相關性如何。
噪音:哪首歌的噪音最小。
同步:哪首歌曲在時間上與視頻內(nèi)容最一致。
總體:他們更喜歡聽哪首歌。
研究人員報告說,評估人員發(fā)現(xiàn),與其他基準系統(tǒng)相比,F(xiàn)oley Music的音樂很難與真實錄音區(qū)分開。而且,MIDI事件表示似乎有助于改善聲音質量,語義對齊和時間同步。
“結果表明,通過身體關鍵點和MIDI表示可以很好地建立視覺和音樂信號之間的相關性。我們還證明了我們的框架可以輕松擴展,以通過MIDI表示生成不同風格的音樂,”合著者寫道。“我們認為我們的工作將為使用中間主體關鍵點
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。