2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
由于微軟研究院、奧爾巴尼大學(xué)和JD AI研究院的人才,能夠根據(jù)描述繪制圖像的人工智能已經(jīng)成為現(xiàn)實。在一篇文章(“Object-driven Text-to-Image合成通過對抗訓(xùn)練”)計劃在IEEE計算機(jī)學(xué)會計算機(jī)視覺與模式識別會議在長灘(CVPR 2019)會議上,加州團(tuán)隊提出了一個機(jī)器學(xué)習(xí)框架——ObjGAN能理解標(biāo)題,素描一個布局,根據(jù)確切的措辭和完善細(xì)節(jié)。
這篇論文的合著者聲稱,他們的方法與之前的先進(jìn)技術(shù)相比,在圖像質(zhì)量上有了“顯著提高”。他們寫道:“ur生成器能夠利用細(xì)粒度的字(和)對象級信息來逐步細(xì)化合成圖像。”“大量的實驗證明了ObjGAN在復(fù)雜場景的文本-圖像生成中的有效性和泛化能力。”
該團(tuán)隊指出,在開發(fā)文本到圖像的人工智能時,一個艱巨的挑戰(zhàn)是讓系統(tǒng)理解對象類型,以及讓它理解場景中多個對象之間的關(guān)系。以前的方法使用圖像-標(biāo)題對,僅為單個對象提供粗粒度的信號,即使是性能最好的模型也難以生成包含多個對象的語義有意義的照片。
為了克服這些障礙,研究人員向ObjGAN注入了生成對抗網(wǎng)絡(luò)(GAN),這是一個由生成樣本的生成器和試圖區(qū)分生成的樣本和真實樣本的鑒別器組成的兩部分神經(jīng)網(wǎng)絡(luò)隨著時間的推移,人工智能系統(tǒng)內(nèi)化了對象的外觀,并學(xué)會了從語料庫中同時出現(xiàn)的模式中綜合它們的布局,最終以預(yù)先生成的布局為條件生成圖像。
為了在圖像生成中達(dá)到人類水平的表現(xiàn),該團(tuán)隊在ObjGAN中模擬了藝術(shù)家繪制和細(xì)化復(fù)雜場景的方式。該系統(tǒng)將輸入文本分解成單獨的單詞,并將這些單詞與圖像中的特定對象進(jìn)行匹配,它利用兩個鑒別器——一個按對象分類的鑒別器和一個按片段分類的鑒別器——來判斷工作是否真實,是否與句子描述一致。
結(jié)果并不完美——ObjGAN偶爾會吐出邏輯上不一致的樣本,就像一列火車被困在草坡上,標(biāo)題是“一列客運列車在鐵軌上奔馳”——但考慮到它們是由整塊布料合成的,它們?nèi)匀涣钊擞∠笊羁獭?/p>
研究者在微軟,微軟365年動力學(xué)研究,杜克大學(xué),騰訊的人工智能研究,和卡內(nèi)基梅隆大學(xué)圖像生成進(jìn)一步在一個單獨的紙(“StoryGAN:故事的順序條件GAN可視化”)來描述一個系統(tǒng)- StoryGAN從multi-sentence段落生成comic-like故事板的能力。StoryGAN類似地構(gòu)建在一個GAN上,但它獨特地包含一個上下文編碼器,可以動態(tài)地跟蹤故事流,并在故事和圖像級別上有兩個鑒別器,以增強(qiáng)生成的序列的質(zhì)量和一致性。
該團(tuán)隊指出,StoryGAN可以擴(kuò)展為交互式圖像編輯,其中可以根據(jù)文本指令順序編輯輸入圖像。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。