2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在過去的幾十年里,研究人員開發(fā)了越來越先進的人工智能(AI)工具和計算技術(shù),可以應(yīng)用于各種環(huán)境。在這些技術(shù)中,能夠產(chǎn)生書面或口頭語言的技術(shù)已經(jīng)引起了相當大的注意,特別是隨著新語音助手、機器人和新交互式設(shè)備的引進。
科羅拉多大學(UC)——科羅拉多斯普林斯和德魯里大學的研究人員最近開發(fā)了一種獨特的語言生成系統(tǒng),可以產(chǎn)生創(chuàng)造性的詩歌詩句。他們的系統(tǒng)在arXiv上預(yù)先發(fā)布的一篇論文中提出,是對OpenAI開發(fā)的一種預(yù)先訓練好的語言模型GPT-2的微調(diào)。
加州大學科羅拉多斯普林斯分校(UC Colorado Springs)教授尤加爾·卡利塔(Jugal Kalita)是這項最新研究的負責人,從他在賓夕法尼亞大學(University of Pennsylvania)的研究生時期開始,他在過去30年里一直在進行自然語言生成的研究。他的第一篇關(guān)于自然語言生成的論文發(fā)表于1988年,其目標是按照一套基本規(guī)則,寫出可能出現(xiàn)在典型期刊上的文本段落。最近,受人工神經(jīng)網(wǎng)絡(luò)在自然語言處理(NLP)方面的進步啟發(fā),卡麗塔教授和他的學生開始開發(fā)用于生成短文、對話和創(chuàng)造性寫作的深度學習技術(shù)。
卡麗塔教授對TechXplore說:“研究自動生成詩歌這一主題的想法出現(xiàn)在2019年夏初,當時來自密蘇里州德魯里大學(Drury University)科羅拉多斯普林斯市科羅拉多大學(University of Colorado, Colorado Springs)的暑期研究實習生布倫丹·貝納(Brendan Bena)對自動生成歌詞表現(xiàn)出了興趣。”“他最初想要創(chuàng)造一個系統(tǒng),試圖模仿歌詞中所表達的情感?!?/p>
由于大多數(shù)歌詞是受版權(quán)保護的,尋找大型數(shù)據(jù)集來訓練歌詞生成的深度學習模型是非常具有挑戰(zhàn)性的。Bena和Kalita教授因此決定開發(fā)一個詩歌生成的深度學習工具。然而,他們并沒有像以往的詩歌創(chuàng)作研究那樣,關(guān)注詩歌的結(jié)構(gòu)或節(jié)奏等特征,而是探索了詩歌更富情感和創(chuàng)造性的方面。
Bena在接受TechXplore采訪時表示:“在意識到詩歌創(chuàng)作領(lǐng)域的研究和數(shù)據(jù)要多得多之后,我們將注意力轉(zhuǎn)移到了這個特定的主題上。”這項工作很大程度上是建立在文本生成的首要任務(wù)的基礎(chǔ)上的,而這一任務(wù)與之前的許多研究工作是同時進行的。然而,與之前的努力不同,我們希望更多地關(guān)注文本的內(nèi)容、情感和創(chuàng)造力,而不是之前詩歌生成研究中發(fā)現(xiàn)的結(jié)構(gòu)或節(jié)奏?!?/p>
為了開發(fā)他們的詩歌生成系統(tǒng),Bena和Kalita教授首先從古登堡計劃和UC-Santa Cruz夢想數(shù)據(jù)庫中收集了大量的文本。他們?yōu)g覽了古登堡(Gutenberg)數(shù)據(jù)庫,尋找EmoLex中包含的詞匯。EmoLex是加拿大研究委員會(National Research Council of Canada)開發(fā)的情感詞匯數(shù)據(jù)集。
然后,研究人員將得到的數(shù)據(jù)集分成不同的“情感類別”,觀察每個提取片段中包含的EmoLex詞匯的數(shù)量,并利用這些數(shù)據(jù)訓練一個深度神經(jīng)網(wǎng)絡(luò)。他們所訓練的模型是對GPT-2的一種適應(yīng),GPT-2是一種通過對其所訓練的數(shù)據(jù)中使用的語言風格建模來學習生成新的文本片段的體系結(jié)構(gòu)。
貝納解釋說:“我們還將夢境數(shù)據(jù)和詩歌結(jié)合起來,輸入人工神經(jīng)網(wǎng)絡(luò),創(chuàng)造出所謂的‘夢境詩歌’?!薄白詈?,我們有五種不同的情緒模式,分別是喜悅、悲傷、信任、憤怒和期待,但我們也有一個夢詩模式。如前所述,這一體系較少關(guān)注大量詩歌創(chuàng)作的結(jié)構(gòu),更多關(guān)注自由詩的風格,這種風格旨在模仿和復制真正詩人的技巧和創(chuàng)造力。”
研究人員要求人類用戶評估他們的系統(tǒng)生成的詩歌,同時使用Coh-Metrix工具來評估它生成的詩歌的質(zhì)量。他們發(fā)現(xiàn),在87.5%和85%的情況下,它所產(chǎn)生的詩歌能有效地引發(fā)悲傷和快樂。此外,當對夢數(shù)據(jù)和詩歌進行訓練時,他們的系統(tǒng)生成獨特的“夢幻”詩歌,這些詩歌捕捉到了所謂的“夢幻詩歌”的元素,李克特量表(Likert scale)得分為3.2分。
貝納說:“我們的研究結(jié)果表明,實際上,文本可以被生成,從而激發(fā)讀者的情感,它可以像藝術(shù)家希望注入到作品中的那種創(chuàng)造力?!薄拔覀兿嘈盼覀兊难芯渴莿?chuàng)造性詩歌創(chuàng)作領(lǐng)域的一部小說,希望我們的研究能為這一領(lǐng)域的未來工作打開大門?!?/p>
貝納和卡麗塔教授是最早在詩歌創(chuàng)作中展示機器創(chuàng)造力的人之一。在接下來的研究中,研究人員計劃提高他們的系統(tǒng)所創(chuàng)作的詩歌的質(zhì)量,同時也將他們的方法應(yīng)用到其他語言的詩歌創(chuàng)作中。
貝納說:“如果我們對訓練數(shù)據(jù)進行更多的整理,我們相信神經(jīng)網(wǎng)絡(luò)架構(gòu)可以更好地捕捉我們想要創(chuàng)作的詩歌的情感和夢境?!薄笆聦嵣希M管EmoLex詞典是一個非常有用的數(shù)據(jù)集,但它的詞匯量并不能解釋古騰堡(Gutenberg)的一些詩歌中出現(xiàn)的所有老式英語?!?/p>
在未來,研究人員希望復制他們的實驗,重點放在短語或分段級詞匯上,因為這可以讓他們更有效地捕捉基于情感的文本中的依賴性。他們的研究也可以使用更復雜的基于神經(jīng)網(wǎng)絡(luò)的架構(gòu)進行重復,這可能會提高詩歌的語法和句子結(jié)構(gòu)的質(zhì)量。
Bena和Kalita教授已經(jīng)用他們的系統(tǒng)創(chuàng)作了夢詩,他們最終也可以把它應(yīng)用到其他的創(chuàng)作風格上,比如消除詩歌。擦除詩是通過從現(xiàn)有的文本中提取特定的或隨機的單詞,然后使用它們來形成新的詩句。
卡麗塔教授說:“最后,我們還在利用遷移學習的方法,用不同的語言創(chuàng)作詩歌?!崩?,加州大學科羅拉多斯普林斯分校(UC-Colorado Springs)的碩士研究生肖恩·塔克(Shaun Tucker)一直在用OpenAI預(yù)先訓練過的gps -2模型,用多種印歐語言創(chuàng)作詩歌。到目前為止,我們已經(jīng)生成了英語、西班牙語、烏克蘭語、印地語、孟加拉語和阿薩姆語的詩歌,我們發(fā)現(xiàn),經(jīng)過大量英語文本預(yù)處理的深度學習生成模式GPT-2,可以用所有這些語言的散文和詩歌進行訓練,生成詩歌?!?/p>
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。