2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
對Twitter消息的調(diào)查揭示了用于研究人們?nèi)绾问褂醚由煸~(例如“ duuuuude”,“ heyyyyy”或“ noooooooo”)的新見解和工具。伯靈頓佛蒙特大學的Tyler Gray及其同事在2020年5月27日的開放獲取期刊PLOS ONE中介紹了這些發(fā)現(xiàn)。
在口語和書面語中,延伸的單詞可以修改單詞的含義。例如,“ suuuuure”可能表示諷刺,而“ yeeesssss”可能表示興奮。延伸的單詞在正式寫作中很少見,但是社交媒體的興起為學習它們提供了新的機會。
Gray和他的同事現(xiàn)在已經(jīng)完成了迄今為止社交媒體中“可拉伸”單詞的最全面研究。他們開發(fā)了一種新的,更徹底的策略來識別推文中的拉伸單詞,并使用它來分析隨機選擇的數(shù)據(jù)集,該數(shù)據(jù)集約占2008年9月至2016年12月之間生成的所有推文的10%,總計約1000億條推文。
研究人員在推文中識別出數(shù)千個“可拉伸”單詞,包括“ ha”(例如“ haha??ha”或“ haaahaha”),“ awesome”(例如“ awessssommmmmeeeeeeee”)和“ goal”(例如ggggoooooaaaaallllll)。
他們還確定了衡量可伸展單詞特征的兩種關(guān)鍵方法:平衡和伸展。平衡是指不同字母傾向于重復的程度。例如,“ ha”具有很高的平衡度,因為在拉伸時,“ h”和“ a”傾向于幾乎相等地重復。“目標”的平衡性較差,“ o”比單詞中的其他字母重復的次數(shù)多。
拉伸是指一個單詞傾向于被拉伸多長時間。例如,簡短的單詞或聽起來像“哈”的聲音具有很高的延伸度,因為人們經(jīng)常重復多次(例如“哈哈哈哈哈哈哈哈”)。同時,“無窮大”之類的常規(guī)詞的拉伸程度較低,通常僅重復一個字母:“無窮大”。
為了進行此分析,研究人員開發(fā)了可用于將來的可拉伸單詞研究的各種工具和方法,例如對錯誤鍵入和拼寫錯誤的調(diào)查。該工具還可用于改善自然語言處理,搜索引擎和垃圾郵件過濾器
作者補充說:“我們能夠全面收集和計算'gooooooaaaalll'和'hahahaha'這樣的拉伸詞,并在整體拉伸性和拉伸平衡性的兩個維度上進行映射,同時開發(fā)新的工具,這也將有助于它們的持續(xù)發(fā)展。語言研究,以及其他領(lǐng)域,例如語言處理,擴充詞典,改進搜索引擎,分析序列的構(gòu)造等等。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。