美媒揭秘大模型訓(xùn)練數(shù)據(jù)集部分內(nèi)容可能有些臟

2023-04-21 13:29:46 編輯：夏侯燕朗來(lái)源：

導(dǎo)讀在美國(guó)當(dāng)?shù)貢r(shí)間的周三，艾倫人工智能研究院在《華盛頓郵報(bào)》發(fā)表了一篇調(diào)查結(jié)果，在調(diào)查結(jié)果中表明研究院的工作人員拆除了谷歌的C4數(shù)據(jù)集，...

在美國(guó)當(dāng)?shù)貢r(shí)間的周三，艾倫人工智能研究院在《華盛頓郵報(bào)》發(fā)表了一篇調(diào)查結(jié)果，在調(diào)查結(jié)果中表明研究院的工作人員拆除了谷歌的C4數(shù)據(jù)集，這也是很多非常有名的英語(yǔ)AI大模型的訓(xùn)練材料，調(diào)查人員在拆除完成之后使用了SimilarWeb的網(wǎng)站針對(duì)數(shù)據(jù)進(jìn)行分類(lèi)，由于C4的數(shù)據(jù)集中，有1/3的網(wǎng)站目前已經(jīng)不存在了，因此經(jīng)過(guò)實(shí)際統(tǒng)計(jì)之后，發(fā)現(xiàn)大約有1萬(wàn)個(gè)網(wǎng)站，艾倫人工智能研究院的工作人員表示，在這些統(tǒng)計(jì)過(guò)的數(shù)據(jù)集里面發(fā)現(xiàn)了一部分內(nèi)容有些臟。

根據(jù)調(diào)查研究，發(fā)現(xiàn)包括了全球?qū)＠畔⒌墓雀鑼?zhuān)利網(wǎng)，以及維基百科和訂閱至數(shù)字圖書(shū)館的資料權(quán)重位列整體的前，三但隨著列表不斷的往下翻之后就發(fā)現(xiàn)了很多，讓你意想不到的的名字也出現(xiàn)在數(shù)據(jù)集里面，已經(jīng)被美國(guó)司法部門(mén)查封的盜版電子書(shū)網(wǎng)站，在數(shù)據(jù)集里面竟然排在了第190位，像這種因?yàn)榍址赴鏅?quán)而被美國(guó)查封的網(wǎng)站，在數(shù)據(jù)集中至少出現(xiàn)了27次。

除此之外，魔獸世界的玩家論壇在數(shù)據(jù)集里面排在了第181位，創(chuàng)立了《赫芬頓郵報(bào)》創(chuàng)始人阿里安娜赫芬頓的行為轉(zhuǎn)變成課程網(wǎng)站，也排在了第175位，病人最意想不到的是有兩個(gè)美國(guó)投票人數(shù)數(shù)據(jù)庫(kù)網(wǎng)站竟然排在了前100位，雖然投票的數(shù)據(jù)本身就是需要公開(kāi)的，但大模型竟然將這些個(gè)人數(shù)據(jù)用在這里，究竟怎樣？又有誰(shuí)能說(shuō)得清楚呢？

接下來(lái)調(diào)查的數(shù)據(jù)中還顯示了，AI大模型還潛在著侵權(quán)的問(wèn)題，這一問(wèn)題甚至比你們想象中的要更加嚴(yán)重很多，商業(yè)和行業(yè)網(wǎng)站作為數(shù)據(jù)集里面比重最大的一部分，創(chuàng)意產(chǎn)品眾籌網(wǎng)站在榜單中也排在了極高的位置，這也就引發(fā)了一個(gè)新的問(wèn)題出現(xiàn)AI向用戶(hù)提供了很多創(chuàng)意和市場(chǎng)營(yíng)銷(xiāo)方案，很有可能本身所使用的就是現(xiàn)成的作品。

令人無(wú)比擔(dān)憂(yōu)的是，在訓(xùn)練集中還能夠找到醫(yī)學(xué)先生種族主義和右翼陰謀論的網(wǎng)頁(yè)，甚至在數(shù)據(jù)集里面還出現(xiàn)了很多組織網(wǎng)絡(luò)暴力的匿名聊天網(wǎng)站，有些臟的數(shù)據(jù)相比大模型處理數(shù)據(jù)的態(tài)度顯得更加的撲朔迷離。

標(biāo)簽：大模型訓(xùn)練數(shù)據(jù)集，數(shù)據(jù)集內(nèi)容

免責(zé)聲明：本文由用戶(hù)上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！