2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
在美國當地時間的周三,艾倫人工智能研究院在《華盛頓郵報》發(fā)表了一篇調查結果,在調查結果中表明研究院的工作人員拆除了谷歌的C4數據集,這也是很多非常有名的英語AI大模型的訓練材料,調查人員在拆除完成之后使用了SimilarWeb的網站針對數據進行分類,由于C4的數據集中,有1/3的網站目前已經不存在了,因此經過實際統(tǒng)計之后,發(fā)現大約有1萬個網站,艾倫人工智能研究院的工作人員表示,在這些統(tǒng)計過的數據集里面發(fā)現了一部分內容有些臟。
根據調查研究,發(fā)現包括了全球專利信息的谷歌專利網,以及維基百科和訂閱至數字圖書館的資料權重位列整體的前,三但隨著列表不斷的往下翻之后就發(fā)現了很多,讓你意想不到的的名字也出現在數據集里面,已經被美國司法部門查封的盜版電子書網站,在數據集里面竟然排在了第190位,像這種因為侵犯版權而被美國查封的網站,在數據集中至少出現了27次。
除此之外,魔獸世界的玩家論壇在數據集里面排在了第181位,創(chuàng)立了《赫芬頓郵報》創(chuàng)始人阿里安娜赫芬頓的行為轉變成課程網站,也排在了第175位,病人最意想不到的是有兩個美國投票人數數據庫網站竟然排在了前100位,雖然投票的數據本身就是需要公開的,但大模型竟然將這些個人數據用在這里,究竟怎樣?又有誰能說得清楚呢?
接下來調查的數據中還顯示了,AI大模型還潛在著侵權的問題,這一問題甚至比你們想象中的要更加嚴重很多,商業(yè)和行業(yè)網站作為數據集里面比重最大的一部分,創(chuàng)意產品眾籌網站在榜單中也排在了極高的位置,這也就引發(fā)了一個新的問題出現AI向用戶提供了很多創(chuàng)意和市場營銷方案,很有可能本身所使用的就是現成的作品。
令人無比擔憂的是,在訓練集中還能夠找到醫(yī)學先生種族主義和右翼陰謀論的網頁,甚至在數據集里面還出現了很多組織網絡暴力的匿名聊天網站,有些臟的數據相比大模型處理數據的態(tài)度顯得更加的撲朔迷離。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)