您的位置: 首頁 >商業(yè) >

UC伯克利LLM排行榜 GPT-4穩(wěn)居榜首 30億參數(shù)位列開源第一名

2023-06-24 18:37:26 編輯:?jiǎn)斡谘约? 來源:
導(dǎo)讀 近日,備受各界關(guān)注的伯克利LLM排行榜再次更新了,Chat gpt-4在這份榜單中仍舊是排列在榜首的位置,Gpt-3.5僅僅排列在他的后面。由該團(tuán)隊(duì)...

近日,備受各界關(guān)注的伯克利LLM排行榜再次更新了,Chat gpt-4在這份榜單中仍舊是排列在榜首的位置,Gpt-3.5僅僅排列在他的后面。由該團(tuán)隊(duì)發(fā)布的最新參數(shù)大模型Vicuna則沖到了第五名的位置,以330億參數(shù)成為了眾多開源模型中最好的成績(jī),領(lǐng)先微軟華人團(tuán)隊(duì)開發(fā)的300億參數(shù)模型。這一次排行榜不僅加入了更多的新模型,而且還加入了兩個(gè)全新的評(píng)價(jià)標(biāo)準(zhǔn)。

從各項(xiàng)數(shù)據(jù)中來看,GPT-3.5、Claude-v1和Claude-instant-v1這幾個(gè)模型的排行簡(jiǎn)直是很難分出高低,而且在得分上咬的十分緊,甚至在某些得分領(lǐng)域,都有著互相反超的趨勢(shì),和這些專有模型相比。一些開源模型則是有著比較明顯的差距,比如谷歌的開源模型就落后眾多開源模型,在評(píng)估人類偏好的時(shí)候,傳統(tǒng)的基準(zhǔn)測(cè)試通常是在封閉式的問題中完成測(cè)試,并且會(huì)提供一些簡(jiǎn)潔的輸出作為評(píng)價(jià)依據(jù)。

這家來自UC伯克利的團(tuán)隊(duì)在這一次的排行中增加了一項(xiàng)新的基準(zhǔn)測(cè)試,競(jìng)技場(chǎng)的具體評(píng)價(jià)機(jī)制是基于收到的42000個(gè)匿名投票,并且采用elo評(píng)價(jià)機(jī)制完成評(píng)分,這一方法已經(jīng)經(jīng)過了驗(yàn)證,是一個(gè)精心測(cè)試的基準(zhǔn)測(cè)試功能。其中是包含了80個(gè)高質(zhì)量的多輪問題,通過這些問題,能夠評(píng)估模型在多輪對(duì)話中的遵循能力與對(duì)話流程能力,其中是包含了一些常見的日常使用場(chǎng)景,還添加了更多富有挑戰(zhàn)性的指令。

團(tuán)隊(duì)在最新的論文中還公布了一項(xiàng)系統(tǒng)研究,該研究的結(jié)果顯示,gpt-4這樣強(qiáng)大的評(píng)判者,在一致性上是超過了80%。這種一致性的水平已經(jīng)能夠和兩個(gè)人類評(píng)判者中的一致性相媲美,基于chat gpt的評(píng)分能夠更好的去對(duì)其他的模型做出排名,而且可以和人類偏好做出更好的匹配。如果使用得當(dāng)?shù)脑?,這種評(píng)論模型能夠作為人類偏好發(fā)展的拓展解釋。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號(hào):

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)