UC伯克利LLM排行榜 GPT-4穩(wěn)居榜首 30億參數(shù)位列開源第一名

2023-06-24 18:37:26 編輯：單于言佳來源：

導(dǎo)讀近日，備受各界關(guān)注的伯克利LLM排行榜再次更新了，Chat gpt-4在這份榜單中仍舊是排列在榜首的位置，Gpt-3.5僅僅排列在他的后面。由該團隊...

近日，備受各界關(guān)注的伯克利LLM排行榜再次更新了，Chat gpt-4在這份榜單中仍舊是排列在榜首的位置，Gpt-3.5僅僅排列在他的后面。由該團隊發(fā)布的最新參數(shù)大模型Vicuna則沖到了第五名的位置，以330億參數(shù)成為了眾多開源模型中最好的成績，領(lǐng)先微軟華人團隊開發(fā)的300億參數(shù)模型。這一次排行榜不僅加入了更多的新模型，而且還加入了兩個全新的評價標(biāo)準(zhǔn)。

從各項數(shù)據(jù)中來看，GPT-3.5、Claude-v1和Claude-instant-v1這幾個模型的排行簡直是很難分出高低，而且在得分上咬的十分緊，甚至在某些得分領(lǐng)域，都有著互相反超的趨勢，和這些專有模型相比。一些開源模型則是有著比較明顯的差距，比如谷歌的開源模型就落后眾多開源模型，在評估人類偏好的時候，傳統(tǒng)的基準(zhǔn)測試通常是在封閉式的問題中完成測試，并且會提供一些簡潔的輸出作為評價依據(jù)。

這家來自UC伯克利的團隊在這一次的排行中增加了一項新的基準(zhǔn)測試，競技場的具體評價機制是基于收到的42000個匿名投票，并且采用elo評價機制完成評分，這一方法已經(jīng)經(jīng)過了驗證，是一個精心測試的基準(zhǔn)測試功能。其中是包含了80個高質(zhì)量的多輪問題，通過這些問題，能夠評估模型在多輪對話中的遵循能力與對話流程能力，其中是包含了一些常見的日常使用場景，還添加了更多富有挑戰(zhàn)性的指令。

團隊在最新的論文中還公布了一項系統(tǒng)研究，該研究的結(jié)果顯示，gpt-4這樣強大的評判者，在一致性上是超過了80%。這種一致性的水平已經(jīng)能夠和兩個人類評判者中的一致性相媲美，基于chat gpt的評分能夠更好的去對其他的模型做出排名，而且可以和人類偏好做出更好的匹配。如果使用得當(dāng)?shù)脑?，這種評論模型能夠作為人類偏好發(fā)展的拓展解釋。