弱智吧成為大模型重要語料來源（關(guān)于大模型語料的簡介）

2024-04-05 11:57:04 編輯：容波宜來源：

導(dǎo)讀近日一篇人工智能領(lǐng)域的論文將百度貼吧的弱智吧推上風(fēng)口浪尖，缺乏訓(xùn)練數(shù)據(jù)的AI大模型將目光投向了弱智吧，根據(jù)論文內(nèi)容，使用弱智吧帖子標(biāo)...

近日一篇人工智能領(lǐng)域的論文將百度貼吧的“弱智吧”推上風(fēng)口浪尖，缺乏訓(xùn)練數(shù)據(jù)的AI大模型將目光投向了弱智吧，根據(jù)論文內(nèi)容，使用弱智吧帖子標(biāo)題加上GPT-4回答微調(diào)之后的Yi-34B模型評估結(jié)果超過精心收集的SFT指令集數(shù)據(jù)，在安全性評估方面也位于第二名。

1.最近大型語言模型取得了突出的進(jìn)展，但是在中文指令調(diào)優(yōu)方面仍然存在著一定的短板，現(xiàn)有的數(shù)據(jù)集基本上都是以英語為中心，或者與現(xiàn)實(shí)世界的中國用戶交互模式存在差別。

2.為了改善LLM在中文語境下的能力，10家機(jī)構(gòu)聯(lián)合發(fā)布的研究提出了COIG-CQIA，這是一個(gè)中文指令調(diào)優(yōu)數(shù)據(jù)集，數(shù)據(jù)來源包括問答社區(qū)、維基百科以及現(xiàn)有的NLP數(shù)據(jù)集。

3.這一研究成果提出了一個(gè)高質(zhì)量的中文指令調(diào)優(yōu)數(shù)據(jù)集，專門用于和人類交互保持一致，并且通過嚴(yán)格的過濾程序?qū)崿F(xiàn)。

4.現(xiàn)在中文大模型的開發(fā)難點(diǎn)在于缺乏高質(zhì)量的中文數(shù)據(jù)集，研究團(tuán)隊(duì)認(rèn)為各種中文社交媒體以及論壇是大模型訓(xùn)練的最佳語料來源，為此開發(fā)者從許多社交平臺(tái)中收集人工編寫的文本集合，最終構(gòu)建出了數(shù)據(jù)集。

5.在對來自不同平臺(tái)的數(shù)據(jù)集進(jìn)行評估時(shí)，開發(fā)者發(fā)現(xiàn)在多個(gè)比分當(dāng)中，弱智吧提供的數(shù)據(jù)訓(xùn)練在分類表現(xiàn)中最好，對此進(jìn)行微調(diào)之后的Yi-34B評測中，弱智吧的數(shù)據(jù)訓(xùn)練表現(xiàn)幾乎在全領(lǐng)域中都拿到第一的成績。

6.對于弱智吧數(shù)據(jù)集這樣的結(jié)果，開發(fā)者也感到意外，人們認(rèn)為是弱智吧的數(shù)據(jù)特性有助于增強(qiáng)模型的邏輯推理能力，使其在大多數(shù)遵循指令的任務(wù)中表現(xiàn)更加出色。弱智吧有許多語料看起來更像是腦筋急轉(zhuǎn)彎，這能大大彌補(bǔ)大模型的邏輯能力。