?智源發(fā)布FlagEval“百?!痹u(píng)測(cè)新成果 助力大模型生態(tài)發(fā)展
發(fā)布時(shí)間:2024-12-20 13:31:09 | 來源:中國(guó)網(wǎng) | 作者: | 責(zé)任編輯:孫玥12月19日,智源研究院發(fā)布并解讀國(guó)內(nèi)外100余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項(xiàng)評(píng)測(cè)結(jié)果。
本次評(píng)測(cè)依托智源研究院自2023年6月上線的大模型評(píng)測(cè)平臺(tái)FlagEval,經(jīng)過數(shù)次迭代,目前已覆蓋全球800多個(gè)開閉源模型,包含20多種任務(wù),90多個(gè)評(píng)測(cè)數(shù)據(jù)集,超200萬條評(píng)測(cè)題目。
在評(píng)測(cè)方法與工具上,智源研究院聯(lián)合全國(guó)10余家高校和機(jī)構(gòu)合作共建,探索基于AI的輔助評(píng)測(cè)模型 FlagJudge和靈活全面的多模態(tài)評(píng)測(cè)框架FlagEvalMM,并構(gòu)建面向大模型新能力的有挑戰(zhàn)的評(píng)測(cè)集,包括與北京大學(xué)共建的HalluDial幻覺評(píng)測(cè)集、與北師大共建的CMMU多模態(tài)評(píng)測(cè)集、多語言跨模態(tài)評(píng)測(cè)集MG18、復(fù)雜代碼評(píng)測(cè)集TACO以及長(zhǎng)視頻理解評(píng)測(cè)MLVU等,其中與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的對(duì)話場(chǎng)景下的幻覺評(píng)測(cè)集,有18000多個(gè)輪次對(duì)話,和14萬多個(gè)回答。
評(píng)測(cè)結(jié)果顯示,大模型發(fā)展正聚焦綜合能力提升與實(shí)際應(yīng)用,多模態(tài)模型迅速崛起,而語言模型發(fā)展則相對(duì)放緩。在開源生態(tài)中,新的開源貢獻(xiàn)者不斷涌現(xiàn),為模型發(fā)展注入新活力。
此外,智源研究院還聯(lián)合海淀區(qū)教師進(jìn)修學(xué)校進(jìn)行了K12全學(xué)段、多學(xué)科試卷評(píng)測(cè),發(fā)現(xiàn)模型整體表現(xiàn)有所提升,但仍與人類學(xué)生存在差距,尤其在理科方面表現(xiàn)偏弱。
值得一提的是,智源研究院推出的FlagEval大模型角斗場(chǎng)和模型辯論平臺(tái)FlagEval Debate,為用戶提供了模型對(duì)戰(zhàn)和辯論評(píng)測(cè)服務(wù),進(jìn)一步揭示了模型間的差異和潛力。在金融量化交易評(píng)測(cè)中,大模型已展現(xiàn)出生成有回撤收益策略代碼的能力,頭部模型能力已接近初級(jí)量化交易員水平。
智源研究院副院長(zhǎng)兼總工程師林詠華表示,F(xiàn)lagEval評(píng)測(cè)體系將堅(jiān)守科學(xué)、權(quán)威、公正、開放的準(zhǔn)則,持續(xù)創(chuàng)新,為大模型技術(shù)生態(tài)發(fā)展提供有力洞察。未來,評(píng)測(cè)體系將進(jìn)一步探索動(dòng)態(tài)評(píng)測(cè)與多任務(wù)能力評(píng)估,以更準(zhǔn)確地感知大模型的發(fā)展趨勢(shì)。(張九陽)