首頁 > 資訊

?智源發(fā)布FlagEval“百?！痹u(píng)測(cè)新成果助力大模型生態(tài)發(fā)展

發(fā)布時(shí)間：2024-12-20 13:31:09 | 來源：中國(guó)網(wǎng) | 作者： | 責(zé)任編輯：孫玥

12月19日，智源研究院發(fā)布并解讀國(guó)內(nèi)外100余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項(xiàng)評(píng)測(cè)結(jié)果。

本次評(píng)測(cè)依托智源研究院自2023年6月上線的大模型評(píng)測(cè)平臺(tái)FlagEval，經(jīng)過數(shù)次迭代，目前已覆蓋全球800多個(gè)開閉源模型，包含20多種任務(wù)，90多個(gè)評(píng)測(cè)數(shù)據(jù)集，超200萬條評(píng)測(cè)題目。

在評(píng)測(cè)方法與工具上，智源研究院聯(lián)合全國(guó)10余家高校和機(jī)構(gòu)合作共建，探索基于AI的輔助評(píng)測(cè)模型 FlagJudge和靈活全面的多模態(tài)評(píng)測(cè)框架FlagEvalMM，并構(gòu)建面向大模型新能力的有挑戰(zhàn)的評(píng)測(cè)集，包括與北京大學(xué)共建的HalluDial幻覺評(píng)測(cè)集、與北師大共建的CMMU多模態(tài)評(píng)測(cè)集、多語言跨模態(tài)評(píng)測(cè)集MG18、復(fù)雜代碼評(píng)測(cè)集TACO以及長(zhǎng)視頻理解評(píng)測(cè)MLVU等，其中與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的對(duì)話場(chǎng)景下的幻覺評(píng)測(cè)集，有18000多個(gè)輪次對(duì)話，和14萬多個(gè)回答。

評(píng)測(cè)結(jié)果顯示，大模型發(fā)展正聚焦綜合能力提升與實(shí)際應(yīng)用，多模態(tài)模型迅速崛起，而語言模型發(fā)展則相對(duì)放緩。在開源生態(tài)中，新的開源貢獻(xiàn)者不斷涌現(xiàn)，為模型發(fā)展注入新活力。

此外，智源研究院還聯(lián)合海淀區(qū)教師進(jìn)修學(xué)校進(jìn)行了K12全學(xué)段、多學(xué)科試卷評(píng)測(cè)，發(fā)現(xiàn)模型整體表現(xiàn)有所提升，但仍與人類學(xué)生存在差距，尤其在理科方面表現(xiàn)偏弱。

值得一提的是，智源研究院推出的FlagEval大模型角斗場(chǎng)和模型辯論平臺(tái)FlagEval Debate，為用戶提供了模型對(duì)戰(zhàn)和辯論評(píng)測(cè)服務(wù)，進(jìn)一步揭示了模型間的差異和潛力。在金融量化交易評(píng)測(cè)中，大模型已展現(xiàn)出生成有回撤收益策略代碼的能力，頭部模型能力已接近初級(jí)量化交易員水平。

智源研究院副院長(zhǎng)兼總工程師林詠華表示，F(xiàn)lagEval評(píng)測(cè)體系將堅(jiān)守科學(xué)、權(quán)威、公正、開放的準(zhǔn)則，持續(xù)創(chuàng)新，為大模型技術(shù)生態(tài)發(fā)展提供有力洞察。未來，評(píng)測(cè)體系將進(jìn)一步探索動(dòng)態(tài)評(píng)測(cè)與多任務(wù)能力評(píng)估，以更準(zhǔn)確地感知大模型的發(fā)展趨勢(shì)。（張九陽）

查看網(wǎng)址

亚洲高清av一区免费,亚洲高清无码视频专区,人人透人人爽人人添,911爱看电影亚洲精品,强伦姧久久久久久久久久,亚洲国产成人无码网站,国产三级片大全网

?智源發(fā)布FlagEval“百?！痹u(píng)測(cè)新成果 助力大模型生態(tài)發(fā)展

?智源發(fā)布FlagEval“百?！痹u(píng)測(cè)新成果助力大模型生態(tài)發(fā)展