久久久99品牌的特色产品 ,五月激情,荡公乱妇第51章小说

OpenAI新模型o1號(hào)稱編程能力8倍殺GPT-4o，MMLU媲美人類專家，MMLU是什么？評(píng)估大模型的標(biāo)準(zhǔn)是什么？

相信大家在閱讀大模型相關(guān)文檔的時(shí)候經(jīng)常會(huì)看到MMLU，BBH，GSM8K，MATH，HumanEval，MBPP，C-Eval，CMMLU等等這些都是什么？大模型訓(xùn)練完成后，如何客觀地評(píng)估其效果呢？

當(dāng)然我們不能依靠主觀判斷，于是研究者們制定了一系列標(biāo)準(zhǔn)，用于測(cè)評(píng)大模型在不同數(shù)據(jù)集上的表現(xiàn)。而這些數(shù)據(jù)集（ MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU），正是用于評(píng)估大模型性能的重要依據(jù)。

當(dāng)然，它們也也可用于模型訓(xùn)練。

MMLU這個(gè)基準(zhǔn)包含STEM（科學(xué)、技術(shù)、工程、數(shù)學(xué)）、人文學(xué)科、社會(huì)學(xué)科等57個(gè)學(xué)科領(lǐng)域，難度從初級(jí)到高級(jí)不等。

C-Eval 是一個(gè)全面的中文基礎(chǔ)模型評(píng)估套件，它包含了13948個(gè)多項(xiàng)選擇題，涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。

GSM8K（Grade School Math）是一個(gè)由OpenAI發(fā)布的數(shù)據(jù)集，有8.5K個(gè)高質(zhì)量語(yǔ)言多樣的小學(xué)數(shù)學(xué)問(wèn)題組成。這些問(wèn)題需要 2 到 8 個(gè)步驟來(lái)解決，解決方法主要是使用基本的算術(shù)運(yùn)算（+ - / *）進(jìn)行一連串的基本計(jì)算，以得出最終答案。

雖然看起來(lái)很簡(jiǎn)單，但很多大模型的表現(xiàn)都不太好。

MATH是一個(gè)包含 12500 個(gè)數(shù)學(xué)競(jìng)賽問(wèn)題的數(shù)據(jù)集，其中的每個(gè)問(wèn)題都有一個(gè)完整的推導(dǎo)過(guò)程。

HumanEval是由 164 個(gè)簡(jiǎn)單編程問(wèn)題組成，主要用來(lái)評(píng)估語(yǔ)言理解、算法和簡(jiǎn)單的數(shù)學(xué)。

MBPP（Mostly Basic Python Programming）由大約 1000 個(gè)Python 編程問(wèn)題組成，每個(gè)問(wèn)題由任務(wù)描述、代碼解決方案和 3 個(gè)自動(dòng)化測(cè)試用例組成。

BBH的全稱是BIG-Bench Hard，它是BIG-Bench數(shù)據(jù)集的一個(gè)子集，它專注于23個(gè)具有挑戰(zhàn)性的任務(wù)，這些任務(wù)超出了當(dāng)前語(yǔ)言模型的能力范圍，BBH中的任務(wù)需要進(jìn)行多步驟推理。

CMMLU，一個(gè)全面的中文大模型評(píng)估數(shù)據(jù)集。它涵蓋了67個(gè)主題，涉及自然科學(xué)、社會(huì)科學(xué)、工程、人文、以及常識(shí)等，就是中文版的MMLU。

通過(guò)這些評(píng)測(cè)數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)，我們可以從不同角度系統(tǒng)地評(píng)估大模型的性能、泛化能力和魯棒性，為大模型的進(jìn)一步研究和應(yīng)用提供科學(xué)依據(jù)。

AI體系化學(xué)習(xí)路線

學(xué)習(xí)資料免費(fèi)領(lǐng)

? AI全體系學(xué)習(xí)路線超詳版

? AI體驗(yàn)卡(AI實(shí)驗(yàn)平臺(tái)體驗(yàn)權(quán)限)

? 100余講AI視頻課程

? 項(xiàng)目源碼《從零開(kāi)始訓(xùn)練與部署YOLOV8》

? 170余篇AI經(jīng)典論文

全體系課程詳情介紹

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
34910

瀏覽量
277907
人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
48957

瀏覽量
248460
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3108

瀏覽量
4003

女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

搜索歷史

【每天學(xué)點(diǎn)AI】人工智能大模型評(píng)估標(biāo)準(zhǔn)有哪些？

評(píng)論