OpenAI Vs Google
目前大模型 top2 應(yīng)該就是 OpenAI 的 GPT-4,以及谷歌的PALM-2。這兩家公司早已布局,而且技術(shù)實(shí)力雄厚。國(guó)內(nèi)大模型和 GPT-4 相比,還是有比較大的差距。
但是國(guó)內(nèi)的勢(shì)頭目前不錯(cuò),百家齊鳴,還沒(méi)有一家有絕對(duì)的優(yōu)勢(shì)。
讓人頭暈的排名
之前有媒體給出了目前國(guó)內(nèi)Top-5的大模型公司,分別是:百度的文心一言、阿里的通義千問(wèn)、騰訊的混元、華為的盤(pán)古以及360的智腦。
而最近,中文通用大模型基準(zhǔn)(SuperCLUE)評(píng)測(cè)公布了最新結(jié)果,GPT-4 遙遙領(lǐng)先,而國(guó)內(nèi)成績(jī)最好的是科大訊飛的星火認(rèn)知大模型。這里面文心一言居然排在了最后一名,甚至比ChatGLM-6B的得分還低,實(shí)在難以置信。
但是我又仔細(xì)看了一下這個(gè)評(píng)測(cè)。媽呀,評(píng)測(cè)集是SuperCLUE,而非SuperGLUE。
眾所周知,在國(guó)際NLP領(lǐng)域,有大名鼎鼎的數(shù)據(jù)集 GLUE 和 SuperGLUE,非常權(quán)威,OpenAI、谷歌等的大模型都在上面評(píng)測(cè),極大推動(dòng)了 NLP 領(lǐng)域的發(fā)展。
這次這份 SuperCLUE 評(píng)測(cè)的發(fā)起方為 Chinese GLUE 組織 (簡(jiǎn)稱 CLUE),CLUE 是仿照 GLUE由國(guó)內(nèi)民間組織的評(píng)測(cè),權(quán)威度和影響力與 GLUE 相比差很遠(yuǎn),其微信賬號(hào)主體屬性為個(gè)人。但這也迷惑了不少圈內(nèi)人,GLUE和 CLUE 分不清楚,堪稱李逵和李鬼。
還有一點(diǎn)存疑,評(píng)測(cè)榜單發(fā)布當(dāng)天5月9日,其官網(wǎng)顯示信息,中文基準(zhǔn)測(cè)評(píng)成員顧問(wèn)中排名第一的是崔一鳴,身份為學(xué)術(shù)顧問(wèn)委員會(huì)主任,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)資深級(jí)研究員。而5月10日,官網(wǎng)已刪除此條顧問(wèn)的信息。
而001號(hào)創(chuàng)始會(huì)員徐亮,是會(huì)長(zhǎng),相當(dāng)于這個(gè)榜單的實(shí)際負(fù)責(zé)人。昵稱 brightmart,中文任務(wù)基準(zhǔn)測(cè)評(píng)發(fā)起人。多個(gè)預(yù)訓(xùn)練模型中文版、文本分類和數(shù)據(jù)集開(kāi)源項(xiàng)目作者。
徐亮還有另一個(gè)身份,在5月9日官網(wǎng)中顯示,他是杭州實(shí)在智能算法專家,也就是元語(yǔ)智能的創(chuàng)始人,曾在2月份發(fā)布自稱“國(guó)內(nèi)首個(gè)功能對(duì)話大模型ChatYuan”,不僅無(wú)法測(cè)試,發(fā)布幾天即被監(jiān)管叫停。4月,又被報(bào)道套殼推出開(kāi)源組件。有分析人士認(rèn)為,不排除創(chuàng)業(yè)公司有融資壓力,蹭熱度吸引投資人關(guān)注。
該 SpuerClue 榜單發(fā)起方,001號(hào)顧問(wèn)是訊飛身份背景、001號(hào)基準(zhǔn)發(fā)起人是創(chuàng)業(yè)公司創(chuàng)始人。在榜單發(fā)布后,擔(dān)心行業(yè)質(zhì)疑其公平、公正,相關(guān)信息還被刪除。這就有點(diǎn)不言而喻了。
僅用100道評(píng)測(cè)題目就出來(lái)了一份“權(quán)威報(bào)告”
最后來(lái)說(shuō)下這個(gè)榜單本身,業(yè)內(nèi)人士一眼就可以看出來(lái),評(píng)測(cè)的很不合理,首先,沒(méi)有公布評(píng)估數(shù)據(jù),以及具體的評(píng)估方式。同時(shí)從它的公開(kāi)表述,可推斷總共題目就 100 道題目。這個(gè)題目量少到難以置信。專業(yè)人士可能有參與過(guò),像國(guó)際權(quán)威 SuperGlue 榜單,題目一般都得有 2 萬(wàn)多道,離權(quán)威可是差了幾萬(wàn)倍。況且,它的評(píng)測(cè)得分榜首都是人類,那這個(gè)評(píng)分的基準(zhǔn)到底是什么?是否有很多主觀性因素在里面?是否某些大模型提前在這個(gè)數(shù)據(jù)集上已經(jīng)訓(xùn)練過(guò)?
任務(wù)設(shè)計(jì)太武斷,所謂“通用”基準(zhǔn),是用以測(cè)試通用的人工認(rèn)知能力的,那么我們自然希望,評(píng)測(cè)任務(wù)是參考了模型想要模擬的認(rèn)知能力及相關(guān)理論,系統(tǒng)化地選擇出來(lái)的。而實(shí)際上,我們觀察到的則是,基準(zhǔn)的作者們?cè)谶x擇任務(wù)的時(shí)候,更像是圖方便、省事。以往,CLUE 中存在著部分?jǐn)?shù)據(jù)集,一味考慮任務(wù)的復(fù)雜性,卻在最起碼的分布邊界劃分上(如NER各個(gè)類別的邊界,如場(chǎng)所、景點(diǎn)類,組織機(jī)構(gòu)及其子類),模糊不清,且數(shù)據(jù)的一致性無(wú)法保證。
要么別比,要比就來(lái)點(diǎn)正規(guī)的比賽。自己出題自己考,說(shuō)不準(zhǔn)還搶跑,自己還是評(píng)委,那這是欺不負(fù)了解真相的吃瓜群眾。投機(jī)取巧,終皆散去。苦練內(nèi)功,才是王道。
國(guó)內(nèi)大模型排名(僅供參考)
拋開(kāi)這些,從模型規(guī)模、模型效果、市場(chǎng)占有率等多個(gè)角度,百度的文心一言、華為的盤(pán)古、阿里的通義千問(wèn)、騰訊的混元排在前四,應(yīng)該是比較合理的,至于后面的排名,就不大能保證了。不過(guò)下面的排名也可以參考一下:
下面是一份完整的名單:
按發(fā)布時(shí)間排序:
百度:文心一言
作為國(guó)內(nèi)最早發(fā)布的大模型,百度的文心一言在今年3月16號(hào)就發(fā)布了,隨后經(jīng)過(guò)了多個(gè)版本的迭代。目前已經(jīng)有上千家企業(yè)接入。文心一言支持圖片、語(yǔ)音等多模態(tài)。
3月16日,百度在全球大廠中率先發(fā)布對(duì)標(biāo) ChatGPT 的大模型產(chǎn)品文心一言。據(jù)了解,文心一言內(nèi)測(cè)一個(gè)多月,就完成了4次大的技術(shù)升級(jí),大模型推理性能提升近10倍。
李彥宏在5月4日百度內(nèi)部活動(dòng)中表示,百度之所以能夠在Google、Meta、Amazon等大廠之前率先發(fā)布生成式大模型產(chǎn)品,是因?yàn)榘俣仍谛酒⒖蚣堋⒛P汀?yīng)用等四個(gè)層面做到全棧布局、層層領(lǐng)先。
360:360智腦
百度是國(guó)內(nèi)搜索市場(chǎng)排名第一公司,而排名第二就是360。
大模型依靠的算力、數(shù)據(jù)、算法、場(chǎng)景,這兩家公司都具備,這也是搜索公司的優(yōu)勢(shì),有業(yè)務(wù)和數(shù)據(jù)支撐大模型研發(fā)和落地。
5月16日,360集團(tuán)和智譜AI宣布達(dá)成戰(zhàn)略合作,雙方共同研發(fā)的千億級(jí)大模型“360GLM”已具備新一代認(rèn)知智能通用模型水準(zhǔn)。
而在今天的世界智能大會(huì)上,周鴻祎展示了“360智腦”的多輪對(duì)話和“360鴻圖”的AI生圖兩個(gè)能力。
就像谷歌和微軟,一個(gè)擁有谷歌搜索,一個(gè)擁有必應(yīng)。國(guó)內(nèi)的百度和360,一個(gè)擁有百度搜索,一個(gè)擁有360搜索。
搜索公司應(yīng)該是這場(chǎng)大模型爭(zhēng)霸賽最后的贏家。(只是個(gè)人看法)
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3507瀏覽量
50252 -
GPT
+關(guān)注
關(guān)注
0文章
368瀏覽量
16025 -
OpenAI
+關(guān)注
關(guān)注
9文章
1205瀏覽量
8785
原文標(biāo)題:國(guó)內(nèi)大模型爭(zhēng)霸賽,你最看好哪家?這是你心目中的大模型排名嗎?
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
可編程SLIC語(yǔ)音芯片哪家好?

商湯日日新SenseNova融合模態(tài)大模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型
手表芯片多強(qiáng)爭(zhēng)霸賽開(kāi)啟!小米玄戒T1入局,格局生變?

當(dāng)我問(wèn)DeepSeek國(guó)內(nèi)壓力傳感器哪家強(qiáng),它這樣回答

時(shí)鐘系統(tǒng)推薦,時(shí)鐘系統(tǒng)哪家好?賽思時(shí)鐘系統(tǒng)助力中國(guó)氣象科學(xué)研究院構(gòu)建智慧氣象網(wǎng)絡(luò)

德賽西威端側(cè)大模型重塑智能座艙體驗(yàn)
德賽西威與面壁智能發(fā)布端側(cè)大模型語(yǔ)音交互方案
當(dāng) RDK X3 遇上倉(cāng)儲(chǔ)機(jī)器人,智鏈團(tuán)隊(duì)讓效率原地起飛

2024“畫(huà)質(zhì)爭(zhēng)霸賽”落下帷幕,海信電視U8N Pro“最強(qiáng)機(jī)皇”實(shí)至名歸

第一屆“澎峰云?大模型AI校園應(yīng)用創(chuàng)新賽完美結(jié)束
GAP!你對(duì)AI大模型到底了解多少?
【附實(shí)操視頻】聆思CSK6大模型開(kāi)發(fā)板接入國(guó)內(nèi)主流大模型(星火大模型、文心一言、豆包、kimi、智譜glm、通義千問(wèn))
思爾芯賽題正式發(fā)布,邀你共戰(zhàn)EDA精英挑戰(zhàn)賽!

評(píng)論