女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》

華為DevCloud ? 來源:未知 ? 2023-05-11 20:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【摘要】 大模型(LLM)已經(jīng)成為了大多數(shù)語言相關(guān)的技術(shù)的基石,然而大模型的能力、限制、風(fēng)險(xiǎn)還沒有被大家完整地認(rèn)識。該文為大模型評估方向的綜述論文,由Percy Liang團(tuán)隊(duì)打造,將2022年四月份前的大模型進(jìn)行了統(tǒng)一的評估。其中,被評估的模型包括GPT-3,InstructGPT等。在經(jīng)過大量的實(shí)驗(yàn)之后,論文提出了一些可供參考的經(jīng)驗(yàn)總結(jié)。

1. 在所有被評估的模型中,InstructGPT davinci v2(175B)在準(zhǔn)確率,魯棒性,公平性三方面上表現(xiàn)最好。論文主要聚焦的是國外大公司的語言大模型,而國內(nèi)的知名大模型,如華為的Pangu系列以及百度的文心系列,論文并沒有給出相關(guān)的測評數(shù)據(jù)。下圖展示了各模型間在各種NLP任務(wù)中頭對頭勝率(Head-to-head win rate)的情況。可以看到,出自O(shè)penAI的InstructGPT davinci v2在絕大多數(shù)任務(wù)中都可以擊敗其他模型。最近的大火的ChatGPT誕生于這篇論文之后,因此這篇論文沒有對ChatGPT的測評,但ChatGPT是InstructGPT的升級版,相信ChatGPT可以取得同樣優(yōu)異的成績。在下圖中,準(zhǔn)確率的綜合第二名由微軟的TNLG獲得,第三名由初創(chuàng)公司Anthropic獲得。同時(shí)我們也可以看到,要想在準(zhǔn)確率額上獲得55%及以上的勝率,需要至少50B的大小,可見大模型是趨勢所向。8317f780-e42d-11ed-ab56-dac502259ad0.png

2. 由于硬件、架構(gòu)、部署模式的區(qū)別,不同模型的準(zhǔn)確率和效率之間沒有強(qiáng)相關(guān)性。而準(zhǔn)確率與魯棒性(Robustness)、公平性(Fairness)之間有一定的正相關(guān)關(guān)系(如下圖所示)。

8335fb7c-e42d-11ed-ab56-dac502259ad0.png

如今,大模型的參數(shù)規(guī)模都非常巨大。GPT-3具有1750億個(gè)參數(shù),部署這樣一個(gè)大模型,無論在成本上還是工程上都是極大的挑戰(zhàn)。同時(shí),由于需要開放API給用戶使用,OpenAI還需要考慮GPT-3的推理速度。文章的測試結(jié)果顯示,GPT-3的推理速度并沒有顯著地比參數(shù)更少地模型慢,可能是在硬件、架構(gòu)和部署模式上都有一定地優(yōu)勢,足以彌補(bǔ)參數(shù)規(guī)模上的劣勢。

3. InstructGPT davinci v2(175B)在知識密集型的任務(wù)上取得了遠(yuǎn)超其他模型的成績,在TruthfulQA數(shù)據(jù)集上獲得了62.0%的準(zhǔn)確率,遠(yuǎn)超第二名Anthropic-LM v4-s3 (52B) 36.2%的成績。(TruthfulQA是衡量語言模型在生成問題答案時(shí)是否真實(shí)的測評數(shù)據(jù)集。該數(shù)據(jù)集包括817個(gè)問題,涵蓋38個(gè)類別,包括健康,法律,金融和政治。作者精心設(shè)計(jì)了一些人會因?yàn)殄e(cuò)誤的先驗(yàn)知識或誤解而錯(cuò)誤回答的問題。)與此同時(shí),TNLG v2(530B)在部分知識密集型任務(wù)上也有優(yōu)異的表現(xiàn)。作者認(rèn)為模型的規(guī)模對學(xué)習(xí)真實(shí)的知識起到很大的貢獻(xiàn),這一點(diǎn)可以從兩個(gè)大模型的優(yōu)異表現(xiàn)中推測得到。

4. 在推理(Reasoning)任務(wù)上,Codex davinci v2在代碼生成和文本推理任務(wù)上表現(xiàn)都很優(yōu)異,甚至遠(yuǎn)超一些以文本為訓(xùn)練語料的模型。這一點(diǎn)在數(shù)學(xué)推理的數(shù)據(jù)上表現(xiàn)最明顯。在GSM8K數(shù)據(jù)集上,Codex davinci v2獲得了52.1%的正確率,第二名為InstructGPT davinci v2(175B)的35.0%,且沒有其他模型正確率超過16%。Codex davinci v2主要是用于解決代碼相關(guān)的問題,例如代碼生成、代碼總結(jié)、注釋生成、代碼修復(fù)等,它在文本推理任務(wù)上的優(yōu)秀表現(xiàn)可能是其在代碼數(shù)據(jù)上訓(xùn)練的結(jié)果,因?yàn)榇a是更具有邏輯關(guān)系的語言,在這樣的數(shù)據(jù)集上訓(xùn)練也許可以提升模型的推理能力。

5. 所有的大模型都對輸入(Prompt)的形式非常敏感。論文主要采用few-shot這種In-context learning的形式增強(qiáng)輸入(Prompt)。

835fb868-e42d-11ed-ab56-dac502259ad0.png

如上圖所示,在不同任務(wù)上,in-context examples的數(shù)量影響不同,在不同的模型上也是如此。由于有些任務(wù)比較簡單,例如二分類的IMDB數(shù)據(jù)庫,增加in-context examples并不會對結(jié)果有明顯的影響。在模型方面,由于window size的限制,過多的in-context examples可能導(dǎo)致剩余的window size不足以生成一個(gè)完成答案,因而對生成結(jié)果造成負(fù)面的影響。

點(diǎn)擊“閱讀原文”,了解更多!


原文標(biāo)題:技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信公眾號:華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    35186

    瀏覽量

    255661

原文標(biāo)題:技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信號:華為DevCloud,微信公眾號:華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    請問AD7768-4、ADAU1979的配套Evaluation Software能否進(jìn)行原始音頻數(shù)據(jù)?

    請問AD7768-4、ADAU1979的配套Evaluation Software能否進(jìn)行原始音頻數(shù)據(jù)? 另外請問有沒有MCU+AD架構(gòu)的高精度、多通道的聲卡的解決方案?
    發(fā)表于 04-15 07:53

    Keil LPC1769 Evaluation Board支持SPI和I2C通信嗎?

    OM11084 : Keil LPC1769 Evaluation Board 支持 SPI 和 I2C 通信嗎?
    發(fā)表于 04-07 06:33

    京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成

    作者:京東零售 馮偉 WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models
    的頭像 發(fā)表于 03-18 14:00 ?309次閱讀
    京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成

    美報(bào)告:中國芯片研究論文全球領(lǐng)先

    據(jù)新華社報(bào)道,美國喬治敦大學(xué)“新興技術(shù)觀察項(xiàng)目(ETO)”3日在其網(wǎng)站發(fā)布一份報(bào)告說,2018年至2023年間,在全球發(fā)表的芯片設(shè)計(jì)和制造相關(guān)論文中,中國研究人員的論文數(shù)量遠(yuǎn)超其他國家,中國在高被
    的頭像 發(fā)表于 03-05 14:32 ?1052次閱讀

    DeepSeek大模型如何推動“AI+物流”融合創(chuàng)新

    在人工智能技術(shù)的迭代浪潮中,大模型(Large Language Models, LLM)正從文本生成、圖像創(chuàng)作走向垂直行業(yè)賦能。2025年新年,國產(chǎn) AI 大模型 DeepSeek 橫空出世,憑借其低成本、高精度和多模態(tài)能力,
    的頭像 發(fā)表于 02-28 16:36 ?660次閱讀

    MAX38913AEVK-WLP: Evaluation Kit for the MAX38913 and MAX38914 Data Sheet adi

    電子發(fā)燒友網(wǎng)為你提供ADI(ADI)MAX38913AEVK-WLP: Evaluation Kit for the MAX38913 and MAX38914 Data Sheet相關(guān)產(chǎn)品參數(shù)
    發(fā)表于 01-15 18:55
    MAX38913AEVK-WLP: <b class='flag-5'>Evaluation</b> Kit for the MAX38913 and MAX38914 Data Sheet adi

    MAX15159EVKIT: Evaluation Kit for MAX15159 Data Sheet adi

    電子發(fā)燒友網(wǎng)為你提供ADI(ADI)MAX15159EVKIT: Evaluation Kit for MAX15159 Data Sheet相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有MAX15159EVKIT
    發(fā)表于 01-15 18:53
    MAX15159EVKIT: <b class='flag-5'>Evaluation</b> Kit for MAX15159 Data Sheet adi

    MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: Evaluation System for the MAX98361 Data Sheet adi

    電子發(fā)燒友網(wǎng)為你提供ADI(ADI)MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: Evaluation System for the MAX98361 Data
    發(fā)表于 01-15 18:45
    MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: <b class='flag-5'>Evaluation</b> System for the MAX98361 Data Sheet adi

    中國電提出大模型推理加速新范式Falcon

    近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發(fā)表于 01-15 13:49 ?906次閱讀
    中國電提出大模型推理加速新范式Falcon

    大語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言模型開發(fā)所依賴的主要編程語言。
    的頭像 發(fā)表于 12-04 11:44 ?666次閱讀

    LMK5C33414A Evaluation Module用戶指南

    電子發(fā)燒友網(wǎng)站提供《LMK5C33414A Evaluation Module用戶指南.pdf》資料免費(fèi)下載
    發(fā)表于 11-07 09:12 ?0次下載
    LMK5C33414A <b class='flag-5'>Evaluation</b> Module用戶指南

    新品速遞 | TOF反射型光電,突破檢測距離天花板

    新品速遞 | TOF反射型光電,突破檢測距離天花板
    的頭像 發(fā)表于 08-13 08:24 ?690次閱讀
    新品<b class='flag-5'>速遞</b> | TOF反射型光電,突破檢測距離天花板

    微軟GitHub推出Models服務(wù),賦能AI工程師

    微軟旗下的代碼托管巨頭 GitHub 近期宣布了一項(xiàng)重大更新——GitHub Models 服務(wù),旨在成為 AI 工程師的得力助手。該服務(wù)專為開發(fā)者設(shè)計(jì),旨在幫助他們輕松選擇并優(yōu)化最適合其應(yīng)用需求的 AI 模型。
    的頭像 發(fā)表于 08-05 14:16 ?859次閱讀

    GitHub推出GitHub Models服務(wù),賦能開發(fā)者智能選擇AI模型

    8月2日,全球領(lǐng)先的代碼托管平臺GitHub宣布了一項(xiàng)重大創(chuàng)新——GitHub Models服務(wù)的正式推出。該服務(wù)被定位為AI時(shí)代的工程師助手,旨在幫助全球超過1億的GitHub用戶輕松找到并應(yīng)用最適合其項(xiàng)目需求的AI模型。
    的頭像 發(fā)表于 08-02 15:39 ?1024次閱讀

    大模型LLM與ChatGPT的技術(shù)原理

    在人工智能領(lǐng)域,大模型(Large Language Model, LLM)和ChatGPT等自然語言處理技術(shù)(Natural Language Processing, NLP)正逐步改變著人類
    的頭像 發(fā)表于 07-10 10:38 ?1902次閱讀
    主站蜘蛛池模板: 连州市| 合作市| 香河县| 龙泉市| 长乐市| 金溪县| 徐水县| 扶沟县| 特克斯县| 鄂托克旗| 英德市| 日喀则市| 镇安县| 邵武市| 平安县| 涡阳县| 临夏市| 乐安县| 兴安县| 西城区| 金乡县| 林芝县| 大厂| 巢湖市| 盐亭县| 合水县| 正蓝旗| 天长市| 富顺县| 天峨县| 察雅县| 甘谷县| 大名县| 灵丘县| 巨鹿县| 丹东市| 浑源县| 灵寿县| 阿克苏市| 石嘴山市| 清河县|