女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI要為GPT-4解決數學問題了:獎勵模型指錯,解題水平達到新高度

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-06-06 11:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


對于具有挑戰性的 step-by-step 數學推理問題,是在每一步給予獎勵還是在最后給予單個獎勵更有效呢?OpenAI 的最新研究給出了他們的答案。

現在,大語言模型迎來了「無所不能」的時代,其中在執行復雜多步推理方面的能力也有了很大提高。不過,即使是最先進的大模型也會產生邏輯錯誤,通常稱為幻覺。因此,減輕幻覺是構建對齊 AGI 的關鍵一步。


為了訓練更可靠的模型,目前可以選擇兩種不同的方法來訓練獎勵模型,一種是結果監督,另一種是過程監督。結果監督獎勵模型(ORMs)僅使用模型思維鏈的最終結果來訓練,而過程監督獎勵模型(PRMs)則接受思維鏈中每個步驟的獎勵。


考慮到訓練可靠模型的重要性以及人工反饋的高成本,仔細比較結果監督與過程監督非常重要。雖然最近的工作已經開展了這種比較,但仍然存在很多問題。


在本文中,OpenAI 進行了調研,結果發現在訓練模型解決 MATH 數據集的問題時,過程監督顯著優于結果監督。OpenAI 使用自己的 PRM 模型解決了 MATH 測試集中代表性子集的 78% 的問題。


此外為了支持相關研究,OpenAI 還開源了 PRM800K,它是一個包含 800K 個步級人類反饋標簽的完整數據集,用于訓練它們的最佳獎勵模型。



如下為一個真正(True positive)的問答示例。該問題以及 OpenAI 列舉的其他問題示例均來自 GPT-4。這個具有挑戰性的三角學問題需要并不明顯地連續應用多個恒等式。大多數解決方案嘗試都失敗了,因為很難知道哪些恒等式實際上有用。盡管 GPT-4 通常無法解決這個問題(正確率僅為 0.1% ),但本文的獎勵模型正確地識別出了這個解決方案是有效的。



再看一個假正(False positive)的問答示例。在第四步中,GPT-4 錯誤地聲稱該序列每 12 個項重復一次,而實際上是每 10 個項重復一次。這種計數錯誤偶爾會愚弄獎勵模型。



論文作者之一、OpenAI Alignment 團隊負責人 Jan Leike 表示,「使用 LLM 做數學題的真正有趣結果是:監督每一步比只檢查答案更有效。」



英偉達 AI 科學家 Jim Fan 認為,「這篇論文的觀點很簡單:對于挑戰性的逐步問題,要在每一步給予獎勵,而不要在最后給予單個獎勵。從根本上來說,密集獎勵信號>稀疏。」



我們接下來細看 OpenAI 這篇論文的方法和結果。



論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

數據集地址:https://github.com/openai/prm800k


方法概覽


該研究按照與 Uesato et al. (2022) 類似的方法對結果監督和過程監督進行了比較。值得注意的是這項研究無需人工即可提供結果監督,因為 MATH 數據集中的所有問題都有可自動檢查的答案。相比之下,沒有簡單的方法來自動化過程監督。該研究依靠人類數據標記者來提供過程監督,具體來說是需要人工標記模型生成的解決方案中每個步驟的正確性。該研究在大規模和小規模兩種情況下分別進行了實驗。


范圍


對于每種模型規模,該研究都使用一個固定模型來生成所有解決方案。這個模型被稱為生成器,OpenAI 表示不會通過強化學習 (RL) 來改進生成器。


基礎模型


所有大型模型均是基于 GPT-4 模型進行微調得來的。該研究還添加了一個額外的預訓練步驟 —— 在含有約 1.5B 數學相關 token 的數據集 MathMix 上微調所有模型。與 Lewkowycz et al. (2022) 類似,OpenAI 的研究團隊發現這種方法可以提高模型的數學推理能力。


生成器


為了更容易解析單個步驟,該研究訓練生成器在生成解決方案時,步驟之間用換行符分隔。具體來說,該研究對 MATH 訓練問題使用少樣本生成解決方案,過濾出得到最終正確答案的解決方案,并在該數據集上對基礎模型進行一個 epoch 的微調。


數據采集


為了收集過程監督數據,該研究向人類數據標記者展示了大規模生成器采樣的數學問題的逐步解決方案。人類數據標記者的任務是為解決方案中的每個步驟分配正面、負面或中性標簽,如下圖 1 所示。



該研究只標記大型生成器生成的解決方案,以最大限度地發揮有限的人工數據資源的價值。該研究將收集到的按步驟標記的整個數據集稱為 PRM800K。PRM800K 訓練集包含 800K 步驟標簽,涵蓋 12K 問題的 75K 解決方案。為了最大限度地減少過擬合,PRM800K 訓練集包含來自 MATH 的 4.5K 測試問題數據,并僅在剩余的 500 個 MATH 測試問題上評估模型。


結果監督獎勵模型 (ORM)


該研究按照與 Cobbe et al. (2021) 類似的方法訓練 ORM,并從生成器中為每個問題采樣固定數量的解決方案,然后訓練 ORM 來預測每個解決方案的正確與否。實踐中,自動檢查最終答案來確定正確性是一種常用的方法,但原則上由人工標記者來提供標簽。在測試時,該研究使用 ORM 在最終 token 處的預測作為每個解決方案的總分。


過程監督獎勵模型(PRM)


PRM 用來預測每個步驟(step)中最后一個 token 之后的步驟的正確性。這種預測采用單個 token 形式,并且 OpenAI 在訓練過程中最大化這些目標 token 的對數似然。因此,PRM 可以在標準的語言模型 pipeline 中進行訓練,無需任何特殊的適應措施。


圖 2 為同一個問題的 2 種解決方案,左邊的答案是正確的,右邊的答案是錯誤的。綠色背景表示 PRM 得分高,紅色背景表示 PRM 得分低。PRM 可以正確識別錯誤解決方案中的錯誤。



在進行過程監督時,OpenAI 有意選擇僅對第一個錯誤步驟進行監督,從而使得結果監督和過程監督之間的比較更加直接。對于正確的解決方案,兩種方法提供的信息相同,因為每一步都是正確的解題方法。對于錯誤的解決方案,兩種方法都能揭示至少存在一個錯誤,并且過程監督還揭示了該錯誤的確切位置。


大規模監督


OpenAI 使用全流程監督數據集 PRM800K 來訓練 PRM,為了使 ORM 基準更加強大,OpenAI 還為每個問題進行了 100 個樣本的訓練,這些樣本均來自生成器,由此 ORM 訓練集與 PRM800K 沒有重疊樣本。


下圖為結果監督和過程監督獎勵模型以及投票方案的比較,結果表明在搜索模型生成的解決方案時,PRM 比 ORM 和多數投票更有效。



小規模綜合監督


為了更好的比較結果監督和過程監督,首先需要注意的是 ORM 和 PRM 的訓練集不具有直接可比性,PRM 訓練集是使用主動學習構建的,偏向于答案錯誤的解決方案,還比 ORM 訓練集少一個數量級。


過程監督 VS 結果監督


首先 OpenAI 從小規模生成器中為每個問題采樣 1 到 200 個解決方案。對于每個數據集,OpenAI 提供三種形式的監督:來自 PRM_large 的過程監督,來自 PRM_large 的結果監督以及來自最終答案檢查的結果監督。


圖 4a 表明,過程監督明顯優于其他兩種形式的結果監督;圖 4b 表明,使用 PRM_large 進行結果監督明顯比最終答案檢查的結果監督更有效。



OOD 泛化


為了衡量模型在分布外(OOD)泛化的性能,OpenAI 對大規模 ORM 和 PRM 在一個由 224 個 STEM 問題組成的 held-out(留出法)上進行評估,這些問題來自最新的 AP 物理(美國大學先修課程簡稱 AP)、AP 微積分、AP 化學、AMC10(理解為數學競賽)和 AMC12 考試,模型沒有見過這些問題。表格 1 中報告了 ORM、PRM 和多數投票的前 100 個的最佳表現。表明,PRM 的性能優于 ORM 和多數投票,同時意味著 PRM 在新的測試問題上性能仍然保持不變。



原文標題:OpenAI要為GPT-4解決數學問題了:獎勵模型指錯,解題水平達到新高度

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2930

    文章

    46188

    瀏覽量

    391582

原文標題:OpenAI要為GPT-4解決數學問題了:獎勵模型指錯,解題水平達到新高度

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    OpenAI簡化大模型選擇:薩姆·奧特曼制定路線圖

    前的技術環境下,大模型被廣泛應用于各種聊天機器人中,其中OpenAI的ChatGPT就是一個典型的例子。然而,對于大多數用戶來說,選擇最適合自己需求的AI模型卻并非易事。OpenAI
    的頭像 發表于 02-18 09:12 ?492次閱讀

    OpenAI宣布GPT 4o升智計劃

    近日,全球領先的人工智能公司OpenAI迎來了一項重要宣布。OpenAI的首席執行官Sam Altman正式揭曉了GPT 4o的升智計劃,這一消息立即引起了業界的廣泛關注。 據Sam
    的頭像 發表于 02-17 14:24 ?583次閱讀

    OpenAI即將發布GPT-4.5與GPT-5

    GPT-4.5將在未來幾周內率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術上進行了諸多優化和升級,旨在為用戶提供更加精準、高效的AI服務。 而在
    的頭像 發表于 02-13 13:43 ?637次閱讀

    今日看點丨OpenAI將發布新的GPT-4.5模型;三星西安工廠將升級286層NAND閃存工藝

    1. OpenAI 將發布新的GPT-4.5 模型 ? OpenAI首席執行官阿爾特曼周三表示,該公司內部稱為Orion的GPT-4.5
    發表于 02-13 11:22 ?540次閱讀

    OpenAI即將推出GPT-5模型

    OpenAI首席執行官奧爾特曼近日宣布了一項重要消息:OpenAI將在今年未來幾個月內推出全新的GPT-5模型。這一消息引起了業界的廣泛關注和期待。 據了解,
    的頭像 發表于 02-13 11:21 ?580次閱讀

    OpenAI報告GPT-4o及4o-mini模型性能下降,正緊急調查

    ,自發現這一問題以來,公司已經迅速啟動了內部調查機制,以盡快查明導致模型性能下降的具體原因。OpenAI強調,他們對此次事件高度重視,并將全力以赴解決這一問題,以確保用戶能夠繼續享受到高質量的AI服務。
    的頭像 發表于 01-23 10:22 ?830次閱讀

    OpenAIGPT-4o及4o-mini模型性能下降,正展開調查

    近期,OpenAI發布了一份事故報告,指出其GPT-4o及4o-mini模型遭遇了性能下降的問題。這一消息引起了業界的廣泛關注和討論。 據OpenA
    的頭像 發表于 01-21 10:34 ?632次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術的飛速發展,我們見證了一代又一代的AI模型不斷突破界限,為各行各業帶來革命性的變化。在這場技術競賽中,Llama 3和GPT-4作為兩個備受矚目的模型,它們代表了當前AI領域的最前
    的頭像 發表于 10-27 14:17 ?1127次閱讀

    科大訊飛發布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過GPT-4 Turbo,數學能力和代碼能力更是超過了Open AI最新一代GPT模型GPT-4o。此外,其效率相對提升50%。
    的頭像 發表于 10-24 11:39 ?1050次閱讀

    OpenAI即將發布“草莓”推理大模型

    科技界迎來新動態,據可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項重大發布——預計在兩周內,將正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務中。這款以卓越推理能力為核心的大模型,旨在突破現有
    的頭像 發表于 09-11 16:53 ?808次閱讀

    OpenAI宣布啟動GPT Next計劃

     9月4日最新資訊,OpenAI Japan 在KDDI峰會上亮相,揭開了其即將問世的下一代AI模型的神秘面紗,并正式宣布了旨在2024年啟動的GPT Next宏偉計劃。
    的頭像 發表于 09-04 14:51 ?919次閱讀

    OpenAI api key獲取并可調用GPT-4.0、GPT-4o、GPT-4omini

    前言 在這篇文章中,我們將詳細介紹如何申請OpenAIGPT-4.0 API Key。通過這個教程,你將能夠輕松獲取OpenAI API KEY并使用GPT-4.0的強大功能。 目錄
    的頭像 發表于 08-06 15:16 ?4508次閱讀
    <b class='flag-5'>OpenAI</b> api key獲取并可調用<b class='flag-5'>GPT</b>-4.0、<b class='flag-5'>GPT-4</b>o、<b class='flag-5'>GPT-4</b>omini

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該
    的頭像 發表于 07-21 10:20 ?1658次閱讀
    <b class='flag-5'>OpenAI</b> 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    OpenAI發布高性價比小型AI模型GPT-4o mini

    在人工智能領域持續創新的OpenAI,近日推出了其最新力作——“GPT-4o mini”,一款旨在以親民價格提供強大功能的小型聊天機器人。這款產品的問世,標志著OpenAI在推動人工智能普及與多模態融合方面邁出了重要一步。
    的頭像 發表于 07-19 15:27 ?968次閱讀

    OpenAI發布最新人工智能模型——GPT-4o mini

    據國際媒體報道,OpenAI 在周四震撼發布了其最新的人工智能模型——GPT-4o mini,此舉標志著這家領先的AI初創公司在拓寬其廣受歡迎的聊天機器人應用領域方面邁出了重要一步。
    的頭像 發表于 07-19 15:24 ?1525次閱讀
    主站蜘蛛池模板: 遵义市| 休宁县| 溆浦县| 陆良县| 浙江省| 凉城县| 永寿县| 寿光市| 灵武市| 额尔古纳市| 山西省| 白河县| 吉林省| 平原县| 恩平市| 龙里县| 曲靖市| 义马市| 琼海市| 巴青县| 拉萨市| 开远市| 南江县| 广安市| 宝兴县| 余江县| 梁山县| 额济纳旗| 广州市| 龙门县| 洞口县| 通山县| 佛冈县| 四子王旗| 崇文区| 淳化县| 禹城市| 都安| 宜兰市| 墨竹工卡县| 长垣县|