女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺談Q-Learning在Agent的應(yīng)用

深度學(xué)習(xí)自然語言處理 ? 來源:青稞AI ? 2023-12-02 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:周舒暢,AI 工程師

OpenAI 宮斗告一段落,現(xiàn)在到處都在猜 Q* 是什么。本文沒有 Q* 的新料,但是會(huì)探討一下 Q-Learning 在 Agent 方面的可能應(yīng)用。

有趣的分享!LLMs時(shí)代下,幻覺、對話、對齊、CoT、Agent和事實(shí)性評估等領(lǐng)域的前沿研究

實(shí)現(xiàn) tool 自動(dòng)選擇和參數(shù)配置

75b5f30c-90ef-11ee-939d-92fbcf53809c.jpg

經(jīng)典文字模型

經(jīng)典的文字模型我們已經(jīng)很熟悉了:訓(xùn)練時(shí),模型不停的預(yù)測下一個(gè) token 并與真實(shí)語料比較,直到模型的輸出分布非常接近于真實(shí)分布。

75c923fa-90ef-11ee-939d-92fbcf53809c.jpg

因?yàn)檎Z言模型的局限性(比如搞不定大數(shù)計(jì)算),所以多家大模型公司走上了語言模型 + 工具的道路。比如 GPT4-turbo 就可以靈活調(diào)用網(wǎng)絡(luò)搜索、Analysis(某種 Python) 這些 tools,來生成 tool response(即網(wǎng)絡(luò)搜索結(jié)果、Python 執(zhí)行結(jié)果),來幫助回答文字問題。

這就引入了一個(gè)決策問題,對于一個(gè)用戶表達(dá)(utterance),到底要不要做網(wǎng)絡(luò)搜索或者調(diào)用 Python 來幫助回答呢?如果決策錯(cuò)誤,則結(jié)果不最優(yōu):

?工具的響應(yīng)結(jié)果(tool response)可能無濟(jì)于事甚至產(chǎn)生誤導(dǎo)。比如有一些網(wǎng)絡(luò)上的玩梗會(huì)影響模型對一些基本概念的知識。?工具的調(diào)用引入了額外的時(shí)間消耗。

因此,好好搞一些標(biāo)注,訓(xùn)一個(gè)“動(dòng)作決策”模型,能拿到第一波好處。這是有監(jiān)督學(xué)習(xí)的思路。這里動(dòng)作決策模型的輸出,是具體的含參數(shù)的動(dòng)作,比如調(diào)用網(wǎng)絡(luò)搜索時(shí),需要給出“是否搜索”和“搜索關(guān)鍵字”兩部分信息。因此動(dòng)作決策模型最好也是個(gè)大模型。這么搞的問題,是上限不高,受制于“動(dòng)作決策模型”的標(biāo)注質(zhì)量,并且并沒有直接優(yōu)化“模型輸出”,需要人絞盡腦汁來針對模型調(diào)整“動(dòng)作決策模型”的標(biāo)注來達(dá)到最優(yōu)。比如對于網(wǎng)絡(luò)搜索,當(dāng)搜索引擎不同時(shí),需要為“動(dòng)作決策模型”使用不同的搜索關(guān)鍵字作為標(biāo)注。

但從另一個(gè)角度,虛線框內(nèi)的部分,仍然是一個(gè)文字進(jìn)文字出的"模型",所以理論上可以用降低輸出結(jié)果的困惑度的方法,按強(qiáng)化學(xué)習(xí)(RL)去訓(xùn)練這個(gè)復(fù)合了工具的“語言模型”。這里因?yàn)椤皠?dòng)作的決策”不可微,所以來自“模型輸出”的梯度只能用 RL 往回傳。使用 RL 的具體步驟為:

?利用標(biāo)注訓(xùn)練“動(dòng)作決策模型”,使得整體有一定效果,即完成行為克隆(behavior cloning)這一啟動(dòng)步。?用強(qiáng)化學(xué)習(xí)繼續(xù)訓(xùn)練整體,即復(fù)合了工具的“語言模型”。

Reward 由幾項(xiàng)組成:

?利用<用戶輸入、模型輸出>這樣的成對數(shù)據(jù)(格式上接近 SFT 數(shù)據(jù)),計(jì)算困惑度?如果有用戶偏好數(shù)據(jù),也可以仿照 DPO 構(gòu)造不同動(dòng)作間的對比數(shù)據(jù)項(xiàng)。?把調(diào)用工具的時(shí)間和成本代價(jià),折算進(jìn) Reward

實(shí)際,以上相當(dāng)于使用了 Q-learning 的一個(gè)簡單變體 DDPG,即假設(shè)存在函數(shù)映射μ使得μ(當(dāng)前狀態(tài)) = 最優(yōu)工具調(diào)用動(dòng)作與參數(shù) 如果不做這個(gè)假設(shè),還是使用 Q(s, a) 的形式,則更接近 Reward Model 的搞法。

這里一個(gè)附送的好處,是可以做層級強(qiáng)化學(xué)習(xí)(hierarchical RL),就是說可以在工具調(diào)用中嵌套工具調(diào)用,比如一個(gè)網(wǎng)絡(luò)搜索中嵌套網(wǎng)絡(luò)搜索。因?yàn)樯厦嬖?Reward 里計(jì)入了“調(diào)用工具的時(shí)間和成本代價(jià)”,所以優(yōu)化后的模型不太會(huì)出現(xiàn)盲目使用工具的情況。同時(shí) RL 天然能處理多步?jīng)Q策,所以不特別需要研究“多輪交互時(shí)的動(dòng)作決策模型標(biāo)注“。

引入動(dòng)態(tài)拆分任務(wù)

以上的 tool 調(diào)用,特別是網(wǎng)絡(luò)搜索和 Python 執(zhí)行,主要是為模型輸出產(chǎn)生一些參考,因此本質(zhì)上沒有互斥性,就是說各個(gè)動(dòng)作間沒有強(qiáng)依賴。我們下面考慮一個(gè)動(dòng)作間有強(qiáng)烈互相影響的場景:“任務(wù)拆分”。

當(dāng)用戶輸入復(fù)雜到一定程度,我們需要引入拆分。靜態(tài)拆分不需要特殊處理,但是如果希望子任務(wù)是跟據(jù)動(dòng)態(tài)執(zhí)行時(shí)獲得的信息動(dòng)態(tài)調(diào)整的,則要引入一個(gè)任務(wù)棧來進(jìn)行管理。之前 AutoGPT 即引入了動(dòng)態(tài)拆分子任務(wù),基于語言模型實(shí)現(xiàn)了一定的 Agent 能力。但是一直以來 AutoGPT 并沒有通過“訓(xùn)練”來加強(qiáng)能力的方法。下面,我們先把 AutoGPT 搬到 RL 里,一個(gè)搞法是借助 MCTS(蒙特卡洛搜索樹)。

75d92ee4-90ef-11ee-939d-92fbcf53809c.jpg

根結(jié)點(diǎn)是當(dāng)前任務(wù)。各個(gè)葉子結(jié)點(diǎn)有 expandable 和 terminal 兩個(gè)屬性,其中 expandable 結(jié)點(diǎn)可以進(jìn)一步被展開成子任務(wù)。注意

?MCTS 里 sibling 結(jié)點(diǎn)之間是或關(guān)系,選一即可。?MCTS 的 Policy Network 對應(yīng)上文中的“動(dòng)作決策”模型。?MCTS 里的 Value Network 可以用一大模型實(shí)現(xiàn),描述當(dāng)前結(jié)點(diǎn)的價(jià)值。比如發(fā)現(xiàn)當(dāng)前子任務(wù)是死胡同時(shí)(如發(fā)現(xiàn)模型在用窮舉法證明“偶數(shù)加偶數(shù)還是偶數(shù)”時(shí))可以喊停。?上文的工具調(diào)用“模型”可以自然地嵌入到這里使用

子任務(wù)拆分沒什么可用的數(shù)據(jù),可以先靠語言模型天賦能力開始。訓(xùn)練數(shù)據(jù)可以選有明確答案的題,以答對為 Reward。MCTS 的形式特別適用需要回溯的任務(wù)(把某種任務(wù)分解推倒重來),比如數(shù)學(xué)計(jì)算。

(到這,我們得到了一個(gè)用 Q-learning 整體驅(qū)動(dòng)的,自動(dòng)學(xué)習(xí)如何拆任務(wù)調(diào)工具的框架,似乎和 Q* 公開的一些線索對上了一些。)

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • Agent
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    27736
  • Q-Learning
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    8234
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4826

    瀏覽量

    86567

原文標(biāo)題:Q-Learning 在 Agent 的應(yīng)用

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    《AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀體驗(yàn)--跟著迪哥學(xué)Agent

    、Muti-Agent的形態(tài)與組織方式,并對Agent各行各業(yè)中的應(yīng)用進(jìn)行了精到的列舉。 從第二章開始就進(jìn)入到了實(shí)操章節(jié),迪哥帶著我們認(rèn)識了Coze,語聚AI。在此之前,我只會(huì)在AI對話框中跟AI
    發(fā)表于 03-02 12:28

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+初品Agent

    一本從知識到實(shí)踐的具有較高應(yīng)用價(jià)值的書。 封面圖 那這本書都向讀者介紹哪些內(nèi)容呢? 入門篇,其涉及的內(nèi)容有: Agent的概念、發(fā)展、Agent與Prompt及copilot的區(qū)別、Age
    發(fā)表于 04-22 11:51

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+Agent的工作原理及特點(diǎn)

    感知系統(tǒng)從環(huán)境中收集信息并從中提取相關(guān)知識的能力,這類包括文本、圖像、聲音等。 2)規(guī)劃 規(guī)劃是指Agent為了實(shí)現(xiàn)某一目標(biāo)而進(jìn)行的決策過程,該階段Agent會(huì)根據(jù)收集的信息制定出一系列策略,并確定
    發(fā)表于 05-11 10:24

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+Agent開發(fā)平臺(tái)

    開發(fā)平臺(tái)支持開發(fā)者根據(jù)自己的業(yè)務(wù)場景、功能需求自由配置Agent,通過平臺(tái)的API、工作流、數(shù)據(jù)庫、知識庫等,可以大模型能力既定的情況下,極大地?cái)U(kuò)展Agent的能力和應(yīng)用場景。 4)發(fā)布靈活性
    發(fā)表于 05-13 12:24

    基于Q-Learning的認(rèn)知無線電系統(tǒng)感知管理算法

    認(rèn)知無線電系統(tǒng)不僅是一個(gè)自適應(yīng)系統(tǒng),更應(yīng)該是一個(gè)智能系統(tǒng)。該文將智能控制中的Q-Learning 思想引入到認(rèn)知無線電系統(tǒng)中,用于解決感知任務(wù)認(rèn)知用戶之間的分配問題,給出了
    發(fā)表于 03-06 10:46 ?9次下載

    基于LCS多機(jī)器人的算法介紹

    各種增強(qiáng)式學(xué)習(xí)中,Q-learning 或改進(jìn)的Q-learning 應(yīng)用的最多。JonathanH.Connell 和Sridhar Mahadevan Robot
    發(fā)表于 10-17 17:43 ?15次下載
    基于LCS多機(jī)器人的算法介紹

    基于Q-learning的碼率控制算法

    近年來,各界對多媒體內(nèi)容傳輸特別是視頻流服務(wù)越來越重視。盡力交付的互聯(lián)網(wǎng)上支持可靠視頻流傳輸,基于HTTP的自適應(yīng)流(HAS,HTTP adaptive streaming)已經(jīng)成為視頻業(yè)務(wù)技術(shù)
    發(fā)表于 01-10 10:29 ?0次下載
    基于<b class='flag-5'>Q-learning</b>的碼率控制算法

    Q Learning算法學(xué)習(xí)

    Q Learning算法是由Watkins于1989年在其博士論文中提出,是強(qiáng)化學(xué)習(xí)發(fā)展的里程碑,也是目前應(yīng)用最為廣泛的強(qiáng)化學(xué)習(xí)算法。
    發(fā)表于 07-05 14:10 ?3875次閱讀

    淺談Q-Learning和SARSA時(shí)序差分算法

    Q-Learning這一篇對應(yīng)Sutton書的第六章部分和UCL強(qiáng)化學(xué)習(xí)課程的第五講部分。 1. Q-Learning算法的引入 Q-Learning算法是一種使用時(shí)序差分求解強(qiáng)化學(xué)習(xí)控制問題的方法
    的頭像 發(fā)表于 11-04 14:05 ?3123次閱讀

    基于雙估計(jì)器的Speedy Q-learning算法

    Q-learning算法是一種經(jīng)典的強(qiáng)化學(xué)習(xí)算法,更新策略由于保守和過估計(jì)的原因,存在收斂速度慢的問題。 SpeedyQ-learning算法和 Double Q-learning算法
    發(fā)表于 05-18 15:51 ?2次下載

    《自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

    Agent 深度強(qiáng)化學(xué)習(xí)綜述 來源:《自動(dòng)化學(xué)報(bào)》,作者梁星星等 摘 要?近年來,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL) 諸多復(fù)雜序貫決策問題中取得巨大
    發(fā)表于 01-18 10:08 ?1910次閱讀
    《自動(dòng)化學(xué)報(bào)》—多<b class='flag-5'>Agent</b>深度強(qiáng)化學(xué)習(xí)綜述

    怎樣使用Bevy和dfdx解決經(jīng)典的Cart Pole問題呢

    解決經(jīng)典的 Cart Pole 問題有很多種, 作者這里借用 dfdx 這個(gè)深度學(xué)習(xí)的庫, 使用 Deep Q-Learning 的方法來解決。
    的頭像 發(fā)表于 10-26 09:39 ?841次閱讀

    7個(gè)流行的強(qiáng)化學(xué)習(xí)算法及代碼實(shí)現(xiàn)

    已被用于游戲、機(jī)器人和決策制定等各種應(yīng)用中,并且這些流行的算法還在不斷發(fā)展和改進(jìn),本文我們將對其做一個(gè)簡單的介紹。 1、Q-learning Q-learningQ-learning
    的頭像 發(fā)表于 02-03 20:15 ?1420次閱讀

    7個(gè)流行的強(qiáng)化學(xué)習(xí)算法及代碼實(shí)現(xiàn)

    作者:SiddharthaPramanik來源:DeepHubIMBA目前流行的強(qiáng)化學(xué)習(xí)算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。這些算法已被用于游戲
    的頭像 發(fā)表于 02-06 15:06 ?2061次閱讀
    7個(gè)流行的強(qiáng)化學(xué)習(xí)算法及代碼實(shí)現(xiàn)

    淺談AI Agent的發(fā)展階段

    2025年伊始,有關(guān)AI變革潛力的討論熱度正不斷攀升。人們對AI的關(guān)注焦點(diǎn)正從AI工具轉(zhuǎn)向創(chuàng)建及部署AI Agent今年最新發(fā)布的文章中,美國數(shù)據(jù)分析與AI戰(zhàn)略顧問、《信息經(jīng)濟(jì)學(xué)》作者道格拉斯·B·萊尼將AI Agent的發(fā)
    的頭像 發(fā)表于 02-19 09:50 ?775次閱讀
    主站蜘蛛池模板: 繁峙县| 平顶山市| 商水县| 巴南区| 吉木乃县| 疏勒县| 永靖县| 清水河县| 怀远县| 台山市| 锡林郭勒盟| 溧水县| 涟源市| 安岳县| 巴青县| 卓尼县| 石渠县| 德州市| 汝南县| 寻乌县| 夏津县| 铜陵市| 万荣县| 宣化县| 永清县| 昌黎县| 安国市| 花莲县| 石屏县| 元阳县| 临邑县| 馆陶县| 大关县| 城口县| 南召县| 上栗县| 金山区| 寿阳县| 资源县| 东阿县| 喀喇|