擴散模型(diffusion model)在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強化學習(RL)中來解決序列決策問題,它們主要利用 diffusion model 來建模分布復雜的軌跡或提高策略的表達性。
但是, 這些工作仍然局限于單一任務單一數(shù)據(jù)集,無法得到能同時解決多種任務的通用智能體。那么,diffusion model 能否解決多任務強化學習問題呢?我們最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning”,旨在解決這個問題并希望啟發(fā)后續(xù)通用決策智能的研究:
論文鏈接:
https://arxiv.org/abs/2305.18459
背景
數(shù)據(jù)驅(qū)動的大模型在 CV 和 NLP 領(lǐng)域已經(jīng)獲得巨大成功,我們認為這背后源于模型的強表達性和數(shù)據(jù)集的多樣性和廣泛性。基于此,我們將最近出圈的生成式擴散模型(diffusion model)擴展到多任務強化學習領(lǐng)域(multi-task reinforcement learning),利用 large-scale 的離線多任務數(shù)據(jù)集訓練得到通用智能體。 目前解決多任務強化學習的工作大多基于 Transformer 架構(gòu),它們通常對模型的規(guī)模,數(shù)據(jù)集的質(zhì)量都有很高的要求,這對于實際訓練來說是代價高昂的。基于 TD-learning 的強化學習方法則常常面臨 distribution-shift 的挑戰(zhàn),在多任務數(shù)據(jù)集下這個問題尤甚,而我們將序列決策過程建模成條件式生成問題(conditional generative process),通過最大化 likelihood 來學習,有效避免了 distribution shift 的問題。
方法
具體來說,我們發(fā)現(xiàn) diffusion model 不僅能很好地輸出 action 進行實時決策,同樣能夠建模完整的(s,a,r,s')的 transition 來生成數(shù)據(jù)進行數(shù)據(jù)增強提升強化學習策略的性能,具體框架如圖所示:




模型結(jié)構(gòu)
為了更好地建模多任務數(shù)據(jù),并且統(tǒng)一多樣化的輸入數(shù)據(jù),我們用 transformer 架構(gòu)替換了傳統(tǒng)的 U-Net 網(wǎng)絡,網(wǎng)絡結(jié)構(gòu)圖如下:
實驗
我們首先在 Meta-World MT50 上開展實驗并與 baselines 進行比較,我們在兩種數(shù)據(jù)集上進行實驗,分別是包含大量專家數(shù)據(jù),從 SAC-single-agent 中的 replay buffer 中收集到的 Near-optimal data(100M);以及從 Near-optimal data 中降采樣得到基本不包含專家數(shù)據(jù)的 Sub-optimal data(50M)。實驗結(jié)果如下:

總結(jié)
我們提出了一種基于擴散模型(diffusion model)的一種新的、通用性強的多任務強化學習解決方案,它不僅可以通過單個模型高效完成多任務決策,而且可以對原數(shù)據(jù)集進行增強,從而提升各種離線算法的性能。我們未來將把 遷移到更加多樣、更加通用的場景,旨在深入挖掘其出色的生成能力和數(shù)據(jù)建模能力,解決更加困難的任務。同時,我們會將 遷移到真實控制場景,并嘗試優(yōu)化其推理速度以適應某些需要高頻控制的任務。
原文標題:NeurIPS 2023 | 擴散模型解決多任務強化學習問題
文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2930文章
46151瀏覽量
391117
原文標題:NeurIPS 2023 | 擴散模型解決多任務強化學習問題
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
快速入門——LuatOS:sys庫多任務管理實戰(zhàn)攻略!

18個常用的強化學習算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

詳解RAD端到端強化學習后訓練范式

了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇
【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀
基于移動自回歸的時序擴散預測模型

智譜推出深度推理模型GLM-Zero預覽版
智譜GLM-Zero深度推理模型預覽版正式上線
浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

評論