圖源:谷歌機器人團隊論文「Interactive Language: Talking to Robots in Real Time」。
UC 伯克利 Dynalang 研究的關(guān)鍵思想是,我們可以將語言看作是幫助我們更好地對世界進行預(yù)測的工具,比如「我們的牛奶喝完了」→打開冰箱時沒有牛奶;「扳手可以用來擰緊螺母」→使用工具時螺母會旋轉(zhuǎn)。Dynalang 在一個模型中結(jié)合了語言模型(LM)和世界模型(WM),使得這種范式變成多模態(tài)。研究者認為,將語言生成和行動統(tǒng)一在一個智能體架構(gòu)中是未來研究的一個令人興奮的方向。
論文概覽 人工智能長期以來的目標是開發(fā)能夠在物理世界中與人類自然交互的智能體。當前的具身智能體可以遵循簡單的低層指令,比如「拿一塊藍色的積木」或者「經(jīng)過電梯,然后向右轉(zhuǎn)」。 然而,要實現(xiàn)自由交流的互動智能體,就需要理解人們在「此時此地」之外使用語言的完整方式,包括:傳遞知識,比如「左上角的按鈕是關(guān)掉電視的」;提供情境信息,如「我們的牛奶喝完了」;以及協(xié)同,比如跟別人說「我已經(jīng)吸過客廳了」。我們在文本中閱讀的很多內(nèi)容或者從他人口中聽到的信息都在傳遞有關(guān)世界的知識,無論是關(guān)于世界如何運行還是關(guān)于當前世界狀態(tài)的知識。 我們?nèi)绾问怪悄荏w能夠使用多樣化的語言呢?一種訓練基于語言的智能體解決任務(wù)的方法是強化學習(RL)。然而,目前的基于語言的 RL 方法主要是學習從特定任務(wù)指令生成行動,例如將目標描述「拿起藍色的積木」作為輸入,輸出一系列運動控制。 然而,當考慮到自然語言在現(xiàn)實世界中所服務(wù)的多樣功能時,直接將語言映射到最優(yōu)行動是一個具有挑戰(zhàn)性的學習問題。以「我把碗放好了」為例:如果任務(wù)是清洗,智能體應(yīng)該繼續(xù)進行下一個清洗步驟;而如果是晚餐服務(wù),智能體應(yīng)該去取碗。當語言不涉及任務(wù)時,它只與智能體應(yīng)該采取的最優(yōu)行動弱相關(guān)。將語言映射到行動,尤其是僅使用任務(wù)獎勵,對于學會使用多樣化語言輸入完成任務(wù)來說是一個弱學習信號。 不同的是,UC 伯克利的研究者提出,智能體使用語言的一種統(tǒng)一方法是幫助它們預(yù)測未來。前面提到的語句「我把碗放好了」有助于智能體更好地預(yù)測未來的觀察結(jié)果(即,如果它采取行動打開櫥柜,它將在那里看到碗)。 我們遇到的很多語言可以通過這種方式與視覺體驗聯(lián)系起來。先前的知識,比如「扳手可以用來擰緊螺母」,幫助智能體預(yù)測環(huán)境變化。諸如「包裹在外面」的陳述有助于智能體預(yù)測未來的觀察結(jié)果。這個框架還將標準指令遵循歸入預(yù)測范疇:指令幫助智能體預(yù)測自己將如何受到獎勵。類似于下一個 token 預(yù)測允許語言模型形成關(guān)于世界知識的內(nèi)部表示,研究者假設(shè)預(yù)測未來的表示為智能體理解語言以及它與世界的關(guān)系提供了豐富的學習信號。





Correction:提供了基于智能體當前行為的交互式反饋,比如「轉(zhuǎn)身」。









原文標題:用語言建模世界:UC伯克利多模態(tài)世界模型利用語言預(yù)測未來
文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2930文章
46151瀏覽量
391048
原文標題:用語言建模世界:UC伯克利多模態(tài)世界模型利用語言預(yù)測未來
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
自動駕駛中常提的世界模型是個啥?

世界模型:多模態(tài)融合+因果推理,解鎖AI認知邊界
Matter 智能家居的通用語言
商湯“日日新”融合大模型登頂大語言與多模態(tài)雙榜單
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......
大語言模型開發(fā)框架是什么
大語言模型開發(fā)語言是什么
一文理解多模態(tài)大語言模型——上

評論