最近谷歌DeepMind提出了一種新的強(qiáng)化學(xué)習(xí)技術(shù),這種技術(shù)以一種全新方式來模擬人類行為。它可能會(huì)比之前發(fā)布的人工智能決策系統(tǒng)更強(qiáng)大,這對希望通過自動(dòng)化提高生產(chǎn)率的企業(yè)來說可能是個(gè)福音。
如何解決多方零和博弈中的合作困境?
DeepMind用強(qiáng)化學(xué)習(xí)使AI實(shí)現(xiàn)利益最大化。這是一種基于對等契約機(jī)制的經(jīng)濟(jì)競爭模型,該模型允許在多方博弈中結(jié)盟。這篇論文其中一位作者表示,這種結(jié)盟有單打獨(dú)斗不具有的特殊優(yōu)勢。
長期以來,零和游戲以其豐富的策略選擇空間和清晰的策略評(píng)估方式指導(dǎo)著人工智能研究。更重要的是這種競爭廣泛存在于生物界、市場經(jīng)濟(jì)甚至是AlphaZero中。
DeepMind科學(xué)家首先尋求數(shù)學(xué)定義形成聯(lián)盟的挑戰(zhàn),關(guān)注聯(lián)盟形成多玩家零和游戲——也就是說,數(shù)學(xué)表示的情況下,每個(gè)參與者的收益或損失的效用是完全平衡的損失或收益的其他參與者的效用。
什么是多方零和博弈?
DeepMind將之定義為每個(gè)玩家的收益或損失完全由其余玩家的損失或收益提供。在一個(gè)對稱多方零和博弈中,每個(gè)玩家的行為模式都是一樣的,這往往會(huì)產(chǎn)生社會(huì)困境。(一個(gè)極簡例子是“囚徒困境”)
零和博弈引入了合作后事情變得很復(fù)雜。緊急情況下,團(tuán)隊(duì)必須內(nèi)部協(xié)調(diào)才能有效地在游戲中競爭。合作形成的過程本身就是一個(gè)社會(huì)困境——從直覺上看,玩家應(yīng)該合作來擊敗其他人,但合作團(tuán)隊(duì)內(nèi)部要求個(gè)體為更廣泛的利益做出妥協(xié),但這種犧牲未必和他們的自身利益一致。此外,決定加入或離開哪個(gè)團(tuán)隊(duì)以及團(tuán)隊(duì)策略都是重要問題。
DeepMind嘗試了一種“禮物游戲”,在游戲中,AI扮演的玩家從一堆標(biāo)記著自己代表色的數(shù)字籌碼開始。在每個(gè)玩家的回合中,他們必須拿出自己對應(yīng)顏色的籌碼并將其贈(zèng)送給另一名玩家,或?qū)⑵錀壷谩H客婕叶际プ约簩?yīng)顏色的數(shù)字籌碼時(shí)游戲結(jié)束,此時(shí)擁有最多顏色籌碼的玩家獲勝,贏家平分價(jià)值為“1”的籌碼,其他玩家平分價(jià)值為“0”的籌碼。
研究發(fā)現(xiàn),玩家往往表現(xiàn)得很自私,他們囤積籌碼以至于出現(xiàn)了三方平局。但事實(shí)上,如果兩名玩家交換籌碼,回報(bào)會(huì)更好。DeepMind將這種過程闡述為:盡管合作能帶來更好的結(jié)果,但人人都想從欺騙行為中獲利,也就是說服對方交換然后食言。
這也就是說,如果有一種機(jī)制能維護(hù)合作行為存在,那強(qiáng)化學(xué)習(xí)可以適應(yīng)這種博弈。這種機(jī)制就是合同——在游戲中,每個(gè)玩家必須提交一份報(bào)價(jià),首先選擇合作伙伴,然后為該合作伙伴提出行動(dòng)建議,最后玩家承諾采取的行動(dòng)。如果兩個(gè)玩家提供了相同的契約,那么這些契約就具有了約束力,也就是說環(huán)境強(qiáng)制執(zhí)行了所承諾的操作。
這種強(qiáng)制性機(jī)制是合作形成的基礎(chǔ)。
這種模型能讓我們在更廣闊的應(yīng)用環(huán)境中思考契約的作用。一個(gè)沒有強(qiáng)制實(shí)施機(jī)制的契約系統(tǒng)如果可以在多方動(dòng)態(tài)博弈中持續(xù)運(yùn)行將最終產(chǎn)生一個(gè)有價(jià)值的反饋回路,這將使得AI的應(yīng)用走向社會(huì)學(xué)和經(jīng)濟(jì)學(xué)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
107965 -
AI
+關(guān)注
關(guān)注
88文章
34918瀏覽量
278153
發(fā)布評(píng)論請先 登錄
借助DFT技術(shù)實(shí)現(xiàn)競爭力最大化
利用NVIDIA Aerial平臺(tái)推動(dòng)AI-RAN與6G研究
英偉達(dá)GTC2025亮點(diǎn):NVIDIA、Alphabet 和谷歌攜手開啟代理式與物理AI的未來

EE-19:最大化DSP-21xx系列DSP(不包括ADSP-218x)的引導(dǎo)內(nèi)存效率

EE-365:在ADSP-CM40x混合信號(hào)控制處理器上實(shí)現(xiàn)ADC采樣速率最大化

谷歌加速AI部門整合:AI Studio團(tuán)隊(duì)并入DeepMind
光伏發(fā)電如何實(shí)現(xiàn)能效最大化
NVIDIA與谷歌量子AI部門達(dá)成合作

KM振動(dòng)分析與動(dòng)平衡服務(wù)實(shí)現(xiàn)工廠設(shè)備效率最大化
擴(kuò)展塢使用技巧:如何最大化你的筆記本電腦接口能力
液冷充電槍線最大化提高充電效率
谷歌Vertex AI助力企業(yè)生成式AI應(yīng)用
智慧城市管理系統(tǒng):引領(lǐng)未來城市發(fā)展的創(chuàng)新力量

谷歌DeepMind被曝抄襲開源成果,論文還中了頂流會(huì)議

評(píng)論