傳統(tǒng)機(jī)器學(xué)習(xí)正在凸顯它的不足。為了解決此問題,伯克利大學(xué)人工智能實(shí)驗(yàn)室教授繼2017年提出元學(xué)習(xí)后,又提出在線元學(xué)習(xí)。不僅可以解決傳統(tǒng)學(xué)習(xí)的不足,同時(shí)也彌補(bǔ)了元學(xué)習(xí)缺乏持續(xù)學(xué)習(xí)的缺陷。
傳統(tǒng)的機(jī)器學(xué)習(xí)研究模式需要獲取特定任務(wù)的大型數(shù)據(jù)集,然后利用這個(gè)數(shù)據(jù)集從頭開始訓(xùn)練模型。面對數(shù)據(jù)量不足的新任務(wù)時(shí),這種方式顯然無法勝任。
如何使神經(jīng)網(wǎng)絡(luò)不僅能夠從一個(gè)學(xué)習(xí)任務(wù),概括到另一個(gè)學(xué)習(xí)任務(wù)?而且隨著時(shí)間的推移,不斷提高通用新任務(wù)的概括能力?
解決上述問題的新理論:在線元學(xué)習(xí)
最近,伯克利大學(xué)人工智能實(shí)驗(yàn)室,Sergey Levine教授和同事切爾西·芬恩博士、領(lǐng)先的機(jī)器學(xué)習(xí)理論專家Sham Kakade及其學(xué)生、華盛頓大學(xué)的Aravind Rajeswaran,進(jìn)行了一些非常有趣的工作。
Levine教授多年來一直致力于將機(jī)器人技術(shù),更多地轉(zhuǎn)向一種綜合“學(xué)習(xí)”方法:即讓機(jī)器人或智能體,學(xué)會(huì)“學(xué)習(xí)”(Learning to learn),即“元學(xué)習(xí)”。
元學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)在某種意義上是對某些任務(wù)進(jìn)行預(yù)先訓(xùn)練的,然后允許它實(shí)現(xiàn)一種技能轉(zhuǎn)移,使用新的、不同于訓(xùn)練好的數(shù)據(jù)進(jìn)行測試。此舉的目標(biāo),是訓(xùn)練計(jì)算機(jī)能夠處理前所未有的新任務(wù)。
要完成我們開頭描述的新挑戰(zhàn),需要將所需的數(shù)據(jù)量盡可能的減少,以應(yīng)對神經(jīng)網(wǎng)絡(luò)面臨的一些新任務(wù),例如可能沒有大量可用的訓(xùn)練數(shù)據(jù),或者沒有大量已標(biāo)記的訓(xùn)練數(shù)據(jù)。
在arXiv的一篇“在線元學(xué)習(xí)”論文中,作者描述了實(shí)現(xiàn)的可能性。(鏈接地址在文末)。與在線元學(xué)習(xí)并行的是,計(jì)算機(jī)正在學(xué)習(xí)如何及時(shí)擴(kuò)展其對實(shí)例的理解,從某種意義上提高其理解能力。
此項(xiàng)研究已經(jīng)與Levine的其他工作相呼應(yīng),例如哪些更接近機(jī)器人技術(shù)本身的成果。
了解在線元學(xué)習(xí)
在線元學(xué)習(xí)的誕生之前,Levine和他的團(tuán)隊(duì)在2017年開發(fā)了一個(gè)廣泛的系統(tǒng),稱為“模型無關(guān)的元學(xué)習(xí)(MAML)”。
這種方法可以匹配任何使用梯度下降算法訓(xùn)練的模型,并能應(yīng)用于各種不同的學(xué)習(xí)問題,如分類、回歸和強(qiáng)化學(xué)習(xí)等。
但MAML有一個(gè)弱點(diǎn):它的概括能力在初始預(yù)訓(xùn)練后基本停止,隨著時(shí)間的推移,失去了適應(yīng)能力。
為了解決這個(gè)問題,作者借鑒了另一條長長的研究線索:在線學(xué)習(xí)。
在線學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)通過比較每個(gè)新任務(wù)的參數(shù)中,不同的可能設(shè)置之間的差別,來進(jìn)行不斷優(yōu)化。
該神經(jīng)網(wǎng)絡(luò)尋求以這種方式找到其參數(shù)的解決方案,將任務(wù)的實(shí)際性能與最佳性能之間的差異,即最小化“regret”。
作者提出了“follow the meta-leader”算法,這是一個(gè)將“元學(xué)習(xí)”這個(gè)術(shù)語與最成功的“在線學(xué)習(xí)”算法相結(jié)合的詞匯。
值得一提的是,“follow the leader”的,最早是在20世紀(jì)50年代,Jim Hannan為博弈論領(lǐng)域。
智能體被賦予一系列任務(wù),這些任務(wù)在一輪又一輪不斷的進(jìn)行。例如經(jīng)典MNIST數(shù)據(jù)集中的數(shù)字圖像,或者對場景中的對象執(zhí)行“姿勢預(yù)測”,或?qū)ξ矬w進(jìn)行分類。
每輪結(jié)束之后,智能體試圖通過fine-tune,使得其隨時(shí)間發(fā)展的權(quán)重或參數(shù),達(dá)成regret最小化的目的。
而所有這一切都通過經(jīng)典的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法,隨機(jī)梯度下降來實(shí)現(xiàn)。作者將這些任務(wù)與先前的方法相比后,展示了了一些令人印象深刻的基準(zhǔn)測試結(jié)果。
在線元學(xué)習(xí)的缺陷
論文最后得出的觀點(diǎn)是:這種方法在某種意義上說,是站在一種更偏自然過程的角度,來實(shí)現(xiàn)理想的現(xiàn)實(shí)世界學(xué)習(xí)過程,因?yàn)樗芭c不斷變化的環(huán)境相互作用的智能體”。
正如作者提到,這個(gè)事實(shí)“應(yīng)該利用流算法的經(jīng)驗(yàn)來掌握手頭的任務(wù),并且在未來學(xué)習(xí)新任務(wù)時(shí)變得更加熟練。”
但是,萬事都不是完美的。在線元學(xué)習(xí)也有一些弱項(xiàng),算力就是一個(gè)非常典型的例子。
將來需要進(jìn)行一些改進(jìn)以維護(hù)過去任務(wù)的數(shù)據(jù),從而得出一些使用“更便宜算力”的算法。
可擴(kuò)展性也是一個(gè)非常大的問題。作者說雖然這種方法可以有效地按順序,學(xué)習(xí)近100項(xiàng)任務(wù)而不會(huì)對計(jì)算或內(nèi)存造成重大負(fù)擔(dān),但可擴(kuò)展性仍然是一個(gè)問題。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4812瀏覽量
103211 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134330
原文標(biāo)題:在線元學(xué)習(xí):通過持續(xù)元學(xué)習(xí)解決傳統(tǒng)機(jī)器學(xué)習(xí)方式的致命不足
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門
如何區(qū)分深度學(xué)習(xí)與機(jī)器學(xué)習(xí)

通過Python就能讀懂機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法流程
機(jī)器學(xué)習(xí)領(lǐng)域?qū)⑺惴ò凑?b class='flag-5'>學(xué)習(xí)方式分類進(jìn)行問題解決
聯(lián)合學(xué)習(xí)在傳統(tǒng)機(jī)器學(xué)習(xí)方法中的應(yīng)用

機(jī)器學(xué)習(xí)可以分為哪幾類?機(jī)器學(xué)習(xí)技術(shù)有哪些?
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別
機(jī)器學(xué)習(xí)算法匯總 機(jī)器學(xué)習(xí)算法分類 機(jī)器學(xué)習(xí)算法模型
機(jī)器學(xué)習(xí)算法總結(jié) 機(jī)器學(xué)習(xí)算法是什么 機(jī)器學(xué)習(xí)算法優(yōu)缺點(diǎn)
機(jī)器學(xué)習(xí)有哪些算法?機(jī)器學(xué)習(xí)分類算法有哪些?機(jī)器學(xué)習(xí)預(yù)判有哪些算法?
深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比
AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別
什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

評(píng)論