本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機(jī)交互團(tuán)隊(duì)在視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)領(lǐng)域的最新工作。該工作構(gòu)建了 VLN 中首個(gè)帶有高質(zhì)量實(shí)體-標(biāo)志物對(duì)齊標(biāo)注的數(shù)據(jù)集,并提出實(shí)體-標(biāo)志物對(duì)齊的自適應(yīng)預(yù)訓(xùn)練方法,從而顯著提高了智能體的導(dǎo)航性能。
ICCV 是“計(jì)算機(jī)視覺三大頂級(jí)會(huì)議”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行,本屆會(huì)議共收到全球 8260 篇論文投稿,2161 篇被接收,接收率為 26.16%,其中 152 篇論文被選為口頭報(bào)告展示(Oral Presentation),Oral 接收率僅為 1.8%。
論文題目:
Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation
論文地址:
https://arxiv.org/abs/2308.12587開源數(shù)據(jù)集:
https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7代碼地址:
https://github.com/csir1996/vln-gela

引言
視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)任務(wù)旨在構(gòu)建一種能夠用自然語言與人類交流并在真實(shí) 3D 環(huán)境中自主導(dǎo)航的具身智能體。自提出以來,VLN 越來越受到計(jì)算機(jī)視覺、自然語言處理和機(jī)器人等領(lǐng)域的廣泛關(guān)注。 如圖 1 所示,將自然語言指令中提過的標(biāo)志物(物體或者場(chǎng)景)對(duì)應(yīng)到環(huán)境中能夠極大的幫助智能體理解環(huán)境和指令,由此跨模態(tài)對(duì)齊是 VLN 中的關(guān)鍵步驟。然而,大多數(shù)可用的數(shù)據(jù)集只能提供粗粒度的文本-圖像對(duì)齊信號(hào),比如整條指令與整條軌跡的對(duì)應(yīng)或者子指令與子路徑之間的對(duì)應(yīng),而跨模態(tài)對(duì)齊監(jiān)督也都停留在句子級(jí)別(sentence-level)。因此,VLN 需要更細(xì)粒度(entity-level)的跨模態(tài)對(duì)齊數(shù)據(jù)和監(jiān)督方法以促進(jìn)智能體更準(zhǔn)確地導(dǎo)航。
為解決以上問題,我們提出了一種面向 VLN 的實(shí)體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練方法,主要工作與貢獻(xiàn)如下:
1. 我們基于 Room-to-Room(R2R)數(shù)據(jù)集 [1] 標(biāo)注實(shí)體-標(biāo)志物對(duì)齊,構(gòu)建了第一個(gè)帶有高質(zhì)量實(shí)體-標(biāo)志物對(duì)齊標(biāo)注的 VLN 數(shù)據(jù)集,命名為 GEL-R2R;
2. 我們提出一種實(shí)體-標(biāo)志物自適應(yīng)預(yù)訓(xùn)練 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 數(shù)據(jù)集顯式監(jiān)督 VLN 模型學(xué)習(xí)實(shí)體名詞和環(huán)境標(biāo)志物之間的細(xì)粒度跨模態(tài)對(duì)齊;
3. 我們構(gòu)建的 GELA 模型在兩個(gè) VLN 下游任務(wù)上取得了最佳的導(dǎo)航性能,證明了我們數(shù)據(jù)集和方法的有效性和泛化性。

GEL-R2R數(shù)據(jù)集
為了建立指令中實(shí)體短語與其周圍環(huán)境中相應(yīng)標(biāo)志物之間的對(duì)齊,我們?cè)?R2R 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了實(shí)體-標(biāo)志物對(duì)齊的人工標(biāo)注,整個(gè)流程包括五個(gè)階段:
1. 原始數(shù)據(jù)準(zhǔn)備。我們從 Matterport3D 模擬器中采集每個(gè)可導(dǎo)航點(diǎn)的全景圖。為了提高標(biāo)注的效率和準(zhǔn)確性,我們?cè)谌皥D中標(biāo)注下一個(gè)動(dòng)作方向,并根據(jù) FG-R2R 數(shù)據(jù)集 [2] 將每個(gè)全景圖與相應(yīng)的子指令進(jìn)行對(duì)應(yīng);
2. 標(biāo)注工具開發(fā)。我們基于 Label-Studio 開發(fā)了一個(gè)跨模態(tài)標(biāo)注平臺(tái),如圖 2 所示;
3. 標(biāo)注指南建立。為確保標(biāo)注的一致性,我們經(jīng)過預(yù)標(biāo)注之后建立了四個(gè)準(zhǔn)則來標(biāo)準(zhǔn)化標(biāo)注指南:
-
對(duì)齊準(zhǔn)則:指令中的實(shí)體短語應(yīng)與全景圖中的標(biāo)志物準(zhǔn)確匹配
-
自由文本準(zhǔn)則:標(biāo)注自由文本而不是類別
-
文本共指準(zhǔn)則:指代相同標(biāo)志物的實(shí)體短語用相同的標(biāo)簽標(biāo)注
-
唯一標(biāo)志物準(zhǔn)則:對(duì)于一個(gè)實(shí)體短語,在全景圖中只應(yīng)標(biāo)注一個(gè)對(duì)應(yīng)的標(biāo)志物
4. 數(shù)據(jù)標(biāo)注與修訂;
5. 數(shù)據(jù)整合與處理。


GELA方法

如圖 4 所示,方法流程分為三個(gè)階段:預(yù)訓(xùn)練(pre-training)、自適應(yīng)預(yù)訓(xùn)練(adaptive pre-training)和微調(diào)(fine-tuning)。我們直接在預(yù)訓(xùn)練模型 HAMT [3] 的基礎(chǔ)上進(jìn)行自適應(yīng)預(yù)訓(xùn)練,HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態(tài)編碼器構(gòu)成。我們將跨模態(tài)編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們?cè)O(shè)計(jì)了三種自適應(yīng)預(yù)訓(xùn)練任務(wù):
1. 實(shí)體短語預(yù)測(cè)。在這個(gè)任務(wù)中,我們通過標(biāo)注的環(huán)境標(biāo)志物預(yù)測(cè)其對(duì)應(yīng)的實(shí)體短語在指令中的位置。首先將人工標(biāo)注的實(shí)體位置轉(zhuǎn)化為 L+1 維的掩碼向量 (與 維度相同),并將人工標(biāo)注的標(biāo)志物邊界框轉(zhuǎn)化為 37 維的掩碼向量 (與 維度相同)。然后,我們將標(biāo)志物圖像 patch 的特征平均化,并將其輸入一個(gè)兩層前饋網(wǎng)絡(luò)(Feedforward Network, FFN)中,預(yù)測(cè)指令序列中 token 位置的概率分布,用掩碼向量 作監(jiān)督,具體損失函數(shù)為:


實(shí)驗(yàn)結(jié)果
如圖 5 所示,GELA 模型在 R2R 數(shù)據(jù)集上與先前 SOTA 模型的性能進(jìn)行比較。GELA 模型在所有子集上的主要指標(biāo)(SR 和 SPL)均優(yōu)于所有其他模型。具體地,在已知驗(yàn)證集上,GELA 的性能與 HAMT 模型相當(dāng),而在未知驗(yàn)證集和測(cè)試集上,GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知環(huán)境泛化能力,這主要是由于 GELA 模型在學(xué)習(xí)實(shí)體-標(biāo)志物對(duì)齊后,具有較強(qiáng)的語義特征捕捉能力。


參考文獻(xiàn)
[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.
[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.
[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.
·
原文標(biāo)題:ICCV 2023 | 面向視覺-語言導(dǎo)航的實(shí)體-標(biāo)志物對(duì)齊自適應(yīng)預(yù)訓(xùn)練方法
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2930文章
46116瀏覽量
390624
原文標(biāo)題:ICCV 2023 | 面向視覺-語言導(dǎo)航的實(shí)體-標(biāo)志物對(duì)齊自適應(yīng)預(yù)訓(xùn)練方法
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

GLAD應(yīng)用:大氣像差與自適應(yīng)光學(xué)
用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

騰訊公布大語言模型訓(xùn)練新專利
基于自適應(yīng)優(yōu)化的高速交叉矩陣設(shè)計(jì)
《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
基于視覺語言模型的導(dǎo)航框架VLMnav
LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別
AGV激光導(dǎo)航定位技術(shù)與構(gòu)建地圖

評(píng)論