如何去解決文本到圖像生成的跨模態對比損失問題？

Google提出了一個跨模態對比學習框架來訓練用于文本到圖像合成的 GAN 模型，用于研究解決生成的跨模態對比損失問題。

從文本到圖像的自動生成，如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像，是一項非常具有挑戰性的任務。

與其它指導圖像創建的輸入類型相比，描述性句子是一種更直觀、更靈活的視覺概念表達方式。強大的自動文本到圖像的生成系統可以成為快速、有效的內容生產、制作工具，用于更多具有創造性的應用當中。

在CVPR 2021中，Google提出了一個跨模態對比生成對抗網絡（XMC-GAN），訓練用于文本到圖像合成的 GAN 模型，通過模態間與模態內的對比學習使圖像和文本之間的互信息最大化，解決文本到圖像生成的跨模態對比損失問題。

XMC-GAN 文本到圖像合成模型中的模態間和模態內對比學習

XMC-GAN 被成功應用于三個具有挑戰性的數據集：一個是MS-COCO 圖像描述集合，另外兩個是用Localized Narratives注釋的數據集，一個是包括MS-COCO 圖像（稱為LN-COCO），另一個描述開放圖像數據（LN-OpenImages）。結果顯示 XMC-GAN生成圖像所描繪的場景相比于使用其它技術生成的圖像質量更高，在每個方面都達到了最先進的水平。

MS-COCO對圖像質量和文本對齊的人工評估

此外，XMC-GAN還在 LN-OpenImages 上進行了一系列訓練和評估，這相比于 MS-COCO 更具有挑戰性，由于數據集更大，圖像涵蓋主題范圍更加廣泛且復雜。

對于人類評估和定量指標，XMC-GAN 在多個數據集模型中相較之前有顯著的改進。可以生成與輸入描述非常匹配的高質量圖像，包括更長，更詳細的敘述，同時端到端模型的復雜度也相對較為簡單，這代表了從自然語言描述生成圖像的創造性應用的重大進步。

責任編輯：lq6

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像

圖像

+關注

關注
2

文章
1094

瀏覽量
41159
GaN

GaN

+關注

關注
19

文章
2191

瀏覽量
76549

原文標題：XMC-GAN：從文本到圖像的跨模態對比學習

文章出處：【微信號：livevideostack，微信公眾號：LiveVideoStack】歡迎添加關注！文章轉載請注明出處。

LiveVideoStack
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 什么是PWA？什么讓PWA如此強大？
Hot iOS Airplay Screen Mirroring 同屏技術詳解

New 關于轉碼系統優化原理與實踐
New Enhanced-RTMP協議如何支持H.265呢？

精選推薦
更多

文章

資料

帖子

RT-Thread BSP全面支持玄鐵全系列RISC-V 處理器 | 技術集結

RT-Thread官方賬號
8小時前

251 閱讀

閂鎖效應的形成原理和測試流程

上海季豐電子
10小時前

721 閱讀

芯火三十年：縱橫四海（2013-2021）

腦極體
10小時前

254 閱讀

深度解析芯片化學機械拋光技術

中科院半導體所
11小時前

312 閱讀

一文讀懂CAN XL協議

鼎陽科技
11小時前

287 閱讀

日本質管部門手冊要點

李麗
135

5積分

45下載

電子工程師私藏的44種電子自制原理圖

o_dream
2.56 MB

1積分

33下載

Apache RocketMQ MQTT協議架構模型

青sky
0.26 MB

免費

0下載

Nuclei快速漏洞掃描器

劉高
1.86 MB

2積分

1下載

RawGit基于Git的文件服務

楊靜
0.26 MB

2積分

1下載

【GM-3568JHF開發板免費體驗】視美泰GM-3568JHF開發板開箱測評報告

jf_43382582
1天前

129 閱讀

電子工程師自學成才手冊.提高篇

yuu_cool
1天前

148 閱讀

HarmonyOS NEXT應用元服務常見列表操作分組吸頂場景

李洋水蛟龍
1天前

166 閱讀

【HZ-RK3568開發板免費體驗】05 YOLOV5視頻推理 C++程序編譯&演示

jf_83922529
1天前

283 閱讀

【BPI-CanMV-K230D-Zero開發板體驗】04 I2C讀取BME280溫濕度氣壓數據

jf_83922529
2天前

291 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

搜索歷史

如何去解決文本到圖像生成的跨模態對比損失問題？

評論