編者按:今年國(guó)慶期間,論智介紹了當(dāng)時(shí)正處于ICLR 2019盲審階段的一篇論文:BigGAN。這是赫瑞-瓦特大學(xué)和DeepMind研究人員的合作成果,根據(jù)實(shí)驗(yàn)結(jié)果,他們把模型IS提高了一百多分——從52.52提升到了166.3——堪稱圖像生成領(lǐng)域的一個(gè)巨大進(jìn)展。但大家都知道,通常論文里呈現(xiàn)的圖像都是精品中的精品,媒體在宣傳時(shí)也會(huì)盡量美化甚至“神化”結(jié)果。那么BigGAN的效果真的有那么好嗎?
當(dāng)我第一次看到這些圖像時(shí),說(shuō)實(shí)話我很驚訝。不是因?yàn)閳D像本身潛藏著什么內(nèi)容,而是它們都是一個(gè)叫BigGAN的神經(jīng)網(wǎng)絡(luò)生成的,都是假的,我還從來(lái)沒(méi)見(jiàn)過(guò)這樣宛若照片的生成圖像。
上面這8幅圖截自BigGAN的論文:Large Scale GAN Training for High Fidelity Natural Image Synthesis(arXiv:1809.11096),感興趣的讀者可以去讀一讀。幾個(gè)月前,這篇論文在機(jī)器學(xué)習(xí)社區(qū)引起了巨大轟動(dòng),它不僅能生成512x512的高分辨率圖像,還在Inception標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中取得了歷史性的高分。人們?cè)隗@異于論文團(tuán)隊(duì)能支撐起的龐大處理能力(512 TPUv3)的同時(shí),也不由心生懷疑:BigGAN是不是作弊了?它是不是直接照搬的訓(xùn)練集圖像?
為此,不少研究人員去原始ImageNet檢驗(yàn)了自己的想法,然而他們最終得出的結(jié)論是:這些圖像確實(shí)都是BigGAN自己生成的。
雖然前人的做法已經(jīng)證實(shí)BigGAN是“誠(chéng)實(shí)”的,但如果我們?cè)佟案堋币幌拢粋€(gè)合理的懷疑是論文結(jié)果之所以令人印象深刻,一個(gè)原因是這都是精選后的圖像。就在幾天前,BigGAN放出了自己的TF Hub Demo,相信不少人已經(jīng)去體驗(yàn)過(guò)了,也發(fā)現(xiàn)這個(gè)問(wèn)題。模型在一些常見(jiàn)物品上的表現(xiàn)非常好,比如狗和簡(jiǎn)單風(fēng)景,因?yàn)樗鼈兺?huà)面單一、結(jié)構(gòu)簡(jiǎn)單,但在生成更復(fù)雜、更多樣的的人群上卻很糟糕。
那么BigGAN不完美的一面是什么樣的呢?下面是研究人員發(fā)布的一些生成圖像:
毫無(wú)疑問(wèn),這三幅圖展示的都是時(shí)鐘,但區(qū)別于現(xiàn)實(shí)中的實(shí)物,這些鐘更像人夢(mèng)里的場(chǎng)景:詭異的字母、多余的指針。負(fù)責(zé)任的說(shuō),這些是BigGAN生成圖像中的常見(jiàn)問(wèn)題,它不能學(xué)習(xí)數(shù)據(jù)集里的各種字母和字符,再加上GAN本身不提供計(jì)數(shù)功能,所以我們經(jīng)常能在里面發(fā)現(xiàn)有很多條腿的蜘蛛和眼睛長(zhǎng)太多的青蛙,有時(shí)還可以看到有兩個(gè)火車頭的火車。
至于人類……相比其他能生成多樣性圖像的GAN,BigGAN在生成人類圖像上其實(shí)已經(jīng)很不錯(cuò)了。但我們是人,很擅長(zhǎng)在這個(gè)物種的臉上、軀體上發(fā)現(xiàn)“丟失”部分,所以下面這些結(jié)果還是很令人頭疼。
因此,如果快速瀏覽BigGAN生成的一系列圖像,我們能從中發(fā)現(xiàn)不少圖具有詭異的美感。比如模型在生成下面幾幅景觀圖時(shí)都遵循了從數(shù)據(jù)集中學(xué)到的構(gòu)圖和光影,但當(dāng)這些來(lái)自不同樣本的素材雜糅到一起后,它們給人的感覺(jué)就成了既熟悉又奇怪。
當(dāng)它試圖“復(fù)制”各種人造設(shè)備(洗衣機(jī)?熔爐?)時(shí),圖像呈現(xiàn)的畫(huà)面又極具藝術(shù)氣息,仿佛電影中的一些夸張而富有韻味的過(guò)場(chǎng)鏡頭。
更有甚者,BigGAN還能模仿宏觀上的軟焦點(diǎn),即一種通過(guò)有意識(shí)降低鏡頭的清晰度,得到柔和的表現(xiàn)效果的攝影技巧。如下圖所示,我們看不清圖中的對(duì)象是什么,但它們都表現(xiàn)出了極強(qiáng)的繪畫(huà)感。
即便是最普通的東西,BigGAN仿佛成了一面濾鏡,把它們渲染得極具美感,令人難以忘懷。
這是藝術(shù)嗎?對(duì)于計(jì)算機(jī)視覺(jué)任務(wù)而言,這些充滿“想象力”的扭曲恰好是BigGAN的不足,畢竟它的目標(biāo)是生成極其逼真,同時(shí)盡可能多樣化的圖像。它并不是在創(chuàng)作,而只是在模型它看到的數(shù)據(jù)——ImageNet,一個(gè)巨大的用于訓(xùn)練各種圖像處理算法的通用數(shù)據(jù)集。
但是,我們也必需認(rèn)識(shí)到,研究人員在BigGAN的輸出里精挑細(xì)選的過(guò)程其實(shí)也是一種藝術(shù)行為,包括這篇文章本身。你可以用這種方法講述一個(gè)故事,或是制作一部令人難忘的美麗電影,這一切都取決于你收集的數(shù)據(jù)集以及選擇的輸出。未來(lái),像BigGAN這樣的算法將改變?nèi)祟愃囆g(shù)——不是取代人類藝術(shù)家,而是成為一個(gè)強(qiáng)大的新協(xié)作工具。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4812瀏覽量
103215 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25366
原文標(biāo)題:拆臺(tái)BigGan:“失敗”圖像生成集錦
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
低質(zhì)量圖像的生成與增強(qiáng)的區(qū)別 圖像生成領(lǐng)域中存在的難點(diǎn)

評(píng)論