【導(dǎo)語(yǔ)】近幾年,AI繪畫成為大家關(guān)注的熱點(diǎn)話題,從最初的簡(jiǎn)筆畫,到動(dòng)漫風(fēng)格的繪畫,再到真實(shí)人臉的生成…… AI 畫家的飛速成長(zhǎng),似乎標(biāo)志著一個(gè)繪畫界新星的冉冉升起。AI 到底是如何學(xué)會(huì)繪畫的?在本文中,營(yíng)長(zhǎng)梳理了 AI 繪畫的成長(zhǎng)史,帶大家一同走近這位新晉畫家。
作為計(jì)算機(jī)視覺(jué)的熱點(diǎn)探討問(wèn)題之一,AI繪畫技術(shù)在近幾年得到了飛速發(fā)展,相關(guān)模型和應(yīng)用不斷引起人們的熱烈討論。如此前營(yíng)長(zhǎng)為大家報(bào)道的:吸貓人群的福音:貓臉生成器,賣出 43.2 萬(wàn)美元的AI畫作,變身神筆馬良神器,使用重構(gòu)網(wǎng)絡(luò)拯救“老婆”畫作,AI學(xué)會(huì)圖像風(fēng)格遷移大法、英偉達(dá)新型GAN,可使豹子秒變沙皮狗等等。
幾年前,AI 還只會(huì)像小孩子一樣畫出一些簡(jiǎn)單的簡(jiǎn)筆畫,而如今,AI 已經(jīng)能夠畫出逼真的人臉,甚至讓人類都難以分辨真假。那么,這位繪畫界的新星到底是如何飛速成長(zhǎng)起來(lái)的?AI 都學(xué)會(huì)了哪些繪畫方法?今天,營(yíng)長(zhǎng)就帶大家一同走近這個(gè)神秘的畫家,探秘 AI 繪畫的成長(zhǎng)之路。
AI 繪畫的出現(xiàn)
Google 上關(guān)于“AI painting”一詞的檢索熱度變化(2004-2019)
AI 繪畫實(shí)際上并不是近幾年才出現(xiàn)的新詞語(yǔ)。從 Google 趨勢(shì)提供的搜索指數(shù)來(lái)看,2004 年至 2007 年期間,“AI painting”就已經(jīng)成為檢索熱詞;2008年之后,檢索熱度開(kāi)始下降并進(jìn)入平緩期;直到 2017 年 5 月, AI 繪畫再一次成為大眾的關(guān)注熱點(diǎn)。
從廣義上來(lái)講,AI 繪畫早在上個(gè)世紀(jì)就已經(jīng)出現(xiàn)了。1973年,Harold Cohen 就已經(jīng)開(kāi)始嘗試和電腦程序 “AARON” 攜手進(jìn)行繪畫創(chuàng)作。與當(dāng)下 AI 繪畫不同之處在于,ARRON 使用機(jī)械手臂在畫布上進(jìn)行繪畫,而非數(shù)字繪圖。進(jìn)入 20 世紀(jì) 80 年代,ARRON 學(xué)會(huì)了對(duì)三維空間物體的繪畫表現(xiàn)方法;90 年代,它學(xué)會(huì)了使用多種顏色進(jìn)行繪畫。ARRON 已經(jīng)繪制出了很多不同的作品,直到今天,它仍在進(jìn)行創(chuàng)作。
圖:ARRON 在 1992 年創(chuàng)作的一副繪畫作品
參考鏈接:https://newatlas.com/creative-ai-algorithmic-art-painting-fool-aaron/36106/
從 python 語(yǔ)言逐漸流行開(kāi)始,一個(gè)名為 “turtle” 的繪圖庫(kù)逐漸進(jìn)入人們的視線。turtle 繪圖庫(kù)的概念最初來(lái)自 Wally Feurzig 和 Seymour Papert 于 1966 年所創(chuàng)造的 Logo 編程語(yǔ)言,通過(guò)編寫程序,這個(gè)庫(kù)也能夠幫助我們進(jìn)行一些圖像的繪畫。
我們現(xiàn)在所說(shuō)的 AI 繪畫,實(shí)際更多指代的是基于機(jī)器學(xué)習(xí)模型進(jìn)行自動(dòng)數(shù)字繪圖的計(jì)算機(jī)程序。這類繪畫方式的發(fā)展要稍晚一些。2012 年,吳恩達(dá)和 Jeff Dean 使用 Google Brain 的 1.6 萬(wàn)個(gè) CPU 訓(xùn)練了一個(gè)大型神經(jīng)網(wǎng)絡(luò),用于生成貓臉圖片。在當(dāng)時(shí)的訓(xùn)練中,他們使用了 1000 萬(wàn)個(gè)來(lái)自 Yotube 視頻中的貓臉圖片,模型訓(xùn)練用了整整三天。最終得到的模型,也只能生成一個(gè)非常模糊的貓臉。
與現(xiàn)在的模型相比,這個(gè)模型的訓(xùn)練幾乎毫無(wú)效率可言。但對(duì)于計(jì)算機(jī)視覺(jué)領(lǐng)域而言,這次嘗試開(kāi)啟了一個(gè)新的研究方向,也就是我們目前所討論的 AI 繪畫。
AI 學(xué)習(xí)繪畫的挑戰(zhàn)
對(duì)于機(jī)器學(xué)習(xí)模型而言,讓 AI 學(xué)會(huì)繪畫的過(guò)程就是一個(gè)模型的構(gòu)建和參數(shù)訓(xùn)練過(guò)程。在模型訓(xùn)練中,每一副圖畫都使用一個(gè)大小為 mxn 的像素點(diǎn)矩陣表示,對(duì)于彩色圖畫,每個(gè)像素點(diǎn)都由 RGB(red、green、blue)三個(gè)顏色通道組成。要讓計(jì)算機(jī)學(xué)會(huì)繪畫,就相當(dāng)于訓(xùn)練一個(gè)可以逐個(gè)產(chǎn)生像素的機(jī)器學(xué)習(xí)模型。
這聽(tīng)起來(lái)或許很簡(jiǎn)單,但實(shí)際上,這一過(guò)程并沒(méi)有我們想象得那么容易。在一篇論文《Learning to Paint with Model-based Deep Reinforcement Learning》中,提到了訓(xùn)練 AI 學(xué)習(xí)繪畫的三個(gè)挑戰(zhàn),包括:
模型需要訓(xùn)練的參數(shù)集合非常龐大。繪畫中的每一筆都涉及位置、形狀、顏色等多個(gè)方面的參數(shù)確定,對(duì)于機(jī)器學(xué)習(xí)模型來(lái)說(shuō),這將產(chǎn)生一個(gè)非常龐大的參數(shù)集合;
筆畫之間關(guān)系的確定,會(huì)導(dǎo)致更加復(fù)雜的計(jì)算。一副紋理豐富自然的畫作往往由很多筆畫完成。如何對(duì)筆畫進(jìn)行組合、確定筆畫間的覆蓋關(guān)系,將是一個(gè)很重要的問(wèn)題;
難以將 AI 接入一個(gè)現(xiàn)有的繪畫軟件。畫作的渲染等操作將導(dǎo)致非常高昂的數(shù)據(jù)獲取代價(jià)。
另外,如果希望 AI 除了模仿已有畫作的內(nèi)容和風(fēng)格以外,還能夠自創(chuàng)風(fēng)格,模型訓(xùn)練的難度會(huì)進(jìn)一步加大。一個(gè)原因在于,“創(chuàng)造”是一個(gè)非常抽象的概念,使用模型來(lái)表達(dá)比較困難;另外,訓(xùn)練數(shù)據(jù)的內(nèi)容和風(fēng)格終究是有限的。在上文提到的 ARRON 經(jīng)過(guò)40余年的學(xué)習(xí),仍沒(méi)能夠跳脫出其最初使用的色彩艷麗的抽象派風(fēng)格,而這正是 Harold Cohen 本人的繪畫風(fēng)格。
《Learning to Paint with Model-based Deep Reinforcement Learning》
論文地址:https://arxiv.org/abs/1903.04411
AI 繪畫的初步發(fā)展:學(xué)習(xí)圖片生成方式,嘗試簡(jiǎn)筆畫
在吳恩達(dá)的貓臉生成模型之后,學(xué)界對(duì) AI 繪畫進(jìn)行了很多探索。最初的圖像生成模型為Ian J. Goodfellow 在 2014 年提出的對(duì)抗生成網(wǎng)絡(luò)(Generative Adverserial Network, GAN),這一模型也成為了很多 AI 繪圖模型的基礎(chǔ)。 GAN 包括兩個(gè)部分:生成器(generator)和判別器(discriminator),其中生成器用于圖片的生成,判別器來(lái)判斷圖片為真或假。這種方法對(duì)圖像生成領(lǐng)域做出了極大貢獻(xiàn)。
《Generative Adverserial Nets》
論文地址:http://www.cs.cmu.edu/~jeanoh/16-785/papers/goodfellow-nips2014-gans.pdf
但是使用 GAN 生成的圖片存在兩個(gè)比較明顯的問(wèn)題。一是缺少控制能力。如果向 GAN 中輸入一個(gè)隨機(jī)噪聲,就會(huì)產(chǎn)生一副隨機(jī)圖像,而對(duì)于 AI 繪畫而言,圖像的產(chǎn)生過(guò)程應(yīng)當(dāng)是可控的。二是分辨率和質(zhì)量較低。使用基礎(chǔ)的 GAN 網(wǎng)絡(luò)生成的很多圖像的分辨率較低。
針對(duì)于低分辨率的問(wèn)題,2016 年 9 月,Christian Ledig 等人提出了 SRGAN 模型,該模型首次使用 GAN 網(wǎng)絡(luò)的架構(gòu)生成了高分辨率的真實(shí)圖片。通過(guò)將 GAN 的損失函數(shù)替換為感知損失和對(duì)抗損失,模型取得了較好的生成效果。
《Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network》
論文地址:https://arxiv.org/abs/1609.04802
2016 年 12 月,Ian Goodfellow 在 NIPS 上介紹了一個(gè)使用 GAN 能夠產(chǎn)生動(dòng)物圖片的模型。這些圖片的風(fēng)格看起來(lái)比較逼真,但是由于圖片結(jié)構(gòu)生成的不連續(xù)問(wèn)題,有時(shí)會(huì)產(chǎn)生一些不合常理的內(nèi)容,如:長(zhǎng)了三只眼睛的貓,或者有好幾個(gè)頭的狗。
NIPS 2016 Tutoral
論文地址:https://arxiv.org/abs/1701.00160
圖:Ian Goodfellow 使用 GAN 模型生成的圖片,看起來(lái)有點(diǎn)驚悚
上述研究在學(xué)界引起了廣泛討論,但大眾真正開(kāi)始了解 AI 繪畫,要推遲到 2017 年 4 月 Google 提出 Sketch-RNN 模型的時(shí)候。Sketch-RNN 基于 Seq2Seq 模型構(gòu)建,并使用了變分推理方法,模型的訓(xùn)練使用了一個(gè)包含幾百個(gè)種類的上千張手繪簡(jiǎn)筆畫圖片。通過(guò)訓(xùn)練,模型能夠繪制一些簡(jiǎn)筆畫。Google 在論文《A Neural Representation of Sketch Drawings》中對(duì)這一模型進(jìn)行了詳細(xì)介紹,并在之后開(kāi)源了相關(guān)代碼。
Sketch-RNN 模型得到了人們的廣泛關(guān)注,一些開(kāi)發(fā)者還基于該模型開(kāi)發(fā)了一些有趣的應(yīng)用。其中一個(gè)在線應(yīng)用叫做 “Draw Together with a Neural Network” ,人們可以用鼠標(biāo)隨意畫一個(gè)圖形,并選擇一個(gè)希望生成的圖形類別,該網(wǎng)站便能以多種方式自動(dòng)幫你補(bǔ)充完整個(gè)圖形。例如,選擇繪畫類別為 “flower”,效果如下面的動(dòng)圖所示:
圖: “Draw Together with a Neural Network” 的一個(gè)使用示例
《A Neural Representation of Sketch Drawings》
論文地址:https://arxiv.org/abs/1704.03477
“Draw Together with a Neural Network”
項(xiàng)目地址:https://magenta.tensorflow.org/sketch-rnn-demo
此后,研究人員對(duì)簡(jiǎn)筆畫的繪制也在不斷探究。2018 年的 BMVC (The British Machine Vision Conference,英國(guó)計(jì)算機(jī)視覺(jué)會(huì)議)上,Tao Zhou 等人提交了一篇名為《Learning to Doodle with Deep Q-Networks and Demonstrated Strokes》的論文,該論文基于強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)中的 Q-Learning 方法構(gòu)建了一個(gè)機(jī)器學(xué)習(xí)模型,模型對(duì)于涂鴉類和水彩類繪畫都能產(chǎn)生較好的輸出。
《Learning to Doodle with Deep Q-Networks and Demonstrated Strokes》
論文地址:https://arxiv.org/abs/1810.05977
AI 繪畫的進(jìn)一步發(fā)展:學(xué)習(xí)更加復(fù)雜的繪畫方法
在 Sketch-RNN 模型之后,大量的 AI 繪畫模型不斷涌現(xiàn)。
2017 年 7 月, Facebook 在《CAN: Creative Adversarial Networks, Generating "Art" by Learning About Styles and Deviating from Style Norms》中提出了創(chuàng)造性對(duì)抗網(wǎng)絡(luò)(Creative Adversarial Networks, CAN)模型,嘗試使 AI 繪制風(fēng)格和圖片類型更加多樣的圖畫。
與傳統(tǒng)的 GAN 結(jié)構(gòu)一樣, CAN 也包含生成器和鑒別器兩個(gè)部分。不同之處在于, CAN 在 GAN 的損失函數(shù)的基礎(chǔ)上加入了繪畫的時(shí)間信息,因此在進(jìn)行學(xué)習(xí)后,可以讓模型產(chǎn)生與某一時(shí)間階段風(fēng)格不同的畫作。在人工評(píng)測(cè)中,人們認(rèn)為 CAN 模型的繪畫和人類藝術(shù)家繪畫的創(chuàng)意性不相上下。盡管創(chuàng)意性是一個(gè)比較主觀的評(píng)價(jià)指標(biāo),這仍是 AI 學(xué)習(xí)繪畫的重要一步。
圖:基于 CAN 模型生成的繪畫
《CAN: Creative Adversarial Networks, Generating "Art" by Learning About Styles and Deviating from Style Norms》
論文地址:https://arxiv.org/abs/1706.07068
2018 年 4 月, DeepMind 提出了一個(gè)名為 “SPIRAL” 的智能體,該智能體使用的模型基于強(qiáng)化對(duì)抗學(xué)習(xí)(Reinforced Adversarial Learning, RAL)方法構(gòu)建,并能夠與計(jì)算機(jī)繪圖程序協(xié)作進(jìn)行繪畫。該模型的基本架構(gòu)類似于強(qiáng)化學(xué)習(xí),但這一模型使用了一個(gè)判別器來(lái)決定基于模型輸出的獎(jiǎng)勵(lì),當(dāng)判別器越難判斷輸出圖片的繪制者是人還是計(jì)算機(jī),基于模型的獎(jiǎng)勵(lì)越高。不同于以往的圖片生成模型,論文中的模型可以使用未標(biāo)注的圖片集進(jìn)行訓(xùn)練,極大降低了獲取數(shù)據(jù)的成本,并提升了模型對(duì)圖片細(xì)節(jié)的學(xué)習(xí)效果。
《Synthesizing Programs for Images using Reinforced Adversarial Learning》
論文地址:https://arxiv.org/abs/1804.01118
2019 年 3 月,曠視科技訓(xùn)練了一個(gè)名為“LearningToPaint” 的繪畫 AI ,其使用的基準(zhǔn)算法為深度確定策略梯度算法(DDPG)。該算法基于策略梯度算法和值函數(shù)構(gòu)建,并使用了演員-評(píng)論家(actor-critic)框架。為加快模型訓(xùn)練速度,他們將這一方法接入到了強(qiáng)化學(xué)習(xí)模型中,用以輔助模型訓(xùn)練。相較于之前的模型,該方法能夠適用于更加廣泛的數(shù)據(jù)集,只需修改模型繪畫時(shí)的最大筆畫數(shù)即可。
《Learning to Paint with Model-based Deep Reinforcement Learning》
論文地址:https://arxiv.org/abs/1903.04411
盡管 AI 繪畫已經(jīng)得到了很多成長(zhǎng),在未來(lái)的研究中,如何使模型更具創(chuàng)造性、如何提高圖片質(zhì)量效果、如何發(fā)掘更多有趣有價(jià)值的應(yīng)用,還是留待討論的問(wèn)題。
總結(jié)
在上文中,我們簡(jiǎn)要回顧了 AI 繪畫的發(fā)展史,簡(jiǎn)單總結(jié)如下:
AI 繪畫概念的提出:廣義上的 AI 繪畫并不是一個(gè)新的名詞,早在上個(gè)世紀(jì)80年代就已經(jīng)出現(xiàn)了相關(guān)討論,在21世紀(jì)初還曾是一個(gè)熱點(diǎn)關(guān)注問(wèn)題。從狹義上來(lái)講, AI 繪畫指的是基于機(jī)器學(xué)習(xí)模型進(jìn)行自動(dòng)數(shù)字繪圖的繪畫方式。自2012年吳恩達(dá)和 Jeff Dean 的貓臉生成模型開(kāi)始, AI 繪畫得到了迅速發(fā)展。
AI 繪畫存在的挑戰(zhàn):包括參數(shù)量龐大、計(jì)算復(fù)雜、和現(xiàn)有繪圖工具協(xié)作困難、難以生成具有創(chuàng)造性的圖片。
AI 繪畫的發(fā)展歷程:在發(fā)展最初,主要使用2014年提出的生成對(duì)抗網(wǎng)絡(luò)模型(GAN)進(jìn)行圖片生成。在此之后,很多研究對(duì) AI 繪畫模型都進(jìn)行了探索,比較具有代表性的模型和應(yīng)用包括 Google 提出的 Sketch-RNN 模型, Facebook 提出的 CAN 模型, DeepMind 搭建的 SPIRAL 智能體等。
最近幾年, AI 繪畫的成長(zhǎng)速度是驚人的。未來(lái),這位新晉畫家還會(huì)為我們帶來(lái)怎樣的驚喜?讓我們拭目以待。
-
AI
+關(guān)注
關(guān)注
88文章
34752瀏覽量
276868 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134310 -
機(jī)械手臂
+關(guān)注
關(guān)注
2文章
102瀏覽量
42117
原文標(biāo)題:一文回顧AI繪畫的成長(zhǎng)之路:從簡(jiǎn)筆畫到真實(shí)人臉生成
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
一個(gè)對(duì)于足球的狂熱者的成長(zhǎng)史
EDA版塊和你一起成長(zhǎng)
【514創(chuàng)新實(shí)驗(yàn)室】WaterColor智能畫家
德信成長(zhǎng)史:模擬IC公司如何擺脫同質(zhì)化
藍(lán)牙耳機(jī)的成長(zhǎng)史回顧,你更喜歡哪一款呢?
深度學(xué)習(xí)的成長(zhǎng)史和背后算法細(xì)節(jié)
一位軟件工程師的成長(zhǎng)史
訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)通過(guò)繪畫3D地形識(shí)別畫家
基于深度學(xué)習(xí)的AI繪畫為何突然一下子火了?

AI繪畫爆火,它值得投資嗎?
爆火的AI繪畫為何會(huì)畫出六根手指?
誰(shuí)能拒絕一個(gè)內(nèi)置AI繪畫的思維導(dǎo)圖軟件?

評(píng)論