計(jì)算機(jī)視覺深度學(xué)習(xí)的成功部分歸功于擁有大量帶標(biāo)記的訓(xùn)練數(shù)據(jù),因?yàn)槟P偷男阅芡ǔ?huì)隨著訓(xùn)練數(shù)據(jù)質(zhì)量、多樣性和數(shù)量的增加而相應(yīng)提高。然而,要收集足夠多的高質(zhì)量數(shù)據(jù)來(lái)訓(xùn)練模型以使其具有良好的性能,往往非常困難。要解決這一問題,一種方法是將圖像對(duì)稱性硬編碼到神經(jīng)網(wǎng)絡(luò)架構(gòu)中來(lái)提高性能,另一種是由專家手動(dòng)設(shè)計(jì)訓(xùn)練高性能視覺模型常用的數(shù)據(jù)增強(qiáng)方法,如旋轉(zhuǎn)和翻轉(zhuǎn)。不過,直到最近,人們還很少關(guān)注如何利用機(jī)器學(xué)習(xí)來(lái)自動(dòng)增強(qiáng)現(xiàn)有數(shù)據(jù)。我們此前推出了 AutoML,代替人為設(shè)計(jì)的系統(tǒng)組件,自動(dòng)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)和優(yōu)化器,取得了良好效果。受此啟發(fā),我們提出新的設(shè)想:數(shù)據(jù)增強(qiáng)過程是否也可以實(shí)現(xiàn)自動(dòng)化?
在 “AutoAugment:Learning Augmentation Policies from Data” 一文中,我們探索了一種增強(qiáng)學(xué)習(xí)算法,這種算法增加了現(xiàn)有訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)的數(shù)量和多樣性。直觀地說,數(shù)據(jù)增強(qiáng)用于教會(huì)模型有關(guān)數(shù)據(jù)域中的圖像不變性,讓神經(jīng)網(wǎng)絡(luò)對(duì)這些重要的對(duì)稱性保持不變,從而改善其性能。與以往使用手工設(shè)計(jì)的數(shù)據(jù)增強(qiáng)策略的先進(jìn)深度學(xué)習(xí)模型不同,我們使用增強(qiáng)學(xué)習(xí)從數(shù)據(jù)本身尋找最佳圖像變換策略,從而在不依賴于生成新的和不斷擴(kuò)展的數(shù)據(jù)集的情況下,提高了計(jì)算機(jī)視覺模型的性能。
增強(qiáng)訓(xùn)練數(shù)據(jù)
數(shù)據(jù)增強(qiáng)的思路很簡(jiǎn)單:圖像有許多對(duì)稱性,這些對(duì)稱性不會(huì)改變圖像中存在的信息。例如,狗的鏡面反射仍然是狗。雖然其中一些“不變性”對(duì)人類來(lái)說顯而易見,但有許多卻并非如此。例如,mixup 方法通過在訓(xùn)練期間將圖像彼此疊加來(lái)增強(qiáng)數(shù)據(jù),從而產(chǎn)生可改善神經(jīng)網(wǎng)絡(luò)性能的數(shù)據(jù)。
左圖:來(lái)自 ImageNet 數(shù)據(jù)集的原始圖像。右圖:同一圖像通過常用的數(shù)據(jù)增強(qiáng)變換(圍繞中心水平翻轉(zhuǎn))處理后。
AutoAugment 是為計(jì)算機(jī)視覺數(shù)據(jù)集設(shè)計(jì)自定義數(shù)據(jù)增強(qiáng)策略的一種自動(dòng)方式,例如,可指導(dǎo)基本圖像變換操作的選擇,如水平/垂直翻轉(zhuǎn)圖像、旋轉(zhuǎn)圖像和更改圖像顏色等。AutoAugment 不僅可以預(yù)測(cè)要組合的圖像變換,還可以預(yù)測(cè)每個(gè)圖像使用變換的概率和數(shù)量,以便確保圖像操作并不局限于一種方式。AutoAugment 能夠從具有 2.9 x 1032 種圖像變換可能性的搜索空間中選出最佳策略。
AutoAugment 根據(jù)所運(yùn)行的數(shù)據(jù)集學(xué)習(xí)不同的變換。例如,對(duì)于包含數(shù)字自然場(chǎng)景圖像的門牌號(hào)街景 (SVHN) 圖像,AutoAugment 側(cè)重于剪切和平移等幾何變換,這些操作表示在該數(shù)據(jù)集中通常觀察到的失真。此外,考慮到世界上不同樓號(hào)和門牌號(hào)材料的多樣性,AutoAugment 已經(jīng)學(xué)會(huì)完全顛倒原始 SVHN 數(shù)據(jù)集中自然出現(xiàn)的顏色。
左圖:來(lái)自 SVHN 數(shù)據(jù)集的原始圖像。右圖:同一圖像通過 AutoAugment 變換后。在這種情況下,通過剪切圖像和反轉(zhuǎn)像素顏色實(shí)現(xiàn)最佳變換。
在 CIFAR-10 和 ImageNet 上,AutoAugment 不使用剪切,因?yàn)檫@些數(shù)據(jù)集通常不包括剪切物體的圖像,也不完全反轉(zhuǎn)顏色,因?yàn)檫@些變換會(huì)導(dǎo)致圖像失真。相反,AutoAugment 側(cè)重于微調(diào)顏色和色相分布,同時(shí)保留一般顏色屬性。這表明 CIFAR-10 和 ImageNet 中物體的實(shí)際顏色十分重要,而在 SVHN 上只有相對(duì)顏色是重要的。
左圖:來(lái)自 ImageNet 數(shù)據(jù)集的原始圖像。右圖:同一圖像通過 AutoAugment 策略變換后。首先最大化圖像對(duì)比度,然后旋轉(zhuǎn)圖像。
成果
我們的 AutoAugment 算法為一些最著名的計(jì)算機(jī)視覺數(shù)據(jù)集找到了增強(qiáng)策略,將這些策略納入神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中后,準(zhǔn)確性得到了質(zhì)的提升。通過增強(qiáng) ImageNet 數(shù)據(jù),top1 準(zhǔn)確度達(dá)到 83.54% 的最新水平,在 CIFAR10 上,我們的錯(cuò)誤率為 1.48%,比研究員設(shè)計(jì)的默認(rèn)數(shù)據(jù)增強(qiáng)降低了 0.83%。
在 SVHN 上,我們將最新的誤差從 1.30% 降到 1.02%。重要的是,我們發(fā)現(xiàn) AutoAugment 策略是可轉(zhuǎn)移的 - 為 ImageNet 數(shù)據(jù)集找到的策略也可以應(yīng)用于其他視覺數(shù)據(jù)集(Stanford Cars、FGVC-Aircraft,等等),從而提高神經(jīng)網(wǎng)絡(luò)性能。
我們很高興看到 AutoAugment 算法在競(jìng)爭(zhēng)對(duì)手的許多不同計(jì)算機(jī)視覺數(shù)據(jù)集上都達(dá)到了這種性能水平,同時(shí)也期待這項(xiàng)技術(shù)未來(lái)在更多的計(jì)算機(jī)視覺任務(wù),甚至在音頻處理或語(yǔ)言模型等其他領(lǐng)域得到廣泛應(yīng)用。論文附錄中提供了可實(shí)現(xiàn)最佳性能的策略,研究人員可以使用這些策略來(lái)改進(jìn)相關(guān)視覺任務(wù)的模型。
-
自動(dòng)化
+關(guān)注
關(guān)注
29文章
5772瀏覽量
84572 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46707 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5558瀏覽量
122690
原文標(biāo)題:利用 AutoAugment 提升深度學(xué)習(xí)性能
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
自動(dòng)化
工控儀器自動(dòng)化
工控儀器自動(dòng)化
實(shí)現(xiàn)工業(yè)自動(dòng)化的市場(chǎng)阻礙
自動(dòng)化控制裝置
汽車制造中的機(jī)械自動(dòng)化技術(shù)應(yīng)用
自動(dòng)化設(shè)備數(shù)據(jù)采集系統(tǒng)
什么是過程自動(dòng)化?
工業(yè)自動(dòng)化應(yīng)用中有什么常見故障類型?
配電自動(dòng)化系統(tǒng)有哪些通信方式?通信過程是怎樣的?
LabVIEW與Tektronix示波器實(shí)現(xiàn)電源測(cè)試自動(dòng)化
PlantPAX過程控制自動(dòng)化系統(tǒng)
如何區(qū)分電氣自動(dòng)化與過程自動(dòng)化
過程自動(dòng)化控制和運(yùn)動(dòng)自動(dòng)化控制的原理詳解

評(píng)論