女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)義分割速覽—全卷積網(wǎng)絡(luò)FCN

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-10 19:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

簡(jiǎn)單過(guò)一下語(yǔ)義分割的主流框架——FCN、UNet、SegNet、PSPNet、DeepLab

全卷積網(wǎng)絡(luò)FCN

論文:《Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
參考:《FCN的學(xué)習(xí)及理解 | CSDN, moonuke
主要貢獻(xiàn):

  1. 在分類網(wǎng)絡(luò)的基礎(chǔ)上,取消要求固定輸入長(zhǎng)度的全連接FC,使網(wǎng)絡(luò)能接受任意尺寸的輸入
  2. 在網(wǎng)絡(luò)深層部分使用反卷積層上采樣,恢復(fù)深層特征的空間尺度
  3. 淺層特征注重細(xì)致的局部、位置信息,深層特征注重抽象的全局、分類信息。通過(guò)跨層連接,融合淺層(上采樣前)和深層(上采樣后)特征以提高網(wǎng)絡(luò)的表現(xiàn)

為了跟圖示統(tǒng)一,后續(xù)將以AlexNet為backbone進(jìn)行討論。

從CNN到FCN

就像《卷積神經(jīng)網(wǎng)絡(luò)CNN - 全連接層 | Hey~YaHei!》所提到的,卷積神經(jīng)網(wǎng)絡(luò)CNN因?yàn)槿B接層的限制,要求網(wǎng)絡(luò)輸入具有固定的尺寸大小。FCN作者將最后的三個(gè)全連接層換成1x1卷積,如果輸入特征圖恰好是1x1,那明顯是等價(jià)的;如果不是1x1,那網(wǎng)絡(luò)也不至于出錯(cuò),但輸出大小也會(huì)由輸入大小決定。

反卷積上采樣

FCN用反卷積(deconvolution)在網(wǎng)絡(luò)深層做上采樣操作,以恢復(fù)出輸入圖片同等尺寸的分割結(jié)果,也就是每個(gè)像素點(diǎn)的類別。
反卷積其實(shí)相當(dāng)于零填充上采樣+卷積,與padding不同的是,它填充在輸入特征圖的像素點(diǎn)之間。

3x3標(biāo)準(zhǔn)卷積 3x3反卷積 3x3空洞卷積
(以上三圖,藍(lán)色方塊為輸入特征圖的像素點(diǎn),綠色方塊為輸出特征圖像素點(diǎn),空白部分填零)


關(guān)于反卷積的詳細(xì)過(guò)程此處不再贅述,感興趣可以參考《怎樣通俗易懂地解釋反卷積? | 知乎, 孫小也


值得一提的是,通常部署的時(shí)候不喜歡用反卷積,因?yàn)橥评硪嫱鶝](méi)有針對(duì)反卷積做充分的優(yōu)化。大多都直接用雙線性插值/三線性插值做上采樣(簡(jiǎn)化操作順便提高推理速度),頂多再疊一層普通卷積來(lái)進(jìn)一步提取特征。

跨層融合

眾所周知,淺層特征注重細(xì)致的局部、位置信息,深層特征注重抽象的全局、分類信息。分類任務(wù)里不關(guān)注位置信息,所以隨著網(wǎng)絡(luò)前傳,即使特征圖分辨率越來(lái)越小,信息越來(lái)越抽象,位置信息逐步丟失,也無(wú)傷大雅。但檢測(cè)任務(wù)和分割任務(wù)不同,除了需要給出對(duì)象的分類之外,還得給出位置信息——因此淺層特征的位置得想辦法把它保留下來(lái),比較直觀的想法就是跨層把淺層和深層信息融合起來(lái)。

融合的方式有很多,最簡(jiǎn)單的如逐元素相加/相乘,或者連接特征(一般是從通道維度上做拼接)后做進(jìn)一步的特征提取。FCN采用的即是簡(jiǎn)單的逐元素相加的形式,以500x500x3的輸入圖片為例(虛線以上就一個(gè)普通的全卷積網(wǎng)絡(luò),虛線以下是跨層融合相關(guān)的層)——

  • 首先,由于不做分類任務(wù),作為“分類器”的最后一層全連接()可以直接丟棄,保留前端的特征提取部分;
  • 分別將若干淺層特征圖和最后的特征圖抽離出來(lái),經(jīng)過(guò)卷積層特征映射到21通道的特征空間上(這里以VOC數(shù)據(jù)集為例,20正樣本+1負(fù)樣本(背景)=21分類),然后反卷積進(jìn)行上采樣(如圖虛線以下的藍(lán)色方塊,有必要的話還得裁剪,通常是中央裁剪,到統(tǒng)一的尺寸),再對(duì)應(yīng)逐元素相加(如圖黃色方塊)達(dá)到特征融合的目的;
  • 最后再一個(gè)反卷積上采樣(配合裁剪)到原始尺寸,通道方向即相當(dāng)于分類任務(wù)里的輸出特征向量,決定著每個(gè)像素點(diǎn)所屬的分類

訓(xùn)練細(xì)節(jié)

FCN采用普通的softmax交叉熵作為損失函數(shù),既然通道方向決定了每個(gè)像素點(diǎn)的類別,那就對(duì)每個(gè)像素點(diǎn)計(jì)算softmax交叉熵,最后加和起來(lái)作為最終的損失進(jìn)行訓(xùn)練。

原文倒是講究,采用分階段訓(xùn)練的方式,用與訓(xùn)練好的分類網(wǎng)絡(luò)作為backbone,丟棄最后一層全連接,其他全連接替換成卷積并重新初始化權(quán)重(丟棄原有的全連接權(quán)重),再逐一融合中間層特征進(jìn)行多階段訓(xùn)練。

階段 訓(xùn)練部分
#1
#2
#3
#4

UNet

論文:《U-Net: Convolutional Networks for Biomedical Image Segmentation(MICCAI2015)
主要貢獻(xiàn):

  1. 以拼接+進(jìn)一步提取特征的形式融合淺層(上采樣前)與深層(上采樣后)特征
  2. 用重疊切片的平鋪策略對(duì)大尺度圖像進(jìn)行分割
  3. 采用加權(quán)的損失函數(shù),加大邊緣部分像素的權(quán)重,鼓勵(lì)網(wǎng)絡(luò)區(qū)分邊界,有助于實(shí)例分割

拼接實(shí)現(xiàn)的跨層融合


網(wǎng)絡(luò)整體結(jié)構(gòu)呈現(xiàn)U型的對(duì)稱結(jié)構(gòu),故稱為UNet,左半部分為卷積組成的下采樣路徑,右半部分為反卷積和卷積組成的上采樣路徑。下采樣路徑每個(gè)階段包含兩_次_卷積和一次池化(卷積通道擴(kuò)增+卷積等通道特征提取+池化下采樣),上采樣路徑每個(gè)階段包含一次反卷積和兩次卷積(反卷積上采樣并收縮通道+卷積通道收縮+卷積等通道特征提取)。

與FCN不同的是,UNet采取的是拼接(Concat)+進(jìn)一步提取特征的特征融合方式,如上圖上采樣路徑最左側(cè)的藍(lán)色外框空白填充的方塊。相比粗暴的逐點(diǎn)相加,拼接更好的保留淺層的特征信息,但相對(duì)地也會(huì)增加計(jì)算的開銷。

為了保證拼接的正確性,淺層特征圖需要裁剪到目標(biāo)尺寸,如上圖下采樣路徑最右側(cè)藍(lán)色方塊的虛線部分,這里通常采用的是中央裁剪。拼接后由于通道倍增,按照“特征圖尺寸倍增,通道減半;尺寸減半,通道倍增”的慣例,需要先用卷積把通道數(shù)收縮到原來(lái)的一半。

重疊切片的平鋪策略

UNet對(duì)大尺寸圖像分割任務(wù)采用了重疊切片的平鋪策略。

首先要注意到UNet與常規(guī)的網(wǎng)絡(luò)不同,所有的卷積和池化都不加以padding(為了2x2池化下采樣不加padding由不丟失信息,需要保證每次池化輸入的尺寸為2的倍數(shù)),于是每做一次卷積,特征圖都會(huì)稍微收縮一點(diǎn)點(diǎn),這就導(dǎo)致了UNet的輸出尺寸小于輸入尺寸(如上圖,572x572的輸入最后出來(lái)只有392x392的掩膜)。

不padding意味著不引入無(wú)效信息,直觀上是有好處的;另外這相當(dāng)于用一張更大的圖像來(lái)預(yù)測(cè)中央小區(qū)域的分割結(jié)果,相當(dāng)于在分割的時(shí)候輸入了目標(biāo)區(qū)域以外的外圍信息(如上圖,藍(lán)色框表示輸入U(xiǎn)Net的圖像,最終只能產(chǎn)生黃色框部分的分割結(jié)果,實(shí)際在推理黃色框分割結(jié)果的時(shí)候也引用了黃色框以外藍(lán)色框以內(nèi)的外圍信息的),這有助于提高模型的表現(xiàn)。

此外,UNet每步迭代采用單張圖片輸入,通過(guò)最大化輸入圖片尺寸來(lái)充分利用顯存,同時(shí)對(duì)優(yōu)化器采取一個(gè)較大的動(dòng)量(如0.99)使之前的迭代結(jié)果能對(duì)本次迭代產(chǎn)生較大的影響,以此穩(wěn)定訓(xùn)練過(guò)程。

加權(quán)損失懲罰邊緣像素

首先看一下softmax交叉熵:

為了著重某些特殊的像素點(diǎn),可以賦予一個(gè)權(quán)重,此時(shí)損失函數(shù)改造為



其中,
是權(quán)衡分類為每個(gè)分類所設(shè)置的一個(gè)損失權(quán)重;
和也是人為設(shè)置的權(quán)重,如論文中推薦的
和分別代表當(dāng)前像素點(diǎn)到最近和次近的細(xì)胞的歐式距離
將計(jì)算出來(lái)的可視化后可以得到上圖中的(d)

由于損失中對(duì)邊緣位置的像素作出的較重的懲罰,最終將鼓勵(lì)網(wǎng)絡(luò)在實(shí)例邊界做出較好的區(qū)分。


原文中還提到了對(duì)卷積參數(shù)采用標(biāo)準(zhǔn)差為的高斯分布初始化方式(如3x3卷積,輸入通道數(shù)為64,有),這種方式其實(shí)跟He Initialization也差不多。事實(shí)上自從BN層的出現(xiàn)之后,深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)參數(shù)初始化也不再那么敏感。

變種和改進(jìn)

UNet變種:《圖像分割的U-Net系列方法 | 知乎, taigw 》
UNet++:《研習(xí)U-Net | 知乎, 周縱葦

SegNet

論文:《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation(TPAMI2016)
參考:《SegNet圖像分割網(wǎng)絡(luò)直觀詳解 | 知乎, 郭冠華
主要貢獻(xiàn):用反池化替代反卷積進(jìn)行上采樣,簡(jiǎn)化上采樣過(guò)程,降低計(jì)算開銷


整體結(jié)構(gòu)跟FCN和UNet其實(shí)差不多,主要差別在于上采樣的手段變成了反池化。

反池化上采樣

假設(shè)下采樣路徑采用的是最大池化,2x2池化操作如下圖所示:



每個(gè)滑窗只會(huì)采樣最大值作為輸出,反池化上采樣則是反過(guò)來(lái),把一個(gè)像素值填到一個(gè)2x2的輸出框內(nèi),為了跟下采樣對(duì)應(yīng),需要在做最大值池化的時(shí)候記錄采樣點(diǎn)的索引(如總體框架圖上的Pooling Indices信息),反池化的時(shí)候則填到對(duì)應(yīng)位置上的。其余三個(gè)像素點(diǎn)則直接填零,由后續(xù)的卷積層完成特征圖的平滑處理。



反池化有三個(gè)優(yōu)點(diǎn):

  1. 改善了邊緣輪廓的處理
  2. 減少參數(shù)數(shù)量和計(jì)算量
  3. 容易實(shí)現(xiàn),可以很方便地應(yīng)用到其他框架中

PSPNet

論文:《Pyramid Scene Parsing Network (CVPR2017)
參考:《論文筆記:Pyramid Scene Parsing Network | 簡(jiǎn)書, Efackw13》
【圖像分割模型】多感受野的金字塔結(jié)構(gòu)—PSPNet | 知乎, 言有三
主要貢獻(xiàn):

  1. 從場(chǎng)景解析實(shí)際任務(wù)中發(fā)現(xiàn)了關(guān)系失配、相似分類混淆、不顯眼物體難識(shí)別三個(gè)問(wèn)題
  2. 在最后得到分割結(jié)果前,用混合尺度的池化獲取不同感知區(qū)域的局部信息,加強(qiáng)網(wǎng)絡(luò)對(duì)場(chǎng)景的感知

三個(gè)問(wèn)題

作者在場(chǎng)景解析的實(shí)際任務(wù)當(dāng)中發(fā)現(xiàn)FCN存在以下問(wèn)題:

  1. 關(guān)系失配:比如在水面上識(shí)別出了汽車(如下圖第一行所示)
  2. 相似分類混淆:比如把摩天大樓內(nèi)部的一部分像素識(shí)別成普通建筑(如下圖第二行所示)
  3. 不顯眼物體難識(shí)別:比如在床被上識(shí)別不出相似花紋的枕頭(如下圖第三行所示)

金字塔池化模塊(Pyramid Pooling Module)

為了解決上述三個(gè)問(wèn)題,PSPNet提出了金字塔池化模塊,該模塊插入在輸出分割結(jié)果前的最后一個(gè)特征圖后邊。

首先由CNN提取出特征圖(PSPNet沒(méi)像FCN, UNet, SegNet一樣建立淺層到深層之間的跨層連接),然后經(jīng)過(guò)不同的池化層下采樣出不同尺寸的特征圖(原文下采樣為1x1, 2x2, 3x3, 6x6四種特征圖),接著分別由卷積層將通道收縮為原來(lái)的1/N(原文中N=4)以保證拼接之后通道數(shù)與原來(lái)相同,由此得到不同尺寸的感知區(qū)域的局部信息。再將不同尺寸的局部信息上采樣為原來(lái)特征圖的尺寸但不改變通道數(shù)量(原文用雙線性插值來(lái)上采樣),與原始特征圖拼接起來(lái),最后經(jīng)過(guò)卷積層映射到目標(biāo)空間得到分割結(jié)果。

hszhao/PSPNet | github為例,用netron可視化后可以看到詳細(xì)的金字塔池化模塊及后續(xù)處理的結(jié)構(gòu):

輔助損失

除了最終的分割分類損失之外,PSPNet還在中間位置加入了輔助損失,如下圖所示,對(duì)ResNet第四階段的輸出特征圖提前取出并且上采樣到輸入圖片的尺寸,然后計(jì)算輔助損失loss2,并與主損失loss1加權(quán)求和后反傳。

yassouali/pytorch_segmentation/trainer.py#L61 | github設(shè)置了權(quán)重為0.4;
用于計(jì)算loss2的特征圖的產(chǎn)生,具體也可以參見 yassouali/pytorch_segmentation/models/pspnet.py 的L65-L71L90-L94

DeepLab

參考:《【語(yǔ)義分割系列:一】DeepLab v1 / v2 論文閱讀翻譯筆記 | CSDN, 鹿鹿最可愛(ài)
【語(yǔ)義分割系列:五】DeepLab v3 / v3+ 論文閱讀翻譯筆記 | CSDN, 鹿鹿最可愛(ài)
deeplab系列總結(jié)(deeplab v1& v2 & v3 & v3+) | CSDN, Dlyldxwl

v1

論文:《Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs (ICLR2015)
主要貢獻(xiàn):

  1. 結(jié)合CNN和PGM(概率圖模型)
  2. 使用空洞卷積替代標(biāo)準(zhǔn)卷積,在保持計(jì)算量的同時(shí)增大感受野

(為了與原文對(duì)應(yīng),以下討論均以VGG16為backbone)
_

兩個(gè)問(wèn)題

  1. 典型的CNN隨著模型的深入需要逐漸下采樣,這就導(dǎo)致信號(hào)(特征圖)的分辨率逐漸減小;盡管可以通過(guò)減少下采樣實(shí)現(xiàn),但卻帶來(lái)另一個(gè)問(wèn)題,即感受野偏小;
  2. 分類任務(wù)要求空間不變性,即圖像經(jīng)過(guò)空間變換(如旋轉(zhuǎn)、平移)后識(shí)別的類別不發(fā)生改變;而分割任務(wù)不同,像素的定位信息也至關(guān)重要,如果圖像經(jīng)過(guò)空間變換,那么要求模型預(yù)測(cè)結(jié)果也要隨之改變

減少下采樣和使用空洞卷積

(緩解第一個(gè)問(wèn)題)
按照常規(guī)利用分類網(wǎng)絡(luò)做backbone的方式,作者剝離掉VGG16最后的三層全連接,此時(shí)最后一層卷積層的輸出特征圖分辨率為7x7,與輸入的原始圖像分辨率224x224相比,已經(jīng)下采樣了32倍,丟失了非常多的細(xì)節(jié)信息(原文中稱之為很sparse、不dense)。

為了保留更多的信息,作者將最后兩層池化的步長(zhǎng)修改為1,也即取消了這兩個(gè)池化的下采樣功能,此時(shí)相當(dāng)于只下采樣了8倍。但如上一小節(jié)所說(shuō),這樣就帶來(lái)新的感受野偏小的問(wèn)題。

DeepLab使用空洞卷積(dilated convolution)來(lái)解決這個(gè)問(wèn)題,同時(shí)節(jié)約了不少的計(jì)算量。關(guān)于空洞卷積的圖示和幾種卷積的比較可以參考 FCN的反卷積上采樣一節(jié)。

(“下采樣-標(biāo)準(zhǔn)卷積-上采樣”和“空洞卷積”的效果比較,圖源自v2)


(“標(biāo)準(zhǔn)卷積-下采樣”和“空洞卷積”特征圖尺寸變化示意,圖源自以ResNet為backbone的v3)


簡(jiǎn)單來(lái)說(shuō),空洞卷積通過(guò)跳躍性地采樣,能以3x3的卷積核得到5x5、7x7等更大的等效感受野。
前述兩個(gè)取消下采樣功能的池化層之后的卷積層就換成了成空洞卷積。

緩解了第一個(gè)問(wèn)題后,論文同時(shí)指出隨后的上采樣不再需要反卷積來(lái)恢復(fù)分辨率,直接雙線性插值就可以得到可觀的結(jié)果。訓(xùn)練時(shí)直接對(duì)ground truth下采樣8倍,然后與改造后的VGG16輸出求交叉熵作為損失函數(shù);預(yù)測(cè)時(shí)則直接雙線性插值得到分割的結(jié)果。

全連接條件隨機(jī)場(chǎng)后處理

(緩解第二個(gè)問(wèn)題)
全連接條件隨機(jī)場(chǎng)(Fully Connected Conditional Random Field, Fully Connected CRF


(上下兩行分別是softmax的輸入和輸出)

如上圖的 DCNN output 一列所示,經(jīng)過(guò)層層的下采樣和上采樣,特征圖逐漸丟失部分信息,導(dǎo)致最終輸出的圖像顯得比較平滑。而分割任務(wù)希望分割的結(jié)果邊緣輪廓能夠比較清楚犀利,于是作者引入了全連接CRF對(duì)CNN的輸出結(jié)果進(jìn)行后處理。

在傳統(tǒng)的圖像處理中,CRF通常用相鄰像素來(lái)設(shè)計(jì)能量函數(shù),從而消除一些噪音,達(dá)到平滑處理的目的。然而在分割中,我們的目標(biāo)是恢復(fù)局部信息而非進(jìn)一步平滑處理。
因此作者借鑒了《Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials (NIPS2011)》全連接條件隨機(jī)場(chǎng)來(lái)實(shí)現(xiàn)分割結(jié)果的銳化處理。其能量函數(shù)為

其中

對(duì)于一元項(xiàng)來(lái)說(shuō),是CNN產(chǎn)生的像素點(diǎn)的概率分布;
對(duì)于二元項(xiàng)來(lái)說(shuō),
,這意味著每個(gè)像素點(diǎn)都會(huì)和全圖像的所有像素點(diǎn)建立聯(lián)系,也即“全連接”;
求和項(xiàng)里是加權(quán)的應(yīng)用在像素特征上的高斯核函數(shù),原文采用像素點(diǎn)值和位置構(gòu)造核函數(shù)

這里包含兩項(xiàng),第一項(xiàng)包含位置信息和值信息,后一項(xiàng)值考慮位置信息,兩者通過(guò)和加權(quán);
而也是人工設(shè)置的超參數(shù)

融合多尺度信息進(jìn)行預(yù)測(cè)

和FCN、UNet一樣,作者也嘗試從淺層抽取特征與深層融合完成最后的分割預(yù)測(cè)。
具體來(lái)說(shuō),在輸入圖片和中間池化結(jié)果(前四個(gè)池化層的輸出)上分別加兩層卷積(3x3+1x1)做特征提取和通道縮放映射,使得分割效果得到少量的提升,但這個(gè)提升明顯不如全連接CRF(兩者可以兼容使用)。

v2

論文:《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (CVPR2016)
主要貢獻(xiàn):對(duì)同一張?zhí)卣鲌D使用不同dilation的空洞卷積,并用多孔空間金字塔池化下采樣到同一尺寸,以此融合多種感受野的特征信息。

多孔空間金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)

思路很簡(jiǎn)單,其實(shí)是何愷明的空間金字塔池化的一個(gè)演化。關(guān)于空間金字塔池化(SPP)的內(nèi)容可以回顧《漫談池化層 - 空間金字塔池化 | Hey~YaHei!》,此處不再贅述。

(圖中rate指的就是我們常說(shuō)的dilation,也即對(duì)輸入特征圖兩個(gè)采樣點(diǎn)的間隔,如標(biāo)準(zhǔn)卷積dilation=1)

v3

論文:《Rethinking Atrous Convolution for Semantic Image Segmentation (CVPR2017)
主要貢獻(xiàn):

  1. 歸納了四種常見的語(yǔ)義分割框架
  2. 改進(jìn)了v2提出的ASSP

(原文以ResNet為backbone)

常見語(yǔ)義分割框架的比較

  1. 圖像金字塔
    多尺度輸入,小尺度輸入響應(yīng)語(yǔ)義,大尺度輸入響應(yīng)細(xì)節(jié),最后融合多個(gè)結(jié)果,多個(gè)模型之間可以共享部分底層特征;顯著缺點(diǎn)是模型冗余而龐大,推理慢開銷大,訓(xùn)練麻煩
  2. 編碼器-解碼器
    深層捕獲更加抽象的分類信息,輔之融合淺層特征恢復(fù)目標(biāo)的細(xì)節(jié)尤其是空間信息
  3. 級(jí)聯(lián)空洞卷積
    減少將采樣保持特征圖上的細(xì)節(jié)尤其是空間信息,利用空洞卷積擴(kuò)大感受野
  4. 空間金字塔池化
    用不同dilation的并行空洞卷積提取不同感受野下的特征,最后用ASSP下采樣到統(tǒng)一尺度進(jìn)行特征融合

改進(jìn)ASSP

  • 去掉一個(gè)“dilation=24的3x3卷積”分支
  • 增加一個(gè)“1x1的標(biāo)準(zhǔn)卷積”分支
  • 增加一個(gè)“全局平均池化 + 1x1標(biāo)準(zhǔn)卷積 + 雙線性插值上采樣”分支

v3+

論文:《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV2018)
主要貢獻(xiàn):

  1. 借鑒編碼器-解碼器架構(gòu),額外融合中間特征提高最終的分割能力
  2. 引入深度可分離卷積

(原文以使用了深度可分離卷積的Xception為backbone)

額外融合中間特征


如圖,作者發(fā)現(xiàn)經(jīng)過(guò)空間金字塔池化之后直接做一次八倍上采樣過(guò)于粗暴,于是借鑒了編碼器-解碼器架構(gòu)的思路,在空間金字塔池化后的特征圖上采樣四倍之后,與從中間層抽離出特征相融合,再做一次四倍上采樣(注意編碼器部分比原始模型要多一層,所以與原輸入相比編碼器的輸出實(shí)際上下采樣了十六倍而非八倍,換句話v3+加深了網(wǎng)絡(luò))

深度可分離卷積

可參考《漫談卷積層 - 高效卷積 | Hey~YaHei!》,此處不再贅述。

損失函數(shù)

參考:《圖像分割領(lǐng)域常見的loss fuction有哪一些? | 知乎, 小鋒子Shawn

圖像增廣

工具:mdbloice/Augmentor支持在變換原圖的時(shí)候同步操作ground truth,很方便

審核編輯:符乾江

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48960

    瀏覽量

    248551
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5558

    瀏覽量

    122719
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何使用MATLAB實(shí)現(xiàn)一維時(shí)間卷積網(wǎng)絡(luò)

    本文對(duì)一維卷積操作進(jìn)行介紹,包括一維擴(kuò)展卷積和一維因果卷積,以及 MATLAB 對(duì)一維卷積的支持情況。在最后通過(guò)一個(gè)實(shí)例演示如何在 MATLAB 中將一維
    的頭像 發(fā)表于 03-07 09:15 ?1017次閱讀
    如何使用MATLAB實(shí)現(xiàn)一維時(shí)間<b class='flag-5'>卷積</b><b class='flag-5'>網(wǎng)絡(luò)</b>

    一文 30KPA48A:快速響應(yīng),為電路安全保駕護(hù)航

    一文 30KPA48A:快速響應(yīng),為電路安全保駕護(hù)航
    的頭像 發(fā)表于 02-22 10:15 ?587次閱讀
    一文<b class='flag-5'>速</b><b class='flag-5'>覽</b> 30KPA48A:快速響應(yīng),為電路安全保駕護(hù)航

    BP神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的比較

    多層。 每一層都由若干個(gè)神經(jīng)元構(gòu)成,神經(jīng)元之間通過(guò)權(quán)重連接。信號(hào)在神經(jīng)網(wǎng)絡(luò)中是前向傳播的,而誤差是反向傳播的。 卷積神經(jīng)網(wǎng)絡(luò)(CNN) : CNN主要由卷積層、池化層和
    的頭像 發(fā)表于 02-12 15:53 ?623次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    神經(jīng)網(wǎng)絡(luò),也稱為連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Networks,F(xiàn)CNs),其特點(diǎn)是每一層的每個(gè)神經(jīng)元都與下一層的所有神經(jīng)元相連。這種結(jié)構(gòu)簡(jiǎn)單直觀,但在處理圖像等高維數(shù)據(jù)時(shí)會(huì)遇到顯著的問(wèn)題,如參數(shù)
    的頭像 發(fā)表于 11-15 14:53 ?1811次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理與算法

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks
    的頭像 發(fā)表于 11-15 14:47 ?1750次閱讀

    語(yǔ)義分割25種損失函數(shù)綜述和展望

    語(yǔ)義圖像分割,即將圖像中的每個(gè)像素分類到特定的類別中,是許多視覺(jué)理解系統(tǒng)中的重要組成部分。作為評(píng)估統(tǒng)計(jì)模型性能的主要標(biāo)準(zhǔn),損失函數(shù)對(duì)于塑造基于深度學(xué)習(xí)的分割算法的發(fā)
    的頭像 發(fā)表于 10-22 08:04 ?1578次閱讀
    <b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語(yǔ)義
    的頭像 發(fā)表于 07-17 09:56 ?892次閱讀

    圖像分割語(yǔ)義分割的區(qū)別與聯(lián)系

    圖像分割語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念,它們?cè)趫D像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡(jiǎn)介 圖像分割是將圖像劃分為多個(gè)區(qū)
    的頭像 發(fā)表于 07-17 09:55 ?1912次閱讀

    多層感知器、連接網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)介紹

    多層感知器(MLP)、連接網(wǎng)絡(luò)FCN)和深度神經(jīng)網(wǎng)絡(luò)(DNN)在神經(jīng)網(wǎng)絡(luò)領(lǐng)域中扮演著重要角色,它們之間既存在緊密聯(lián)系,又各具特色。以下將
    的頭像 發(fā)表于 07-11 17:25 ?8178次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)共包括哪些層級(jí)

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。它以卷積層為核心,通過(guò)多層卷積
    的頭像 發(fā)表于 07-11 15:58 ?2797次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本概念、原理及特點(diǎn)

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡(jiǎn)稱CNN)是一種深度學(xué)習(xí)算法,它在圖像識(shí)別、視頻分析、自然語(yǔ)言處理等領(lǐng)域有著廣泛的應(yīng)用。本文將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-11 14:38 ?2409次閱讀

    神經(jīng)網(wǎng)絡(luò)中的卷積層、池化層與連接層

    在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種特別適用于處理圖像數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它通過(guò)卷積層、池化層和
    的頭像 發(fā)表于 07-11 14:18 ?9948次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的工作原理和應(yīng)用

    卷積神經(jīng)網(wǎng)絡(luò)FCN)是深度學(xué)習(xí)領(lǐng)域中的一種特殊類型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),尤其在計(jì)算機(jī)視覺(jué)領(lǐng)域表現(xiàn)出色。它通過(guò)全局平均池化或轉(zhuǎn)置
    的頭像 發(fā)表于 07-11 11:50 ?1827次閱讀

    經(jīng)典卷積網(wǎng)絡(luò)模型介紹

    經(jīng)典卷積網(wǎng)絡(luò)模型在深度學(xué)習(xí)領(lǐng)域,尤其是在計(jì)算機(jī)視覺(jué)任務(wù)中,扮演著舉足輕重的角色。這些模型通過(guò)不斷演進(jìn)和創(chuàng)新,推動(dòng)了圖像處理、目標(biāo)檢測(cè)、圖像生成、語(yǔ)義分割等多個(gè)領(lǐng)域的發(fā)展。以下將詳細(xì)探討
    的頭像 發(fā)表于 07-11 11:45 ?1213次閱讀

    圖像分割語(yǔ)義分割中的CNN模型綜述

    圖像分割語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆?b class='flag-5'>卷積神經(jīng)
    的頭像 發(fā)表于 07-09 11:51 ?2001次閱讀
    主站蜘蛛池模板: 兴城市| 珲春市| 漳州市| 泸定县| 泊头市| 威海市| 定南县| 友谊县| 武川县| 台南县| 涟水县| 平果县| 绍兴县| 湛江市| 宜丰县| 昭平县| 镇远县| 扶风县| 溧水县| 马公市| 昆山市| 舒兰市| 山丹县| 昆明市| 池州市| 博罗县| 峨眉山市| 冀州市| 普陀区| 尚志市| 莱西市| 东莞市| 深州市| 龙泉市| 宜阳县| 漳浦县| 博野县| 凤山市| 温宿县| 岳阳市| 通辽市|