女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

梯度下降兩大痛點(diǎn):陷入局部極小值和過(guò)擬合

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-04-27 17:01 ? 次閱讀

介紹

基于梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),我們將冒網(wǎng)絡(luò)落入局部極小值的風(fēng)險(xiǎn),網(wǎng)絡(luò)在誤差平面上停止的位置并非整個(gè)平面的最低點(diǎn)。這是因?yàn)檎`差平面不是內(nèi)凸的,平面可能包含眾多不同于全局最小值的局部極小值。此外,盡管在訓(xùn)練數(shù)據(jù)上,網(wǎng)絡(luò)可能到達(dá)全局最小值,并收斂于所需點(diǎn),我們無(wú)法保證網(wǎng)絡(luò)所學(xué)的概括性有多好。這意味著它們傾向于過(guò)擬合訓(xùn)練數(shù)據(jù)。

有一些手段有助于緩解這些問(wèn)題,不過(guò)并沒(méi)有絕對(duì)地預(yù)防這些問(wèn)題產(chǎn)生的方法。這是因?yàn)榫W(wǎng)絡(luò)的誤差平面一般很難穿越,而神經(jīng)網(wǎng)絡(luò)整體而言很難解釋。

隨機(jī)梯度下降與mini-batch隨機(jī)梯度下降

這些算法改編了標(biāo)準(zhǔn)梯度下降算法,在算法的每次迭代中使用訓(xùn)練數(shù)據(jù)的一個(gè)子集。SGD在每權(quán)重更新上使用一個(gè)樣本,mini-batch SGD使用預(yù)定義數(shù)目的樣本(通常遠(yuǎn)小于訓(xùn)練樣本的總數(shù))。這大大加速了訓(xùn)練,因?yàn)槲覀冊(cè)诿看蔚袥](méi)有使用整個(gè)數(shù)據(jù)集,它需要的計(jì)算量少得多。同時(shí),它也有望導(dǎo)向更好的表現(xiàn),因?yàn)榫W(wǎng)絡(luò)在訓(xùn)練中斷斷續(xù)續(xù)的移動(dòng)應(yīng)該能讓它更好地避開(kāi)局部極小值,而使用一小部分?jǐn)?shù)據(jù)集當(dāng)有助于預(yù)防過(guò)擬合。

正則化

正則化基本上是一個(gè)懲罰模型復(fù)雜度的機(jī)制,它是通過(guò)在損失函數(shù)中加入一個(gè)表示模型復(fù)雜度的項(xiàng)做到這一點(diǎn)的。在神經(jīng)網(wǎng)絡(luò)的例子中,它懲罰較大的權(quán)重,較大的權(quán)重可能意味著神經(jīng)網(wǎng)絡(luò)過(guò)擬合了訓(xùn)練數(shù)據(jù)。

最左:欠擬合;最右:過(guò)擬合

若網(wǎng)絡(luò)的原損失函數(shù)記為L(zhǎng)(y, t),正則化常數(shù)記為λ,則應(yīng)用了L2正則化后,損失函數(shù)改寫(xiě)為如下形式:

正則化在損失函數(shù)中加入了網(wǎng)絡(luò)的每個(gè)權(quán)重的平方和,以懲罰給任何一個(gè)連接分配了過(guò)多權(quán)重的模型,希望能降低過(guò)擬合程度。

動(dòng)量

簡(jiǎn)單來(lái)說(shuō),動(dòng)量在當(dāng)前權(quán)重更新上加上一小部分前次權(quán)重更新。這有助于預(yù)防模型陷入局部極小值,因?yàn)榧词巩?dāng)前梯度為0,之前梯度絕大多數(shù)情況下不為0,這樣模型就不那么容易陷入極小值。另外,使用動(dòng)量也使誤差平面上的移動(dòng)總體上更為平滑,而且移動(dòng)得更快。

基于這一簡(jiǎn)單的動(dòng)量概念,我們可以重寫(xiě)權(quán)重更新等式至如下形式(α為動(dòng)量因子):

還有其他一些更高級(jí)的動(dòng)量形式,比如Nesterov方法。

學(xué)習(xí)率退火

我們可以不在整個(gè)訓(xùn)練過(guò)程中使用同一學(xué)習(xí)率,而是隨著時(shí)間的進(jìn)展降低學(xué)習(xí)率,也就是退火。

最常見(jiàn)的退火規(guī)劃基于1/t關(guān)系,如下圖所示,其中T和μ0為給定的超參數(shù),μ為當(dāng)前學(xué)習(xí)率:

這經(jīng)常被稱為“搜索并收斂”(search-then-converge)退火規(guī)劃,因?yàn)橹钡絫達(dá)到T之前,網(wǎng)絡(luò)都處于“搜索”階段,學(xué)習(xí)率沒(méi)有下降很多,在此之后,學(xué)習(xí)率減慢,網(wǎng)絡(luò)進(jìn)入“收斂”階段。這和探索(exploitation)與利用(exploration)間的平衡多多少少有些關(guān)系。剛開(kāi)始我們優(yōu)先探索搜索空間,擴(kuò)展我們關(guān)于空間的整體知識(shí),隨著時(shí)間的推進(jìn),我們過(guò)渡到利用搜索空間中我們已經(jīng)找到的良好區(qū)域,收縮至特定的極小值。

結(jié)語(yǔ)

這些改進(jìn)標(biāo)準(zhǔn)梯度下降算法的方法都需要在模型中加入超參數(shù),因而會(huì)增加調(diào)整網(wǎng)絡(luò)所需的時(shí)間。最近提出的一些新算法,比如Adam、Adagrad、Adadelta,傾向于在每個(gè)參數(shù)的基礎(chǔ)上進(jìn)行優(yōu)化,而不是基于全局優(yōu)化,因此它們可以基于單獨(dú)情況精細(xì)地調(diào)整學(xué)習(xí)率。在實(shí)踐中,它們往往更快、更好。下圖同時(shí)演示了之前提到的梯度下降變體的工作過(guò)程。注意看,和簡(jiǎn)單的動(dòng)量或SGD相比,更復(fù)雜的變體收斂得更快。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4811

    瀏覽量

    103059
  • 動(dòng)量
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    7973
  • 正則化
    +關(guān)注

    關(guān)注

    0

    文章

    17

    瀏覽量

    8211

原文標(biāo)題:如何改進(jìn)梯度下降算法

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SGD的隨機(jī)項(xiàng)在其選擇最終的全局極小值點(diǎn)的關(guān)鍵性作用

    在這篇題為《將擬勢(shì)函數(shù)視為隨機(jī)梯度下降損失函數(shù)中的隱式正則項(xiàng)》的論文中,作者提出了一種統(tǒng)一的方法,將擬勢(shì)作為一種量化關(guān)系的橋梁,在SGD隱式正則化與SGD的隨機(jī)項(xiàng)的協(xié)方差結(jié)構(gòu)之間建立了聯(lián)系。
    的頭像 發(fā)表于 03-06 09:15 ?5648次閱讀

    如何對(duì)一波形所有極大(小)點(diǎn)用三次樣條插函數(shù)擬...

    哪位大神能幫我一下,本人在做小電流接地系統(tǒng)選線,在matlab中搭建了系統(tǒng)模型后進(jìn)行了單相接地故障仿真,對(duì)于仿出來(lái)的波形要進(jìn)行HHT變換,其中第一步就是要對(duì)仿真圖形所有極大極小值點(diǎn)用三次樣條插
    發(fā)表于 08-09 19:10

    關(guān)于檢測(cè)的離散信號(hào)求極值問(wèn)題

    我現(xiàn)在收集到一些離散信號(hào),一維數(shù)組,想找到極大極小值,然后連線用三次樣條擬合,1、請(qǐng)問(wèn)有沒(méi)有什么好用的控件或者算法找到這些極大極小值點(diǎn)2
    發(fā)表于 01-03 10:55

    分享一個(gè)自己寫(xiě)的機(jī)器學(xué)習(xí)線性回歸梯度下降算法

    單變量線性回歸算法,利用Batch梯度梯度下降算法迭代計(jì)算得到誤差最小的代價(jià)函數(shù)theta0,theta1。調(diào)節(jié)學(xué)習(xí)率a可以觀察擬合得到的函數(shù)和代價(jià)函數(shù)誤差收斂情況。
    發(fā)表于 10-02 21:48

    機(jī)器學(xué)習(xí)新手必學(xué)的三種優(yōu)化算法(牛頓法、梯度下降法、最速下降法)

    法的問(wèn)題在于,每一步都需要對(duì) aplha_k 進(jìn)行優(yōu)化,這樣做的成本相對(duì)高昂。例如,對(duì)于二次函數(shù),每次迭代都需要計(jì)算多次矩陣乘法以及向量點(diǎn)乘。但對(duì)于梯度下降,每一步只需要計(jì)算導(dǎo)數(shù)并更新
    發(fā)表于 05-07 08:30

    如何更新權(quán)重實(shí)現(xiàn)梯度下降

    實(shí)現(xiàn)梯度下降
    發(fā)表于 07-15 10:09

    改進(jìn)的BP網(wǎng)絡(luò)算法在圖像識(shí)別中的應(yīng)用

    利用改進(jìn)的BP網(wǎng)絡(luò)算法,可以有效地抑制網(wǎng)絡(luò)陷入局部極小值,提高網(wǎng)絡(luò)訓(xùn)練速度。實(shí)驗(yàn)驗(yàn)證表明,改進(jìn)的算法對(duì)圖像識(shí)別的準(zhǔn)確率較高。
    發(fā)表于 02-07 11:40 ?40次下載
    改進(jìn)的BP網(wǎng)絡(luò)算法在圖像識(shí)別中的應(yīng)用

    機(jī)器學(xué)習(xí):隨機(jī)梯度下降和批量梯度下降算法介紹

    梯度下降和批量梯度下降種迭代求解思路,下面從公式和實(shí)現(xiàn)的角度對(duì)者進(jìn)行分析。下面的h(x)是
    發(fā)表于 11-28 04:00 ?9247次閱讀
    機(jī)器學(xué)習(xí):隨機(jī)<b class='flag-5'>梯度</b><b class='flag-5'>下降</b>和批量<b class='flag-5'>梯度</b><b class='flag-5'>下降</b>算法介紹

    梯度下降算法及其變種:批量梯度下降,小批量梯度下降和隨機(jī)梯度下降

    現(xiàn)在我們來(lái)討論梯度下降算法的三個(gè)變種,它們之間的主要區(qū)別在于每個(gè)學(xué)習(xí)步驟中計(jì)算梯度時(shí)使用的數(shù)據(jù)量,是對(duì)每個(gè)參數(shù)更新(學(xué)習(xí)步驟)時(shí)的梯度準(zhǔn)確性與時(shí)間復(fù)雜度的折衷考慮。
    的頭像 發(fā)表于 05-03 15:55 ?2.2w次閱讀

    講解隨機(jī)梯度下降、類別數(shù)據(jù)編碼、Vowpal Wabbit機(jī)器學(xué)習(xí)庫(kù)

    在數(shù)據(jù)量不大的情況下,上面的數(shù)學(xué)效果不錯(cuò)(我們這里不討論局部極小值、鞍點(diǎn)、學(xué)習(xí)率選擇、動(dòng)量等問(wèn)題,請(qǐng)參考《深度學(xué)習(xí)》一書(shū)的數(shù)值計(jì)算那一章)。批量梯度下降有一個(gè)問(wèn)題——
    的頭像 發(fā)表于 07-17 09:11 ?6575次閱讀

    簡(jiǎn)單的梯度下降算法,你真的懂了嗎?

    梯度下降算法的公式非常簡(jiǎn)單,”沿著梯度的反方向(坡度最陡)“是我們?nèi)粘=?jīng)驗(yàn)得到的,其本質(zhì)的原因到底是什么呢?為什么局部下降最快的方向就是梯度
    發(fā)表于 09-19 00:17 ?971次閱讀

    如何使用區(qū)域相似度實(shí)現(xiàn)局部擬合活動(dòng)輪廓模型

    針對(duì)局部擬合(LBF)模型不能分割紋理圖像和收斂速度慢等問(wèn)題,提出一種結(jié)合局部擬合與區(qū)域間相似度的活動(dòng)輪廓模型。該模型在LBF模型中引
    發(fā)表于 03-12 14:27 ?2次下載

    基于雙曲網(wǎng)絡(luò)空間嵌入與極小值聚類的社區(qū)劃分算法

    真實(shí)復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)度分布服從冪律分布,而雙曲空間能夠完整表現(xiàn)這一特性。為此,提出一種基于雙曲空間嵌入與極小值聚類的社區(qū)劃分算法MHE。將建模后的復(fù)雜網(wǎng)絡(luò)嵌入龐加萊圓盤(pán)模型,保留復(fù)雜網(wǎng)絡(luò)的全局拓?fù)湫畔?/div>
    發(fā)表于 04-01 15:18 ?11次下載
    基于雙曲網(wǎng)絡(luò)空間嵌入與<b class='flag-5'>極小值</b>聚類的社區(qū)劃分算法

    基于局部擬合與全局信息的改進(jìn)活動(dòng)輪廓模型

    的中心點(diǎn),改變輪廓半徑的大小以確定初始輪廓的位置。使用局部熵項(xiàng)來(lái)増強(qiáng)圖像邊緣處的響應(yīng),將局部熵圖像擬合能量項(xiàng)與RSF模型共同構(gòu)成局部能量項(xiàng),
    發(fā)表于 05-26 15:31 ?5次下載

    JPEG LS算法局部梯度計(jì)算原理

    如果同一個(gè)上下文中對(duì)少量元素進(jìn)行編碼,通常無(wú)法獲得足夠的上下文編碼信息。但是如果對(duì)大量元素進(jìn)行編碼又會(huì)帶來(lái)存儲(chǔ)空間變大的問(wèn)題。因此要對(duì)局部梯度進(jìn)行量化處理。
    的頭像 發(fā)表于 04-25 10:46 ?789次閱讀
    JPEG LS算法<b class='flag-5'>局部</b><b class='flag-5'>梯度</b><b class='flag-5'>值</b>計(jì)算原理
    主站蜘蛛池模板: 会宁县| 南城县| 吉隆县| 文山县| 成武县| 道真| 武鸣县| 建阳市| 城固县| 安阳市| 汶川县| 盐城市| 安塞县| 堆龙德庆县| 衡东县| 永登县| 黄梅县| 禹城市| 富宁县| 兴国县| 邳州市| 武城县| 盐池县| 东乡| 体育| 鹿邑县| 白沙| 隆德县| 普兰县| 富裕县| 东平县| 隆德县| 永顺县| 新和县| 耒阳市| 卢湾区| 康乐县| 东阳市| 广东省| 桑日县| 上高县|