電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程5.4之?dāng)?shù)值穩(wěn)定性和初始化

PyTorch教程5.4之?dāng)?shù)值穩(wěn)定性和初始化

2512983 2023-06-05 | pdf | 0.25 MB | 次下載 | 免費(fèi)

資料介紹

到目前為止，我們實(shí)現(xiàn)的每個(gè)模型都需要我們根據(jù)一些預(yù)先指定的分布來初始化它的參數(shù)。直到現(xiàn)在，我們都認(rèn)為初始化方案是理所當(dāng)然的，掩蓋了如何做出這些選擇的細(xì)節(jié)。您甚至可能覺得這些選擇并不是特別重要。相反，初始化方案的選擇在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中起著重要作用，對于保持?jǐn)?shù)值穩(wěn)定性至關(guān)重要。此外，這些選擇可以以有趣的方式與非線性激活函數(shù)的選擇聯(lián)系起來。我們選擇哪個(gè)函數(shù)以及我們?nèi)绾纬跏蓟瘏?shù)可以決定我們的優(yōu)化算法收斂的速度。這里的錯(cuò)誤選擇可能會導(dǎo)致我們在訓(xùn)練時(shí)遇到梯度爆炸或消失的情況。在這個(gè)部分，

						%matplotlib inline
import torch
from d2l import torch as d2l

						 

						%matplotlib inline
from mxnet import autograd, np, npx
from d2l import mxnet as d2l

npx.set_np()

						%matplotlib inline
import jax
from jax import grad
from jax import numpy as jnp
from jax import vmap
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						%matplotlib inline
import tensorflow as tf
from d2l import tensorflow as d2l

						 

5.4.1. 消失和爆炸梯度

考慮一個(gè)深度網(wǎng)絡(luò)L圖層，輸入x 和輸出o. 每層l由轉(zhuǎn)換定義fl權(quán)重參數(shù)化 W(l), 隱藏層輸出為 h(l)（讓h(0)=x)，我們的網(wǎng)絡(luò)可以表示為：

(5.4.1)h(l)=fl(h(l?1))?and thus?o=fL°…°f1(x).

如果所有隱藏層的輸出和輸入都是向量，我們可以寫出梯度為o關(guān)于任何一組參數(shù) W(l)如下：

(5.4.2)?W(l)o=?h(L?1)h(L)?M(L)=def?…??h(l)h(l+1)?M(l+1)=def?W(l)h(l)?v(l)=def.

換句話說，這個(gè)梯度是L?l矩陣 M(L)?…?M(l+1)和梯度向量v(l). 因此，當(dāng)將太多概率相乘時(shí)，我們很容易遇到同樣的數(shù)值下溢問題。在處理概率時(shí)，一個(gè)常見的技巧是切換到對數(shù)空間，即將壓力從尾數(shù)轉(zhuǎn)移到數(shù)值表示的指數(shù)。不幸的是，我們上面的問題更嚴(yán)重：最初矩陣 M(l)可能有各種各樣的特征值。它們可能很小或很大，它們的產(chǎn)品可能很大或很小。

不穩(wěn)定梯度帶來的風(fēng)險(xiǎn)超出了數(shù)值表示。不可預(yù)測的梯度也會威脅到我們優(yōu)化算法的穩(wěn)定性。我們可能面臨以下參數(shù)更新：(i) 過大，破壞了我們的模型（ 梯度爆炸問題）；或 (ii) 過小（梯度消失問題），由于參數(shù)幾乎不會在每次更新時(shí)移動，因此無法進(jìn)行學(xué)習(xí)。