Vanishing Gradient Problem(기울기 소실) — 하루한장

728x90

순전파 (forward propagation, forward pass)

입력층: 은닉층: h1,h2,h3 / 출력층:
h1=σ(w11x1+w21x2+w31x3+b1)
h2=σ(w12x1+w22x2+w32x3+b2)
h3=σ(w13x1+w23x2+w33x3+b3)
y=σ(v1h1+v2h2+v3h3+b4)

손실 계산 (loss computation)

MSE(Mean Squared Error), CEE(Cross Entropy Loss)와 같은 손실함수(loss function)으로 실제값과 예측값의 오차를 계산한다.

역전파 (backward propagation, backward pass)

손실함수를 통해 계산한 손실을 통해, 각 층의 가중치를 업데이트 한다.
편미분을 하여 손실이 최소가 되는 기울기를 찾는다. (chain rule)

Vanishing Gradient Problem

activation function 미분값이 작아서, 입력층으로 갈수 가중치 업데이트가 이루어지지 않는 현상
activation function을 sigmoid에서 ReLU, Leaky ReLU 등으로 바꾸어 문제를 해결한다.

저작자표시 (새창열림)

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

Word Embedding (0)	2024.01.08
Bag of Words (0)	2024.01.07
전이학습 (Transfer Learning) (0)	2023.10.17
[자연어처리] Word Embedding (1)	2023.10.14
이미지 불러오기 (0)	2023.08.09

티스토리툴바