Vanishing Gradient Problem(기울기 소실)

2023. 11. 28. 22:16·ML_DL/딥러닝 공부하기
728x90
반응형

순전파 (forward propagation, forward pass)

  • 입력층: x1​,x2​,x3 / 은닉층: h1,h2,h3 / 출력층: y
  • h1​=σ(w11​x1​+w21​x2​+w31​x3​+b1​)
  • h2​=σ(w12​x1​+w22​x2​+w32​x3​+b2​)
  • h3​=σ(w13​x1​+w23​x2​+w33​x3​+b3​)
  • y=σ(v1​h1​+v2​h2​+v3​h3​+b4​)

손실 계산 (loss computation)

  • MSE(Mean Squared Error), CEE(Cross Entropy Loss)와 같은 손실함수(loss function)으로 실제값과 예측값의 오차를 계산한다.

역전파 (backward propagation, backward pass)

  • 손실함수를 통해 계산한 손실을 통해, 각 층의 가중치를 업데이트 한다.
  • 편미분을 하여 손실이 최소가 되는 기울기를 찾는다. (chain rule)

Vanishing Gradient Problem

  • activation function 미분값이 작아서, 입력층으로 갈수 가중치 업데이트가 이루어지지 않는 현상
  • activation function을 sigmoid에서 ReLU, Leaky ReLU 등으로 바꾸어 문제를 해결한다.
저작자표시 (새창열림)

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

Word Embedding  (0) 2024.01.08
Bag of Words  (0) 2024.01.07
전이학습 (Transfer Learning)  (0) 2023.10.17
[자연어처리] Word Embedding  (1) 2023.10.14
이미지 불러오기  (0) 2023.08.09
'ML_DL/딥러닝 공부하기' 카테고리의 다른 글
  • Word Embedding
  • Bag of Words
  • 전이학습 (Transfer Learning)
  • [자연어처리] Word Embedding
swwho
swwho
일상을 데이터화하다
  • swwho
    하루한장
    swwho
  • 전체
    오늘
    어제
    • 분류 전체보기 (188)
      • ML_DL (39)
        • MUJAKJUNG (무작정 시리즈) (18)
        • 딥러닝 공부하기 (21)
      • 데이터사이언스 (1)
        • EDA (1)
        • 데이터과학을 위한 통계 (0)
      • 데이터엔지니어링 (2)
      • 논문리뷰 (2)
        • Computer Vision (2)
      • Python 활용하기 (12)
      • 코딩테스트 (127)
        • Python (109)
        • MySQL (14)
      • Git (3)
      • MySQL 활용하기 (0)
      • 일상 이야기 (1)
  • 블로그 메뉴

    • 홈
    • 태그
  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
swwho
Vanishing Gradient Problem(기울기 소실)
상단으로

티스토리툴바