본문 바로가기
Machine-Learning/NLP (Natural Language Processing)

[NLP] Transforemr - 피드포워드, add와 Norm

by AteN 2022. 11. 6.

피드포워드 네트워크  (Feed-Forward Networks)

  • 2개의 전 결합층 (dense layer)ReLU 활성화 함수로 구성 
  • 피드 포워드 네트워크의 변수는 문장의 다른 위치에서는 동일하고 인코더 블럭에서는 다르게 나타낸다

 

add와 norm 요소 

인코더에서 중요한 요소 중 하나는 바로 add와  norm 관련 부분이다. 이 부분은 서브레이어의 입력과 출력 부분에 연결되어 있다. 

- 서브레이어에서 멀티헤드 어텐션의 입력값과 출력값은 서로 연결한다 

- 서브레이어에서 피드포워드의 입력값과 출력값을 서로 연결한다

 

add와 norm 요소는 기본적으로 레이어 정규화 (layer normalization)의 잔차 연결 (residual connection)이다 

 

Residual Connection

  • 특정 레이어를 건너 뛰어서 입력
  • 초기의 모델 수렴 속도가 높아진다
  • 입력 데이터와 self-Attention의 결과를 더함 

Layer normalization

  • 각 레이어 값이 크게 변화하는 것을 방지해 모델을 더 빠르게 학습
  • residual connection 결과에 대한 정규화 진행  

레이어 정규화는 각 레이어 값이 크게 변화하는 것을 방지해 모델을 더 빠르게 학습할 수 있게 한다. 

댓글