MHA → output 벡터 시퀀스 > 개별 출력 벡터
→ input 벡터 → FeedForward NN
피드포워드 뉴럴네트워크
트랜스포머에서 사용하는 FeedForward NN의 활성함수: ReLU
f(x) = max(0, x)
FeedForward NN 학습
가중치, 바이어스 → 태스크를 가장 잘 수행하는 방향으로 업데이트
트랜스포머에서// 은닉층의 뉴런 개수(차원 수) = 입력층의 4배