버츄얼유튜버

Attention과 Transformer

두원공대88학번뚜뚜 2022. 8. 31. 17:29

https://velog.io/@idj7183/Attention-TransformerSelf-Attention

Attention, Transformer(Self-Attention)

Attention, Transformer(Self-Attention)

velog.io

Attention : Decoder에서 출력 단어를 예측하는 시점마다 Encoder에서의 전체 입력 문장을 다시 한 번 참고4

기본 계산(메커니즘)

Generalized Dot Product : Dot Product 사이에 특정행렬(여기선 Wa)를 추가시킴. 이 Wa는 학습 가능한 행렬.
Dot Product와 General Product의 연산 결과는 Scalar이기에, Wa의 형태는
(Hidden State Vector Dimension) X (Hidden State Vector Dimension) 과 같다.

Concat : Decoder Hidden State Vector와 Encoder의 Hidden State Vector(Q)를 Concat시키고, 이를 Wa(가중치행렬)과 곱해서 중간 Hidden Layer을 만듦.