7/14 : Transformer

:: CH5 REVIEW ::

Translation in LSTM has problems : vanishing gradient

seq2seq → 문장단위로 context를 구성후 한 단어씩 디코딩해가는 방식

Attention score를 구하는 과정 : Q(Query)와 K(Key)를 비교한다.

NER : name Entity Recognization

time을 이용하는 개체명인식.

벡터곱을 연산한 결과를 attention map이라고 한다. → softmax를 곱해줘서 값을 균일하게 0~1사이로 맞춰준다.

dim = -1 : 차원수를 읽을 때 마지막 차원을 얘기하는 것(인덱싱의 마지막 -1과 동일한 이야기임)

이론적인 부분이 중요한 이야기라 이해하고 넘어가는 것이 중요함.

단어와 단어간의 중점을 주기 위해 고안된 모델.

self- attention을 사용하는 모델로, Q,K,V가 같은 단어인 파생된 attention. encoder/decoder를 이용하는게 아니라 자기 자신을 attention하는 메커니즘.

visualizate self-attention
서로 다른 단어들을 MLP를 이용해 분리한 후 attention진행.
‘Thinking Machines’라는 단어가 있을 때 어떻게 진행되는지 보여주는 그림

→Thinking의 Q와 K를 각자 분리한 후 (동일하게 분리된)‘Machines’ 와 attention score비교를 해준다.