Translation in LSTM has problems : vanishing gradient
seq2seq → 문장단위로 context를 구성후 한 단어씩 디코딩해가는 방식
Attention score를 구하는 과정 : Q(Query)와 K(Key)를 비교한다.
NER : name Entity Recognization
time을 이용하는 개체명인식.
벡터곱을 연산한 결과를 attention map이라고 한다. → softmax를 곱해줘서 값을 균일하게 0~1사이로 맞춰준다.
dim = -1 : 차원수를 읽을 때 마지막 차원을 얘기하는 것(인덱싱의 마지막 -1과 동일한 이야기임)
이론적인 부분이 중요한 이야기라 이해하고 넘어가는 것이 중요함.
단어와 단어간의 중점을 주기 위해 고안된 모델.
self- attention을 사용하는 모델로, Q,K,V가 같은 단어인 파생된 attention. encoder/decoder를 이용하는게 아니라 자기 자신을 attention하는 메커니즘.
visualizate self-attention
서로 다른 단어들을 MLP를 이용해 분리한 후 attention진행.
‘Thinking Machines’라는 단어가 있을 때 어떻게 진행되는지 보여주는 그림
→Thinking의 Q와 K를 각자 분리한 후 (동일하게 분리된)‘Machines’ 와 attention score비교를 해준다.