:: CH5 REVIEW ::

Translation in LSTM has problems : vanishing gradient

seq2seq → 문장단위로 context를 구성후 한 단어씩 디코딩해가는 방식

Attention score를 구하는 과정 : Q(Query)와 K(Key)를 비교한다.

NER : name Entity Recognization

time을 이용하는 개체명인식.

벡터곱을 연산한 결과를 attention map이라고 한다. → softmax를 곱해줘서 값을 균일하게 0~1사이로 맞춰준다.

dim = -1 : 차원수를 읽을 때 마지막 차원을 얘기하는 것(인덱싱의 마지막 -1과 동일한 이야기임)

이론적인 부분이 중요한 이야기라 이해하고 넘어가는 것이 중요함.

CH6 : Transformer

단어와 단어간의 중점을 주기 위해 고안된 모델.

→Thinking의 Q와 K를 각자 분리한 후 (동일하게 분리된)‘Machines’ 와 attention score비교를 해준다.