Attention is all you need 13주차에는 "Attention is all you need" 논문을 바탕으로 scaled dot product와 attention mask에 대해서 배웠다. 강의에서 배운 사고의 흐름을 복습 및 정리하고자 한다. 1. Scaled Dot Product Scaled Dot-Product는 transformer를 이해하는 데 필수적이다. 그 원리는 아래와 같다. Scaled Dot-Product attention 방식에서는 Query, Key, Value가 input으로 들어온다. 이때 Q와 K의 dot product를 통해 attention score를 계산하면, 이를 scaling 하여 softmax를 적용한 후, 결과에 V를 적용하게 된다. 그..