배경 seq2seq를 처리하기 위해 기존 모델들은 recurrent model로 long-term dependency에 취약했다. 긴 문장에 어떤 정보와 다른 정보 사이의 거리가 멀때 해당 정보를 이용하지 못하는 문제가 발생했다. transformer는 recurrence를 사용하지 않고 attention mechanism만 사용해 input과 output의 dependency를 포착한다. recurrence : neural network에서 다음 step으로 넘어갈 때 출력 결과가 이전 계산 결과에 영향을 받는(=되풀이) 특징 recurrence와 convolution을 제거하고 attention을 사용하여 병렬처리를 가능케 하였다. Encoder (좌측) N개의 동일한 layer로 구성되어 있으며, ..