RNN : vanishing problem(깊어질수록 정보전달 힘들어짐) ⇒
<게이트 사용>⇒ GRU ⇒ LSTM
하지만, 복잡도 증가함. + 아직도 Sequential Model임
마지막 output을 계산하기 위해 전 계산도 해야 해서 마치 병목현상에 걸린 것 처럼 느껴짐
전체 문장을 동시에 수행할 수 있도록
Attention + CNN
A3계산하는 방법?
워드 임베딩 대신에, 주변의 단어를 보고 가장 적절한 단어를 찾는다. (병렬로!)
RNN과 Transformer의 Attention이 비슷하게 보인다. 차이점은 transformers Attention은 q, k, v 가 있다는 것이다.
DB 생각하면 이해하기 쉬움