Transformers

Transformer Network

RNN : vanishing problem(깊어질수록 정보전달 힘들어짐) ⇒

<게이트 사용>⇒ GRU ⇒ LSTM

하지만, 복잡도 증가함. + 아직도 Sequential Model임

마지막 output을 계산하기 위해 전 계산도 해야 해서 마치 병목현상에 걸린 것 처럼 느껴짐

전체 문장을 동시에 수행할 수 있도록

Attention + CNN

A3계산하는 방법?

워드 임베딩 대신에, 주변의 단어를 보고 가장 적절한 단어를 찾는다. (병렬로!)

RNN과 Transformer의 Attention이 비슷하게 보인다.
차이점은 transformers Attention은 q, k, v 가 있다는 것이다.

RNN과 Transformer의 Attention이 비슷하게 보인다. 차이점은 transformers Attention은 q, k, v 가 있다는 것이다.

Untitled

DB 생각하면 이해하기 쉬움