Recurrent Neural Networks

Why Sequence Models?

x → y

Untitled

$T_x = 9$ : 입력 sequence의 길이

$x^{<t>}$ : input sequence의 인덱스 t 위치의 값

$T_y = 9$ : 출력 sequence의 길이

$y^{<t>}$ : output sequence의 인덱스 t 위치의 값

vocabulary를 모아 dictionary를 만들고,
one-hot encoding을 진행한다. (해당하는 값 1 : 아닌값 0 / 벡터에서 단 1개만 1로 표시됨 )

vocabulary를 모아 dictionary를 만들고, one-hot encoding을 진행한다. (해당하는 값 1 : 아닌값 0 / 벡터에서 단 1개만 1로 표시됨 )

단어 집합에 없는 단어를 표현하기 위해서는 어떻게 해야 하는가?

⇒ UNK로 표시(가짜단어로 모르는 단어 표시)

9개의 입력 단어

Untitled

9개의 입력 단어(One-hot vector) → …

1. input과 output은 다른 길이
2. text의 서로 다른 위치에서 학습한 기능을 공유하지 않는다.
: harry이름을 x_1에서 학습해도 x_t에서도 사람이름이라는 것을 아는게 좋을 것임

input과 output은 다른 길이
text의 서로 다른 위치에서 학습한 기능을 공유하지 않는다. : harry이름을 x_1에서 학습해도 x_t에서도 사람이름이라는 것을 아는게 좋을 것임

one-hot vector로 구성된 input은 너무 크다 ⇒ 이를 개선하여, 모델의 파라미터를 줄일 수 있을것임