1 object | multiple objects
localization이 Detection에 도움을 준다.
4개의 Output으로 가능한 클래스를 출력 + 위치를 알려주는 4개 파라미터 출력
Probability of Class : is there an object?
bx
by
bh
bw
c1
c2
c3
제곱 오차를 Loss func로 사용한다면,
y1=1이라면, object가 사진에 있는것
y1=0이라면, object가 사진에 없으므로
Loss func는 y1에 대해서만 계산한다.
softmax output인 c1,c2,c3에 대해서 → log
pc → logistic regression loss
box에 대해서→squared error
로 사용할 수도 있음
얼굴에 n개의 랜드마크를 정한다.
이러한 랜드마크를 모두 포함하는 사진들을 학습하여 주요 랜드마크가 어디에 있는지 알 수 있다.
64개의 랜드마크→ 64 x 2(x,y) + 1 =129
자세 인식도 마찬가지이다.
빨간 박스의 크기를 정해서 빨간 박스 안의 이미지를 ConvNet에 보낸다.ConvNet에 보내서 해당 위치에 값이 있는지를 확인한다. 빨간 박스를 옮기면서 이를 반복한다.
stride : 빨간 박스 옮기는 정도