최적의 값을 찾기 위한 반복적인 과정을 효율적으로 할 수 있도록 Training Data Set을 잘 구성하자
다양한 모델 중 성능이 좋은 모델을 확인하기 위해 Development Set이 필요하다.
1)은 Test set이 없는 경우이다. 없어도 괜찮지만, Test set이 unbiased estimate를 제공한다는 점을 알자. (필요하면, test set이 있어야 함)
하지만, 지금은 데이터가 많으므로, Dev/Test set에게 20%는 불필요하게 많다.
왜? train : 훈련 / dev : 많은 모델중 최적의 모델 선택 / test : 평가
Train set과 Dev/Test set은 데이터 분포가 다를 수도 있다.
예를 들어,
Training set : Cat pictures from webpages
Dev/Test set : Cat pictures from using your app
→ train/dev error