1. 데이터 셋을 분할해야 하는 이유 모델을 올바르게 학습시키기 위해서는 데이터 분할이 필수적이다. 모든 데이터를 학습에 사용하게 되면 과대적합 (over fitting)이 발생하며 성능이 좋지 못하며 어떤 문제를 갖고 있는지 파악할 수 없다. 쉬운 예로, 학생이 시험을 치루는데 정답을 모두 알려준 오픈북 시험이나 다름 없는 것이다. 그렇게 되면 학생의 능력을 제대로 알 수 없게되는 것과 비슷하다. 따라서, 데이터의 일부를 학습에서 제외하여 학습을 완료한 후 현재 모델이 학습하지 않은 데이터에 대해서도 잘 예측할 수 있는지 확인하는 것이 필요하다. 2. 데이터 셋 종류 Train 데이터셋(학습 데이터 셋): -모델을 학습시킬 때 사용하는 데이터 셋 Validation 데이터셋 (검증 데이터 셋): -Tr..