데이터 사전 처리

1. 누락 데이터 처리

데이터프레임에는 원소 데이터 값이 종종 누락되는 경우가 있다.

유효한 데이터 값이 존재하지 않는 누락 데이터를 NaN(Not a Number)으로 표현한다.

누락 데이터가 많아지면 데이터의 품질이 떨어지고, 머신러닝 분석 알고리즘을 왜곡하는 현상이 발생하기 때문에 제거하거나 다른 적절한 값으로 대체하는 과정이 필요하다.


2. 중복 데이터 처리

하나의 데이터셋에서 동일한 관측값이 2개 이상 중복되는 경우 분석 결과를 왜곡하기 때문에 삭제해야 한다.


3. 데이터 표준화