1. 어떤 기준으로 적절한 데이터 전처리 방법을 결정하나요?

데이터 전처리의 주요 작업들

출처 : https://learn.microsoft.com/ko-kr/azure/architecture/data-science-process/prepare-data

  1. k - 최근접 이웃 알고리즘에서 n_neighbors 값 설정 기준과 변화는 어떻게 이루어지나요?

K = n_neighbors

값의 설정기준은 상황에 따라 다른 것 같습니다.. n값을 줄이면 결정경계가 매우 강건하게 생기고 이에따라 overfitting이 일어날 가능성이 높습니다. n값을 과도하게 늘리면 이상치에 대해 적절히 대응하기 어렵습니다. 그렇기에 overfitting을 고려하면서 하이퍼파라미터를 튜닝하는 것이 중요합니다. K 값이 변화함에 따라 참고하는 주변 데이터 양이 변합니다 이에따라 결정경계가 변합니다.

Untitled

  1. k - 최근접 이웃 알고리즘이 다양한 데이터셋에서 어떤 성능을 보여주나요?

k - 최근접 이웃 알고리즘은 기본적으로 비슷한 특성을 가진 데이터는 비슷한 범주에 속하는 경향이 있다는 가정하에 사용하는 분류 알고리즘이다. 주변의 가장 가까운 K개의 데이터를 보고 데이터가 속할 그룹을 판단한다. 어떤 데이터 분포를 갖는지와 상관없이 다양한 데이터에서 사용할 수 있다. 인근 이웃 데이터와의 유사도에 따라 결과값을 예측하기 때문이다. 알고리즘의 훈련 방식은 사실상 데이터를 저장하는 것이 전부이며, 교재예시의 경우 xy값의 스케일을 조절해 오류를 해결할수 있다.

  1. 비선형 데이터셋에서 k-최근접 이웃 알고리즘이 어떻게 동작하나요?