김민아 = 2번
k-최근접 알고리즘에서 k의 값이 클 수록 같은 target label 이루는 집단의 경계가 완만해지고 이상치에 덜 민감합니다. 단점은 작지만 중요한 패턴을 무시할 수도 있습니다. 반대로 k의 값이 작을 수록 경계가 각지고 이상치에 더 민감해집니다. 데이터의 크기에 따라 주로 k의 값을 결정하는데, 보통 데이터의 크기가 클 수록 연산량을 줄이기 위해 k의 값을 작게 설정합니다.
조장현 = 3번
k-최근접 이웃 알고리즘은 데이터 클래스 간의 구분이 명확한 데이터셋에서 효과적인 성능이 나타납니다. 근접한 데이터와의 거리를 통해 예측하므로, 서로 다른 클래스 간의 거리가 클 수록 효과적입니다. 또한 데이터 간의 거리를 계산해야 하므로 데이터셋이 클수록 성능이 낮아집니다.
#큰 데이터셋은 K-최근접 알고리즘에 적합하지 않다.
김치연 = 6번
올바른 머신러닝 모델을 만들기 위해서는 데이터의 적절한 분리가 필수적입니다. 세가지 방법은 다음과 같습니다.
zip함수를 이용해 리스트분포를 사용하여 분리하기
numpy의 array배열을 사용하여 분리하기
판다스의 데이터프레임을 통해 분리하기
혼자공부하는 머신러닝에서는 데이터프레임을 통해 분리하는 방법은 나오지 않았습니다.
샘플링 편향을 피하기 위해서는 훈련용데이터와 테스트용 데이터를 적절하게 나누어주는 셔플이 필요합니다. 넘파이의 셔플함수를 이용하면 됩니다.
류여진 = 1번
데이터 전처리는 기본적으로 데이터를 분석하기에 유리한 형태로 만드는 과정을 의미합니다. 데이터 분석에 적합한 형태로 만들기 위해서는 데이터의 특성을 먼저 파악한 후 적절한 처리 방법을 찾는 것이 중요하며, 이때 고려하는 사항에는 다음과 같은 것들이 있습니다.