5조 | Notion

어떤 기준으로 적절한 데이터 전처리 방법을 결정하나요?

김건형 : 숫자, 범주형, 텍스트 등 각각의 데이터 타입에 따라 적절한 전처리를 할 수 있다. null 데이터, 이상치 등의 값을 적절히 판단하여 전처리하고, 분석 목적에 따라 전처리 방법은 달라진다.

최호윤: 데이터 전처리 할 때는 스케일이 일정한지 잘 확인 해야한다. 선점도로 비교 했을 때 x축과 y축의 스케일이 맞지 않아 선점도에서 보이는 것과 실제 데이터 값이 다른 결과값이 나올 수 있기 때문이다. 그래서 스케일을 맞추기 위해서 표준 편차와 표준 점수를 활용해서 스케일을 맞춰 주는 것이 좋다.

양유경: 데이터를 전처리를 하는 이유는 이상값을 제거하는 게 중요하므로 이상값이 최소가 되도록 데이터 변환 과정을 거친다.

권주명 - 각 특징의 스케일이 맞도록 전처리를 해준다. 또한 이상치가 존재한다면 이상치가 많이 튀지 않도록 데이터 전처리를 수행한다.

조수현 - 데이터의 특성을 고려하여 학습하기에 더욱 효과적인 특성이 나타나도록 데이터 전처리 방법을 결정한다. 이상값 처리에 그 목적을 둔다.

k-최근접 이웃 알고리즘에서 n_neighbors 값 설정 기준과 변화는 어떻게 이루어지나요?

권주명 - 만약 가장 가까운 점의 개수가 똑같을 경우, 분류하는 기준이 애매하기 때문에n_neighbors는 보통 홀수로 설정한다. k의 값이 작을수록, 결정 경계가 훈련 데이터에 가깝게 따라간다. 즉, 이상치에 민감하게 반응하고 결정 경계가 뾰족해지는 것이다. 반대로 k의 값이 클수록, 결정 경계가 부드러워지고 이상치에 둔감하다.

박상영 - KNeighborsClassifier() 함수의 매개변수, 디폴트 값은 5, 이웃샘플의 개수를 정함

최호윤 :k-최근접 이웃 알고리즘에서 n_Neighbors의 초깃값은5개로 설정 되어 있으며 설정 기준은 데이터 앞뒤에 몇 개를 선택했을 때 적절한 결과값이 나오는지에 따라서 결정 해야 한다. 기준 값이 많아지면 데이터를 특정 지을 수 없어서 잘 못된 결과가 나올 수 도 있고 기준 값이 적어지면 데이터가 비교군이 적어 질 수도 있기 때문에 적절한 기준 값을 정해야 한다.

김건형 :

보통 데이터가 많고 분류의 정확도가 중요한 경우에는 값을 크게 설정하고, 반대의 경우는 값을 작게 설정한다. 값이 너무 작으면 분류의 정확도는 높아지지만 분류 속도는 느려지고, 반대의 경우 속도는 빨라지지만 정확도가 떨어진다.

조수현 - 객체를 생성한 후 (n_neighbor=5) 을 추가하여 수정할 수 있다. n_neighbor 값을 데이터에 비해 너무 많은 값을 설정한다면 예측하기 어려울 것이고, 너무 적으면 정확도가 떨어질 것이다.

k-최근접 이웃 알고리즘이 다양한 데이터셋에서 어떤 성능을 보여주나요?