2조 질문(조장현)
“특성을 생성할때 설명력이 있는 특성(키와 몸무게 특성이 존재할때 bmi특성을 만드는 행위)을 만드는게 좋은가? 혹은 모델의 성능이 높은 특성을 선택하는게 좋은가? (모델의 설명력과 성능이 상반된다고 가정할때)”
: 성능이 높은 특성을 선택하는 것이 좋다고 생각한다. 높은 성능이 나타났을 때 연관성(유사도)을 부여하여 설명하는 것이 더 좋은 판단이라고 생각한다. 설명력이 있는 특성이라고 하더라도 정확도에 관여할 수 없는 특성이라면 오히려 연관성이 낮은 특성이 생성되므로 학습 성능에 저하될 것으로 판단한다.
*예측은 성능 데이터분석은 설명력
플제ㅔㄱ트하면서 다시 알아보자
4조 질문(김민석, 김민아)
“테스트 세트에 사이킷런 변환기를 사용할 때, 왜 훈련 세트에서 학습한 변환기를 사용해야 하는가?”
변환기를 훈련 세트의 변환기로 사용해야하는 이유는, 같은 기준으로 데이터를 가공하지 않으면 비교가 불가능하다. 특히 StandardScaler를 사용할 경우, 데이터의 스케일이 달라지므로 훈련한 모델이 쓸모 없게 된다.
훈련세트에 변환기를 적용해서 모델을 학습한다는 의미는 그 모델이 특정 변환기가 적용된 데이터를 학습했다는 뜻입니다. 그런데 특정변환기를 이용한 데이터를 학습한 모델에 다른 변환기를 이용한 테스트 데이터를 넣는다는 것은 아예 다른 전처리가 됬다던가, 아니면 단위가 아예 다른 데이터를 넣는다고 볼수 있기 때문에 같은 변환기를 사용해야 합니다.
1조 질문 (류여진)
특성의 갯수를 계속 늘리고 규제를 적용한다면 모델의 성능은 계속 좋아지는 것인가? 아니면 특성의 갯수에도 적절한 값이 존재할까?
→ 특성의 개수에도 적절한 값이 존재합니다. 예를 들어 특성 3개만 가지고도 충분히 예측할 수 있는 데이터가 있고, 몇십 개의 특성을 이용해야 정확하게 예측할 수 있는 데이터가 있습니다. 다만 적절한 개수를 찾는 방법에는 다양한 방법들이 있고, 특성의 개수를 많이 늘려놓고 규제를 적용하며 줄여나가는 것이 적절한 개수를 찾는 전략일 수는 있습니다. 이때는 라쏘 회귀가 유용한데, 설명력이 약한 특성들의 계수를 0으로 만들어 특성을 삭제하기 때문입니다.