2조

설명력이 좋은 모델을 원할 땐 설명력 있는 특성을 넣는 것이 좋고 성능이 좋은 모델을 원할 땐 특성공학을 이용한 특성을 넣는 것이 좋다.

설명력 있는 특성을 넣으면 중요한 정보를 강조할 수 있지만 기존 특성과 상관관계가 높기에 중복적으로 학습할 가능성이 크다. 오버피팅이 일어날 수 있다 !

결국 두 가지 요소를 균형있게 고려해서 공학하는 것이 좋다.

모델의 설명력과 성능이 상반된다고 가정을 했기에 상황에 따라 적절한 방향을 선택하는 것이 좋다.

케바케다 ~

예측이 중요하면 당연히 성능이 좋은 모델 !!

인사이트를 요구한다면 설명력이 좋은 모델이 좋다 !!!!!!

단순 데이터를 예측하거나 분류할 때는 성능이 중요할 수 있지만, 데이터간의 상관관계를 판단할 경우에는 설명력이 좋은 데이터가 좋을 수 있다.

3조

클래스의 개수가 많으면 차원이 커지고 굉장히 훈련시키는데 오래걸리고 비효율적이다. 이를 해결하기 위해 같은 범주의 데이터는 한 카테고리로 묶는 방법, 혹은 NLP에서는 단어 임베딩과 같은 방법을 사용한다

4조

모델의 성능을 평가할 때는 모델이 훈련 데이터에만 의존하지 않고, 새로운 데이터에도 잘 작동하는지 확인하는 것이 중요합니다.

테스트 세트에서 학습한 변환기를 사용하면 테스트 세트에 대한 성능을 평가하는 것이 아닌, 훈련 데이터와 테스트 데이터 간의 유사성을 평가하게 됩니다.

따라서 테스트 세트에 사이킷런 변환기를 적용할 때에는 반드시 훈련 세트에서 학습한 변환기를 사용해야 합니다. 이를 통해 모델의 실제 성능을 정확하게 평가할 수 있습니다.

5조