1조

특성의 갯수를 계속 늘리고 규제를 적용한다면 모델의 성능은 계속 좋아지는 것인가? 아니면 특성의 갯수에도 적절한 값이 존재할까?

책에 적힌 내용을 토대로 설명했을 때, 42개의 데이터가 존재하고, degree값을 5로 설정하면 (42, 55)의 데이터셋을 얻게 된다. 하지만, 이렇게 되면 특정 훈련 데이터셋에 너무 치중되는 형태의 과대적합이 이루어지게 된다. 즉, 특성의 개수를 무한정 늘리게 된다고 해서 성능이 비약적으로 상승한다고 볼 수 없다.

특성이 과도하게 많아지면 학습 시간이 오래 걸린다거나 하는 문제가 발생할 수 있음. 그리고 특성을 무조건 늘린다고 모델의 성능이 계속 좋아지는 것은 아님.

성능이 좋아질 가능성이 있지만 효율적인 방법은 아니다.

3조

원핫 인코딩을 진행할 때 클래스의 값이 너무 많으면 어떡하나 그러면 벡터의 크기가 너무 커지지 않나요?

그래서 클래스 값이 너무 많을때에는 다른 방식 사용.

nlp task에서 사전에 존재하는 모든단어를 원핫 인코딩을 하기가 어렵기에 토크나이저 라는 것을 사용합니다. 단어집에 있는 단어를 미리 맵핑하는 방법인 단어기반 토큰화등 여러가지 방법이 존재합니다.

4조 테스트 세트에 사이킷런 변환기를 사용할 때, 왜 훈련 세트에서 학습한 변환기를 사용해야 하는가?

스케일러를

5조

선형 모델에서 모델의 복잡도를 줄이는 것보다 규제를 적용하는 것이 더 효과적인 이유가 따로 있을지, 경우에 따라 규제를 적용하는 것보다 모델의 복잡도를 수정하는 것이 더 효과적인 경우가 따로 있는지?

모델의 복잡도를 수정하기 위해선 특성을 줄이거나 해야 하는데, 일일이 적용하기 보다, 규제를 통해 복잡도를 낮추는 것이 훨씬 효율적인 방식이다.