1조

특성의 갯수를 계속 늘리고 규제를 적용한다면 모델의 성능은 계속 좋아지는 것인가? 아니면 특성의 갯수에도 적절한 값이 존재할까?

→ 불필요한 특성이 많아질 수록 그것을 처리하기 위해 규제가 세진다면, 필요한 특성들에 대해서도 규제가 과하게 적용되어 악영향을 줄 수 있을 것 같다. (+ 처리할 연산이 많아짐.)

계속 늘려도 모델의 성능은 좋아지진 않을 거 같다

특성의 개수가 많아진다면 모델의 성능은 완전히 강력해진다. 훈련 세트에 대해 거의 완벽하게 학습할수 있기 때문이다. 하지만 이런경우에는 훈련 세트에 너무 과대 적합이 될수 있기 때문에 테스트 세트에서는 점수가 낮게 나올 수 있다.

도미 분류 모델 예제에서 L1규제가 55개의 특성 중에 42개를(거의 80%) 제외한 것처럼, 특성의 개수를 늘릴수록 그만큼 규제는 강하게 적용될 거 같다고 예상한다.

2조

특성을 생성할때 설명력이 있는 특성(키와 몸무게 특성이 존재할때 bmi특성을 만드는 행위)을 만드는게 좋은가? 혹은 모델의 성능이 높은 특성을 선택하는게 좋은가? (모델의 설명력과 성능이 상반된다고 가정할때)

→ 설명력이 부족한 특성을 사용하여 모델을 학습했을 때, 나온 결과의 처리과정을 설명하기 어렵다. 이렇듯 결과만 보고 알고리즘을 이해하기가 힘들다는 단점이 있긴 하지만, 많은 양의 데이터를 넣었을 때, 개발자가 굳이 규칙을 파악하지 않아도 데이터만으로 높은 정확도를 가지는 예측 결과를 이끌어내는 딥러닝의 장점을 생각했을 때, 성능이 높은 특성을 선택하는 것이 좋다고 생각한다. 또한, 설명력이 없는 데이터셋은 기존의 특성을 조합하는 방식과 같이 데이터의 규모를 키우기가 좋다는 장점도 가지고 있다.

대신 설명력이 부족한 특성을 사용할 경우 데이터의 양이 충분히 많아야 한다고 생각한다.

결국에 성능이 나오지 않으면 머신러닝의 의미가 사라진다.

3조