4조 | Notion

특성의 갯수를 계속 늘리고 규제를 적용한다면 모델의 성능은 계속 좋아지는 것인가? 아니면 특성의 갯수에도 적절한 값이 존재할까?
1. 추가적으로 주어지는 특성들이 주어진 태스크 수행에 유의미한지 무의미한지 어느 정도 사전지식이 있다면 굳이 필요없는 특성은 주지 않는게 학습 데이터 상의 노이즈를 줄이고 모델 학습 과정을 효율적으로 만들기 때문에 보다 나은 모델을 낳을 것이라고 생각한다. 그러나 추가로 주어지는 특성들이 모델의 예측 과정에서 어떠한 역할을 할지에 대한 아이디어가 아예 없는 경우에는 해당 특성들도 학습데이터에 추가하고 모델이 직접 학습 과정에서 필요 유무를 판단해 규제하거나 유지하도록 하는 방향이 좋을 것 같다는 생각이 든다.
특성을 생성할때 설명력이 있는 특성을 만드는게 좋은가? 혹은 모델의 성능이 높은 특성을 선택하는게 좋은가? (모델의 설명력과 성능이 상반된다고 가정할때)
1. 임의로 설명력 있는 특성을 생성할 때 염두에 둔 문제 또는 목적과, 모델이 풀고자 하는 문제 또는 모델의 학습 목적이 어느 정도 겹치거나 같은 방향이라면 설명력 있는 특성 데이터를 제공하는 것이 모델 성능 향상에 도움이 될 것 같다. 그러나 모델이 의도하는 목적과 주어지는 설명력 있는 샘플이 서로 다른 취지로 제작된 경우라면 오히려 노이즈처럼 작용하여 모델학습을 저해할 것 같다.
2. 다른팀 답변: 예측 성능이 중요한지, 추후 데이터 분석이 중요한지 등에 대한 고민이 필요함. 원인과 결과에 대한 상관관계 분석에 중점을 둔다면 설명력 있는 샘플을 이용하는 것이 좋을 것이다. (성능이 지나치게 저하되지 않는 경우에 한정)
원핫 인코딩을 진행할 때 클래스의 값이 너무 많으면 어떡하나 그러면 벡터의 크기가 너무 커지지 않나요?
1. 원핫인코딩의 한계점 중 한가지가 단어의 개수가 늘어날수록, 벡터를 저장하기 위해 필요한 공간이 늘어난다는 것이다. 이러한 단점을 보완하기 위해 워드 임베딩(word embedding)이 있다.
2. 벡터의 크기가 커지면 차원이 늘어나게 되며 기하급수적으로 증가하게 되면 차원의 저주가 발생한다. 그래서 벡터의 크기가 커지면서 원 핫 인코딩 뿐만이 아니라 다른 알고리즘으로 학습시킬 때 학습률이 저하하여서 차원의 저주를 방지하기 위해 클래스 값을 많이 정하지 않도록 하는 것이 중요하다.
선형 모델에서 모델의 복잡도를 줄이는 것보다 규제를 적용하는 것이 더 효과적인 이유가 따로 있을지, 경우에 따라 규제를 적용하는 것보다 모델의 복잡도를 수정하는 것이 더 효과적인 경우가 따로 있는지?
1. 모델 복잡도를 줄인다는 것이 모델 선택 기법 등을 통해 처음부터 차수가 낮은 저용량 모델을 사용하자는 방식으로 보인다. 이 방식 또한 대표적인 오버피팅 방지 방식인 규제 방식과 더불어 설명되는 경우에 따라 좋은 효과를 내는 합리적인 오버피팅 방지 방식이다. 그러나 규제를 선호하는 이유는 우리가 풀고자 하는 문제와 데이터를 표현하는 적합한 차원이 어느 차원인지 알 수 없기 때문에 일단 대용량 데이터를 수용할 수 있는 모델을 기본으로 사용하고 주어진 태스크에 따라 크기를 맞춰가며 감소시키는 것이 보다 general하게 이용될 수 있는 방식이기 때문인 것으로 보인다. (ML Dl Model을 Universal Approximator라고 부르는 것을 생각하면 납득하기 쉬움)