1조
다중 분류에서 sigmoid 함수를 사용했을 때와 softmax 함수를 사용했을 때의 각각의 장단점이 무엇인가?
2조
소프트맥스 함수의 출력을 확률이라고 말 할 수 있는 이유는?(수학적으로 검증이 가능한가?)
3조
batch size가 작을 때 local minimum에 빠지기 쉬운가, 클 때 빠지기 쉬운가?
4조
로컬 미니멈에 빠지지 않고, 글로벌 미니멈을 찾아가기 위한 방법은 어떤것들이 있을까? → 크로스 앤트로피가 이 방법이라면, 어떤 방식과 원리로 로컬 미니멈 문제를 방지하는가?