대부분의 프레임워크에서 자동으로 지원해주기 때문에 모르고 넘어갈 수 있는 부분일 것 같다. 모델을 만들기 사용할 때, 우리는 따로 초기 가중치를 설정해주지 않는다. 그럼 아무 값이나 들어가는 것일까? 랜덤한 수로 시작해야하는 것은 맞기 때문에 아무 값이긴 하지만, 표준편차가 어떻냐에 따라서 그 효율성과 속도, 성능이 달라질 수 있다. 보통 학습을 할 때 오버피팅을 억제하여 성능을 높이는 방법이 "가중치 감소"이다. 가중치가 클수록 그 영향이 커지기에 오버피팅의 가능성이 높아진다. 따라서 가중치를 감소시키는 것이 좋은 방향이고 초깃값도 작을수록 좋을 것이다. 만약 초깃값이 0이라면 어떨까? 오차 역전파를 고려했을 때 모든 가중치가 똑같이 갱신되기 때문에 학습이 올바르게 진행되지 않음을 예측할 수 있다. ..