기계는 다음과 같은 과정을 통해 학습한다.1. 임의의 파라미터(가중치($w$))를 정한다.2. 이 가중치에 대한 손실값을 구하고 손실 함수(Loss function)의 기울기(Gradient)를 구한다.3. 경사하강법(Gradient Descent)을 이용해 파라미터를 업데이트 한다.4. 업데이트 된 지점에서 새 손실 함수의 기울기를 구한다.5. 3번 다시 실시6. 파라미터가 최적값에 도달하면 파라미터 업데이트를 중지한다. 학습 과정에서의 문제보통 기계를 학습 시킬 때 사용하는 데이터의 양은 매우 많으며 이렇게 많은 데이터를 모두 한꺼번에 모델에 태우게 되면, 컴퓨터가 버티질 못한다. 데이터 크기가 너무 크면 메모리가 부족해진다.한번의 학습에 계산되어야할 파리미터 수가 지나치게 많아져 학습 속도가 ..