티스토리 뷰

ML&DNN/제목 미정

[Batch Size] 왜 데이터를 나누게 되었는가?(임시 저장)

샰롯 2022. 7. 18. 13:48

본 내용은 ML, DNN을 학습함에 있어서 기록하는 것으로
틀린 내용이 존재합니다.

Batch Size란?

모델이 학습하는 과정에서 최적화(Gradient descent)를 한번에 몇개의 데이터를 가지고 할 지 데이터 그룹의 크기를 나타내는 단위.

Batch Size에 따른 명명 법

Full Batch : Full-Batch size Gradient descent
1epoch당 전체 데이터에 대해 1회 parameter update가 발생한다.

Mini Batch: Mini-Batch size Greadient descent
1epoch당 전체 데이터에 대해 (전체 데이터 / Batch size)올림한 횟수의 parameter update가 발생한다.

1 Batch size(SGD) : Stochastic Gradient Descent
1epoch당 전체 데이터 횟수 만큼의 parameter update가 발생한다.

Batch Size를 사용하는 이유

데이터가 많은 경우 전체데이터(Full Batch Size)를 보고 최적화를 할 때 엄청난 시간이 할애될 수 있다.
- 이는...
Optimizer가 parameter update를 함에 있어 결국 Loss값을 기준으로 결정이 되는데,
Loss값은 대략적으로 $y - \hat{y}$함에 있어 각각의 row의 모든 loss를 계산하여 더한 뒤 평균을 내야 하기 때문에,
Batch size를 나눠 계산하는 것이,
한 보폭을 나아가는데 있어 수행되는 계산이 줄어들게 되어 시간이 줄어 들게 되는 것 이다.
Local minima에 갇히는 상황을 벗어날 수 있다.
- 이는...
Batch Size의 보폭에 따라 Local minima를 탈출하여 Global minimum를 찾을 수 있다.
SGD의 단점을 절충
- 이는...
반복이 충분하면 SGD가 효과는 있지만 노이즈에 따른 변화가 매우 심하다.
이를 해결 하기 위해 Mini-Batch를 적용하여 노이즈를 줄이는 방안으로 활용

Batch-Normalization은 왜 해야하는가? (정리중~) (0)	2022.07.12

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함