Add mini-batch gradient descent support

Training processes every sample individually (online/stochastic SGD). Adding mini-batch gradient descent would improve training stability and allow averaging gradients across a batch before updating weights, which is standard practice.