梯度下降（梯度下降法和最小二乘法的区别在哪）

梯度下降是深度学习中用于优化神经网络权重以最小化误差的重要方法。

在误差反向传播中，梯度下降被用于找到使网络误差最小化的权重。梯度表示网络的误差随权重变化的情况。

想象一下站在山顶上滑雪的场景，想尽快下到山谷。梯度下降就如同每 10 米停下来用卷尺测量周围环境的陡度（根据整个数据集测量梯度），以找到最陡峭的下山路径。而随机梯度下降则是快速估计陡度（仅使用几百个数据点来估计）。

在随机梯度下降中，沿着误差函数的最陡路径（负梯度或一阶导数）向下走，以寻找局部最小值，即为任务产生低误差的点。但要注意以微小的步骤进行，避免被困在半管状的障碍物中。尽管典型的误差景观可能有数百万个维度，存在很多山谷和鞍点，增加了寻找最优解的难度，但通过梯度下降仍有可能找到较好的解决方案。

从梯度下降的角度看，在某些情况下，第一步类似于计算梯度或调用 loss.backward()，第二步类似于应用梯度或调用 optimizer.step()。