（三）梯度下降

求解如下优化问题 $\theta^*=\arg\min_{\theta}L(\theta)$

调整学习率 $\eta$

$\theta^i=\theta^{i-1}-\eta\nabla L(\theta^{i-1})$ 绘制损失函数关参数的曲线以进行调整

1.自适应调整学习率

在迭代初期，距离目标值较远，可设置较大的学习率
经过迭代后，距离目标值较近，可减小学习率
对不同的参数应用不同的学习率 $\eta$

Adagrad

$w^{t+1}\gets w^t-\frac{\eta^t}{\sigma^t}g^t\\[0.4em] \eta^t=\frac{\eta}{\sqrt{t+1}} \quad g^t=\frac{\partial L(\theta^t)}{\partial w}$ 其中 $\sigma^t$ 代表过去所有梯度值的平方和均值的平方根 $\sigma^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t(g^i)^2}$ 化简得 $w^{t+1}\gets w^t-\frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t$ 只能适用于单一参数