(三)梯度下降

 

求解如下优化问题

调整学习率 $\eta$

绘制损失函数关参数的曲线以进行调整 image

1.自适应调整学习率

  • 在迭代初期,距离目标值较远,可设置较大的学习率
  • 经过迭代后,距离目标值较近,可减小学习率
  • 对不同的参数应用不同的学习率 $\eta$

Adagrad

其中 $\sigma^t$ 代表过去所有梯度值的平方和均值的平方根 化简得 只能适用于单一参数

2.随机梯度下降(Stochastic Gradient Descent)

  1. 随机选择一个 $x^n$
  2. 计算当前位置的误差并更新 $$ L^n=\bigg(\hat{y}^n-(b+\sum w_ix_i^n)\bigg)^2\[0.5em]

\theta^i=\theta^{i-1}-\eta\nabla L^n(\theta^{i-1}) $$

  • 迭代速度很快

3.特征缩放 (Feature Scaling)

将输入变量缩放为统一规模,可有效提高求解速度和效果 image

  • 求解每个输入向量 $x^i$ 的均值 $m_i$ 及标准差 $\sigma_i$
  • 对向量中的每个元素执行操作
  • 经过操作后,输入向量的均值都为0,方差都为1