求解如下优化问题
调整学习率 $\eta$
绘制损失函数关参数的曲线以进行调整
1.自适应调整学习率
- 在迭代初期,距离目标值较远,可设置较大的学习率
- 经过迭代后,距离目标值较近,可减小学习率
- 对不同的参数应用不同的学习率 $\eta$
Adagrad
其中 $\sigma^t$ 代表过去所有梯度值的平方和均值的平方根 化简得 只能适用于单一参数
2.随机梯度下降(Stochastic Gradient Descent)
- 随机选择一个 $x^n$
- 计算当前位置的误差并更新 $$ L^n=\bigg(\hat{y}^n-(b+\sum w_ix_i^n)\bigg)^2\[0.5em]
\theta^i=\theta^{i-1}-\eta\nabla L^n(\theta^{i-1}) $$
- 迭代速度很快
3.特征缩放 (Feature Scaling)
将输入变量缩放为统一规模,可有效提高求解速度和效果
- 求解每个输入向量 $x^i$ 的均值 $m_i$ 及标准差 $\sigma_i$
- 对向量中的每个元素执行操作
- 经过操作后,输入向量的均值都为0,方差都为1