线性模型
y=b+\sum w_ix_i
$b$
:偏置
$w_i$
:权重
$x_i$
:特征
训练样本输入为$x^i$
,输出为$\hat{y}^i$
,训练样本可表示为
(x^i,\hat{y}^i)
损失函数
损失函数:衡量模型的好坏
给定一组$w$
和$b$
,会对应一个模型
L(f)=L(w,b)\\
=\sum_{n=1}^{10}\bigg(\hat{y}^n-(b+w\cdot x^n)\bigg)^2
选择最佳模型
\begin{alignedat}{3}
&f^* &=& arg\min_fL(f)\\
w^*,&b^* &=& arg\min_{w,b}L(w,b)\\
& &=& arg\min_{w,b}\sum_{n=1}^{10}\bigg(\hat{y}^n-(b+w\cdot x^n)\bigg)^2
\end{alignedat}
求解 梯度下降
单变量梯度下降
- 随机选取初始点
$w_0$
- 计算
$\frac{dL}{dw}|_{w=w_0}$
$w^1=w^0-\eta\frac{dL}{dw}|_{w=w_0}$
如果斜率为负,增加w;斜率为正,减小w
多变量梯度下降
问题
- 梯度下降对于非凸问题求解存在局部最小值的问题
- 但对于线性回归,损失函数是凸优化问题
评价 过拟合
- 在测试集上对模型进行评价
- 如果表现不好,可以考虑其他模型
- 模型不是越复杂越好
- 有时候可能需要考虑更多的评价因素
改进 正则化 Regularization
通过选择$\lambda$
来调整模型以选择最佳的模型