误差来源
误差主要来源于误差(bias)和方差(variance)
无偏估计
对于随机变量$X$
- 均值为
$\mu$
- 方差为
$\sigma^2$
- 估计其均值
$\mu$
- 在样本上采样N个点:
${x^1,x^2,...,x^N}$
m=\frac{1}{N}\sum_nx^n != \mu\\ E[m]=\mu\\ Var[m]=\frac{\sigma^2}{N}
样本均值是均值
$\mu$
的无偏估计
- 在样本上采样N个点:
- 估计其方差
$\sigma^2$
- 在样本上采样N个点:
${x^1,x^2,...,x^N}$
m=\frac{1}{N}\sum_nx^n \\ s^2=\frac{1}{N}\sum_n(x^n-m)^2\\ E[s^2]=\frac{N-1}{N}\sigma^2
样本方差是方差
$\mu$
的有偏估计
- 在样本上采样N个点:
模型误差分析
- 计算求得模型的均值,看其与真值的偏差。
- 以及模型间的方差
- 模型简单,误差较大,但方差较小
- 模型复杂,误差较小,但方差较大
- 如果模型甚至无法拟合训练集,说明均值误差较大 欠拟合
- 添加更多的输入特性
- 设计更复杂的模型
- 如果训练集拟合很好,但在测试集上表现不佳,说明可能方差较大 过拟合
- 增加训练数据
- 添加正则项 使模型更平滑 但可能影响均值误差
- 往往是在均值误差和方差间取得平衡