(二)回归模型误差分析

 

误差来源

误差主要来源于误差(bias)和方差(variance)

无偏估计

对于随机变量$X$

  • 均值为$\mu$
  • 方差为$\sigma^2$
  • 估计其均值$\mu$
    • 在样本上采样N个点:${x^1,x^2,...,x^N}$
      m=\frac{1}{N}\sum_nx^n  != \mu\\
      E[m]=\mu\\
      Var[m]=\frac{\sigma^2}{N}
      

      样本均值是均值$\mu$的无偏估计 image

  • 估计其方差$\sigma^2$
    • 在样本上采样N个点:${x^1,x^2,...,x^N}$
      m=\frac{1}{N}\sum_nx^n  \\
      s^2=\frac{1}{N}\sum_n(x^n-m)^2\\
      E[s^2]=\frac{N-1}{N}\sigma^2
      

      样本方差是方差$\mu$的有偏估计 image

模型误差分析

  • 计算求得模型的均值,看其与真值的偏差。
  • 以及模型间的方差

image

  • 模型简单,误差较大,但方差较小
  • 模型复杂,误差较小,但方差较大

image

  • 如果模型甚至无法拟合训练集,说明均值误差较大 欠拟合
    • 添加更多的输入特性
    • 设计更复杂的模型
  • 如果训练集拟合很好,但在测试集上表现不佳,说明可能方差较大 过拟合
    • 增加训练数据
    • 添加正则项 使模型更平滑 但可能影响均值误差
  • 往往是在均值误差和方差间取得平衡

交叉验证

image

image