统计学习理论

风险是一个期望值,表示模型在特定任务中的预测误差

真实风险

是指在整个数据分布上的期望损失,无法直接计算

其中

  • l(f(x),y)为损失函数
  • P(x,y)是真实的分布,无法直接计算

经验风险

是指在训练数据集上的平均损失,可以直接计算
用经验风险来近似真实风险,通过优化经验风险来优化模型

结构风险

是指在经验风险的基础上添加正则项
用于控制模型的复杂度,提高正则化强度以降低模型复杂度,反之增加复杂度

其中

  • 为正则化强度
  • 为正则化项,例如范数

模型选择

验证集

原则上,在确定超参数之前不应使用测试集,否则可能导致测试集过拟合,并且难以发现.所以应该将数据分为三份:训练集,验证集,测试集;但实际上,由于数据过少,验证集和测试集的界限较为模糊.

K折交叉验证(K-fold Cross Validation)

在数据较少时,可以使用.
将数据分为训练集和测试集,然后将训练集分为K份;每次选择1份作为验证集,其余K-1份作为训练集,重复K次;将结果取平均来估计训练和验证误差

过拟合

是指模型在训练数据上表现很好,但在测试数据上表现很差, 因为模型学习了数据中的噪点或细节,导致无法有效的泛化到未见过的数据上
用于对抗过拟合的方法为正则化

模型复杂度

越复杂的模型,越容易过拟合.
例如在高阶多项式函数的例子中:

图:模型复杂度与对欠拟合和过拟合的影响

当数据样本包含了x的不同值时,令多项式阶数与样本数相同,函数可以完美拟合训练集.

数据集大小

数据越少,越容易过拟合

欠拟合

是指模型在训练数据和测试数据中表现都不好,可能是因为模型过于简单,特征选择不当,训练时间过短,超参数为调整好等原因导致的