贝叶斯奥卡姆剃刀 Bayesian Occam's razor

贝叶斯模型会自动在复杂和简单模型中找到平衡:既不过于复杂(过拟合,模型仅适用于当前数据集,无法泛化到其他数据集),也不过于简单(欠拟合,模型无法充分解释数据)。

假设有两个模型,简单的和复杂的,后验概率( $P(Model|Data)$ )表示选择其中某个模型的可能性。简单模型的概率分布集中在小范围数据上,复杂模型的概率分布覆盖的数据更广。

如果简单模型拟合得很好,即预测和实际值之间的差很小。因为简单模型对应的数据更集中,这个差就更小。然而如果模型过于简单,即使集中在小范围数据上,预测值整体偏离了真实值,误差也大。

另一种解释关注bias和variance的取舍。当复杂模型过分好地拟合了当前数据集的大多数数据点,bias低(模型没有抓到数据的整体特征),variance高(模型抓到了每个数据点的特征)。数据量增加,或模型降低复杂度,都可以降低variance,增加bias,防止过拟合。

bayesian-occam

参考文献

Murray, Iain, and Zoubin Ghahramani. “A note on the evidence and Bayesian Occam’s razor.” (2005).

Dorfman, Hayley M., and Samuel J. Gershman. “Controllability governs the balance between Pavlovian and instrumental action selection.” Nature communications 10.1 (2019): 1-8.