Weight deacy

本文是一篇对于 Weight decay 权重衰减的理解。

Introduction

weight decay 是一种神经网络 regularization 的方法,它的作用在于让权重不要那么大,这样做可以有效防止 过拟合

这是 weight decay 的公式,J 就是 cost function. 通常我们说的都是 L2 regularization, 或者叫 L2 parameter norm penalty.

我们可以从三个角度来理解 weight decay 是如何起作用的:

  • 让权重变小一点,带来的好处是可以使整个神经网络对输入中的噪音(或者一些细微变化)不那么敏感。权重太大,输入数据的一点变化就会有很大影响,进而显著改变输出。

  • 从公式来看,weight decay 对于比较大的权重,衰减的更多,比较小的权重,衰减较小;这就相当于,权重越大,惩罚越大,即可以更有效的减少 cost function.

  • 让神经网络倾向于形成更简单的,“斜率”(slope) 更小的模型。比如一个非线性模型,我们可以用很复杂的高阶多项式来表示,也可以容忍一些噪音,通过简单的低阶多项式来表示,甚至直接使用线性函数来表示。


正则化的作用

  • L1正则化可以使得参数稀疏化,即得到的参数是一个稀疏矩阵,可以用于特征选择。

    • 稀疏性,说白了就是模型的很多参数是0。通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,很多参数是0,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,即使去掉它们对模型也没有什么影响,此时我们就可以只关注系数是非零值的特征。这相当于对模型进行了一次特征选择,只留下一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。
  • L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合。
------本文结束感谢您的阅读 ------
0%