MLE和MAP的关系之L1与L2正则化项

L1和L2可以从两个角度进行推导:

  1. 带约束条件的优化分解(拉格朗日乘子法)
  2. 贝叶斯学派:最大后验概率

基于约束条件的最优化

令目标函数为:

为了降低模型的复杂度,即减少模型的参数个数,我们可以通过为目标函数增加约束条件,得:

s.t.

约束条件为,让w向量中的一些元素为0或者限制w中非零元素的个数小于C。表示L0范数,表示的是向量w中非零元素的个数,让非零元素的个数小于某一个C,就能有效的控制模型中的非零元素的个数。

式(1-2)为有约束优化问题,而且是NP hard问题,因此对它进行“松弛”。即不再严格要求w中的某些元素为0,而是使他尽可能的接近0,所以这里使用L1L2范数来代替L0范数,即:

s.t.

s.t.

利用拉格朗日乘子法求解:

其中,是拉格朗日系数,,假设的最优解为,对拉格朗日函数求最小化等价于:

结论

L1正则化 在原目标函数中增加约束条件

L2正则化 在原目标函数中增加约束条件

基于最大后验概率估计

似然函数

无监督模型

假设观测到的数据样本点为X1,X2,…,XN,它们都是独立同分布的,服从概率分布P(X),那么似然函数为:

假设概率分布P(X)的参数未知,那么可以通过最大化似然函数来估计参数。即

对应的对数似然函数为:

等式右边乘以1/N,相当于计算关于训练数据经验分布的期望:

有监督模型

对于生成模型来说,假设数据样本点为(X1,Y1),(X2,Y2),…,(XN,YN),那么根据式(2-4),得 :

对于判别模型来说,我们通常要学习的是P(Y|X)而不是P(X,Y),它对应的条件最大似然估计为:

假设样本是独立同分布的,所以式(2-6)可写成:

假设,条件概率分布P(Y|X)服从高斯分布,即:

那么式(2-7)对应的条件对数似然函数即可写成:

C为不包含的常数项,所以根据式(2-8),目标函数为负的对数似然函数,即:

在最大后验概率估计中,我们将参数 看作随机变量, 参数的概率分布为:

同样取对数:

可以看到,后验概率分布为似然函数加上,P()的意义是对参数的概率分布的先验假设。在收集到训练样本(X,y)后,则可根据在(X,y)下的后验概率对进行修正,从而做出对更好的估计。

L2

假设的先验分布服从均值为0的高斯分布,即

则有:

可以看到,在高斯分布下, 相当于在目标函数中增加L2正则项。为正则化系数。

L1

假设服从均值为0,参数为a的拉普拉斯分布,即:

则有:

可以看到,在拉普拉斯分布下log P()的效果等价于在目标函数中增加L1正则项。为正则化系数。

结论

L1正则化可通过假设权重的先验分布为拉普拉斯分布,由最大后验概率估计导出。

L2正则化可通过假设权重的先验分布为高斯分布,由最大后验概率估计导出。

参考资料

  • 《深度学习》