L1和L2可以从两个角度进行推导:
- 带约束条件的优化分解(拉格朗日乘子法)
- 贝叶斯学派:最大后验概率
基于约束条件的最优化
令目标函数为:
为了降低模型的复杂度,即减少模型的参数个数,我们可以通过为目标函数增加约束条件,得:
s.t.
约束条件为,让w向量中的一些元素为0或者限制w中非零元素的个数小于C。表示L0范数,表示的是向量w中非零元素的个数,让非零元素的个数小于某一个C,就能有效的控制模型中的非零元素的个数。
式(1-2)为有约束优化问题,而且是NP hard问题,因此对它进行“松弛”。即不再严格要求w中的某些元素为0,而是使他尽可能的接近0,所以这里使用L1L2范数来代替L0范数,即:
s.t.
或
s.t.
利用拉格朗日乘子法求解:
其中,是拉格朗日系数,,假设的最优解为,对拉格朗日函数求最小化等价于:
结论
L1正则化 在原目标函数中增加约束条件
L2正则化 在原目标函数中增加约束条件
基于最大后验概率估计
似然函数
无监督模型
假设观测到的数据样本点为X1,X2,…,XN,它们都是独立同分布的,服从概率分布P(X),那么似然函数为:
假设概率分布P(X)的参数未知,那么可以通过最大化似然函数来估计参数。即
对应的对数似然函数为:
等式右边乘以1/N,相当于计算关于训练数据经验分布的期望:
有监督模型
对于生成模型来说,假设数据样本点为(X1,Y1),(X2,Y2),…,(XN,YN),那么根据式(2-4),得 :
对于判别模型来说,我们通常要学习的是P(Y|X)而不是P(X,Y),它对应的条件最大似然估计为:
假设样本是独立同分布的,所以式(2-6)可写成:
假设,条件概率分布P(Y|X)服从高斯分布,即:
那么式(2-7)对应的条件对数似然函数即可写成:
C为不包含的常数项,所以根据式(2-8),目标函数为负的对数似然函数,即:
在最大后验概率估计中,我们将参数 看作随机变量, 参数的概率分布为:
同样取对数:
可以看到,后验概率分布为似然函数加上,P()的意义是对参数的概率分布的先验假设。在收集到训练样本(X,y)后,则可根据在(X,y)下的后验概率对进行修正,从而做出对更好的估计。
L2
假设的先验分布服从均值为0的高斯分布,即
则有:
可以看到,在高斯分布下, 相当于在目标函数中增加L2正则项。为正则化系数。
L1
假设服从均值为0,参数为a的拉普拉斯分布,即:
则有:
可以看到,在拉普拉斯分布下log P()的效果等价于在目标函数中增加L1正则项。为正则化系数。
结论
L1正则化可通过假设权重的先验分布为拉普拉斯分布,由最大后验概率估计导出。
L2正则化可通过假设权重的先验分布为高斯分布,由最大后验概率估计导出。
参考资料
- 《深度学习》