44

浅谈为什么L2正则化有效

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ%3D%3D&%3Bmid=2650414054&%3Bidx=5&%3Bsn=97d6a4e780dd1b3a67fdbdc94d8e821a
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

7z2URfZ.jpg!web

L2正则化为什么有效

无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合,最常用的就是L2正则化,即在损失函数 上加上参数的L2范数 ,不过一般也不开根号了,也就是直接加 是正则化因子,它的大小决定了你有多想让参数向0靠近。

如果被问到缓解过拟合的方法,那么L2正则化肯定是要知道的。如果继续追问为什么L2正则化有效呢?也许可以回答:因为把参数加到了损失函数里,可以在梯度下降时让参数变得更小,防止模型能够拟合特别复杂的函数。但又要问了,那为什么参数小得接近0就有效呢?仅仅是intuition所以大家都这样做也这样认为吗?事实上这是可以从概率论的角度来解释的,下面用最简单的线性回归来介绍,我们用下标 表示第 个特征,上标 表示数据集中的第 条数据。

高斯分布

设模型参数为 (bias包含在 里了),模型的hypothesis为

就是我们模型做出的预测, 是现实世界真实的标签,不过 是带有噪音的,真实世界的数据不可能是完美的,其中大都夹杂着噪音信号,我们假设

其中 代表着噪音,假设它属于高斯分布 ,即均值为0,方差为 ,这个假设其实是符合实际的,因为现实世界中我们遇到的大部分的数据或噪音的分布其实都是高斯分布,那么我们就可以得到 的分布了

本科的概率论课程告诉我们正态分布 的公式是

极大似然估计

假设我们有一堆数据 ,频率学派认为 是客观存在的,只是我们不知道罢了,真实的 一定是最优的,能让这组数据集 出现的概率最大,我们要去手上已知的 去估计真实的 ,也就要求 的极大似然估计

这等价于求对数极大似然,即

将数据集代入上式,求导取一阶导数为0,就可以得到一个local optimal,在线性回归或logistic回归里也可以确定这就是全局唯一的optimal,即最优解。如果我们将上面的 与正态分布公式代入,可以得到

由于我们所求的是 ,即要找到能使式子最大或最小的 ,所以常数项和系数都不会影响结果,因此第三步将它们略去后我们就得到了熟悉的最小均方误差,也就是线性回归中的最小二乘法!不过要注意,虽然得到的结果与最小二乘法是一致的,但出发点和理论基础都完全不一样。

从频率学派的假设出发,我们得到的是不带正则化项的线性回归,而从贝叶斯学派的角度来看,却有些不同。

极大后验概率估计

贝叶斯学派则是先给 的分布来一个假设 ,叫做"prior"即先验,颇有点全知全能的上帝的感觉(误,那么我们现在已经看到了数据 ,也有了 分布的假设,就可以去求在已知当前数据情况下, 是什么的概率,并找出最可能的 ,根据贝叶斯定理可得

右式的分母是个常数,可以省去,它被称为"evidence",左式被称为"posterior"即后验,剩下的 是我们熟悉的"likelihood"即似然,那么接下来就是通过求最大后验概率,来获得我们想要的 ,在这里我们假设先验分布

这样我们就得到了最小均方误差+L2正则化的线性回归了!注意上式的两个分布的方差是不同的,不过由于方差无关紧要,也就没有特意区分了(其实是码公式太累不想区分了_(:з」∠)_

原来从概率论的角度来看,L2正则化其实就是假设了参数的分布属于高斯分布,再想想由于高斯分布的均值为0,自然也就解释了为什么参数都会接近0,毕竟0的概率最大。如果你给 假设不同的先验分布,比如拉普拉斯分布

那你得到的就是 「L1正则化」 ,这里就不再推导了。

结论

这样我们得到了结论,最小均方误差其实等价于 「极大似然估计」「L2正则化」 +最小均方误差等价于 「最大后验估计」

进一步思考

可能有人会问,假设参数确实不属于高斯分布,那我这么假设岂不是从开头就错了,确实,如果参数的真实分布与我们的先验假设有很大差别,会导致模型的预测效果很差,这点在cs229的Gaussian Discriminant Analysis(GDA, 高斯判别分析)一课有讲过,当你的数据量很少时,加一个先验假设可以帮助模型更好的拟合数据,因为你给模型提供了更多信息,前提是你的假设是对的,当你的数据量很多时,先验假设就不那么重要了,因为模型可以自己去从数据中发现信息,这也就解释了为什么数据量越大,越不容易过拟合。如果数据量很小,直接使用极大似然估计,就会导致参数只适用于当前的数据集,导致过拟合,泛化能力较差。不过,就像Andrew Ng所说,这个世界大部分的数据分布都是高斯分布,大量论文实验也证明了L2正则化确实有效,所以我们基本上任何时候都可以大胆地使用L2正则化,只需要调节正则化因子 的大小,当模型欠拟合时调小它甚至置零,过拟合时调大它,就能够很好地在high bias(欠拟合)与high variance(过拟合)之间进行trade off。

参考资料: cs229 by Andrew Ng

推荐阅读

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

太赞了!Springer面向公众开放电子书籍,附65本数学、编程、机器学习、深度学习、数据挖掘、数据科学等书籍链接及打包下载

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

这门斯坦福大学自然语言处理经典入门课,我放到B站了

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。

qIR3Abr.jpg!web

阅读至此了,点个在看吧 :point_down:


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK