千字讲解极大似然估计

上周有读者私信我说，面试被问到了极大似然估计没回答出来，虽然网上有很多讲解，但是不大能看得懂，而且有一些疑问没有解释清楚。经过一周的撰写，今天困哥就专门整理了一篇数千字的文章，来详细介绍一下极大似然估计，顺带介绍一下极大后验估计和贝叶斯估计。

在很多的机器学习问题种，输入x是一个向量，输出p(x)为某一个时间的概率（比如，x属于某个类别的概率）

一观测的数据集D，其中x1，x2，x3……独立同分布。我们将输入x所满足的概率分布建模为p(D,θ)，则对新输入的预测为p(x|D,θ)，其中θ是一个向量，表示待去顶的所有模型参数。那么如何求解或者估计出θ的值呢？

1. 频率学派VS贝叶斯学派

对于θ的本质不同认识，可以分为两个大派别。

（1）频率学派：认为θ是确定的，有一个真实值，目标是找出或者逼近这个真实值。

（2）贝叶斯学派：认为θ是不确定的，不存在唯一的真实值，而是服从某一个概率分布。

基于不同学派对参数的不同认识，产生了不同的参数估计方法。下面将讨论三种参数估计方法：

（1）极大似然估计：MLE（Maximum Likelihood Estimation）【频率学派】

（2）极大后验估计：MAP（Maximum A Posterior）【贝叶斯学派】

（3）贝叶斯估计：BE（Bayesian Estimation）【贝叶斯学派】

其中，涉及到先验、似然、后验、贝叶斯公式的知识。

先验：p(θ)，指在见到数据集D之前，对参数θ的认识

似然：p(D|θ），在给定参数θ下，数据集D被观测到的概率

后验：p(θ|D)，在见到数据集D之后，对参数θ的重新认识

贝叶斯公式：

以抛硬币为例，假设我们有一枚硬币, 现在要估计其正面朝上的概率。为了对进行估计, 我们进行了10次实验 (独立同分布, i.i.d.) , 这组实验记为 , 其中正面朝上的次数为6次，反面朝上的次数为4次，结果为。

3. 极大似然估计

MLE的逻辑是：真实的参数θ是唯一的，既然数据集D被观测到了，那么真实参数θ对应的概率分布一定是可以使D出现的概率最大。即

最后一行的目标函数，是常用的形式。对似然求log是防止数值下溢，因为似然是各个样本点处概率乘积的形式，而概率都在0到1之间，似然通常会超出计算机的精度范围。另一方面，log是一个凸函数，保证了极大化似然和极大化对数似然的等价。

针对抛硬币的问题，似然函数可写作：

根据最大似然估计, 使取得最大值的即为估计结果, 令可得。

由于总体的似然就是每个样本似然的乘积，为了求解方便，我们通常会将似然函数转成对数似然函数，然后再求解。可以转成对数似然函数的主要原因是对数函数并不影响函数的凹凸性。因此上式可变为：

补充：正态分布的最大似然估计：
假设样本服从正态分布 , 则其似然函数为
对其取对数得：
分别对求偏导，并令偏导数为0, 得:
就是正态分布中的最大似然估计。

最大似然估计的求解步骤：

确定似然函数
将似然函数转换为对数似然函数
求对数似然函数的最大值（求导，解似然方程）

3. 极大后验估计

MAP的逻辑是：最优的参数应该是让后验概率最大。即

MAP和MLE的区别是，两者优化的目标函数只是相差了一个先验。更有趣的是，「如果这个先验服从高斯分布的话，MAP将等同于MLE+L2正则」。

推导：假设参数G服从高斯分布，即:

其中，是跟无关的常数。

我们发现在极大后验估计的推导中，忽略了分母，而贝叶斯估计则考虑了这个项。

最大后验概率估计，英文为Maximum A Posteriori Estimation, 简写为MAP。回到抛硬币的问题, 最大似然估计认为使似然函数最大的参数即为最好的 , 此时最大似然估计是将看作固定的值，只是其值未知; 最大后验概率分布认为是一个随机变量，即具有某种概率分布，称为先验分布, 求解时除了要考虑似然函数之外，还要考虑的先验分布 , 因此其认为使取最大值的就是最好的此时要最大化的函数变为 , 由于的先验分布是固定的 (可通过分析数据获得，其实我们也不关心的分布, 我们关心的是 ), 因此最大化函数可变为 , 根据贝叶斯法则，要最大化的函数 , 因此要最大化的函数是 , 而是的后验概率。最大后验概率估计可以看作是正则化的最大似然估计，当然机器学习或深度学习中的正则项通常是加法，而在最大后验概率估计中采用的是乘法, 是正则项。在最大似然估计中，由于认为是固定的，因此。

最大后验概率估计的公式表示：

在抛硬币的例子中, 通常认为的可能性最大, 因此我们用均值为 , 方差为的高斯分布来描述的先验分布，当然也可以使用其它的分布来描述的先验分布。的先验分布为:

在最大似然估计中, 已知似然函数为 , 因此:

转换为对数函数：

令 , 可得:

由于 , 解得:

如果我们用均值为 , 方差为的高斯分布来描述的先验分布, 则。由此可见，在最大后验概率估计中，的估计值与的先验分布有很大的关系。这也说明一个合理的先验概率假设是非常重要的。如果先验分布假设错误, 则会导致估计的参数值偏离实际的参数值。

如果用的Beta分布来描述的先验分布，则

令求解可得:

最大后验概率估计的求解步骤：

确定参数的先验分布以及似然函数
确定参数的后验分布函数
将后验分布函数转换为对数函数
求对数函数的最大值（求导，解方程）

4. 贝叶斯估计

贝叶斯估计是最大后验估计的进一步扩展，贝叶斯估计同样假定是一个随机变量，但贝叶斯估计并不是直接估计出的某个特定值，而是估计的分布，这是贝叶斯估计与最大后验概率估计不同的地方。在贝叶斯估计中，先验分布是不可忽略的。回到抛硬币的例子中，在已知的情况下，描述的分布即描述是一种后验分布。如果后验分布的范围较窄，则估计值的准确度相对较高，反之，如果后验分布的范围较广，则估计值的准确度就较低。

贝叶斯公式:

在连续型随机变量中，由于 , 因此贝叶斯公式变为

从上面的公式中可以看出，贝叶斯估计的求解非常复杂，因此选择合适的先验分布就非常重要。一般来说，计算积分是不可能的。对于这个抛硬币的例子来说, 如果使用共轭先验分布，就可以更好的解决这个问题。二项分布参数的共轩先验是Beta分布，由于的似然函数服从二项分布, 因此在贝叶斯估计中，假设的先验分布服从 , Beta分布的概率密度公式为:

因此，贝叶斯公式可写作：

从上面的公式可以看出, 。其中函数，也称函数，是一个标准化常量, 用来使整个概率的积分为1。Beta 就是贝叶斯估计的结果。根据Beta分布的数学期望公式可得:

注：二项分布参数的共轭先验是Beta分布, 多项式分布参数的共车先验是Dirichlet分布, 指数分布参数的共车先验是Gamma分布，高斯分布均值的共功先验是另一个高斯分布, 泊松分布的共车先验是Gamma分布。

贝叶斯估计要解决的不是如何估计参数, 而是用来估计新测量数据出现的概率, 对于新出现的数据 :

贝叶斯估计的求解步骤：

确定参数的似然函数
确定参数的先验分布，应是后验分布的共轭先验
确定参数的后验分布函数
根据贝叶斯公式求解参数的后验分布

从最大似然估计、最大后验概率估计到贝叶斯估计，从下表可以看出的估计值是逐渐接近的。从公式的变化可以看出，使用的信息是逐渐增多的。最大似然估计、最大后验概率估计中都是假设未知，但是确定的值，都将使函数取得最大值的作为估计值，区别在于最大化的函数不同，最大后验概率估计使用了的先验概率。而在贝叶斯估计中，假设参数是未知的随机变量，不是确定值，求解的是参数在样本上的后验分布。

三者之间的联系：

（1）MAP + 高斯先验 = MLE + L2正则

（2）当样本量越来越大，先验所起的作用也越来越小，最后MAP会趋近于MLE。

（3）当先验为均匀分布时，p(θ)为常量，此时MAP与MLE等价。可以理解为这种情况下先验并不能提供任何有价值的信息。

6. 极大似然估计与交叉熵

在分类任务中，我们以常见的二分类任务为例，标签服从「伯努利分布」（推广到多分类单标签问题, 标签服从多项式分布）。伯努利分布是一个离散型概率分布（分类问题为离散型概率问题）。假设我们的数据集由个样本构成 , 其中, 构成，极大似然的目标为。对于每个样本来说，由于是二分类问题, 假设预测为正样本的概率 ,负样本的概率为 , 因此，对于单个样本 , 概率质量函数为：

由于样本之间独立同分布（机器学习的基本假设），因此，极大似然函数的目标变为

将函数取对数，函数的极值点不会改变，因此：

这便是我们熟知的二元交叉熵损失函数。

7. 极大似然估计与MSE

在回归问题中, 我们以线性拟合任务为例，我们希望拟合得到的预测值和目标变量越相似越好。现在我们假设：与之所以存在差别，是因为观察值本身存在的随机性, 不论这种随机性产生的原因是什么，我们假设这一随机性符合一个以 0 为均值，以为方差的「高斯分布」。引入一个随机变量来表示这一随机性, 则有:

给定一个输入变量 , 可以基于上述线性回归模型计算对应的目标观察值的生成概率:

因此, 对于给定的由个样本构成的数据集, 其中，假设样本之间独立同分布假设同2) ，该模型生成这一数据集的最大似然估计为:

同样地, 为方便计算，取对数似然函数作为目标函数, 即:

其中前两项与无关，在第三项中:

因此, 对的最大似然估计等价于对的最小化, 变为我们通常意义上的均方误差MSE

8. 经验风险最小化

MLE是经验风险最小化的例子。「当模型是条件概率分布，损失函数是对数损失函数」时，经验风险最小化就等价于极大似然估计。在这里举个逻辑回归（LR）的例子。

对于二分类的逻辑回归来说，我们试图把所有数据正确分类，要么0，要么1。通过累乘每个数据样例来模拟模型产生数据的过程，并且最大化。我们需要通过取对数来实现概率之积转为概率之和。

我们可以根据数据标签的0、1特性来把上式改为

这样，我们通过极大似然来推导出了逻辑回归的损失函数，同时极大似然是经验风险最小化的一个特例。

9. 结构风险最小化

MAP是结构风险最小化的例子。「当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时」，结构风险最小化就等价于最大后验概率估计。

AINLP

一个有趣有AI的自然语言处理公众号：关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试自动对联、作诗机、藏头诗生成器，调戏夸夸机器人、彩虹屁生成器，使用中英翻译，查询相似词，测试NLP相关工具包。

343篇原创内容

Official Account

进技术交流群请添加AINLP小助手微信（id: ainlper)
请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。

阅读至此了，分享、点赞、在看三选一吧🙏

1. 频率学派VS贝叶斯学派

3. 极大似然估计

3. 极大后验估计

4. 贝叶斯估计

6. 极大似然估计与交叉熵

7. 极大似然估计与MSE

8. 经验风险最小化

9. 结构风险最小化

Recommend

局部变量是线程安全的，原因是什么？

Meta is skipping F8 developer conference to focus on building the metaverse | Te...

Some more github action tricks

大规模知识图谱表示必读：从Bert中的wordpiece到KG中的nodepiece

【CV晨读】刘强东卸任京东集团CEO，传SheIn新一轮估值千亿美元

泽安生物医药完成1700万美元Pre-A轮融资

Dynamic Strategies - stitcher.io

Samsung might use MediaTek's Dimensity silicon in some Galaxy S22 FE and Galaxy...

λ-2D: An Exploration of Drawing as Programming Language, Featuring Ideas from La...

CTF 流量分析

About Joyk