5

信息论视角的极大似然估计

 2 years ago
source link: https://allenwind.github.io/blog/9765/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
Mr.Feng Blog

NLP、深度学习、机器学习、Python、Go

信息论视角的极大似然估计

本文介绍从信息论视角理解极大似然估计(MLE)

极大似然估计

首先我们从频率学派的最大似然预计(MLE)出发,然后从若干角度理解该参数估计方法的机理。极大似然估计(MLE)是一种参数估计方法,在假定样本数据独立同分布情况下,求出似然函数极大值时的参数,该参数即为样本数据分布函数的参数的一个估计值。

假设有概率分布f(x,θ)f(x,θ),从该分布中采样nn个样本x1,…,xnx1,…,xn。易得似然函数,

Ln(x1,…,xn,θ)=n∏i=1f(xi,θ)Ln(x1,…,xn,θ)=∏i=1nf(xi,θ)

MLE寻找让似然函数最大的参数,即,

^θ=argmaxθ∈ΘLn(x1,…,xn,θ)θ^=argmaxθ∈ΘLn(x1,…,xn,θ)

也就是在假定θθ固定但未知的情况下,求最值。这个思路很直观吧。

信息论视角的极大似然估计

假设样本采样x1,…,xnx1,…,xn​​采样自p(x;θ)p(x;θ)​​​。q(x)q(x)​​​是数据的经验分布,使用狄拉克函数可以紧凑地表示,

q(x)=n∑i=1piδ(x−xi)q(x)=∑i=1npiδ(x−xi)

那么有如下推导,

^θ=argmaxθn∏i=1p(xi;θ)=argmaxθn∑i=1log(p(xi;θ))=argmaxθ1nn∑i=1log(p(xi;θ))−1nn∑i=1log(q(xi))=argminθ1nn∑i=1logq(xi)p(xi;θ)≈argminθ∫q(x)logq(xi)p(xi;θ)dx=argminθKL(q∥p)θ^=arg⁡maxθ∏i=1np(xi;θ)=arg⁡maxθ∑i=1nlog⁡(p(xi;θ))=arg⁡maxθ1n∑i=1nlog⁡(p(xi;θ))−1n∑i=1nlog⁡(q(xi))=arg⁡minθ1n∑i=1nlog⁡q(xi)p(xi;θ)≈arg⁡minθ∫q(x)log⁡q(xi)p(xi;θ)dx=arg⁡minθKL⁡(q‖p)

这里KL散度的定义是,

DKL(p(x)∥q(x))=∫∞−∞p(x)lnp(x)q(x)dxDKL(p(x)‖q(x))=∫−∞∞p(x)ln⁡p(x)q(x)dx

用来度量两个分布的差异。

因此,极大似然估计可以看做是最小化参数模型p(x;θ)p(x;θ)​与样本经验分布q(x)q(x)​的KL散度(相对熵)。换句话说,换个角度看,我们要找一个尽可能和真实数据生成分布相近的分布。

基于KL散度(相对熵)的角度理解最大似然估计不需要关注参数的统计特点,但似然函数的计算依然依赖于样本的独立同分布假设和参数未知但为定值,因此,这种方法依然属于频率学派。

转载请包括本文地址:https://allenwind.github.io/blog/9765
更多文章请参考:https://allenwind.github.io/blog/archives/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK