互信息的公式推导

NathanLVZS | Saturday 27 February 2016

Category: DataMining/MachineLearning

Derivation

公式排版略难看，暂且将就一下。。
Update: 看了一下Mathjax的文档后，决定用公式自动编号，看起来舒服多了。2016-03-28

一般的，熵与条件熵之间的差称为互信息。两个随机变量的互信息可通过如下两个公式计算。

MI(X,Y)=H(Y)−H(Y|X)(1)(1)MI(X,Y)=H(Y)−H(Y|X)

MI(X,Y)=H(X)−H(X|Y)(2)(2)MI(X,Y)=H(X)−H(X|Y)

前不久看到如下的互信息公式。

MI(X,Y)=H(X)+H(Y)−H(X,Y)(3)(3)MI(X,Y)=H(X)+H(Y)−H(X,Y)

乍一看跟公式(1)和(2)联系不起来，于是根据定义推导一下。

主要利用了如下两个公式

∑j=1np(yj|xi)=1(4)(4)∑j=1np(yj|xi)=1

推导过程如下：

H(X)−H(X,Y)=−∑i=1mp(xi)log(p(xi))+∑i=1m∑j=1np(xi,yj)log(p(xi,yj))=−∑i=1m[p(xi)log(p(xi))−∑j=1np(xi,yj)logp(xi,yj)]=−∑i=1m[p(xi)log(p(xi))−∑j=1np(xi,yj)logp(xi,yj)]=−∑i=1m[p(xi)log(p(xi))−∑j=1np(yj|xi)p(xi)(logp(yj|xi)+logp(xi))]=−∑i=1mp(xi)logp(xi)+∑i=1mp(xi)∑j=1np(yj|xi)(logp(yj|xi)+∑j=1np(yj|xi)p(xi)logp(xi)=H(X)−∑i=1mp(xi)H(Y|X=xi)+∑i=1mp(xi)log(p(xi))=H(X)−H(Y|X)−H(X)=−H(Y|X)H(X)−H(X,Y)=−∑i=1mp(xi)log⁡(p(xi))+∑i=1m∑j=1np(xi,yj)log⁡(p(xi,yj))=−∑i=1m[p(xi)log⁡(p(xi))−∑j=1np(xi,yj)log⁡p(xi,yj)]=−∑i=1m[p(xi)log⁡(p(xi))−∑j=1np(xi,yj)log⁡p(xi,yj)]=−∑i=1m[p(xi)log⁡(p(xi))−∑j=1np(yj|xi)p(xi)(logp(yj|xi)+log⁡p(xi))]=−∑i=1mp(xi)log⁡p(xi)+∑i=1mp(xi)∑j=1np(yj|xi)(logp(yj|xi)+∑j=1np(yj|xi)p(xi)log⁡p(xi)=H(X)−∑i=1mp(xi)H(Y|X=xi)+∑i=1mp(xi)log⁡(p(xi))=H(X)−H(Y|X)−H(X)=−H(Y|X)

推导所得结果即

H(X,Y)−H(X)=H(Y|X)(6)(6)H(X,Y)−H(X)=H(Y|X)

意思很明显，X和Y的联合不确定性减去X的不确定性即为在X已知的情况下Y的不确定性。

将公式(6)代入公式(3)即可得到公式(2)。

类似地，可得到公式(1)。

互信息的公式推导

互信息的公式推导

Recommend

K-Means聚类及其Python实现

序列标注中的几种标签方案

译-注意力机制

TensorFlow官方word2vec_basic代码解析

WordNet相关概念探索梳理

PAC代理网络下Python网络请求

php的一个类定义先后顺序的问题

PHP PSR-0 Autoloading Standard – 简体中文

使用GitHub、Composer、Packagist管理公开的PHP包（Step By Step）

把silex嵌入到另一个silex中

About Joyk