互信息的理解

By Z.H. Fu
切问录 www.fuzihao.org

我们在之前研究过两个随机变量的独立性,我们定义若两个随机变量\(X,Y\)满足 \[P(X,Y)=P(X)P(Y)\] 则我们说随机变量\(X,Y\)独立。下面来直观地理解这个公式,可以发现,如果\(X,Y\)独立,那么已知\(X\),将不会对\(Y\)的分布产生任何影响,即是说\(P(Y)=P(Y|X)\),这个结果的证明也很简单,由贝叶斯公式: \[P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(X)P(Y)}{P(X)}=P(Y)\] 即证。

由此可以看出,独立性反应了已知\(X\)的情况下,\(Y\)的分布是否会改变,或者说,在给定随机变量\(X\)之后,能否为\(Y\)带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系,但是却不能刻画他们的关系大小。下面我们引入互信息,它不仅能说明两个随机变量之间是否有关系,也能反应他们之间关系的强弱。我们定义互信息\(I(X,Y)\)\[I(X;Y)=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}\]

我们来稍微理解一下,log里面就是\(X,Y\)的联合分布和边际分布的比值,如果对所有\(X,Y\),该值等于1,即是说他们独立的情况下,互信息\(I(X;Y)=0\),即是说这两个随机变量引入其中一个,并不能对另一个带来任何信息,下面我们来稍稍对该式做一个变形 \[\begin{aligned} I(X;Y)&=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}\\ &=\int_X \int_Y P(X,Y)\log\frac{P(X,Y)}{P(X)}-\int_X \int_Y P(X,Y)\log{P(Y)}\\ &=\int_X \int_Y P(X)P(Y|X)\log P(Y|X) -\int_Y \log{P(Y)}\int_X P(X,Y)\\ &=\int_X P(X)\int_Y P(Y|X)\log P(Y|X)-\int_Y \log{P(Y)}P(Y)\\ &=-\int_X P(X)H(Y|X=x)+H(Y)\\ &=H(Y)-H(Y|X)\\ \end{aligned}\]

其中,\(H(Y)\)\(Y\)的熵,定义为 \[H(Y)=-\int_Y P(Y)\log{P(Y)}\] 衡量的是\(Y\)的不确定度,即使说,\(Y\)分布得越离散,\(H(Y)\)的值越高,而\(H(Y|X)\)则表示在已知\(X\)的情况下,\(Y\)的不确定度,而\(I(X;Y)\)则表示由\(X\)引入而使\(Y\)的不确定度减小的量,因而如果\(X,Y\)关系越密切,\(I(X;Y)\)越大,\(I(X;Y)\)最大的取值是\(H(Y)\),也就是说,\(X,Y\)完全相关,由于X的引入,\(Y\)的熵由原来的\(H(Y)\)减小了\(I(X;Y)=H(Y)\),变成了0,也就是说如果\(X\)确定,那么\(Y\)就完全确定了。而当\(X,Y\)独立时,\(I(X;Y)=0\)引入\(X\),并未给\(Y\)的确定带来任何好处。

总结下\(I(X;Y)\)的性质: 1)\(I(X;Y)\geqslant 0\) 2)\(H(X)-H(X|Y)=I(X;Y)=I(Y;X)=H(Y)-H(Y|X)\) 3)当\(X,Y\)独立时,\(I(X;Y)=0\) 4)当\(X,Y\)知道一个就能推断另一个时,\(I(X;Y)=H(X)=H(Y)\)