信息增益 - 知识百科

信息增益

更新时间：2024-02-03 21:52

在概率论和信息论中，信息增益（information gain）是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。

概念

尽管信息增益通常被直观地作为是一种度量或距离，但事实上信息增益并不是。就比如信息增益不是对称的，从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益的一种特殊情况。在1951年由Solomon Kullback 和Richard Leibler首先提出作为两个分布的直接增益。它与微积分中的增益不同，但可以从Bregman增益推导得到。

定义

设离散随机变量的概率分布P和Q，它们的信息增益定义为

其中分布P和Q必须是概率分布，而且对于任何P(i)＞0，必须有Q(i)＞0。当P(i)=0时，公式的值为0。从公式看，信息增益是以分布P为权重的P和Q对数差值的加权平均。

信息增益的连续分布形式：

其中p和q表示P和Q的密度概率函数

更一般地，P和Q是集合X上的概率测度，Q关于P绝对连续，从P到Q的信息增益定义为

假设右式存在，dQ/dp是Q关于P的Radon-Nikodym导数，

如果P关于Q也绝对连续，那么上式可变为

上式可视为P关于Q的熵。如果u是集合X上的任何测度，即有p=dP/du和q=dQ/du存在，那么从P到Q的信息增益可定义为

当信息以比特为单位时，公式中的对数的基数为2。当信息以nats为单位时，基数为e。大多数包括信息增益公式的公式都使对数函数保持原样，即与基数无关。

注意，信息增益是要讲方向的，上述公式都是计算从P到Q的信息增益。

特征选择

在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，就是熵。

假如有变量X，其可能的取值有n种，每一种取到的概率为Pi，那么X的熵就定义为

也就是说X可能的变化越多，X所携带的信息量越大，熵也就越大。对于文本分类或聚类而言，就是说文档属于哪个类别的变化越多，类别的信息量就越大。所以特征T给聚类C或分类C带来的信息增益为IG(T)=H(C)-H(C|T)。

H(C|T)包含两种情况：一种是特征T出现，标记为t，一种是特征T不出现，标记为t'。所以

H(C|T)=P(t)H(C|t)+P(t')H(C|t‘)，再由熵的计算公式便可推得特征与类别的信息增益公式。

信息增益最大的问题在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。

方法

包括直方图相交（historgram intersection），开方统计（Chi-square statistic），quadratic form distance，赛程（match distance），Kolomogorov-Smirnov distance和earth mover's distance

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}