更新时间:2024-02-03 21:52
在概率论和信息论中,信息增益(information gain)是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
尽管信息增益通常被直观地作为是一种度量或距离,但事实上信息增益并不是。就比如信息增益不是对称的,从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益的一种特殊情况。在1951年由Solomon Kullback 和Richard Leibler首先提出作为两个分布的直接增益。它与微积分中的增益不同,但可以从Bregman增益推导得到。
其中p和q表示P和Q的密度概率函数
更一般地,P和Q是集合X上的概率测度,Q关于P绝对连续,从P到Q的信息增益定义为
假设右式存在,dQ/dp是Q关于P的Radon-Nikodym导数,
如果P关于Q也绝对连续,那么上式可变为
上式可视为P关于Q的熵。如果u是集合X上的任何测度,即有p=dP/du和q=dQ/du存在,那么从P到Q的信息增益可定义为
当信息以比特为单位时,公式中的对数的基数为2。当信息以nats为单位时,基数为e。大多数包括信息增益公式的公式都使对数函数保持原样,即与基数无关。
注意,信息增益是要讲方向的,上述公式都是计算从P到Q的信息增益。
在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。
假如有变量X,其可能的取值有n种,每一种取到的概率为Pi,那么X的熵就定义为
也就是说X可能的变化越多,X所携带的信息量越大,熵也就越大。对于文本分类或聚类而言,就是说文档属于哪个类别的变化越多,类别的信息量就越大。所以特征T给聚类C或分类C带来的信息增益为IG(T)=H(C)-H(C|T)。
H(C|T)包含两种情况:一种是特征T出现,标记为t,一种是特征T不出现,标记为t'。所以
H(C|T)=P(t)H(C|t)+P(t')H(C|t‘),再由熵的计算公式便可推得特征与类别的信息增益公式。
信息增益最大的问题在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。
包括直方图相交(historgram intersection),开方统计(Chi-square statistic),quadratic form distance,赛程(match distance),Kolomogorov-Smirnov distance和earth mover's distance