信息收益的价值能否为负值？

作者：黄晓敏3023 | 2023-07-04 19:03

如何解决《信息收益的价值能否为负值？》经验，为你挑选了1个好方法。

是否有机会获得信息收益的价值为负？它是根据下面的公式计算的.我不能写公式,因为它包含一些难以理解的符号.

http://citeseerx.ist.psu.edu

谢谢!

1> Amro..：

IG(Y|X) = H(Y) - H(Y|X) >= 0因为H(Y) >= H(Y|X)最坏的情况是X和Y是独立的,因此H(Y|X)=H(Y)

考虑它的另一种方法是通过观察随机变量X取一些值,我们要么得不到或得到关于Y的一些信息(你不会失去任何).

编辑

让我在决策树的背景下澄清信息增益(实际上,当我从机器学习背景出发时,我首先考虑到了这一点).

假设给出一组实例和标签(离散类)的分类问题.

选择在树的每个节点处分割哪个属性的想法是选择将类属性分成两个最纯的可能实例组(即最低熵)的特征.

这相当于选择具有最高信息增益的特征

InfoGain = entropyBeforeSplit - entropyAfterSplit

分裂后的熵是每个分支的熵的总和,加权该分支下的实例数.

现在不存在可能分割的类值,这将导致具有比分裂之前更差的纯度(更高的熵)的情况.

以二元分类问题为例.在某个节点,我们有5个正面实例和4个负面实例(总共9个).因此,熵(分裂前)是:

H([4,5]) = -4/9*lg(4/9) -5/9*lg(5/9) = 0.99107606

现在让我们考虑一些拆分的情况.最好的情况是当前属性完美地分割实例(即一个分支全部为正,另一个分支全部为负):

    [4+,5-]
     /   \        H([4,0],[0,5]) =  4/9*( -4/4*lg(4/4) ) + 5/9*( -5/5*lg(5/5) )
    /     \                      =  0           // zero entropy, perfect split
[4+,0-]  [0+,5-]

然后

IG = H([4,5]) - H([4,0],[0,5]) = H([4,5])       // highest possible in this case

想象一下,第二个属性是最坏的情况,其中一个创建的分支没有得到任何实例,而是所有实例都转向另一个(如果例如属性在实例之间是常量,则无用):

    [4+,5-]
     /   \        H([4,5],[0,0]) =  9/9 * H([4,5]) + 0
    /     \                      =  H([4,5])    // the entropy as before split
[4+,5-]  [0+,0-]

和

IG = H([4,5]) - H([4,5],[0,0]) = 0              // lowest possible in this case

现在在这两种情况之间的某个地方,您会看到任意数量的情况,例如:

    [4+,5-]
     /   \        H([3,2],[1,3]) =  5/9 * ( -3/5*lg(3/5) -2/5*lg(2/5) )
    /     \                       + 4/9 * ( -1/4*lg(1/1) -3/4*lg(3/4) )
[3+,2-]  [1+,3-]

和

IG = H([4,5]) - H([3,2],[1,3]) = [...] = 0.31331323

所以无论你如何分割这9个实例,你总能获得积极的信息收益.我意识到这不是数学证明(请转到MathOverflow!),我只是认为一个实际的例子可以提供帮助.

(注:根据谷歌的所有计算)

推荐阅读

程序员
如果shebang不准确,如何自动检查Python脚本是否正确？

如何解决《如果shebang不准确,如何自动检查Python脚本是否正确？》经验，为你挑选了1个好方法。 ... [详细]
程序员
打开我的Bootstrap模式后无法点击任何内容

如何解决《打开我的Bootstrap模式后无法点击任何内容》经验，为你挑选了1个好方法。 ... [详细]
程序员
python tornado下载远程文件

如何解决《pythontornado下载远程文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
ef7无法检索子集合的子对象的属性

如何解决《ef7无法检索子集合的子对象的属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从mysql查询中获取关注者/以下列表

如何解决《如何从mysql查询中获取关注者/以下列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Ipython Notebook上使用我的GPU？

如何解决《如何在IpythonNotebook上使用我的GPU？》经验，为你挑选了0个好方法。 ... [详细]
程序员
ng-grid不显示任何数据

如何解决《ng-grid不显示任何数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Git:将多个提交从一个分支合并到另一个分支

如何解决《Git:将多个提交从一个分支合并到另一个分支》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django:模型之间的参考

如何解决《Django:模型之间的参考》经验，为你挑选了0个好方法。 ... [详细]
程序员
我应该在混合的Objective-C/Swift项目中使用Realm Objective-C或Realm Swift吗？

如何解决《我应该在混合的Objective-C/Swift项目中使用RealmObjective-C或RealmSwift吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
运行gulp app时无法找到模块'require-dir'错误:serve rails

如何解决《运行gulpapp时无法找到模块'require-dir'错误:serverails》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用sql语法(没有PHP)在mysql表中插入blob中的图像？

如何解决《如何使用sql语法(没有PHP)在mysql表中插入blob中的图像？》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:初始化程序只能在类型中声明

如何解决《错误:初始化程序只能在类型中声明》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除邮递员缓存

如何解决《删除邮递员缓存》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Github上创建一个库,并通过Android Studio中的gradle依赖项使用它

如何解决《如何在Github上创建一个库,并通过AndroidStudio中的gradle依赖项使用它》经验，为你挑选了2个好方法。 ... [详细]
程序员
在KDB +希望之后你不做一个hclose会发生什么

如何解决《在KDB+希望之后你不做一个hclose会发生什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用c#在折线图中显示标记点

如何解决《如何使用c#在折线图中显示标记点》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在YAML文件中为简单的POJO定义地图？

如何解决《如何在YAML文件中为简单的POJO定义地图？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过命令行获取32位十六进制数字的随机字符串？

如何解决《如何通过命令行获取32位十六进制数字的随机字符串？》经验，为你挑选了4个好方法。 ... [详细]
程序员
获取rails中每个不同记录的所有列

如何解决《获取rails中每个不同记录的所有列》经验，为你挑选了1个好方法。 ... [详细]

黄晓敏3023

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章