带有类别标记Z提高利润的训练集SZ将S分为类Y和类N两类。类Y有3个元组类N有4个元组正确分类所需的期望信息量为I34=- 7A log B3 - C4 log 7D 。A=B=C=D=
A=3, B=4, C=3, D=2.
期望信息量的计算公式为:
I(Y,N) = - p(Y)log2p(Y) - p(N)log2p(N)
其中,p(Y)表示类别为Y的元组在训练集S中出现的概率,p(N)表示类别为N的元组在训练集S中出现的概率。
在这个例子中,p(Y) = 3/7,p(N) = 4/7。
将这些值代入公式中,得到:
I(Y,N) = - (3/7)log2(3/7) - (4/7)log2(4/7)
约等于 0.985。
因此,正确分类所需的期望信息量为 I(3,4) = 0.985。
原文地址: https://www.cveoy.top/t/topic/9nx 著作权归作者所有。请勿转载和采集!