首先,我们需要计算整个数据集的信息熵,公式为:/n/n$$H(X) = -/sum_{i=1}^{n}p(x_i)/log_2p(x_i)$$/n/n其中,$n$为数据集中样本的类别数,$p(x_i)$为样本$x_i$的概率。/n/n在这个数据集中,有3个样本为'是',4个样本为'否',因此,$n=2$,$p(是)=/frac{3}{7}$,$p(否)=/frac{4}{7}$,所以整个数据集的信息熵为:/n/n$$H(X) = -/frac{3}{7}/log_2/frac{3}{7} - /frac{4}{7}/log_2/frac{4}{7} /approx 0.985$$/n/n接下来,我们需要选择一个外貌特征作为决策树的根节点。对于每个特征,我们需要计算它对应的信息增益,公式为:/n/n$$IG(X,Y) = H(X) - /sum_{y/in Y}p(y)H(X|Y=y)$$/n/n其中,$X$为数据集中的特征,$Y$为$X$的取值集合,$p(y)$为$X$在$Y=y$的情况下的概率,$H(X|Y=y)$为$X$在$Y=y$的情况下的条件熵。/n/n我们分别计算三个特征的信息增益:/n/n身高:/n/n$$IG(身高, {矮, 高}) = H(X) - /frac{3}{7}H(身高|矮) - /frac{4}{7}H(身高|高)$$/n/n$$= 0.985 - /frac{2}{7}(-1/log_2 1 - 0/log_2 0) - /frac{5}{7}(-/frac{1}{5}/log_2/frac{1}{5} - /frac{4}{5}/log_2/frac{4}{5}) /approx 0.082$$/n/n头发:/n/n$$IG(头发, {金色, 深色, 红色}) = H(X) - /frac{3}{7}H(头发|金色) - /frac{2}{7}H(头发|深色) - /frac{2}{7}H(头发|红色)$$/n/n$$= 0.985 - /frac{3}{7}(-/frac{1}{3}/log_2/frac{1}{3} - /frac{2}{3}/log_2/frac{2}{3}) - /frac{2}{7}(-/frac{1}{2}/log_2/frac{1}{2} - /frac{1}{2}/log_2/frac{1}{2}) - /frac{2}{7}(-1/log_2 1 - 0/log_2 0) /approx 0.324$$/n/n眼睛:/n/n$$IG(眼睛, {褐色, 蓝色}) = H(X) - /frac{4}{7}H(眼睛|褐色) - /frac{3}{7}H(眼睛|蓝色)$$/n/n$$= 0.985 - /frac{4}{7}(-/frac{1}{2}/log_2/frac{1}{2} - /frac{1}{2}/log_2/frac{1}{2}) - /frac{3}{7}(-/frac{2}{3}/log_2/frac{2}{3} - /frac{1}{3}/log_2/frac{1}{3}) /approx 0.142$$/n/n可以看出,头发这个特征的信息增益最大,因此我们选择头发作为决策树的根节点。/n/n接下来,我们需要对头发的每个取值(金色、深色、红色)进行划分。对于每个子节点,我们需要计算它对应的信息熵和信息增益,然后选择信息增益最大的特征作为子节点的根节点,重复以上步骤,直到所有样本都被正确分类或者没有更多特征可供选择。/n/n对于头发为金色的子节点,有2个样本为'是',1个样本为'否',因此,$n=2$,$p(是)=/frac{2}{3}$,$p(否)=/frac{1}{3}$,所以这个子节点的信息熵为:/n/n$$H(头发|金色) = -/frac{2}{3}/log_2/frac{2}{3} - /frac{1}{3}/log_2/frac{1}{3} /approx 0.918$$/n/n对于头发为深色的子节点,有1个样本为'是',1个样本为'否',因此,$n=2$,$p(是)=/frac{1}{2}$,$p(否)=/frac{1}{2}$,所以这个子节点的信息熵为:/n/n$$H(头发|深色) = -/frac{1}{2}/log_2/frac{1}{2} - /frac{1}{2}/log_2/frac{1}{2} = 1$$/n/n对于头发为红色的子节点,有0个样本为'是',2个样本为'否',因此,$n=2$,$p(是)=0$,$p(否)=1$,所以这个子节点的信息熵为:/n/n$$H(头发|红色) = 0$$/n/n因此,头发为金色的子节点的信息增益最大,我们选择头发为金色的子节点作为根节点的子节点,并继续进行划分。/n/n对于头发为金色且身高为矮的样本,我们发现它的魅力为'否',因此,这个样本可以被直接分类。对于头发为金色且身高为高的样本,它们的眼睛颜色分别为'蓝色'和'褐色',因此我们需要对这两个样本进行划分。对于眼睛颜色为蓝色的样本,它的魅力为'是',可以直接分类;对于眼睛颜色为褐色的样本,它的魅力为'否',也可以直接分类。/n/n因此,我们得到了如下的决策树:/n/ndecision_tree/n/n其中,$T$表示True,$F$表示False。

决策树分类:外貌特征与魅力的关系

原文地址: https://www.cveoy.top/t/topic/mYYt 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录