首先,将数据标签转换为{-1, 1},其中不录取为-1,录取为1。

第一轮迭代,初始化样本权重$w_i=\frac{1}{N}$,$N$为样本总数。使用决策树桩作为弱分类器,选择在身体指标上分类误差最小的切分点。假设选择的切分点为身体指标不合格,根据身体指标来分类,得到分类误差为$\epsilon=0.4$。计算弱分类器的权重$\alpha=\frac{1}{2}\ln{\frac{1-\epsilon}{\epsilon}}\approx 0.42365$。更新样本权重,被正确分类的样本权重降低,被错误分类的样本权重升高,即

$$w_i^{(1)}=\frac{w_i^{(0)}\exp(-\alpha y_i h_1(x_i))}{\sum_{i=1}^N w_i^{(0)}\exp(-\alpha y_i h_1(x_i))}$$

其中,$h_1(x_i)$表示第一轮迭代中决策树桩的分类结果。

第二轮迭代,使用更新后的样本权重重新训练决策树桩,选择在业务能力指标上分类误差最小的切分点。假设选择的切分点为业务能力指标中等,根据业务能力指标来分类,得到分类误差为$\epsilon=0.3$。计算弱分类器的权重$\alpha=\frac{1}{2}\ln{\frac{1-\epsilon}{\epsilon}}\approx 0.54148$。更新样本权重,被正确分类的样本权重降低,被错误分类的样本权重升高。

第三轮迭代,使用更新后的样本权重重新训练决策树桩,选择在发展潜力指标上分类误差最小的切分点。假设选择的切分点为发展潜力指标下,根据发展潜力指标来分类,得到分类误差为$\epsilon=0.2$。计算弱分类器的权重$\alpha=\frac{1}{2}\ln{\frac{1-\epsilon}{\epsilon}}\approx 0.69315$。更新样本权重,被正确分类的样本权重降低,被错误分类的样本权重升高。

经过三轮迭代,得到强分类器:

$$H(x)=\text{sign}\left(\sum_{t=1}^T \alpha_t h_t(x)\right)$$

其中,$T=3$表示迭代次数,$h_t(x)$表示第$t$轮迭代中的决策树桩,$\alpha_t$表示第$t$轮迭代中决策树桩的权重。

最终,根据强分类器对训练集进行分类,得到如下表格:

| 编号 | 身体 | 业务能力 | 发展潜力 | 标签 | 预测 | | --- | --- | --- | --- | --- | --- | | 1 | 0 | 1 | 2 | -1 | -1 | | 2 | 1 | 1 | 1 | -1 | -1 | | 3 | 1 | 1 | 2 | 1 | 1 | | 4 | 0 | 2 | 1 | 1 | 1 | | 5 | 1 | 3 | 3 | 1 | 1 | | 6 | 0 | 2 | 2 | 1 | 1 | | 7 | 1 | 3 | 1 | -1 | -1 | | 8 | 0 | 1 | 3 | -1 | -1 | | 9 | 0 | 2 | 3 | 1 | 1 | | 10 | 0 | 1 | 1 | -1 | -1 |

其中,预测结果与标签完全一致,训练误差为0

某公司招聘职员考查身体、业务能力、发展潜力3项指标其中身体分为合格1、不合格0两级业务能力和发展潜力分为上1、中2、下3三级应聘结果为录取1、不录取-1两类。已知10人数据如表所示假设使用的弱分类器为决策树桩试用AdaBoost算法学习一个强分类器。请给出简要计算过程。

原文地址: https://www.cveoy.top/t/topic/fscV 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录