集成学习详解:从基本思想到AdaBoost模型构建
- 集成学习是一种将多个弱学习器组合成一个强学习器的方法。其基本思想是通过结合多个弱学习器的预测结果,来提高整个模型的泛化能力和稳定性。/n/n2. 随机森林和Boosting方法都是集成学习方法,不同点在于随机森林采用的是Bagging策略,即通过对训练集进行有放回的采样,构建多个决策树,最终将这些决策树的结果进行投票或平均,得到最终的预测结果;而Boosting方法则是通过对训练集进行加权,每次训练一个新的弱学习器,将其加入到集成模型中,最终将所有弱学习器的结果加权求和得到最终的预测结果。/n/n3. 常用的弱学习器结合策略包括Bagging、Boosting和Stacking。其中,Bagging是通过对训练集进行有放回的采样,构建多个弱学习器,最终将这些弱学习器的结果进行投票或平均;Boosting是通过对训练集进行加权,每次训练一个新的弱学习器,将其加入到集成模型中,最终将所有弱学习器的结果加权求和;Stacking是通过将多个弱学习器的预测结果作为新的训练集,再训练一个新的模型来得到最终的预测结果。/n/n4. Boosting方法和AdaBoost方法都是Boosting的变种。不同点在于,AdaBoost是一种迭代算法,每一轮训练时,会给分错的样本增加一个权重,使得下一轮训练更加关注这些分错的样本;而Boosting方法则是通过对训练集进行加权,每次训练一个新的弱学习器,将其加入到集成模型中。另外,AdaBoost对于分类问题使用的是加权多数表决策策略,对于回归问题使用的是加权平均策略;而Boosting方法则可以使用不同的结合策略,如加权平均、加权投票等。/n/n5. /n/n| 序号 | 特征1 | 特征2 | 标签 | /n| ---- | ------ | ------ | ---- | /n| 1 | 1 | 0 | -1 | /n| 2 | 1 | 1 | -1 | /n| 3 | 1 | 0 | -1 | /n| 4 | 0 | 1 | 1 | /n| 5 | 0 | 1 | 1 | /n| 6 | 1 | 1 | -1 | /n| 7 | 1 | 1 | 1 | /n| 8 | 1 | 1 | 1 | /n| 9 | 1 | 0 | 1 | /n| 10 | 0 | 0 | 1 | /n/n首先,将所有样本的权重初始化为相等的值,即$D_1(i)=1/n$,其中$n$为样本数。然后,依次训练5个决策桩,每个决策桩的训练样本权重由上一轮训练的结果得出,最终得到AdaBoost模型:/n/n第1轮训练:/n/n在样本权重$D_1$下,训练一个决策桩,得到分类器$G_1$,其分类误差为$err_1=3/10$,分类器权重为$//alpha_1=1/2//ln(7/3)$,更新样本权重$D_2$:/n/n$$ /nD_2(i)=//frac{D_1(i)}{Z_1}//cdot//begin{cases} /nexp(-//alpha_1) & G_1(x_i)=y_i // /nexp(//alpha_1) & G_1(x_i)//neq y_i // /end{cases} /n$$ /n/n其中,$Z_1$为规范化因子,使得$D_2$成为概率分布,即$Z_1=2//sqrt{3}$。/n/n第2轮训练:/n/n在样本权重$D_2$下,训练一个决策桩,得到分类器$G_2$,其分类误差为$err_2=2/3$,分类器权重为$//alpha_2=1/2//ln(3/2)$,更新样本权重$D_3$:/n/n$$ /nD_3(i)=//frac{D_2(i)}{Z_2}//cdot//begin{cases} /nexp(-//alpha_2) & G_2(x_i)=y_i // /nexp(//alpha_2) & G_2(x_i)//neq y_i // /end{cases} /n$$ /n/n其中,$Z_2$为规范化因子,使得$D_3$成为概率分布,即$Z_2=2.5$。/n/n第3轮训练:/n/n在样本权重$D_3$下,训练一个决策桩,得到分类器$G_3$,其分类误差为$err_3=1/3$,分类器权重为$//alpha_3=1/2//ln(5/3)$,更新样本权重$D_4$:/n/n$$ /nD_4(i)=//frac{D_3(i)}{Z_3}//cdot//begin{cases} /nexp(-//alpha_3) & G_3(x_i)=y_i // /nexp(//alpha_3) & G_3(x_i)//neq y_i // /end{cases} /n$$ /n/n其中,$Z_3$为规范化因子,使得$D_4$成为概率分布,即$Z_3=2.5$。/n/n第4轮训练:/n/n在样本权重$D_4$下,训练一个决策桩,得到分类器$G_4$,其分类误差为$err_4=1/3$,分类器权重为$//alpha_4=1/2//ln(5/3)$,更新样本权重$D_5$:/n/n$$ /nD_5(i)=//frac{D_4(i)}{Z_4}//cdot//begin{cases} /nexp(-//alpha_4) & G_4(x_i)=y_i // /nexp(//alpha_4) & G_4(x_i)//neq y_i // /end{cases} /n$$ /n/n其中,$Z_4$为规范化因子,使得$D_5$成为概率分布,即$Z_4=2.5$。/n/n第5轮训练:/n/n在样本权重$D_5$下,训练一个决策桩,得到分类器$G_5$,其分类误差为$err_5=1/3$,分类器权重为$//alpha_5=1/2//ln(5/3)$。/n/n最终的分类器为$F(x)=//operatorname{sign}(//sum_{i=1}^5//alpha_iG_i(x))$。/n/n6. 常用的特征选择评价标准包括信息增益、信息增益比、基尼指数、平均精度提升等。其中,信息增益是基于熵的度量,用于衡量一个特征对于分类结果的贡献;信息增益比是在信息增益的基础上,加入了对特征自身熵的惩罚项,避免选择取值较多的特征;基尼指数是基于基尼系数的度量,用于衡量一个特征对于分类结果纯度的提升;平均精度提升是一种针对排序问题的评价标准,用于衡量一个特征对于排序结果的提升。/n/n7. 常用的搜索策略包括贪心搜索、回溯搜索、遗传算法、模拟退火等。其中,贪心搜索是一种局部最优的搜索策略,每次选择当前最好的特征,直到达到预设的特征个数或达到一定的评价标准;回溯搜索则是一种全局搜索策略,通过递归地对所有特征进行选择或剔除,找到最优的特征子集;遗传算法和模拟退火则是一种随机化搜索策略,通过模拟生物进化和物理退火的过程,以一定的概率接受劣解,从而避免陷入局部最优解。
原文地址: https://www.cveoy.top/t/topic/nVu6 著作权归作者所有。请勿转载和采集!