机器学习分类算法:逻辑回归、朴素贝叶斯、KNN、GBDT、额外树、随机森林和XGBoost
逻辑回归 (LR) 是一种发挥预测作用的回归算法,可以发展因变量和自变量之间的关系。朴素贝叶斯 (NB) 通过假设 P(x/yi) 服从高斯分布 (即正态分布) 来估计每个特征下各类别的条件概率,被广泛应用于许多分类任务中,其优点是具有稳定的分类效率,算法相对简单,在小规模数据上性能良好。LR 是最常用的二进制分类算法,是黄金标准分析二进制分类医学数据,不仅可以提供预测结果,还提供额外的信息预测结果,如优势比的诊断和 95% 置信区间 (CI)。
K-邻近 (K-Nearest Neighbor, KNN) 表示在特征空间中,如果一个样本附近的 k 个最近邻 (即特征空间中的最近邻) 中的大多数样本大部分属于某一类别,则该样本也属于该类别,其优点是精度高,对异常值不敏感,且没有数据输入假设。
梯度提升决策树 (Gradient boosting decision tree, GBDT) 是一种决策树学习,其主要优点是能够通过决策树学习以最小误差自动发现非线性交互,被普遍认为是最好的开箱即用的分类器之一,具有泛化能力,可以将弱学习器组合成一个强学习器,在机器学习方法领域已逐渐得到普及。
额外树 (Extra tree, ET) 是一种基于树的集成 ML 模型,作为随机森林的扩展而开发,能够避免过拟合问题,并且在该算法中,所有的数据集都用于训练一个集成中的所有树,而不是使用套袋方法为每棵树生成训练子集;与集成 ML 模型相比,这种随机化显著减少了方差。
随机森林 (Random Forest, RF) 是一种由对应于不同子数据集的多棵决策树组成的集成监督学习方法,每棵树计算结果,得到预测结果的平均值,该方法允许减少决策树中的方差。
极端梯度提升 (eXtremeGradient Boosting, XGB) 是一种基于 boost 的集成学习算法,结合了弱回归树的预测,这些树依次添加到模型中,以最大限度地提高预测性能和最小化模型复杂性;与传统的 GBoost 模型相比,采用了二阶泰勒展开式、一阶和二阶推导式。此外,由于模型的复杂性,对损失函数进行了正则化,避免了模型的过拟合。
原文地址: https://www.cveoy.top/t/topic/pipA 著作权归作者所有。请勿转载和采集!