决策树算法面试题及答案：全面解析

选择题

以下哪项不是决策树建立过程的停止准则?

A. 达到了预先设定的最大树深度 B. 达到了预先设定的叶节点数量 C. 所有特征都遍历完 D. 分支下全部数据都属于统一类别

答案: C

关于基尼系数说法不正确的是

A. 数据集中的数据越纯，基尼系数就越小。 B. 当数据集中所有数据均匀分布时，数据集的基尼系数最大。 C. 对于二分类问题，基尼系数的最大值是0.5 D. 基尼系数是度量数据纯度的一种指标。

答案: D

以下哪种模型既能做回归，又能做分类。

A. 逻辑回归 B. 朴素贝叶斯 C. 决策树 D. 以上都不对

答案: C

下列不属于决策树常见算法的是

A. ID3 B. CART C. C4.5 D. FPGrowth

答案: D

下列关于决策树的表述不正确的是

A. 决策树可用熵来选取节点 B. 决策树可用基尼系数来选取节点 C. 决策树一定不会造成过拟合 D. 决策树的深度和叶节点数都会对预测结果造成影响

答案: C

对于二分类的决策树模型，当数据集的所有数据均匀分布时，基尼系数是什么？

A. 1 B. 0 C. 0.5 D. 不一定

答案: C

决策树模型中，当数据集的所有数据属于同一类时，基尼系数是什么？

A. 1 B. 0 C. 0.5 D. 不一定

答案: B

建立决策树时，最重要的特征一般放于哪里?

A. 根节点 B. 最左侧节点 C. 最右侧节点 D. 不一定

答案: A

对于k近邻法，下列说法错误的是（）。

A. 不具有显式的学习过程 B. 适用于多分类任务 C. k值越大，分类效果越好 D. 通常采用多数表决的分类决策规则

答案: C

下面有关分类算法的准确率，召回率，值的描述，错误的是？

A. 准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率 B. 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率 C. 正确率、召回率和F值取值都在1之间，数值越接近1，查准率或查全率就越高 D. 为了解决准确率和召回率冲突问题，引入了F数

答案: C

以下哪些方法不可以直接来对文本分类？

A. Kmeans B. 决策树 C. 支持向量机 D. KNN

答案: A

下面哪种情景更适合使用决策树进行预测（）

A. 研究微博用户的情感与电影票房的关系 B. 股票未来价格的预测 C. 分析客户性别与购物偏好的关系 D. 预测银行客户的流失

答案: C

以下哪个指标不能用于决策树的性能评价指标(+)

A. 准确率 B. ROC曲线下的面积AUC C. 决策树规则的数目 D. 召回率

答案: C

使用Gini指数作为决策树分支标准的决策树算法是(+)

A、CART算法 B、CHAID算法 C、ID3算法 D、C4.5算法

答案: A

如果在大型数据集上训练决策树，为了花费更少的时间来训练这个模型，下列哪种做法是正确的？

A. 增加树的深度 B. 增加学习率 C. 减小树的深度 D. 减少树的数量

答案: C

填空题

在决策树建模过程中，应选取划分后纯度增加的特征。

答案: 增加

利用K近邻法进行分类时，使用不同的距离度量所确定的最近邻点可能。

答案: 不同

判断题

决策树的节点有两种类型：内部节点和叶节点。内部节点表示一个特征或属性，叶节点表示一个类。

答案: 正确

过拟合发生在模型太过偏向训练数据时，对于决策树可以采用修剪的方法阻止过拟合。

答案: 正确

决策树只能用于分类问题

答案: 错误

分类任务的决策树模型，当数据集的所有数据均匀分布于各类，则基尼系数最小。

答案: 正确

决策树模型中，基尼系数越小，纯度越高

答案: 正确

决策树模型中，当数据集的所有数据属于同一类时，基尼系数达到最小值0

答案: 错误

建立决策树时，根节点一般是最重要的特征

答案: 正确

建立决策树时，重要的特征一般放于后面

答案: 错误

决策树既可以用于回归问题，也可以用于分类问题

答案: 正确

决策树是用样本的属性作为结点，用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法，可用于对新样本进行分类。

答案: 正确

决策树方法通常用于关联规则挖掘。

答案: 错误

利用K近邻法进行分类时，使用不同的距离度量所确定的最近邻点都是相同的。（+）

答案: 错误

k近邻法的基本要素包括距离度量、k值的选择、样本大小和分类决策规则。

答案: 正确

内容

数据集中的数据越纯，基尼系数就越小。
决策树没有同时做回归和分类的能力。
FPGrowth不属于决策树常见算法。
决策树一定不会造成过拟合的表述不正确。
基尼系数是度量数据纯度的一种指标的表述不正确。
0.5。
0。
根节点。
k值越大，分类效果越好的表述错误。
正确率、召回率和F值取值都在1之间，数值越接近1，查准率或查全率就越高。
Kmeans。
C.分析客户性别与购物偏好的关系。
决策树规则的数目不能用于决策树的性能评价指标。
A、CART算法。
减小树的深度。