员工离职预测模型：决策树与Logistic回归分析

本研究利用决策树和Logistic回归模型分析影响员工离职的关键因素，并比较两种模型的优劣。

1. 决策树模型

1.1 使用不同参数构建决策树

首先，在全样本数据下，分别使用参数cp=0.1和cp=0.05构建决策树模型：

library(rpart)
library(rpart.plot)

model1 <- rpart(left_company ~ ., data = data_dr, control = rpart.control(cp = 0.1), method = 'class')
rpart.plot(model1, box.palette = "RdBu", type = 2, extra = 1)

decision_tree_01

model2 <- rpart(left_company ~ ., data = data_dr, control = rpart.control(cp = 0.05), method = 'class')
rpart.plot(model2, box.palette = "RdBu", type = 2, extra = 1)

decision_tree_005

1.2 节点解释与模型比较

根节点: 所有员工的平均工资为65436.72，如果员工的工资小于等于65436.72，则进入左子树，否则进入右子树。
中间节点: 在左子树中，如果员工的最后一次评价分数小于等于0.575，则进入左子树，否则进入右子树。
叶子节点: 在左子树的左子树中，员工的离职率为0.048；在左子树的右子树中，员工的离职率为0.545；在右子树中，员工的离职率为0.271。

两棵树的异同：

在cp=0.1的树中，只有一个叶子节点，而在cp=0.05的树中，有三个叶子节点，更详细地描述了员工离职的情况。
在cp=0.05的树中，节点分裂的条件更严格，更注重信息的增益，因此叶子节点的纯度更高，更准确地描述了员工离职的情况。

1.3 深度与叶子节点个数的影响

使用不同深度的参数建立决策树时，需要权衡欠拟合和过拟合的风险：

当深度过浅时，决策树的分类效果较差，容易欠拟合；
当深度过深时，决策树的分类效果也会较差，容易过拟合。

叶子节点个数越多，决策树的分类效果越准确，但也容易过拟合。

1.4 模型选择策略

可以通过交叉验证等方法，比较不同参数下的模型的性能，选择分类效果最好的模型作为最优模型。

2. Logistic回归模型

model_log <- glm(left_company ~ ., data = data_dr, family = 'binomial')
summary(model_log)

logistic_regression_summary

从Logistic回归的结果可以看出，与员工离职最相关的变量有：

satisfaction_level (满意度)
last_evaluation (最后一次评价分数)
number_project (参与的项目数)
average_monthly_hours (每月平均工作时长)
time_spend_company (工作年限)

3. 模型比较与结论

Logistic回归的结果与决策树的结果有一定的相似性，都认为最后一次评价分数是影响员工离职的重要因素。但是，决策树的分类结果更加细致，更能够描述员工离职的情况。

决策树模型的优势在于其可解释性强，能够直观地展示影响因素之间的关系。而Logistic回归模型则能够提供更准确的预测结果，但可解释性较弱。

在实际应用中，可以根据具体的需求选择合适的模型。如果需要对员工离职的原因进行深入分析，则可以选择决策树模型；如果需要进行精确的预测，则可以选择Logistic回归模型。

4. 进一步分析

为了更好地分析员工离职的原因，可以根据不同变量组合进行更细致的分析。
可以使用其他机器学习模型，例如随机森林或支持向量机，进一步提升模型的预测效果。
可以使用更多数据，例如员工的背景信息、工作环境信息等，构建更完善的模型。