泰坦尼克号乘客生存预测:单因素分析和随机森林模型

本文以泰坦尼克号灾难数据集为例,探讨乘客生存概率的影响因素,并使用机器学习模型进行预测。

1. 单因素分析

使用逻辑回归对训练集进行单因素分析,发现以下因素显著影响乘客生存概率:

  • 年龄('Age'):年龄越小,生存概率越高。
  • 性别('Sex'):女性生存概率远高于男性。
  • 船票等级('Pclass'):'Pclass'为1的乘客生存概率高于'Pclass'为2和3的乘客。
  • 亲属关系('SibSp' 和 'Parch'):'SibSp' 和 'Parch' 为0的乘客生存概率较低,而 'SibSp' 和 'Parch' 为1到3的乘客生存概率较高。
  • 登船港口('Embarked'):从'C'港口登船的乘客生存概率高于从'S'和'Q'港口登船的乘客。

2. 随机森林模型

利用训练集数据构建随机森林模型,并使用测试集进行预测。模型选择了以下特征:'Pclass'、'Sex'、'Age'、'SibSp'、'Parch'、'Fare'、'Embarked'。对于缺失值,使用中位数进行填充('Age' 和 'Fare'),对于类别型特征,使用One-Hot编码进行处理('Sex' 和 'Embarked')。在建模前,将数据集进行划分,80%的数据用于训练,20%的数据用于验证。通过网格搜索调参,得到最佳的模型参数。

最终,使用测试集进行预测,将结果按照Kaggle网站的格式要求进行编辑,并提交Kaggle网站获得预测得分。得到的预测得分为0.77990,结果如下图所示:

kaggle_score.png

可以看到,得分较Kaggle网站提供的基于性别信息进行的预测结果(0.76555)略高。

3. 总结

通过单因素分析和随机森林模型,可以有效地预测泰坦尼克号乘客的生存概率。模型结果表明年龄、性别、船票等级、亲属关系和登船港口等因素是影响生存概率的重要因素。该模型的预测得分高于仅基于性别信息的预测结果,证明了模型的有效性。

数据集链接

  • 训练集:https://www.kaggle.com/competitions/titanic/data
  • 测试集:https://www.kaggle.com/competitions/titanic/data

参考资料

泰坦尼克号乘客生存预测:单因素分析和随机森林模型

原文地址: https://www.cveoy.top/t/topic/od5r 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录