泰坦尼克号乘客生存预测:单因素分析和随机森林模型
泰坦尼克号乘客生存预测:单因素分析和随机森林模型
本文以泰坦尼克号灾难数据集为例,探讨乘客生存概率的影响因素,并使用机器学习模型进行预测。
1. 单因素分析
使用逻辑回归对训练集进行单因素分析,发现以下因素显著影响乘客生存概率:
- 年龄('Age'):年龄越小,生存概率越高。
- 性别('Sex'):女性生存概率远高于男性。
- 船票等级('Pclass'):'Pclass'为1的乘客生存概率高于'Pclass'为2和3的乘客。
- 亲属关系('SibSp' 和 'Parch'):'SibSp' 和 'Parch' 为0的乘客生存概率较低,而 'SibSp' 和 'Parch' 为1到3的乘客生存概率较高。
- 登船港口('Embarked'):从'C'港口登船的乘客生存概率高于从'S'和'Q'港口登船的乘客。
2. 随机森林模型
利用训练集数据构建随机森林模型,并使用测试集进行预测。模型选择了以下特征:'Pclass'、'Sex'、'Age'、'SibSp'、'Parch'、'Fare'、'Embarked'。对于缺失值,使用中位数进行填充('Age' 和 'Fare'),对于类别型特征,使用One-Hot编码进行处理('Sex' 和 'Embarked')。在建模前,将数据集进行划分,80%的数据用于训练,20%的数据用于验证。通过网格搜索调参,得到最佳的模型参数。
最终,使用测试集进行预测,将结果按照Kaggle网站的格式要求进行编辑,并提交Kaggle网站获得预测得分。得到的预测得分为0.77990,结果如下图所示:

可以看到,得分较Kaggle网站提供的基于性别信息进行的预测结果(0.76555)略高。
3. 总结
通过单因素分析和随机森林模型,可以有效地预测泰坦尼克号乘客的生存概率。模型结果表明年龄、性别、船票等级、亲属关系和登船港口等因素是影响生存概率的重要因素。该模型的预测得分高于仅基于性别信息的预测结果,证明了模型的有效性。
数据集链接
- 训练集:https://www.kaggle.com/competitions/titanic/data
- 测试集:https://www.kaggle.com/competitions/titanic/data
参考资料
原文地址: https://www.cveoy.top/t/topic/od5r 著作权归作者所有。请勿转载和采集!