Titanic 生存预测：决策树模型实现

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding='utf-8')

# ignore warnings
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
df = pd.read_csv('Titanic.csv')
df.head()
df = df[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']]
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})                        # 对性别列进行特征编码
                                                              # 将数据集中含有缺失值的样本进行删除
X = df.drop('Survived', axis=1)
y = df['Survived']
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

from sklearn import tree

model = tree.DecisionTreeClassifier(random_state=30)
                            # 进行模型训练
                            # 对测试集数据进行预测

from sklearn import metrics

                              # 显示模型预测的准确率内容：print('模型预测准确率为：', metrics.accuracy_score(y_test, model.predict(X_test)))