Python 逻辑回归模型：使用 Pandas 和 Scikit-learn 进行分类

本教程演示如何使用 Python 的 Pandas 和 Scikit-learn 库构建逻辑回归模型，并使用 Excel 数据进行分类。从数据读取、特征提取、模型训练到评估，涵盖了完整流程。

1. 导入库

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

2. 读取数据

data = pd.read_excel('附件1.xlsx')

3. 提取特征属性和分类属性

X = data.drop(labels=['特征1', '特征2', '特征3', '特征4', '特征5', '特征6', '特征7', '特征8', '特征9'], axis=1)
y = data['类别']

4. 将数据集分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

5. 创建逻辑回归模型

model = LogisticRegression()

6. 在训练集上训练模型

model.fit(X_train, y_train)

7. 在测试集上进行预测

y_pred = model.predict(X_test)

8. 计算准确率

accuracy = accuracy_score(y_test, y_pred)
print('模型准确率：', accuracy)

代码解释

import pandas as pd: 导入pandas库并将其命名为pd。
from sklearn.model_selection import train_test_split: 从sklearn库中导入train_test_split函数，用于将数据集分为训练集和测试集。
from sklearn.linear_model import LogisticRegression: 从sklearn库中导入LogisticRegression类，用于创建逻辑回归模型。
from sklearn.metrics import accuracy_score: 从sklearn库中导入accuracy_score函数，用于计算模型准确率。
data = pd.read_excel('附件1.xlsx'): 读取名为“附件1.xlsx”的Excel文件，并将其存储为名为data的pandas数据帧。
X = data.drop(labels=['特征1', '特征2', '特征3', '特征4', '特征5', '特征6', '特征7', '特征8', '特征9'], axis=1): 从data数据帧中删除名为“特征1”至“特征9”的列，并将其存储为名为X的数据帧。
y = data['类别']: 从data数据帧中提取名为“类别”的列，并将其存储为名为y的数据帧。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100): 将X和y数据帧分别作为特征属性和分类属性，使用train_test_split函数将数据集分为训练集和测试集，其中测试集占总数据集的30%，并且随机种子为100。
model = LogisticRegression(): 创建一个名为model的逻辑回归模型。
model.fit(X_train, y_train): 在训练集上训练模型。
y_pred = model.predict(X_test): 在测试集上进行预测，并将预测结果存储为名为y_pred的数据帧。
accuracy = accuracy_score(y_test, y_pred): 使用accuracy_score函数计算模型在测试集上的准确率，并将结果存储为名为accuracy的变量。
print('模型准确率：', accuracy): 输出模型在测试集上的准确率。

通过这些步骤，您可以使用Python构建一个简单的逻辑回归模型，并评估其在分类问题上的性能。您可以根据您的具体数据和问题调整代码中的参数，例如特征属性选择、测试集大小、随机种子等。

Python 逻辑回归模型：使用 Pandas 和 Scikit-learn 进行分类