Python 逻辑回归模型:使用 Pandas 和 Scikit-learn 进行分类
Python 逻辑回归模型:使用 Pandas 和 Scikit-learn 进行分类
本教程演示如何使用 Python 的 Pandas 和 Scikit-learn 库构建逻辑回归模型,并使用 Excel 数据进行分类。从数据读取、特征提取、模型训练到评估,涵盖了完整流程。
1. 导入库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
2. 读取数据
data = pd.read_excel('附件1.xlsx')
3. 提取特征属性和分类属性
X = data.drop(labels=['特征1', '特征2', '特征3', '特征4', '特征5', '特征6', '特征7', '特征8', '特征9'], axis=1)
y = data['类别']
4. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)
5. 创建逻辑回归模型
model = LogisticRegression()
6. 在训练集上训练模型
model.fit(X_train, y_train)
7. 在测试集上进行预测
y_pred = model.predict(X_test)
8. 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('模型准确率:', accuracy)
代码解释
import pandas as pd: 导入pandas库并将其命名为pd。from sklearn.model_selection import train_test_split: 从sklearn库中导入train_test_split函数,用于将数据集分为训练集和测试集。from sklearn.linear_model import LogisticRegression: 从sklearn库中导入LogisticRegression类,用于创建逻辑回归模型。from sklearn.metrics import accuracy_score: 从sklearn库中导入accuracy_score函数,用于计算模型准确率。data = pd.read_excel('附件1.xlsx'): 读取名为“附件1.xlsx”的Excel文件,并将其存储为名为data的pandas数据帧。X = data.drop(labels=['特征1', '特征2', '特征3', '特征4', '特征5', '特征6', '特征7', '特征8', '特征9'], axis=1): 从data数据帧中删除名为“特征1”至“特征9”的列,并将其存储为名为X的数据帧。y = data['类别']: 从data数据帧中提取名为“类别”的列,并将其存储为名为y的数据帧。X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100): 将X和y数据帧分别作为特征属性和分类属性,使用train_test_split函数将数据集分为训练集和测试集,其中测试集占总数据集的30%,并且随机种子为100。model = LogisticRegression(): 创建一个名为model的逻辑回归模型。model.fit(X_train, y_train): 在训练集上训练模型。y_pred = model.predict(X_test): 在测试集上进行预测,并将预测结果存储为名为y_pred的数据帧。accuracy = accuracy_score(y_test, y_pred): 使用accuracy_score函数计算模型在测试集上的准确率,并将结果存储为名为accuracy的变量。print('模型准确率:', accuracy): 输出模型在测试集上的准确率。
通过这些步骤,您可以使用Python构建一个简单的逻辑回归模型,并评估其在分类问题上的性能。您可以根据您的具体数据和问题调整代码中的参数,例如特征属性选择、测试集大小、随机种子等。
原文地址: https://www.cveoy.top/t/topic/f1fh 著作权归作者所有。请勿转载和采集!