导入必要的库

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score

读取数据

df = pd.read_csv('data.csv')

数据预处理

...

数据集划分

X = df.iloc[:, :-1] y = df.iloc[:, -1] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

距离判别模型

knn = KNeighborsClassifier(n_neighbors=5) knn.fit(X_train, y_train) y_pred_knn = knn.predict(X_test)

Bayes判别模型

lda = LDA() lda.fit(X_train, y_train) y_pred_lda = lda.predict(X_test)

Fisher判别模型

...

模型评估

acc_knn = accuracy_score(y_test, y_pred_knn) acc_lda = accuracy_score(y_test, y_pred_lda) acc_fisher = 0.0 # 待计算

print('KNN模型准确率：', acc_knn) print('LDA模型准确率：', acc_lda) print('Fisher模型准确率：', acc_fisher)

模型调优

..

数据下载： httpwwwcrupcomcnDownResourceDownFile id=22b96f11-ef8f-4b88-80c2-1d157856b2f9·该数据有10992个观测值和17个变量已经进行了缺失值的插补变量V17为有10个水平的因变量对应于0-9这10个阿拉伯数字·要求：根据变量V1-V16及因变量V17的观测值分别建立距离判别、Bayes判别和Fisher判别分析模型以用