线性判别分析 (LDA) 的收缩性能比较 - Python 代码示例 - 常规

该代码用于比较线性判别分析 (LDA) 在具有一个有辨别性特征的数据集上，使用收缩和不使用收缩时的分类准确率。

首先，使用 make_blobs 函数生成具有两个中心的随机数据集，其中一个中心为 -2，另一个中心为 2。数据集的维度为 1，即只有一个特征具有辨别性信息，其他特征仅包含噪声。

然后，通过循环迭代不同的特征数量和重复分类的次数来计算分类准确率。在每次迭代中，使用生成的训练数据训练两个线性判别分析模型：一个使用收缩参数设置为 'auto'，另一个不使用收缩（收缩参数设置为 None）。

接下来，使用生成的测试数据评估训练好的模型的分类准确率，并将准确率的平均值添加到 acc_clf1 和 acc_clf2 列表中。

最后，将特征数量和 n_train 的比率作为 x 轴，分类准确率作为 y 轴，绘制两个线性判别分析模型的准确率曲线。

通过观察准确率曲线，可以比较使用收缩和不使用收缩的线性判别分析模型在具有一个有辨别性特征的数据集上的分类性能。

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis


n_train = 20  # 训练样本数
n_test = 200  # 测试样本数
n_averages = 50  # 分类重复次数
n_features_max = 75  # 最大特征数
step = 4  # 计算步长


def generate_data(n_samples, n_features):
    '生成具有噪声特征的随机 blob 式数据。'
    '返回形状为 `(n_samples, n_features)` 的输入数据数组和 `n_samples` 个目标标签数组。'
    '只有一个特征包含辨别性信息，其他特征仅包含噪声。'
    X, y = make_blobs(n_samples=n_samples, n_features=1, centers=[[-2], [2]])

    # 添加非辨别性特征
    if n_features > 1:
        X = np.hstack([X, np.random.randn(n_samples, n_features - 1)])
    return X, y

acc_clf1, acc_clf2 = [], []
n_features_range = range(1, n_features_max + 1, step)
for n_features in n_features_range:
    score_clf1, score_clf2 = 0, 0
    for _ in range(n_averages):
        X, y = generate_data(n_train, n_features)

        clf1 = LinearDiscriminantAnalysis(solver='lsqr', shrinkage='auto').fit(X, y)
        clf2 = LinearDiscriminantAnalysis(solver='lsqr', shrinkage=None).fit(X, y)

        X, y = generate_data(n_test, n_features)
        score_clf1 += clf1.score(X, y)
        score_clf2 += clf2.score(X, y)

    acc_clf1.append(score_clf1 / n_averages)
    acc_clf2.append(score_clf2 / n_averages)

features_samples_ratio = np.array(n_features_range) / n_train

plt.plot(features_samples_ratio, acc_clf1, linewidth=2,
         label='Linear Discriminant Analysis with shrinkage', color='navy')
plt.plot(features_samples_ratio, acc_clf2, linewidth=2,
         label='Linear Discriminant Analysis', color='gold')

plt.xlabel('n_features / n_samples')
plt.ylabel('Classification accuracy')

plt.legend(loc=1, prop={'size': 12})
plt.suptitle('Linear Discriminant Analysis vs. \
shrinkage Linear Discriminant Analysis (1 discriminative feature)')
plt.show()