ValueError: PCA 不支持缺失值 (NaN)

在使用 PCA 进行降维时，可能会遇到以下错误提示：

ValueError: Input X contains NaN.
PCA does not accept missing values encoded as NaN natively. For supervised learning, you might want to consider sklearn.ensemble.HistGradientBoostingClassifier and Regressor which accept missing values encoded as NaNs natively. Alternatively, it is possible to preprocess the data, for instance by using an imputer transformer in a pipeline or drop samples with missing values. See https://scikit-learn.org/stable/modules/impute.html You can find a list of all estimators that handle NaN values at the following page: https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values

这个错误提示是因为数据中存在缺失值 (NaN)，而 PCA 不支持缺失值。

可以通过以下几种方式解决：

删除包含缺失值的样本： 使用 dropna() 方法删除包含 NaN 的行或列。

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 加载数据
df = pd.read_csv('data.csv')

# 删除包含缺失值的样本
df_clean = df.dropna()

# 标准化数据
scaler = StandardScaler()
df_std = scaler.fit_transform(df_clean)

# 进行 PCA 主元分析
pca = PCA(n_components=2)
pca.fit(df_std)
df_pca = pca.transform(df_std)

# 绘制散点图
# ...

用均值、中位数、众数等填充缺失值： 使用 sklearn 的 Imputer 类。

from sklearn.impute import SimpleImputer

# 初始化 Imputer 对象，使用均值填充缺失值
imputer = SimpleImputer(strategy='mean')

# 填充缺失值
df_filled = imputer.fit_transform(df)

# 标准化数据
scaler = StandardScaler()
df_std = scaler.fit_transform(df_filled)

# 进行 PCA 主元分析
pca = PCA(n_components=2)
pca.fit(df_std)
df_pca = pca.transform(df_std)

# 绘制散点图
# ...

使用其他支持缺失值的降维方法，例如 t-SNE：

from sklearn.manifold import TSNE

# 进行 t-SNE 降维
tsne = TSNE(n_components=2)
df_tsne = tsne.fit_transform(df)

# 绘制散点图
# ...

具体实现可以根据数据情况选择不同的方法。