Python线性回归分析解决NaN值报错

Python线性回归分析中遇到'ValueError: Input X contains NaN'怎么办？

在使用Python的scikit-learn库进行线性回归分析时，你可能会遇到类似'ValueError: Input X contains NaN. LinearRegression does not accept missing values encoded as NaN natively.'的错误信息。这是因为线性回归模型LinearRegression无法直接处理数据中的缺失值（NaN）。

解决方法：

你可以采取以下几种方法来解决这个问题：

删除包含缺失值的行：
- 使用dropna()函数可以删除数据集中包含缺失值的行。
- 这种方法简单直接，但如果数据集中缺失值较多，可能会导致信息损失。
使用均值/中位数/众数等统计量填充缺失值：
- 使用fillna()函数可以用指定值（例如均值、中位数或众数）填充缺失值。
- 你可以使用df['列名'].mean()计算列的均值，并使用df['列名'].fillna(df['列名'].mean(), inplace=True)填充缺失值。
使用插值法填充缺失值：
- 使用interpolate()函数可以用插值法填充缺失值，例如线性插值、多项式插值等。
- 你可以使用df['列名'].interpolate(method='linear', inplace=True)进行线性插值。
使用SimpleImputer类进行缺失值填充：
- SimpleImputer类是sklearn.impute模块中的一个工具，可以方便地使用不同的策略进行缺失值填充。
- 你可以使用strategy参数选择填充策略，例如'mean'（均值）、'median'（中位数）、'most_frequent'（众数）等。

以下是使用SimpleImputer类进行缺失值填充的示例代码：

import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# 读取Excel文件
data = pd.read_excel(r'D:\pythonProject3\会员信息\附件二：会员信息数据.xlsx')

# 提取自变量和因变量
X = data[['信誉值均值', '预订任务限额均值', '商品周围商品个数', '会员点个数']]
y = data['任务标价']

# 创建SimpleImputer对象，使用均值填充缺失值
imputer = SimpleImputer(strategy='mean')

# 对自变量X进行缺失值填充
X = imputer.fit_transform(X)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X, y)

# 输出方程系数
coefficients = model.coef_
intercept = model.intercept_
print('方程：y = {}x1 + {}x2 + {}x3 + {}x4 + {}'.format(coefficients[0], coefficients[1], coefficients[2], coefficients[3], intercept))

# 预测值
y_pred = model.predict(X)

# 求拟合优度
r2 = r2_score(y, y_pred)
print('拟合优度：', r2)

选择哪种方法？

最佳的缺失值处理方法取决于你的数据和分析目标。

如果缺失值较少，且数据集中没有明显的规律性，可以使用删除或简单填充的方法。
如果缺失值较多，且数据集中存在一定的规律性，可以使用插值或模型填充的方法。

建议尝试不同的方法，并比较它们对模型性能的影响，最终选择最优的处理方法。