Python数据预处理代码示例：去除重复值、缺失值处理、标准化、特征选择和数据分割

以下是一个对数据进行预处理的Python代码示例：

# 导入相关库
import numpy as np
import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 去除重复值
data.drop_duplicates(inplace=True)

# 缺失值处理
# 如果缺失值少于10%，使用均值填充
# 如果缺失值大于10%，删除该行或列
threshold = len(data)*0.9
data.dropna(thresh=threshold, axis=1, inplace=True)
data.fillna(data.mean(), inplace=True)

# 数据标准化
data = (data - np.min(data)) / (np.max(data) - np.min(data))

# 特征选择
# 使用相关系数法，选择与目标变量相关系数较高的特征
corr_matrix = data.corr()
selected_features = corr_matrix[abs(corr_matrix['target_variable']) > 0.5]['target_variable']

# 数据分割
X = data[selected_features[:-1]]
y = data['target_variable']

此代码包括以下步骤：

导入相关库，读取数据；
去除重复值；
缺失值处理，对于缺失值较少的特征使用均值填充，对于缺失值较多的特征删除该行或列；
数据标准化，使得各特征值的范围相同；
特征选择，选取与目标变量相关系数较高的特征；
数据分割，将数据分成训练集和测试集。