数据清洗、归一化和标准化：Python 代码示例

数据预处理是机器学习中必不可少的一步，它可以提高模型的性能和准确性。常见的预处理步骤包括数据清洗、归一化和标准化。

数据清洗

数据清洗通常包括删除重复值、处理缺失值、处理异常值等步骤。以下是一个示例代码，用于删除重复值和处理缺失值：

import pandas as pd

# 创建一个包含重复值和缺失值的数据框
df = pd.DataFrame({'A': [1, 2, 3, 3, 4, 5],
                   'B': [5, 4, 3, None, None, 2]})

# 删除重复值
df = df.drop_duplicates()

# 处理缺失值
df = df.dropna()

归一化数据

归一化数据通常包括将数据缩放到 0 和 1 之间或将数据缩放到 -1 和 1 之间。以下是一个示例代码，用于将数据缩放到 0 和 1 之间：

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# 创建一个包含需要归一化的数据的数据框
df = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                   'B': [10, 20, 30, 40, 50]})

# 创建一个 MinMaxScaler 对象
scaler = MinMaxScaler()

# 将数据缩放到 0 和 1 之间
df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

标准化数据

标准化数据通常包括将数据转换为均值为 0，标准差为 1 的分布。以下是一个示例代码，用于标准化数据：

import pandas as pd
from sklearn.preprocessing import StandardScaler

# 创建一个包含需要标准化的数据的数据框
df = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                   'B': [10, 20, 30, 40, 50]})

# 创建一个 StandardScaler 对象
scaler = StandardScaler()

# 将数据标准化
df_standardized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

这些只是数据清洗、归一化和标准化的一些基本示例。根据不同的数据和模型，可能需要使用其他方法或参数来进行预处理。