Python Pandas 去除相邻重复值：高效处理大规模数据

使用 Python Pandas 去除相邻重复值：高效处理大规模数据

你有大量数据，每列中存在相邻重复值，希望快速去除这些重复项？使用 Python 的 Pandas 库可以轻松实现！即使拥有 10000 多行数据，也能快速处理。

示例数据：

目标：

1
2
1

代码实现：

import pandas as pd

# 将数据存储在 DataFrame 中
data = pd.DataFrame({'col': [1, 1, 2, 2, 1, 1]})

# 去除每列相邻重复的值
data = data.drop_duplicates()

# 输出结果
print(data)

输出结果：

从 CSV 文件读取数据：

如果你将数据存储在 CSV 文件中，可以使用 pandas 的 read_csv 方法读取数据。

import pandas as pd

# 从 CSV 文件中读取数据
data = pd.read_csv('data.csv', header=None)

# 去除每列相邻重复的值
data = data.drop_duplicates()

# 输出结果
print(data)

**注意：**将上述代码中的 data.csv 替换为你的 CSV 文件路径。

总结：

使用 Pandas 的 drop_duplicates 方法可以轻松去除数据列中相邻重复的值。这个方法非常高效，即使拥有大量数据也能快速处理。希望这篇文章能帮助你解决数据清洗问题。