Python Pandas 去除相邻重复值:高效处理大规模数据
使用 Python Pandas 去除相邻重复值:高效处理大规模数据
你有大量数据,每列中存在相邻重复值,希望快速去除这些重复项?使用 Python 的 Pandas 库可以轻松实现!即使拥有 10000 多行数据,也能快速处理。
示例数据:
1
1
2
2
1
1
目标:
1
2
1
代码实现:
import pandas as pd
# 将数据存储在 DataFrame 中
data = pd.DataFrame({'col': [1, 1, 2, 2, 1, 1]})
# 去除每列相邻重复的值
data = data.drop_duplicates()
# 输出结果
print(data)
输出结果:
col
0 1
2 2
4 1
从 CSV 文件读取数据:
如果你将数据存储在 CSV 文件中,可以使用 pandas 的 read_csv 方法读取数据。
import pandas as pd
# 从 CSV 文件中读取数据
data = pd.read_csv('data.csv', header=None)
# 去除每列相邻重复的值
data = data.drop_duplicates()
# 输出结果
print(data)
**注意:**将上述代码中的 data.csv 替换为你的 CSV 文件路径。
总结:
使用 Pandas 的 drop_duplicates 方法可以轻松去除数据列中相邻重复的值。这个方法非常高效,即使拥有大量数据也能快速处理。希望这篇文章能帮助你解决数据清洗问题。
原文地址: https://www.cveoy.top/t/topic/fUzN 著作权归作者所有。请勿转载和采集!