Python 数据筛选：如何使用 Pandas 查找重复数据

当然可以！我将提供一些基本的 Python 代码来帮助你筛选重复数据。以下是使用 Python 和 pandas 库进行重复数据筛选的步骤：

首先，确保你已经安装了 pandas 库。你可以使用以下命令在命令行中安装 pandas 库：pip install pandas
然后，创建一个 Python 脚本文件（比如 duplicate_filter.py），并在文件中添加以下代码：

import pandas as pd

# 读取数据表
data = pd.read_excel('data.xlsx')

# 根据指定列筛选重复数据
duplicates = data[data.duplicated(subset=['列名'], keep=False)]

# 保存筛选结果到新的 Excel 文件
duplicates.to_excel('重复数据.xlsx', index=False)

请将代码中的 'data.xlsx' 替换为你实际的数据文件名，'列名' 替换为你要基于哪些列进行重复数据的筛选。

这段代码使用 pandas 库来读取数据表，并通过 duplicated() 函数筛选出重复的数据。subset 参数指定了要对哪些列进行筛选，keep 参数设置为 False 表示保留所有重复项。

最后，使用 to_excel() 函数将筛选出的重复数据保存到一个新的 Excel 文件中（文件名为 '重复数据.xlsx'），并设置 index=False 来避免写入索引列。

运行脚本后，你将在当前目录下看到一个名为 '重复数据.xlsx' 的新文件，其中包含了筛选出的重复数据。

希望这个代码示例能够帮助你开始使用 Python 进行重复数据筛选。如果你有任何疑问，请随时向我提问。