Python Pandas: 随机抽样并排序数据 (sample & sort_index)

这段代码使用 Pandas 库来处理数据，主要包含两个关键步骤：

随机抽样 (sample): test_df = raw_df.sample(frac=0.2, random_state=RANDOM_STATE)
- raw_df 表示原始数据集。
- sample(frac=0.2) 从 raw_df 中随机抽取 20% 的数据 (frac=0.2 表示抽取比例)。
- random_state=RANDOM_STATE 设置随机数种子，确保每次运行代码时都能得到相同的结果。
排序 (sort_index): test_df.sort_index()
- 对随机抽样后的数据集 test_df 按索引进行排序，确保抽取的数据保持与原始数据集中相同的顺序。

举例说明:

假设原始数据集 raw_df 有 1000 行数据，索引从 0 到 999。

为什么要排序?

在后续数据分析过程中，例如进行分组、聚合或对比操作时，保持抽取数据的顺序与原始数据集一致可以避免出现错误的结果，并确保分析结果的准确性。