Pandas 的 cut() 函数用于将一组数据分成离散的区间,并对每个值进行标记。该函数的语法如下:

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

参数说明:

  • x:需要划分的数据,可以是一维数组、Series 或 DataFrame 的某一列。
  • bins:划分的区间,可以是整数、序列或间隔的数组。
  • right:指定区间是否包含右边界,默认为 True,即包含右边界。
  • labels:用于标记每个区间的标签,可以是一维数组或列表。
  • retbins:是否返回划分后的区间,默认为 False,不返回。
  • precision:指定浮点数的精度,默认为 3
  • include_lowest:指定是否包含最左边的区间边界,默认为 False,不包含。
  • duplicates:指定是否允许重复的区间,默认为 'raise',即不允许。
  • ordered:指定区间是否有序,默认为 True,即有序。

使用示例:

import pandas as pd

# 创建一组数据
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 划分区间
bins = [0, 3, 6, 9, 12]

# 使用 cut 函数进行划分
result = pd.cut(data, bins)

# 打印划分结果
print(result)

输出结果:

[(0, 3], (0, 3], (0, 3], (3, 6], (3, 6], (3, 6], (6, 9], (6, 9], (6, 9], (9, 12]]
Categories (4, interval[int64]): [(0, 3] < (3, 6] < (6, 9] < (9, 12]]

上述示例中,将一组数据 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 划分为 4 个区间 [0, 3], (3, 6], (6, 9], (9, 12],并对每个值进行标记。最后打印出划分结果。

Pandas cut() 函数:数据分组与区间标记

原文地址: https://www.cveoy.top/t/topic/fK3M 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录