Pandas cut() 函数:数据分组与区间标记
Pandas 的 cut() 函数用于将一组数据分成离散的区间,并对每个值进行标记。该函数的语法如下:
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)
参数说明:
x:需要划分的数据,可以是一维数组、Series 或 DataFrame 的某一列。bins:划分的区间,可以是整数、序列或间隔的数组。right:指定区间是否包含右边界,默认为True,即包含右边界。labels:用于标记每个区间的标签,可以是一维数组或列表。retbins:是否返回划分后的区间,默认为False,不返回。precision:指定浮点数的精度,默认为3。include_lowest:指定是否包含最左边的区间边界,默认为False,不包含。duplicates:指定是否允许重复的区间,默认为 'raise',即不允许。ordered:指定区间是否有序,默认为True,即有序。
使用示例:
import pandas as pd
# 创建一组数据
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# 划分区间
bins = [0, 3, 6, 9, 12]
# 使用 cut 函数进行划分
result = pd.cut(data, bins)
# 打印划分结果
print(result)
输出结果:
[(0, 3], (0, 3], (0, 3], (3, 6], (3, 6], (3, 6], (6, 9], (6, 9], (6, 9], (9, 12]]
Categories (4, interval[int64]): [(0, 3] < (3, 6] < (6, 9] < (9, 12]]
上述示例中,将一组数据 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 划分为 4 个区间 [0, 3], (3, 6], (6, 9], (9, 12],并对每个值进行标记。最后打印出划分结果。
原文地址: https://www.cveoy.top/t/topic/fK3M 著作权归作者所有。请勿转载和采集!