数据泛化处理工具 - 字符串模糊匹配与数值区间划分
获取需要进行泛化处理的属性
selected_indices = columns_listbox.curselection() if not selected_indices: tk.messagebox.showwarning('警告', '请至少选择一个属性!') return selected_columns = [columns_listbox.get(index) for index in selected_indices]
根据K值,对属性值进行泛化处理
for column in selected_columns: column_data = data[column] if isinstance(column_data[0], str): # 对字符串类型的数据进行模糊匹配 for i in range(len(column_data)): column_data[i] = column_data[i][:2] + '*' * (len(column_data[i]) - 2) else: # 对数值类型的数据进行区间划分并生成标签 data[column] = pd.cut(data[column], k_value, labels=range(k_value))
显示泛化后的数据表内容
display_table(data)
原文地址: https://www.cveoy.top/t/topic/oJBK 著作权归作者所有。请勿转载和采集!