用 FP-Growth算法进行数据挖掘寻找关联规则步骤
FP-Growth算法是一种基于频繁项集的关联规则挖掘算法,其步骤如下:
-
构建FP-Tree:遍历所有事务,对每个事务的项集进行排序,根据排序后的顺序构建FP-Tree。FP-Tree是一种树形结构,每个节点代表一个项,节点的计数表示该项在所有事务中出现的次数,节点的链接指向相同项的其他节点。
-
挖掘频繁项集:从FP-Tree中找出所有的频繁项集。对于每个项集,遍历其所有的后缀路径,统计每个节点的计数,得到该项集的支持度。如果支持度大于等于最小支持度阈值,则该项集是频繁项集。
-
生成关联规则:根据频繁项集生成关联规则。对于每个频繁项集,从中选出一个子集,计算其支持度和置信度。如果置信度大于等于最小置信度阈值,则该规则成立。
-
递归挖掘:如果还存在频繁项集,可以递归挖掘。将频繁项集中的每个项作为新的条件,重新构建FP-Tree,继续挖掘频繁项集和关联规则。
需要注意的是,FP-Growth算法是一种内存消耗较小、速度较快的算法,但其可能会产生大量的频繁项集,因此需要根据实际情况设置最小支持度和最小置信度阈值。
原文地址: https://www.cveoy.top/t/topic/f6le 著作权归作者所有。请勿转载和采集!