Spark RDD 函数linearAttribute代码分析:线性归因模型
该代码定义了一个名为'linearAttribute'的函数,该函数接受一个RDD[(Long, String, String)]类型的参数'rdd',并返回一个新的RDD。
该函数将'rdd'中的每个元素(即(Long, String, String)类型的元组)转换为一个或多个新元素(即(String, String, Long, String, String, Double)类型的元组)。
具体来说,对于每个元组'tp',该函数首先从元组中提取出'guid'、'destEvent'和'events'等变量。然后,它使用逗号分隔符将'events'字符串分割成一个字符串数组'eventArr',并过滤掉其中的空字符串。
接下来,该函数计算了一个权重'weight',该权重是100.0除以'eventArr'数组的长度。最后,该函数使用'eventArr'数组中的每个元素'e',创建一个新的元组('优惠券获取归因', '线性归因', 'guid', 'destEvent', 'e', 'weight'),并将其作为结果返回。
原文地址: https://www.cveoy.top/t/topic/lLtH 著作权归作者所有。请勿转载和采集!