因为日活表示用户在当天的第一次访问,所以除了第一次访问之外的其他访问都要被排除。每个用户每天可能会有多次启动。为了计算日活,我们只需要获取每个用户每天的第一次启动日志,这相当于进行了一次数据清洗。在实时计算中,去重是一个常见的需求,可以通过多种方式实现,例如将状态存储在Redis中,或者存储在关系型数据库中,或者使用Spark自身的updateStateByKey函数(但这种方式可能会涉及到一些问题,如checkpoint小文件的管理问题,不方便程序的变更和升级)。

给下列段落换个说法由于日活代表了用户当日的首次访问因此除了当日的首次访问以外的其他访问一 律需要过滤掉。每个用户每天可能启动多次。要想计算日活我们只需要把当前用户每天 的第一次启动日志获取即可所以要对启动日志进行去重相当于做了一次清洗。 实时计算中的去重是一个比较常见的需求可以有许多方式实现比如将状态存在 Redis 中;存在关系型数据库中;通过 Spark 自身的 updateStateByKe

原文地址: https://www.cveoy.top/t/topic/ipE9 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录