智慧水务数据清洗流程研究:基于北京市水质时间序列数据
近年来随着智慧城市建设成为国家建设战略方针中的核心组成部分,智慧水务服务成为了其中不可或缺的一环[1]。同时不断推陈出新的计算机技术更是使得水务信息化建设这一领域得到了蓬勃发展,成为了整个水务行业大力深入研究的方向。在我国城市化进程的持续演进过程中,水务信息的调度和采集变得越来越频繁和细致,同时随着物联网行业的不断发展和创新,各种用于数据采集的传感器由此应运而生,水务行业因此也面临着巨大的数据存储和分析压力。同时在大数据时代的背景下,水务行业也将面临大规模数据分析所带来的挑战和机遇[2]。
伴随着各种各样统计分析模型和机器学习算法的不断发展和落地,如何让水务数据分析帮助水务行业进行可靠的决策性分析已然成为了智慧水务服务的重要一环。
数据作为智慧水务服务的根本和核心,高质量的数据保障成为了进一步促进智慧水务服务发展的催化剂。随着工业化和城市化进程地不断演进,水务行业也在持续通过各种手段将越来越详细的水质数据采集汇总,进而构建巨大且完备的水务数据库服务。只有正确使用高质量的水务数据才能帮助人们对未来的水务发展方向做出正确的判断和分析预测。因此在使用这些采集汇总过来的数据之前,需要对这些数据先进行必不可少的数据清洗工作再进一步挖掘数据的价值。
数据清洗作为数据价值挖掘前的必不可少的一步,其根本目的就在于保障数据的完整性和准确性[3]。其主要任务便是发现源数据集合中的异常值,并填补源数据中的空缺值和重新预测符合数据分布特征的异常值点。数据清洗作为找出和及时改正数据集合中数据错误的最后一个环节,对于后续数据挖掘工作来说,其意义是不言而喻的。并且由于水务数据采集的复杂性和各种诸如天气等多种不可控因素,往往容易出现错误的甚至是空缺的历史数据,同时通常水务数据是从不同的业务体系中汇总而来,甚至会出现许多产生冲突的数据,因此对于水务数据进行数据清洗工作更加显得必不可少。与此同时由于水务数据自身所具有的变量复杂、相关性强等问题,对于水务数据的清洗流程和数据分析模型需要结合所分析的水务数据的分布特点定义特定的清洗步骤和规则算法。所以本文针对北京市水务局提供的水质数据集合,结合水质数据的全局数值特性和时间序列属性来建立通用的水质时间序列数据清洗流程。
内容:
参考文献:
[1] 王磊, 胡志学, & 赵磊. (2017). 智慧水务服务的研究综述. 水资源保护, 33(5), 73-78.
[2] 陈子明, & 郭俊. (2018). 基于大数据的智慧水务发展与创新. 科技创新导报, 35(16), 30-31.
[3] 陈光辉, 欧阳静, & 汪克鹏. (2014). 基于数据挖掘的水质数据清洗方法研究. 水资源与水工程学报, 25(1), 97-101.
原文地址: https://www.cveoy.top/t/topic/mWWX 著作权归作者所有。请勿转载和采集!