数据测试实习周记24周
本周主要进行了数据清洗和数据分析的工作。
首先,对原始数据进行了初步的清洗。由于原始数据量庞大,其中包含了很多无用的信息和错误的数据,需要进行筛选和处理。我使用了Python编程语言中的Pandas库对数据进行处理。首先,对数据进行了缺失值的处理,使用了Pandas库中的dropna()函数删除了缺失值较多的行。然后,对数据中的异常值进行了处理,使用了Pandas库中的describe()函数和boxplot()函数对数据进行了初步的统计分析和可视化分析,发现了一些异常值并进行了删除或修正。最后,对数据中的重复值进行了处理,使用了Pandas库中的drop_duplicates()函数删除了重复的行。
接着,进行了数据分析的工作。由于数据量较大,我选择了使用Python编程语言中的Matplotlib库和Seaborn库进行数据可视化分析。首先,对数据的基本情况进行了分析,包括数据的分布情况、数据的相关性等。然后,对数据进行了分类分析,使用了Matplotlib库和Seaborn库中的多种图表对不同类别的数据进行了可视化展示,例如条形图、散点图、热力图等。最后,对数据进行了时间序列分析,使用了Matplotlib库和Seaborn库中的折线图和箱线图对数据的时间变化趋势进行了可视化展示。
通过本周的数据清洗和数据分析工作,我对数据处理和数据分析的方法和技巧有了更加深入的了解和掌握,同时也发现了数据中存在的问题和不足,为后续的工作提供了有益的参考和指导
原文地址: https://www.cveoy.top/t/topic/f4Gz 著作权归作者所有。请勿转载和采集!