该方法有三个参数:数据文件地址、中心点文件地址和聚类数。在配置文件中设置聚类数,以便mapper读取。还需要设置相应的mapper和reducer类以及输入输出格式。重要的是,reducer使用了KmeansReducer类,即用于计算中心点的reducer。在每次生成新的中心点文件时,需要注意HDFS不支持同名文件的覆盖,因此需要检查是否已经存在同名文件,如果存在,则需要先删除。

基于Hadoop的K-Means聚类算法实现

原文地址: http://www.cveoy.top/t/topic/oGEf 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录