一名自然语言处理程序员正在写中文文本分类论文请你基于下面一段话描述:由于从物流网站上爬取的数据文本可能并不是全是物流相关的文档可能是财经、体育、政策、文学等其他方面的文本内容所以本课题采用基于linesentence的种子词汇扩展技术对物流词汇进行扩展选择的种子词汇为物流运输航运等得到物流相关的扩展词汇最后判断爬取下来的文本是否包含扩展词汇从而进行文本筛选基本步骤如下: 首先从爬虫得
本文描述了一种针对从物流网站上爬取的数据文本的分类方法,该方法采用基于LineSentence的种子词汇扩展技术对物流词汇进行扩展,通过选择种子词汇“物流”、“运输”、“航运”等,得到物流相关的扩展词汇,从而判断爬取下来的文本是否包含扩展词汇,从而进行文本筛选。具体步骤包括:去停用词、干扰词去除处理、文本预处理、词向量训练、词汇相似度计算、种子词集扩展过滤操作。最终获得的文本都是物流相关文本。该方法可以有效地减少无关文本的干扰,提高文本分类的准确性。
原文地址: https://www.cveoy.top/t/topic/br0P 著作权归作者所有。请勿转载和采集!