关键词抽取模型比较:模型6表现最佳,综合权值有效提升抽取能力
根据表4.2的数据和图4.1的折线图,可以清晰地看出模型6在准确率、召回率和综合评价指标方面均优于其他对比模型,其结果最为优秀。这表明本文提出的关键词抽取公式能够综合多种文本词语特征,具有出色的关键词抽取能力。经典的TF-IDF算法(模型1)在准确率方面表现中等,召回率相对最低,说明单纯以'词频'作为衡量标准不够全面,有时重要的词汇可能出现次数较少。模型2至5在本课题的综合公式基础上进行了部分改动,结果表明模型2的综合评价指标仅次于模型6,召回率排名第一,这说明词语的位置特征在抽取文本关键词方面确实是不可或缺的元素。然而,相比于其他文本词汇特征,词语的位置特征对关键词抽取结果的影响可能相对较小。模型3的准确率排名第二,仅次于模型6,说明虽然该模型缺少了词汇长度特征,但其抽取结果较为准确。在综合公式中加入该特征将对抽取效果产生积极影响。模型4在所有模型中的抽取效果属于中等水平,这说明如果缺少标题特征,则对关键词的抽取效果影响较大。文章标题能够较好地反映文章的中心主旨,因此标题特征是综合公式中不可或缺的。模型5是在本课题的综合公式基础上缺少词语度指标的,其在所有模型中综合评价指标最低,说明词语跨度对文本词语的关键程度产生较大影响。在物流文本中,如果同一个词语在文章的首尾均出现,则能够极大地证明该词语对文章的关键性。缺少词语跨度将导致对抽取结果的影响较大。
原文地址: https://www.cveoy.top/t/topic/mTsx 著作权归作者所有。请勿转载和采集!