酒店的属性为员工素质设施服务清洁程度舒适度性价比位置。之后求解以上6个属性与文本中的25个关键词之间的相似度。相似度高则划分为属性的二级影响因素。采用Word2Vec里面的gensimmodel 进行相似度计算。问题是这6个属性在分词后的文本中没有这时该怎么处理怎么计算属性的词向量和与关键词的相似度
如果这6个属性在分词后的文本中没有出现过,可以通过以下两种方式进行处理:
- 手动添加相应的词向量
可以手动添加与这6个属性相关的词向量,例如:员工、服务、清洁、舒适、性价比、位置等。这些词向量可以通过其他数据集进行训练得到,或者使用预训练好的词向量进行导入。
- 通过相似度计算获得属性的词向量
可以使用已有的关键词和属性,通过相似度计算得出属性的词向量。具体操作为:首先选取一个与属性相关的关键词,例如“员工态度”,然后使用Word2Vec计算该关键词与其他所有关键词之间的相似度,选择相似度高的几个关键词,例如“服务热情”、“服务态度”等,将它们的词向量相加取平均即可得到“员工素质”的词向量。其他属性的词向量也可以采用类似的方式进行计算。
计算属性的词向量后,可以使用Word2Vec计算属性词向量与关键词之间的相似度,从而得到属性与关键词之间的相似度,进而划分为属性的二级影响因素。
原文地址: http://www.cveoy.top/t/topic/fHLk 著作权归作者所有。请勿转载和采集!