Gensim困惑度出现负值的原因及解决方法
困惑度是评估语言模型好坏的指标,通常应该是非负数,因为它是对数据集中每个样本上的对数似然值求指数后得到的。但是,使用gensim计算困惑度时,如果数据中的某些样本出现概率非常低,那么它们的对数似然值就会非常小,导致困惑度的结果变成负数。这种情况通常发生在数据集比较小或者模型复杂度比较高的情况下。解决这个问题的方法是增加数据集的大小或者调整模型的复杂度,或者使用其他的评估指标来替代困惑度。
原文地址: https://www.cveoy.top/t/topic/m1lu 著作权归作者所有。请勿转载和采集!