BLEU (Bilingual Evaluation Understudy) 是一种常用的机器翻译效果评价指标,它主要通过比较机器翻译结果和人工参考翻译结果之间的相似度来评价机器翻译效果。具体算法如下:

  1. 对于每个待评价的机器翻译句子,计算它与参考翻译句子的n-gram (n个连续单词) 匹配度,得到匹配度矩阵。

  2. 对于每个n-gram,计算它在所有参考翻译句子中出现的最大次数,得到参考翻译中的n-gram计数向量。

  3. 对于每个n-gram,计算它在机器翻译结果中出现的次数,得到机器翻译结果中的n-gram计数向量。

  4. 根据机器翻译结果中的n-gram计数向量和参考翻译中的n-gram计数向量计算出每个n-gram的精度,即匹配度除以参考翻译中的n-gram计数向量中的最大次数。

  5. 对于每个机器翻译结果,计算它的BLEU值,即将每个n-gram的精度加权求和,权重为1/n,n为n-gram的长度,然后取自然对数,最后乘以一个惩罚因子,惩罚过长的机器翻译结果。

  6. 对所有机器翻译结果的BLEU值求平均,即得到整个语料库的BLEU值。

BLEU算法的优点是简单易用,且与人工评价结果有很高的相关性。但它也有一些缺点,例如无法考虑句子结构、语法错误等因素,可能会产生一定的误差。因此,使用BLEU算法时需要结合其他评价指标,如人工评价、语法正确率、流畅度等综合考虑。

BLEU 翻译效果评估指标:算法详解及优缺点

原文地址: https://www.cveoy.top/t/topic/lJmp 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录