使用共识比率和Fleiss' kappa评估注释者间的一致性

本文使用两种评估标准来衡量注释者间的一致性:共识比率和Fleiss' kappa [19]。

共识比率 (n+): 表示在多少个区域中,n个或更多的工人给出了相同的分类结果。

Fleiss' kappa (κ): 用来衡量注释结果是否高于随机概率。

结果如表2所示。

主要发现:

  • 性别的一致性几乎完美,有92.5%的区域有三个工人达成了共识 (κ值高)。* 活动的一致性较高 (κ值较高)。* 年龄和种族的一致性属于中等水平 (κ值中等)。 * 种族是一个主观属性 [20],相对较高的一致性可能是因为工人们有着相似的背景(例如,大多数工人来自美国)。* 肤色和情绪的κ值最低(分别为0.24和0.37),但仍远高于随机概率(κ≤0)。 * 肤色可能受到图像照明和注释者对颜色的感知的影响,这使得相邻的肤色类型(例如2型和3型)难以区分。 * 我们另外检查了二元肤色分类(浅肤色:1型、2型、3型;深肤色:4型、5型、6型)的一致性,κ值从0.24(一般)增加到0.59(中等)。 * 从现在开始我们更倾向于使用二元肤色分类,除非另有说明。

结论:

共识比率和Fleiss' kappa是评估注释者间一致性的有效指标。本研究结果表明,对于不同的属性,注释者间的一致性存在差异。这一发现对于图像标注和分析任务具有重要意义。

使用共识比率和Fleiss' kappa评估注释者间的一致性

原文地址: https://www.cveoy.top/t/topic/fBp3 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录