使用共识比率和Fleiss' kappa评估注释者间的一致性

本文使用两种评估标准来衡量注释者间的一致性：共识比率和Fleiss' kappa [19]。

共识比率 (n+): 表示在多少个区域中，n个或更多的工人给出了相同的分类结果。

Fleiss' kappa (κ): 用来衡量注释结果是否高于随机概率。

结果如表2所示。

主要发现:

性别的一致性几乎完美，有92.5%的区域有三个工人达成了共识 (κ值高)。* 活动的一致性较高 (κ值较高)。* 年龄和种族的一致性属于中等水平 (κ值中等)。 * 种族是一个主观属性 [20]，相对较高的一致性可能是因为工人们有着相似的背景（例如，大多数工人来自美国）。* 肤色和情绪的κ值最低（分别为0.24和0.37），但仍远高于随机概率（κ≤0）。 * 肤色可能受到图像照明和注释者对颜色的感知的影响，这使得相邻的肤色类型（例如2型和3型）难以区分。 * 我们另外检查了二元肤色分类（浅肤色：1型、2型、3型；深肤色：4型、5型、6型）的一致性，κ值从0.24（一般）增加到0.59（中等）。 * 从现在开始我们更倾向于使用二元肤色分类，除非另有说明。

结论:

共识比率和Fleiss' kappa是评估注释者间一致性的有效指标。本研究结果表明，对于不同的属性，注释者间的一致性存在差异。这一发现对于图像标注和分析任务具有重要意义。