人工智能输出结果的精确度、一致性和洞见(ACI)由两位医生裁决者独立评分,使用S2数据中列出的标准。医生们相互独立。20个USMLE问题的子集用于集体裁决者的培训。医生在这个子集中不是相互独立的,但通过强制交替审核输出措施来抑制交叉污染。例如,医生1裁定准确性,而医生2裁定一致性。然后交换角色,以便每个裁决者为整个数据集提供完整的ACI评分。为了最小化内部项目定位偏差,裁决者先为所有项目评分准确度,然后为所有项目评分一致性,最后为所有项目评分洞见。如果在三个领域中没有达成共识,该项目将由最后的医生裁决。共有21个项目(数据集的6.2%)需要第三位医生仲裁。评估医生之间的裁决者一致性,通过计算OE和MC问题的Cohen kappa(κ)统计量(S4数据)。

人工智能输出结果的准确性、一致性和洞察力评估

原文地址: https://www.cveoy.top/t/topic/m5Pd 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录