人工智能输出结果的准确性、一致性和洞察力评估

人工智能输出结果的精确度、一致性和洞见（ACI）由两位医生裁决者独立评分，使用S2数据中列出的标准。医生们相互独立。20个USMLE问题的子集用于集体裁决者的培训。医生在这个子集中不是相互独立的，但通过强制交替审核输出措施来抑制交叉污染。例如，医生1裁定准确性，而医生2裁定一致性。然后交换角色，以便每个裁决者为整个数据集提供完整的ACI评分。为了最小化内部项目定位偏差，裁决者先为所有项目评分准确度，然后为所有项目评分一致性，最后为所有项目评分洞见。如果在三个领域中没有达成共识，该项目将由最后的医生裁决。共有21个项目（数据集的6.2％）需要第三位医生仲裁。评估医生之间的裁决者一致性，通过计算OE和MC问题的Cohen kappa（κ）统计量（S4数据）。