但他提供了一个反驳观点:当研究人员仅仅告诉模型不要依赖于刻板印象或社会偏见 - 也就是通过输入这些指令来实现 - 模型在预测和响应方面就会有较少的偏见。这表明一些新兴属性可能也可以用来减少偏见。在二月份发布的一篇论文中,Anthropic团队报告了一种新的“道德自我修正”模式,在这种模式下,用户提示程序要有帮助、诚实和无害。

翻译:But he offers a counterpoint When the researchers simply told the model not to rely on stereotypes or social biases — literally by typing in those instructions — the model was less biased in its pr

原文地址: http://www.cveoy.top/t/topic/LPX 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录