研究：人类决策的不确定性会是改进 AI 的关键吗？

撰文：Kevin Dickinson

来源：FreeThink

图片来源：由无界 AI工具生成

许多人工智能模型都假定人类对自己的决定总是确定的。这会带来不幸的后果。

对我们许多人来说，技术提供了一种解决不确定性的方法。如果我们想不起来某个事实或弄不清楚某件事情，我们只需搜索一下，就能得到答案。巴黎和会是哪一年结束的？谷歌一下……1920 年。10 公里跑有多少英里？6.2 英里。谁与奥斯卡影帝布兰登 - 弗雷泽（Brendan Fraser）一起主演了他的处女作《恩西诺人》？肖恩 - 阿斯汀和保利 - 肖尔。

有趣的是，相反的情况也越来越多 -- 计算机正在依赖人类来检查它们的工作。“人机回环”（Human-in-the-loop）AI 系统依赖于人类的干预，以确保 AI 没有误读信息并做出不准确的预测。这种情况往往比电影花絮更为关键。

例如，放射科医生会查看人工智能的 X 光诊断，以确定它是否遗漏了骨折或病变。然后，人类可以纠正任何错误，确保病人得到适当的治疗。这是一种非常好的合作关系，但其中也有一个小问题：人类很少能百分百确定自己的结论。

同一位放射科医生可能会在 X 光片上看到一个颜色不同的骨组织区域，然后会想：“这是病变还是 X 光片本身的不规则？如果是病变，原因是什么，是良性还是恶性？”即使是训练有素的专家 -- 也许尤其是专家 -- 也经常在他们的观察和决定中加入这种不确定性。如果他们认为有 10% 的几率会有其他诊断结果，他们就可以与病人讨论，并制定相应的计划。

虽然这在我们看来很自然，但人机回环系统却不会这样推理。它们将人类的干预视为二进制：人类要么知道自己知道什么，要么不知道。反过来，这可能会限制 AI 系统在合作关系中降低人为错误风险的能力。

那么，这些系统是否有可能更好地理解人类决策的细微差别，从而提高它们的能力，以及我们自己的表现？剑桥大学的研究团队在一篇新的研究论文中对这个问题进行了测试。

你确定吗？

在首次测试中，研究人员使用了基于概念的模型 -- 通过人类反馈改进预测的机器学习模型 -- 两个数据集。第一个数据集名为“CheXpert”，对胸部 X 光片进行分类。另一个数据集名为 UMNIST，对手写样本中的数字进行加总。与大多数基于概念的模型一样，这两种模型之前都没有接受过不确定性训练，因此研究人员想看看它们将如何处理不确定性。

这项研究的第一作者、剑桥大学工程系研究生 Katherine Collins 表示：“很多开发人员都在努力解决模型的不确定性问题，但从人的角度解决不确定性问题的工作还比较少。”“我们想看看当人们表达不确定性时会发生什么，这在安全关键环境中尤为重要。”

答案是：不是很好。研究人员发现，即使模拟的不确定性较低，模型的性能也会下降，并且随着不确定性的增加而继续下降。这表明，这些模型在接受完全确定的干预时虽然准确，但“无法推广到干预用户对某些概念的性质不确定的环境中”。

在下一次测试中，研究人员使用了鸟类图像分类数据集，并引入了真实的人类参与者。这些参与者被要求识别图像中鸟类的具体特征。鸟是多色的、纯色的、斑点的还是条纹的？它的尾巴形状是叉形、圆形、扇形还是方形？等等。

然而，图片并不总是能最好地表现鸟类。图片中的鸟可能是明亮背景下的剪影，或者尾羽被树枝遮挡。因此，研究人员赋予人类参与者使用“软标签”的能力 -- 这些概念并非非此即彼，而是允许人类在 0-100 之间标注可信度（0 代表不知道，100 代表绝对肯定）。

例如，如果受试者认为鸟的翅膀形状宽大是非常可信的，他们可以将滑块移动到 80。但如果他们不太确定翅膀是圆的还是尖的，就可以少移动滑块（比如分别移动到 20 和 10）。

研究人员发现，当机器被人类取代时，性能会下降。不过，他们也发现，如果对模型进行不确定性训练，就能缓解人类参与者的一些失误。然而，这些模型并不完美。有时，人类的不确定性会有所帮助；而有时，它却会损害模型的性能。

“我们需要更好的工具来重新校准这些模型，以便让使用这些模型的人有能力在不确定的时候说出来，”这项研究的共同作者 Matthew Barker 说。“在某些方面，这项工作提出的问题比回答的问题要多，但即使人类在不确定性方面可能会出现误判，我们也可以通过考虑人类行为来提高这些人机回环系统的可信度和可靠性”。

普林斯顿大学、阿兰 - 图灵研究所和谷歌 DeepMind 的研究人员也加入了剑桥团队的研究。他们在蒙特利尔举行的 2023 年 AAI/ACM 人工智能、伦理与社会会议上发表了论文。该论文目前已作为预印本发布在 arXiv 上。