大语言模型医疗建议受非临床信息干扰
根据某机构研究人员的研究,部署用于提供治疗建议的大语言模型(LLM)可能会被患者信息中的非临床信息干扰,例如错别字、多余空格、缺失性别标记,或使用不确定、夸张和非正式语言。
研究发现,对信息进行文体或语法更改会增加LLM建议患者自我管理所报告健康状况的可能性,而不是预约就诊,即使该患者应该寻求医疗护理。分析还显示,这些文本中的非临床变化(模仿人们真实交流方式)更可能改变模型对女性患者的治疗建议,导致更高比例的女性被错误地建议不寻求医疗护理(根据人类医生的判断)。
该研究资深作者、某机构电气工程与计算机科学系(EECS)副教授Marzyeh Ghassemi表示,这项工作是“强有力的证据,表明在医疗保健中使用模型之前必须进行审核——而它们已经在医疗环境中使用”。这些发现表明,LLM以先前未知的方式将非临床信息纳入临床决策。研究人员表示,这揭示了在将LLM部署用于高风险应用(如提出治疗建议)之前需要进行更严格的研究。
论文第一作者、EECS研究生Abinitha Gourabathina补充说:“这些模型通常在医学考试问题上进行训练和测试,但随后用于与之相差甚远的任务,例如评估临床病例的严重性。关于LLM,我们仍然有太多不了解的地方。”该论文将在ACM公平、问责和透明度会议上发表。
混合信息
像某中心GPT-4这样的大语言模型正在全球医疗机构中用于起草临床记录和分诊患者信息,旨在简化一些任务以帮助负担过重的临床医生。越来越多的研究探索了LLM的临床推理能力,特别是从公平性的角度,但很少有研究评估非临床信息如何影响模型的判断。
Gourabathina对性别如何影响LLM推理感兴趣,她进行了实验,交换了患者笔记中的性别线索。她惊讶地发现,提示中的格式错误(如多余空格)会导致LLM响应发生有意义的变化。
为了探索这个问题,研究人员设计了一项研究,通过交换或删除性别标记、添加情绪化或不确定语言,或在患者信息中插入额外空格和错别字来改变模型的输入数据。每次扰动都旨在模拟脆弱患者群体可能书写的文本,基于人们与临床医生交流方式的心理社会研究。
例如,多余空格和错别字模拟英语水平有限或技术能力较差患者的书写,添加不确定语言代表有健康焦虑的患者。Gourabathina说:“这些模型训练的医疗数据集通常经过清理和结构化,不能非常真实地反映患者群体。我们想看看这些非常真实的文本变化如何影响下游用例。”
研究人员使用LLM创建了数千份患者笔记的扰动副本,同时确保文本变化最小化并保留所有临床数据,如药物和既往诊断。然后他们评估了四个LLM,包括大型商业模型GPT-4和一个专为医疗环境构建的较小LLM。他们根据患者笔记向每个LLM提出三个问题:患者是否应该在家管理、患者是否应该来诊所就诊,以及是否应该为患者分配医疗资源(如实验室检查)。研究人员将LLM建议与真实临床响应进行了比较。
不一致的建议
当输入扰动数据时,研究人员看到了治疗建议的不一致性和LLM之间的显著分歧。总体而言,对于所有九种类型的更改患者信息,LLM自我管理建议增加了7%至9%。这意味着当信息包含错别字或性别中性代词时,LLM更可能建议患者不寻求医疗护理。情绪化语言(如俚语或夸张表达)的影响最大。
研究还发现,模型对女性患者的错误率高出约7%,并且更可能建议女性患者在家自我管理,即使研究人员从临床上下文中删除了所有性别线索。许多最糟糕的结果(如患者有严重医疗状况时被告知自我管理)可能不会被关注模型整体临床准确性的测试所捕获。
Gourabathina说:“在研究中,我们倾向于查看汇总统计数据,但有很多东西在转换中丢失了。我们需要查看这些错误发生的方向——在应该就诊时不建议就诊比相反的情况有害得多。”非临床语言引起的不一致性在LLM与患者交互的对话设置中变得更加明显,这是面向患者聊天机器人的常见用例。
但在后续工作中,研究人员发现这些相同的患者信息变化不会影响人类临床医生的准确性。Ghassemi说:“在我们正在审阅的后续工作中,我们进一步发现大语言模型对人类临床医生不受影响的变化很脆弱。这也许并不奇怪——LLM并非设计用于优先考虑患者医疗护理。LLM足够灵活且平均性能良好,我们可能认为这是一个很好的用例。但我们不希望优化一个只对特定群体患者有效的医疗系统。”