跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

Nature 观点认为,人工智能在医学领域的测试存在混乱现象,应当采取什么措施?

编辑日期:2024年08月22日

编辑 | ScienceAI

已有数百种医疗算法基于有限的临床数据获得批准。当前,科学家们正探讨应由谁来测试这些工具及其最佳测试方法。

Devin Singh 在担任儿科住院医生期间,曾照料过一名儿童,该儿童因长时间未能得到救治而导致心脏骤停。“我记得我当时为这位病童实施心肺复苏术,感觉他的生命正逐渐消逝。”他回忆道。Singh 对这名儿童的去世深感悲痛,并思考如果能够减少等待救治的时间,是否就能防止悲剧的发生。

受到这一经历的影响,Singh 想到或许可以结合自己的儿科专业知识与计算机科学,探索人工智能(AI)是否有助于缩短患者等待时间的可能性。利用其所在机构——加拿大多伦多儿童医院(SickKids)急诊科的数据,Singh 及其同事开发了一系列人工智能模型,这些模型可提供潜在诊断建议并指出可能需要进行的检查项目。

“例如,如果我们能够预测某个病人很可能患有阑尾炎并需要腹部超声检查,那么我们可以在患者抵达后几乎立刻安排检查,而不是让他们等待 6 至 10 小时才能接受治疗。”他解释说。

一项研究利用了 SickKids 医院超过 77,000 次就诊记录的回顾性数据分析,结果显示这些模型可使就诊速度提升 22.3%,并将每位需要进一步检查的患者的处理时间缩短近 3 小时。然而,在此类研究中的人工智能算法的成功仅仅是验证这些干预措施能否在实际应用中真正帮助人们的初步阶段。

正确测试医疗环境中的人工智能(AI)系统是一个复杂且多步骤的过程。然而,发布相关分析结果的开发者并不多。一项综述表明,在2020年至2022年间,仅有65项关于AI干预的随机对照试验被发表。与此同时,美国食品药品监督管理局(FDA)等监管机构已经批准了数百种由AI驱动的医疗设备在医院和诊所中使用。“医疗机构发现许多获批设备并未经过临床验证。”加州洛杉矶西达赛奈医疗中心的心脏病专家David Ouyang表示。一些医院选择自行测试这些设备。

虽然研究者们了解理想的AI干预临床试验应具备的特点,但在实际操作中测试这些技术仍充满挑战。实施效果取决于医疗专业人员与算法的互动程度:如果人类忽视了算法的建议,即使是最优秀的工具也可能失效。AI程序对其训练数据人群与目标服务人群之间的差异尤为敏感。此外,如何向患者及其家属介绍这些技术并征得他们同意使用其数据进行设备测试,目前尚不明确。

一些医院和医疗保健系统正在尝试不同的方法以在医学领域中使用和评估AI系统。随着越来越多的AI工具和公司涌入市场,各组织正联合起来寻求共识,确定哪些评估方法最为有效且严谨。

像Singh正在研发的那种基于AI的医疗应用,通常会被药品监管机构认定为医疗设备,包括美国FDA和英国药品与保健品管理局。因此,审查和授权使用的标准通常不如药物审批那样严格。只有少数被认为对患者存在较高风险的设备才需要提供临床试验数据以获得批准。

许多人认为现有的标准过低。当费城宾夕法尼亚大学的重症监护医师Gary Weissman审视其专业领域内获得FDA批准的AI设备时,他发现,在他识别出的十种设备中,仅有三种在其获批过程中引用了已发表的数据。只有四种设备提及了安全性评估,而没有任何一种设备包括偏差评估——这是一种分析工具,用于判断这些技术成果是否对不同的患者群体公正。“令人担忧的是,这些设备确实能够并对病床旁的护理产生影响。”他表示,“患者的生死可能就取决于这些决策。”缺乏数据让医院及医疗体系在决定是否采纳这些技术时陷入两难境地。在某些情况下,经济激励起到了作用。例如,在美国,一些健康保险计划已经开始为医院使用特定的医疗AI设备提供报销,这使得这些设备在经济上颇具吸引力。这些机构也可能更倾向于采纳那些声称能够降低成本的AI工具,即便这些工具未必能改善对患者的护理。

赵阳指出,这些激励措施可能会阻碍AI公司投入资源来进行临床试验。“对于许多商业实体而言,你可以想象,他们会更加努力地确保他们的AI工具能够得到报销。”他说。

不同的市场可能存在差异。例如,在英国,由政府资助的全国性健康项目可能会在医疗中心采购特定产品前设定更高的证据标准,英国伯明翰大学专注于研究人工智能负责任创新的临床研究员Xiaoxuan Liu表示,“这样一来,企业就有了进行临床试验的动力。”

一旦医院购置了人工智能产品,它们通常无需进行额外的测试,可以直接投入使用,就像使用其他软件一样。然而,一些机构意识到,监管机构的批准并不能确保这些设备真正有益。因此,它们选择自行进行测试。赵阳表示,当前这类尝试大多是由学术医疗中心进行并资助的。

阿姆斯特丹大学医学中心的重症监护医学主任 Alexander Vlaar 与同机构的麻醉师 Denise Veelo 自 2017 年起开展了一项研究项目。该项目旨在测试一种预测手术过程中可能出现低血压的算法。这种在手术中发生的低血压情况被称为术中低血压,可能会引发严重的并发症,例如心肌损伤、心脏病发作、急性肾衰竭甚至是死亡。这项预测算法由位于加州的 Edwards Lifesciences 公司研发,通过分析动脉波形数据(即急诊室或重症监护室内监测器上显示的带有波峰和波谷的红线)来工作,并能在低血压发生前几分钟做出预测,从而实现早期干预。

Vlaar、Veelo 及其研究团队进行了一项随机临床试验,在 60 名接受非心脏手术的患者身上测试了该工具。结果显示,使用此设备的患者平均仅经历 8 分钟的低血压期,而对照组患者的这一平均时间则接近 33 分钟。

此外,研究团队还进行了第二次临床试验,验证了该设备结合明确的治疗方案在更为复杂的情况下也能有效应用,例如心脏手术期间以及在重症监护室中的情况。不过,这些试验的结果目前尚未公布。

成功的因素不仅在于算法本身的准确性,麻醉师对预警信号的响应同样关键。因此,研究人员确保医生们充分准备:“我们有一份诊断流程图,上面详细列出了在接收到警报后应采取的步骤。”Veelo 解释道。另一家机构进行的类似临床试验中,尽管采用了相同的算法,但并未显示出任何益处。在这种情况下,“当警报响起时,负责的医生并未按照指导采取行动。”Vlaar 补充说。

即使是最完美的算法也可能因为人类行为的变化而失效,这既包括医护人员的行为,也包括接受治疗的患者的行为。

明尼苏达州罗彻斯特的梅奥诊所测试了一款内部研发的算法,用于识别低射血分数的心脏病患者,这项工作由人机交互研究员Barbara Barry协调,确保开发者和一线医疗工作者间的沟通无碍。这款工具的目标是标记那些有高度风险罹患此病的个体,这种病症可能是心力衰竭的前兆,虽然可以治疗,但却常常被忽视未能诊断。一项临床试验证实,该算法确实提高了诊断率。然而,在与医疗工作者的交流中,Barbara发现他们需要更多的指导,特别是关于如何向患者解释算法结果。因此,她建议如果该应用得以广泛应用,应包含关键的沟通信息,使医护人员不必每次重新思考如何进行此类对话。“这是我们从实际测试过渡到实施策略的一个实例。”Barbara表示。

另一个可能制约医疗AI设备成功的因素是“警报疲劳”问题——当医生频繁面对大量由AI产生的警告时,他们可能会逐渐对此感到麻木。梅奥诊所的家庭医学部负责人David Rushlow认为,在测试阶段就应该考虑到这一问题。

“我们每天都会接收到多次关于患者潜在风险疾病的警报。这对于忙碌的一线医生而言,是一项巨大的挑战。”他表示,“我认为这些工具中的大多数都可能对我们有所帮助。但是,如果没有准确地引入这些工具,那么默认情况下我们会继续用原有的方式进行工作,因为我们没有足够的时间和精力去学习新的事物。”Rushlow补充道。

考虑偏差性

医疗人工智能测试面临的另一挑战是在不同人群中推广临床试验结果的难度。“众所周知,当人工智能算法应用于与训练数据不一致的数据时,其效果往往不尽如人意。”Liu说道。

她强调,只有当临床试验参与者能够代表该工具实际使用者的情况时,试验结果才能被安全推广。

此外,那些在资源充裕的医院收集数据所训练出的算法,在资源贫乏的环境下可能表现不佳。例如,Google Health 团队开发了一种用于检测糖尿病视网膜病变(一种可能导致糖尿病患者失明的病症)的算法,理论上具有很高的准确性。然而,当这个工具在泰国的诊所中实际应用时,其效能明显降低。一项观察性研究表明,泰国诊所中的照明条件导致眼部图像质量较差,从而影响了该工具的效果。

Nature 观点认为,在医疗领域应用人工智能

患者知情同意

当前,大多数医疗人工智能工具主要用于辅助医护人员进行筛查、诊断或制定治疗方案。患者可能并未意识到这些技术正处于测试阶段或是已被常规应用于他们的诊疗过程中。目前没有任何国家强制要求医疗服务提供者向患者披露这一信息。

关于应向患者透露哪些与人工智能技术相关的信息的讨论仍在继续。某些应用场景将患者知情同意的问题推向了开发者们的关注中心。Singh 团队正在开发的一款人工智能设备即为一例,该设备旨在简化 SickKids 医院急诊室中儿童患者的诊疗流程。

这款技术的一个显著特点是,它将临床医生从整个决策过程中移除,使患儿及其父母或监护人成为了最终用户。

“该工具的功能是从紧急分诊数据中提取信息并作出预测,然后直接由家长决定是否接受检查。”Singh 解释道。这有助于减轻医护人员的工作负担,并加快整个流程。但同时也带来了一系列前所未有的问题。一旦患者出现状况,责任该由谁承担?如果进行了不必要的检查,费用又该由谁支付?

“我们需要通过自动化方式获得家长的真实知情同意。”Singh 强调,这种同意必须是可靠的。“不能像注册社交媒体账户时那样,让用户面对二十页的条款,只需要点击接受即可。”

当辛格和他的同事们等待资金到位以启动患者的试验时,他们的团队正与法律专家合作,并与加拿大监管机构——加拿大卫生部接洽,以审查他们的提案并考虑其监管影响。安娜·戈尔德娜伯格,一位计算机科学家及SickKids儿童医院医学人工智能计划的联合主席,指出目前“监管环境有些像西部边疆”。

Nature 观点认为,人工智能在医学领域的应用

寻求解决方案

各个机构正在集思广益,探讨如何应对这些挑战。一些专家建议,最佳做法是每家医疗机构在采纳医疗AI工具前自行进行测试。然而,其他人认为这样做因成本问题而不可行,因此研究人员和医疗机构正在探索其他途径。

“对于大型机构来说这已非易事,对于小型机构而言更是难上加难。”医疗AI专家肖娜·奥弗加德说。奥弗加德是梅奥诊所AI验证和管理研究项目的联合负责人,该项目的目标是以标准化和集中化的方式来测试医疗AI工具,以便它们能在梅奥诊所医疗系统内的社区医院使用。

奥弗加德还是健康AI联盟的一员,该联盟汇集了来自产业界、学术界以及患者权益组织的代表。该联盟由谷歌、亚马逊、微软和CVS Health等公司资助,提出了建立一个健康AI保障实验室网络的倡议,该网络将遵循一套共同原则,以集中化的方式评估模型。

马克·森达克是位于北卡罗来纳州达勒姆的杜克健康创新研究所的临床数据科学家,他认为这种集中化的方法并非最优。“每个机构都应当具备自己的内部能力和基础设施来进行测试。”他说。

他是Health AI Partnership的成员,这是一个由学术界与医疗保健机构组成的团体。该团队已经从帕洛阿尔托的Gordon and Betty Moore基金会获得了初步的资金支持,目的是帮助任何组织建立起能够在其本地环境中测试AI模型的能力,并提供相应的技术支持。美国大型医学影像机构Radiology Partners的放射科医师及临床AI副首席医疗官Nina Kottler同样强调了本地验证的重要性。她期望这些研究所产生的结论能够用于培训那些未来将操作这些工具的专业人员。

Kottler指出,人的因素将是至关重要的,“在医疗保健领域中几乎不存在完全自主的人工智能。我们需要开始考虑如何确保我们所测量结果的准确性,这不仅包括人工智能本身,还包括人工智能与最终用户之间的互动准确性。”

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析