FDA发布Good AI Practice，最严监管场景曝光

·in 5 hours发布

• FDA联合EMA发布的Good AI Practice（GAIP)十项原则，可视为“AI时代的质量管理规范”；

• FDA监管两大关键：AI用在哪儿，数据从哪儿来；监管的本质不是算力，而是责任。而责任，只能由“人”来承担。

• 影像学临床终点评估、患者筛选与分层等AI应用场景的监管要求非常高；

• AI只是助手，最终决策必须由人来做出，因为监管的本质不是算力，而是责任；

• 对于中国生物医药企业，前FDA资深审评员肖申博士提出三点应对AI监管的建议。

在制药行业这一强监管领域，历来有GLP、GCP、GMP等作为指引。针对AI制药（AIDD），美国FDA与欧盟EMA联合推出了专门为AI应用制定的实践指南（Practice）。

2025年1月，FDA发布了关于AI在药物开发中应用的指南（下称“AI指南”），2026年1月又联合EMA发布了“Good AI Practice”（GAIP）十项原则（见下图。FDA关于AI审评的技术指导原则汇总见文末）。这意味着监管机构正式认可AI在药物开发中的应用，并通过制定相应的规范，引导AI辅助的药物临床试验走向规范化和标准化。

来源|FDA官网

“GAIP传递了FDA的明确信号：鼓励企业在临床开发中应用AI，并将在审评环节采纳AI。”前FDA资深审评员、礼邦医药首席科学官肖申博士说，AI在药物发现前期的作用越来越大。但监管的态度很清楚，“前面怎么探索都可以，一旦要上人了，就必须严格评估风险。所以现在不是‘要不要用AI’的问题，而是‘在哪个环节用、怎么用、用什么标准来验证’的问题。”

指南两大核心：应用场景和数据来源

肖申将AI指南归纳为两个核心。

第一是应用场景（Context of Use，COU）。“监管不是一刀切。”肖申说，在早期研发阶段，如靶点发现、分子筛选，监管比较放松，因为风险低。但一旦进入非临床安全评估、临床试验、生产质量控制，监管要求就很严格。FDA的指南里反复强调：企业在什么场景下用AI，决定了企业需要接受多严的验证。

第二是数据来源。研究的数据是否可靠、有没有追溯性、是不是有代表性、能不能避免数据偏移，FDA对这些问题的审查非常严格。“监管现在就抓住这两点：AI用在哪儿，数据从哪儿来。这两条只要能把控住，AI就能真正帮到药物开发。”

GAIP十项原则

GAIP十项原则，“可以理解为AI时代的GCP，它告诉大家：申请人按照这个路径走，FDA就可以认可你的结果”，肖申表示。

第一是以人为本的设计。不能为了AI而AI，不能为了技术而炫技。一切要服务于患者利益和伦理，这个底线不能破。

第二是基于风险的方法。高风险场景，比如临床终点评估、剂量选择、安全信号监控，需要高强度的验证；低风险场景，比如文献整理、医学翻译写作，可以灵活一些。

第三是遵循标准。在AI开发与使用过程中，要遵守适用法律、伦理、科学、技术、网络安全和GxP等标准。

第四是明确使用场景。清晰界定AI的目标、适用场景、角色与范围，确保其在特定背景下提供可靠支持。

第五是多学科专业参与。AI不是IT部门的事。在AI系统开发、评估和实施过程中，需要有临床、统计、数据科学、软件工程、质量与药物警戒等多学科专家参与。

第六是数据治理与文档管理。建立稳健的数据治理机制，对数据来源、质量控制、访问权限和处理过程进行记录与跟踪，确保文档完整、可追溯。

第七是模型设计与开发实践。遵循良好的软件工程和机器学习实践，包括版本控制、可重复性测试、安全性与变更管理等。

第八是基于风险的性能评估。针对具体使用场景开展性能评估，包括偏差检测、模型漂移压力测试和验收标准评估，确保模型能够在预定情境中可靠运行。

第九是生命周期管理。AI模型不是一次性的。数据会偏移，环境会变化，模型需要持续监控、定期重测。在整个生命周期内持续监控AI系统的表现，控制风险，在重大变更后重新验证，并在适当时负责地退役模型。FDA需要对患者负责。

第十是清晰、必要的信息。企业不能给监管一个“黑盒子”。要向相关利益方提供透明、易懂的关键信息和解释，减少“黑箱”效应。“你越坦白，给的证据和论据越多，监管越放心。”（具体见下图，上下滑动查看）

FDA七步风险评估流程

结合AI指南，肖申把FDA评估AI应用总结出七个步骤，认为“从风险评估、模型设计、训练验证，到实施计划、监管沟通、文档记录，每一步都写得很清楚”。

“第一步至第三步属于初步评估与准备阶段”。第一步是定义使用场景（COU），明确AI在药物开发中的具体用途，例如患者筛选、影像终点评估或安全信号检测。第二步是评估模型对患者和决策的影响，分析模型输出对患者安全、疗效判断或监管决策的潜在影响，从而确定风险等级。第三步是确定模型的输入与输出，明确模型所需的数据类型、来源、处理流程，以及输出结果的格式和解释方式。

第四步是模型开发与训练过程的关键考量。这一步骤涉及多个技术细节，FDA特别关注模型的训练过程。

第五步是实施该计划。在模型开发完成后，申办方需在实际应用场景中实施AI模型，并确保其符合监管要求。

第六步是记录计划并评估执行偏差。申办方需记录AI模型开发与验证的全过程，包括模型输出的可信性评估结果，并讨论实际执行过程中是否出现偏差。

第七步是确认模型是否适用于该使用场景。最终，FDA要求申办方确认AI模型是否足够稳定、可靠，能够在其定义的使用场景下持续发挥作用。申办方需提交完整的生命周期管理计划，包括性能指标描述、基于风险的监控频率设定、模型重测触发机制等，并提前与监管部门沟通变更管理计划。

“企业不需要让监管完全理解你的算法细节，但你需要提供足够的证据，让监管相信用AI做的结果，在安全性、有效性、质量可控性上不亚于人工。你可以做人机对照，证明一致性；你可以做压力测试，验证鲁棒性。关键是，你得有证据。”肖申说。

哪些场景监管最严？

具体来说，有几个应用场景的监管要求非常高。

影像学临床终点评估方面，AI如果用来替代人工读片、判断疗效终点，需要严格的外部验证，要与人工读片对照。之前就有项目因为没提供充分的外部验证，被要求补做人工读片对照研究。

患者筛选与分层方面，AI用来决定谁入组、谁出组，会影响整个临床试验的人群构成。必须评估选择偏倚风险，证明不会系统性排除某些亚群。

安全信号检测方面，AI辅助发现不良事件信号，目前更多是辅助决策，不是自动决策。要关注假阳性、假阴性风险，要与传统规则系统做对比。

真实世界证据生成方面，用AI分析真实世界数据来支持适应症扩展，关键在于数据质量和混杂控制。模型透明度要求高，需要与随机试验结果形成一致性证据链。曾有项目因模型混杂控制不足，导致审评进度延迟。

CMC质量放行方面，AI用于生产过程中的质量检测，比如视觉缺陷识别，这直接影响批次放行决策。有项目因为模型漂移没及时发现，批次间差异扩大，被要求暂停自动放行。

肖申认为，这些场景的共同点是高风险、直接影响患者安全或疗效判断，因此，“验证必须覆盖真实使用环境，外部验证几乎不可省略，模型更新需受控，系统级风险评估比模型指标更重要。监管不是卡你，是帮你把风险控制住”。

数据偏移和幻觉问题怎么解决？

数据偏移分三种：特征偏移（输入特征分布变化，但标签规则不变）、标签偏移（输出标签的分布变化，但特征与标签的关系不变）、概念偏移（特征和标签的映射关系本身发生变化）。简单说，就是训练时的数据和实际用的数据不一样了，模型性能就会下降。监管要求企业建立持续监控和定期重测机制。“你不能一个模型用到底，要定期验证，发现偏移就要重新训练或调整。”

“幻觉”即AI编造不存在的东西，目前还没有完美解决方案，所以监管的态度是：AI辅助人，而不是取代人。

“特别是在高风险决策上，最终判断必须由人来做出。你可以让AI先筛一遍、算一遍，但关键结论要有人复核。人机结合，是目前最务实、也最被监管接受的模式。”肖申表示。

AI会取代审评员吗

FDA已经在做一些探索，把过去几十年的审评资料电子化、格式化，用来训练AI，帮助审评员做初步筛查、文献整理、常见问题判断。

“这就像年轻医生有了一个‘老专家知识库’，效率会提高。”不过肖申认为，“真正复杂的审评，比如权衡一个全新靶点的风险获益、判断一个临床试验设计的合理性，需要的是底层的医学知识、药理毒理功底、以及主动的逻辑思维。这些东西，目前的AI还做不到。”

肖申认为，可以把AI理解为一个非常聪明的助手，它帮你整理信息、提示风险、建议方向，但最终决策必须由人来做出。因为监管的本质不是算力，而是责任，“责任，只能由人来承担”。

基于以上分析，肖申对中国生物医药企业提出三点建议：

首先要早沟通，不要等做完了再去找监管。企业在设计模型的时候，就可以跟监管开会，确认验证方案。越早沟通，后面越顺。

其次，要建立多学科团队。AI不只是IT部门的事，还需要临床、统计、药理、毒理、质量、法规部门一起参与。“FDA的GAIP原则里专门有一条‘多学科专业参与’，这不是随便说说的。”肖申说。

第三，用监管能听懂的语言，讲清楚数据来源、验证结果、风险控制措施，不需要炫技，不需要把模型设计得特别复杂。

总结来看，AI模型在药物审批中的支持作用需要重点关注四个方面：数据质量、模型验证、可解释性、持续监测。未来，AI在药物研发中的应用将更加广泛，但也将面临更严格的监管。“对于企业来说，理解监管的逻辑、主动拥抱标准、坚持人本和透明，才能在AI制药这条路上走得更远、更稳。”肖申说。

编辑 | 姚嘉

yao.jia@PharmaDJ.com

访问研发客网站，深度报道和每日新闻抢鲜看

文章关键词： FDAGood AI Practice

下载PDF

发布文章

关注人数