Good machine learning practice for medical device development: Guiding principles
文件编号: IMDRF/AIML WG/N88 FINAL:2025
INFO
This content has been machine-translated from the English original.
全文
医疗器械开发中的良好机器学习实践:指导原则
Document Number: IMDRF/AIML WG/N88 FINAL:2025
最终文档
IMDRF/AIML WG/N88 最终版:2025 医疗器械开发中的良好机器学习实践:指导原则 编写组 人工智能/机器学习工作组
前言
© 2025年国际医疗器械监管论坛 版权所有。
本作品受版权保护。在遵守本条款和条件的前提下,您可以下载、显示、打印、翻译、修改和复制本作品的全部或部分内容,用于您个人的使用、研究、教育目的,或如果贵组织是组织,则用于贵组织的内部使用,但前提是您或贵组织不得将复制用于任何商业目的,并且保留所有版权声明。如果您使用本作品的任何部分,必须包含以下声明(删除不适用的内容):
除上述内容外,所有其他权利均保留,未经IMDRF事先书面许可,您不得以任何方式(包括电子方式)复制本作品的全部或任何部分。有关复制和版权的请求和咨询应发送给IMDRF秘书处。
将本文件(部分或全部)纳入其他文档,或将其翻译成其他语言,并不代表IMDRF的认可。
Naoyuki YASUDA,IMDRF主席
内容
1. 简介 4
2. 参考文献 5
3. 指导原则 6
简介
人工智能(AI)技术,包括机器学习,具有通过从日常医疗活动中产生的大量数据中获得新且重要的见解的潜力,从而改变医疗保健。它们使用可以从实际使用中学习的算法,并可能利用这些信息来改进产品的性能。但由于其迭代和数据驱动的性质,它们也带来了独特的考虑。本文件旨在为社区建立一套共同的原则,以促进安全、有效和高质量的医疗器械的开发,这些医疗器械包含人工智能。这些原则应在整个医疗器械的生命周期中应用。
本文件中提出的,用于良好机器学习实践(GMLP)的10个指导原则,是对国际标准组织、国际监管机构和其他合作机构的号召,以进一步推进GMLP。合作领域包括研究、创建教育工具和资源、国际协调以及制定共识标准,以为监管政策和监管指南提供信息。这些指导原则可用于采用其他领域的实践,根据医疗技术和医疗保健进行调整,并为该领域开发新的实践。
进一步的AI技术在医疗领域的进步,例如生成式AI,突显了清晰描述产品用途/目的以及确定其监管状态的重要性。此外,生成式AI可能会提高GMLP(包括基本软件工程实践)的重要性。例如,包含生成式AI的医疗技术可能会采用不在医疗器械制造商控制范围内的基础模型,从而可能引入独特的风险。生成式AI也可能对证明设备性能提出更根本性的挑战。衡量性能、以及对这些模型中的错误进行特征化和检测的监管科学正在发展,以应对这一挑战。
随着AI医疗器械领域的不断发展,GMLP和共识标准也必须不断完善。与国际公共卫生伙伴建立强大的合作关系对于在该领域促进负责任的创新至关重要。因此,我们预计这项合作工作可以为未来的IMDRF和其他国际活动提供信息。
参考文献
IMDRF/SaMD WG/N10 FINAL:2013 软件医疗器械 (SaMD): 关键定义
IMDRF/SaMD WG/N12 FINAL:2014 软件医疗器械: 风险分类和相应考虑的可能框架
IMDRF/SaMD WG/N23 FINAL:2015 软件医疗器械 (SaMD): 质量管理体系的应用
IMDRF/SaMD WG/N41 FINAL:2017 软件医疗器械 (SaMD): 临床评估
IMDRF/CYBER WG/N60 FINAL:2020 医疗器械网络安全原则和实践
IMDRF/AIMD WG/N67 (第一版):2022 基于机器学习的医疗器械: 关键术语和定义
IMDRF/CYBER WG/N70 最终版:2023(第一版)医疗设备的安全保障原则和实践
IMDRF/CYBER WG/N73 最终版:2023(第一版)医疗设备软件的材料清单原则和实践
IMDRF/MC/N79 草案:2023 指导原则,以支持医疗设备健康公平
IMDRF/SaMD WG/N81 草案:2024 医疗设备软件:设备和风险特征化的考虑
指导原则
对医疗器械的预期用途/预期目的有充分的了解,并在整个产品生命周期内充分利用多学科专业知识:深入了解医疗器械的预期用途/预期目的[1],包括在临床工作流程中的使用背景、期望的益处和相关的患者风险,有助于确保具有人工智能功能的医疗器械[2],[3]在整个产品生命周期内满足临床意义的需求。多学科专业知识提供特定情境下的见解和经验,指导预期用途/预期目的,并提高医疗器械的安全性及有效性。
在整个产品生命周期内,实施良好的软件工程、医疗器械设计和安全实践:模型设计应在以下方面得到实施和维护:稳健的软件工程实践、可用性、数据质量保证、数据管理、网络安全[5],[6],[7]和质量管理实践[4]。这些实践包括有条理的风险管理[8]和设计流程,可以适当记录和沟通决策和理由,并确保可追溯性、可重复性、数据真实性、保密性、完整性和可用性。对模型部署、监控和维护所需的基础设施进行仔细考虑。这些实践有助于支持患者的权利、安全和福利,包括通过负责任地使用患者数据。
临床评估包括使用具有代表性的数据集,这些数据集反映了目标患者人群:数据收集协议旨在确保目标患者人群(例如,在年龄、性别、种族、民族、地理位置、医疗状况[9]、预期使用环境和测量输入方面)的相关特征,在用于训练、测试和监测的数据集中,以足够大的样本量得到充分的代表,以便结果可以合理地推广到感兴趣的目标人群。这些对于临床评估[10]至关重要,并且对于管理任何潜在的偏差或数据集漂移、促进目标患者人群的适当和可推广的性能、评估可用性以及识别模型可能表现不佳的情况(包括随着时间的推移)至关重要。
训练数据集与测试数据集是独立的:训练和测试数据集[3]被选择和维护,以确保它们彼此独立。所有潜在的依赖来源,包括与患者、地点和数据采集相关的因素,都应被考虑并解决,以确保独立性。外部验证的程度应与风险成比例。
选择的参考标准具有适用性: 采用的用于开发具有适用性的参考标准的方法,确保收集临床相关且经过充分特性的数据,并了解参考标准的局限性。 这包括基于设备的使用/用途,记录选择参考标准的理由,并评估其是否适合应对预期的使用环境。 如果可用,并且在模型开发和测试中,能够促进和证明模型在预期患者群体中的鲁棒性和泛化性,则优先使用这些参考标准。 参考标准的选择基于广泛共识,并在可获得的情况下,并结合适当的专业知识。
模型选择和设计应根据可用的数据和设备的预期用途/用途进行定制: 模型选择和设计应根据可用的数据进行评估,并证明其适合,并支持主动缓解已知的风险,例如过拟合、性能下降和安全风险。 产品的临床益处和风险已充分了解,并用于确定可用于测试的临床有意义的性能目标,从而支持产品的安全性和有效性,以实现其预期用途/用途1。 考虑因素包括对整体预期患者群体以及其子群的影响,以及设备输入、输出和临床使用条件中的不确定性和可变性。
该设备评估侧重于在预期使用环境中的人机交互,重点在于人机团队的性能,而不是仅仅评估设备本身。 评估设备在预期使用环境和临床工作流程中的性能,同时考虑与医疗保健提供者、患者和照护者(如果适用)的交互。 考虑到人机因素,包括用户技能、用户专业知识、用户对模型输出和局限性的理解、过度依赖的可能性、设备自主程度以及用户错误,这些都适用于正常使用和合理可预见的误用。
测试证明设备在临床相关条件下具有性能: 制定并执行具有方法论和统计学合理性的测试计划,以独立于训练数据集生成临床相关设备性能信息。 考虑包括预期患者人群、相关亚群、临床环境、人机团队的使用、测量输入和潜在的混淆因素。
用户获得清晰、关键信息: 针对目标受众(例如医疗保健专业人员或患者)提供清晰、与上下文相关的、符合其需求的必要信息。 这包括产品的预期用途/预期用途1和适应症、益处和风险、模型在适当亚群中的性能、研究方法、用于训练和测试模型的用于数据特征、可接受的输入、已知的局限性、用户界面解释、模型在临床工作流程中的集成,以及在可能的情况下,模型输出的基础。 用户还应了解设备修改和更新的范围和时间。 他们应能够向制造商沟通产品问题。
已部署的模型需要进行性能监控,并管理重新训练的风险:已部署的模型具备在“真实世界”使用中进行适当持续监控的能力,并以风险为导向,确保或提高安全性与性能4、10。此外,在模型部署后重新训练时,应采取适当的控制措施,以管理过拟合、意外偏差或模型(例如,数据集漂移)可能对模型安全性和性能产生影响的风险。
免责声明
© 版权所有 205 年,国际医疗器械监管论坛。
本作品受版权保护。在遵守本条款和条件的前提下,您可以下载、显示、打印、翻译、修改和复制本作品的全部或部分内容,用于您个人的使用、研究、教育目的,或如果贵组织是组织,则用于贵组织的内部使用,但前提是您或贵组织不得将复制用于任何商业目的,并且保留所有版权声明。如果您使用本作品的任何部分,必须包含以下声明(删除不适用的内容):
除上述内容外,所有权利均保留,未经国际医疗器械监管论坛(IMDRF)事先书面许可,不得以任何方式(包括电子方式)复制或使用本材料的全部或任何部分。有关复制和权利的请求和咨询应发送给 IMDRF 秘书处。
将本文件(部分或全部)纳入其他文档,或将其翻译成其他语言,并不代表IMDRF的认可。
请访问我们的网站以获取更多详细信息。
IMDRF/SaMD WG/N81 草案:2024 医疗器械软件:设备和风险特征化的考虑 ↑
IMDRF/SaMD WG/N10 最终版:2013 软件为医疗设备(SaMD):关键定义 ↑
IMDRF/AIMD WG/N67(第 1 版):2022 基于机器学习的医疗器械:关键术语和定义 ↑
IMDRF/SaMD WG/N23 最终版:2015 软件为医疗设备(SaMD):质量管理体系的应用 ↑
IMDRF/CYBER WG/N60 最终版:2020 医疗器械网络安全原则和实践 ↑
IMDRF/CYBER WG/N70 最终版:2023(第 1 版) 遗留医疗器械的网络安全原则和实践 ↑
IMDRF/CYBER WG/N73 最终版:2023(第 1 版) 医疗器械网络安全软件清单的原则和实践
IMDRF/SaMD WG/N12 最终版:2014 医疗设备软件:风险分类和相关考虑的可能框架 ↑
IMDRF/MC/N79 草案:2023 指导原则,以支持医疗设备健康公平 ↑
IMDRF/SaMD WG/N41 最终版:2017 医疗设备软件 (SaMD):临床评估 ↑

