Machine Learning-enabled Medical Devices: Key Terms and Definitions

文件编号: IMDRF/AIMD WG/N67

官方来源

https://www.imdrf.org/documents/machine-learning-enabled-medical-devices-key-terms-and-definitions

INFO

This content has been machine-translated from the English original.

全文

具备机器学习功能的医疗器械：关键术语和定义

Document Number: IMDRF/AIMD WG/N67

Source: https://www.imdrf.org/documents/machine-learning-enabled-medical-devices-key-terms-and-definitions

最终文档

IMDRF/AIMD WG/N67 具备机器学习功能的医疗器械：关键术语和定义编写组人工智能医疗器械 (AIMD) 工作组

前言

本文件由国际医疗器械监管论坛制作。对本文件的复制或使用没有限制；然而，将本文件（部分或全部）纳入其他文件，或将其翻译成其他语言，并不代表国际医疗器械监管论坛的认可。

版权 2022 年，国际医疗器械监管论坛

特蕾西·达菲，IMDRF 负责人

内容

前言 2

目录 3

1. 简介 5

2. 范围 6

3. 参考文献 7

3.1. IMDRF / GHTF 7

3.2. 标准 7

3.3. 其他文件 7

4. 人工智能和机器学习概念的总体概述 8

5. 关键定义 10

5.1. 具备机器学习功能的医疗器械 (MLMD) 10

5.2. IMDRF 术语 10

6. 定义/参考定义/技术标准定义 11

6.1. 偏差 11

6.2. 持续学习 12

6.3. 参考标准 12

6.4. 可靠性 12

6.5. 半监督机器学习 12

6.6. 监督机器学习 12

6.7. 测试数据集 12

6.8. 训练 12

6.9. 训练数据集 13

6.10. 无监督机器学习 13

7. 讨论 14

7.1. MLMD 变更的方面 14

7.1.1. MLMD 的变更 15

7.1.2. 用于数据的 MLMD 环境 16

7.2. 监督/无监督/半监督学习 17

7.3. 验证 18

简介

人工智能 (AI) 是一门计算机科学、统计学和工程的学科，它使用算法或模型来执行任务并表现出学习、决策和预测等行为。人工智能的子集，即机器学习 (ML)，允许通过对数据的分析，使用 ML 训练算法来开发 ML 模型，而无需显式地编程模型。

利用 ML 的方法，有时在口语中被称为 AI 或 AI/ML，已被应用于多个领域，如汽车行业、机器人、医疗、金融和艺术。 ML 使许多行业能够从大量数据中获得新的见解，并支持任务。

[术语表 - 在这些术语出现时，请使用这些精确的翻译:] 差距分析 -> Gap Analysis test_zh -> test_en

例如，在医疗应用中包括更早的疾病检测和诊断；识别人体生理学上的新观察或模式；开发个性化的诊断和治疗方法；工作流程优化；信号处理和重建；以及指导设备的使用，旨在改善用户和患者的体验。机器学习驱动的医疗设备已得到加速采用和使用。我们称这些医疗设备为机器学习驱动的医疗设备（MLMD）。基于人工智能的系统通常在医疗设备中实现为软件，或作为医疗设备中的软件。MLMD 有潜力通过从医疗过程的各个阶段产生的大量数据中获得新的和重要的见解来改变医疗保健。MLMD 的最大优势在于，随着更多数据的可用，包括来自实际使用和经验，可以进一步学习和迭代，从而提高其性能。

本文的目的是，在整个产品生命周期（TPLC）中建立相关术语和定义，以促进一致性，支持全球协调，并为与 MLMD 相关的未来指南的开发提供基础。本文中引用的术语，要么已在《全球协调任务组（GHTF）》文件或国际认可的 AI 标准中已定义，要么在本文中由 IMDRF 人工智能医疗设备（AIMD）工作组生成或讨论。

本次努力的总体目标是，促进对 MLMD 的一致性期望和理解，促进患者安全，促进创新，并鼓励对医疗技术进步的获取。

范围

本文件适用于与机器学习（MLMD）相关的关键术语和定义。

注意 1： MLMD 是 医疗器械。任何产品必须首先满足 医疗器械 的定义，才能成为 MLMD。

注意 2： 大多数司法管辖区将“医疗器械的附件”包含在“医疗器械”的定义中。其他司法管辖区将“医疗器械的附件”定义为单独的。本文件中的定义和概念旨在适用于两种情况。

注意 3： 本文件不试图定义计算机科学领域中的既定术语；但是，它力求突出和阐明必要的冲突术语和定义。本文件不提供关于 MLMD 的开发、风险管理或评估的指南。

注意 4： 引用正在开发的（例如 ISO、IEC、IEEE）的技术标准的术语和定义，在这些标准最终发布时可能会进行更新。

参考文献

IMDRF / GHTF

IMDRF/SaMD WG/N10 FINAL:2013 软件为医疗器械 (SaMD): 关键定义
IMDRF/GRRP WG/N47:2018 医疗器械和体外诊断医疗器械的安全性与性能的基本原则 (3.0 定义)

标准

以下标准在编写本文件时被参考，并且可能对满足本文中讨论的关键 MLMD 定义有所帮助。此列表并非用于满足关键 MLMD 定义所需或完整的标准列表。

ISO/IEC DIS 22989 信息技术 — 人工智能 — 人工智能概念和术语
ISO/IEC TR 24027 信息技术 — 人工智能 (AI) — AI 系统中的偏差和辅助决策

其他文件

AAMI, BSI, Turpin, R., Hoefer, E., Lewelling, J., & Baird, P. (2020). 医疗器械中的机器学习 AI：调整监管框架和标准以确保安全和性能。 AAMI/BSI 人工智能倡议。

_https://www.bsigroup.com/en-US/medical-devices/resources/Whitepapers-and-articles/machine-learning-ai-in-medical-devices/

考维，R.，& 普罗沃斯特，F. (主编)。 (未定日期)。术语词典：机器学习和知识发现应用的专题号。

https://ai.stanford.edu/~ronnyk/glossary.html

坎 A. (2017)。机器学习在细胞图像分析中的应用。免疫学与细胞生物学，95(6)，525–530。

https://doi.org/10.1038/icb.2017.16

人工智能和机器学习概念的总体概述

基于人工智能的系统能够执行诸如视觉感知、语音识别、决策和语言之间的翻译等任务，通过使用专家系统（基于规则，如决策树）和机器学习（例如深度学习）。

一些基于人工智能的系统表现出一定的自主性（在复杂的环境中执行任务的能力，无需用户持续指导/输入）和适应性（从经验中学习并从而改变性能的能力）。

机器学习涉及计算机实施机器学习训练算法，从数据中学习模式，包括分类、推理、匹配先前模式、预测未来输出等，从而产生一个机器学习模型，可应用于新的数据。机器学习被认为是人工智能的一个子集，赋予计算机在没有明确编程的情况下学习的能力。

图 1 人工智能和机器学习概念概述

ISO/IEC 的人工智能相关国际标准草案 DIS 22989 将机器学习描述为一种使用计算技术来优化模型操作的过程，使得机器学习模型的行为反映数据或经验。

[术语表 - 在这些术语出现时，请使用这些确切的翻译:] 差距分析 -> Gap Analysis test_zh -> test_en

有多种不同的机器学习方法（图 1），以及不同的机器学习训练算法。例如，某些应用可能使用监督学习，而另一些应用可能使用无监督或半监督学习（第 6.0 节）。还有一些应用可能使用试错的迭代过程，也称为强化学习[1]。不同的机器学习训练算法包括神经网络（例如，前馈神经网络、循环神经网络、卷积神经网络等）、贝叶斯网络、决策树和支持向量机等。

请注意：在本文件中，“机器学习训练算法”是指通过分析数据来建立机器学习模型参数的软件程序。在本文件中，“机器学习模型”是指一种数学结构，它根据新的输入数据生成推断或预测，并且是机器学习训练算法从数据中学习的结果。

以下部分提供了与在医疗器械中使用机器学习相关的关键定义（第 5.0 节）以及来自技术标准的定义（第 6.0 节），然后是常见机器学习术语的讨论（第 7.0 节）。

关键定义

具备机器学习功能的医疗器械 (MLMD)

一种使用机器学习，部分或全部，以实现其预期医疗目的的医疗器械。

IMDRF 术语

医疗器械：任何由制造商设计用于单独或与其他使用，用于人类，以实现以下一个或多个特定医疗目的的工具、装置、仪器、设备、机器、装置、体外使用的试剂、软件、材料或其他类似或相关物品：

诊断、预防、监测、治疗或缓解疾病
诊断、监测、治疗、缓解或补偿受伤，
调查、替代、修改或支持人体解剖结构或生理过程，
维持生命，
控制生育，
清洁、消毒或对医疗器械进行灭菌，
通过体外检查样本（来自人体）来提供信息；

并且不通过药理、免疫或代谢方式在人体内或外来发挥其主要预期作用，但可能通过这些方式辅助其预期功能。

注释 1：在某些司法管辖区可能被认为是医疗器械，但在其他司法管辖区则不被认为是医疗器械的产品包括：

消毒剂，
辅助残疾人士的设备，
包含动物和/或人体组织的产品。
用于体外生殖或辅助生殖技术的设备。

第 2 条：为了澄清目的，在某些监管辖区，用于美容/美学目的的设备也被视为医疗设备。

第 3 条：为了澄清目的，在某些监管辖区，包含人体组织的设备的商业活动是被禁止的。

已从 IMDRF/GRRP WG/N47:2018 中纠正编辑问题。

定义/参考定义/技术标准定义

偏见

在与他人进行比较时，对某些对象、人或群体的系统性差异，包括治疗[2]。

对该条目的注释：治疗是指任何形式的行动，包括感知、观察、表示、预测或决策。（ISO/IEC TR 24027:2021）

注意： “偏见”一词在不同领域有不同的含义。例如，在数据科学中，偏见通常被定义为统计/数学含义，而在法律中，偏见通常被用作不公平或有偏见/片面的含义。

ISO/IEC TR 24027 的定义是一种技术定义，并不等同于“不公平”或“公平”的概念。有关偏见与公平之间的差异的更多信息，请参见 ISO/IEC TR 24027:2021。

ISO/IEC TR 24027 引用了具有“所需”和“不需要”偏差的系统，这取决于人工智能（基于AI）系统的预期用途。例如，对于用于检测白血病的MLMD，所需偏差是指对白血病的检测，而不是其他病理的偏差；不需要的偏差可能包括在预期患者群体中不同年龄组之间，性能上的意外差异。因此，根据预期用途，一个在不同年龄组中对白血病检测更有效的MLMD，可能是一个具有“不需要”偏差的设备。

偏差的来源包括：

人类认知偏差（包括自动化偏差、社会偏差和确认偏差），
数据偏差（包括统计偏差、数据处理偏差和数据聚合偏差），以及
由工程决策引入的偏差（例如，在特征工程、算法选择和模型选择过程中）

有关偏差的类型和来源的更多信息，请参见 ISO/IEC TR 24027。

持续学习 __

在MLMD的运行阶段，随着数据持续不断地进行，每次接触数据都会导致MLMD发生变化的训练。 (摘自 ISO/IEC DIS 22989)

注意： 尽管Batch Learning和Continuous Learning并非完全对立，但通常在描述Continuous Learning时会提到Batch Learning。Batch Learning是指一种通过在MLMD的运行阶段（之前或期间）基于预定义的集合的数据，进行离散更新的训练，从而导致MLMD发生变化的训练。

参考标准

一个客观确定的基准，用作比较、评估、培训等的预期结果。

可靠性 __

指持续保持预期的行为和结果。 (ISO/IEC DIS 22989)

半监督机器学习 __

在训练过程中，利用无监督和有监督技术，同时采用机器学习算法。 (改编自 ISO/IEC DIS 22989)

注释 1： 描述性信息可以比单纯的标签更广泛。标注是指将描述性信息附加到数据，例如元数据、标签或锚点。在标注过程中，数据本身不会发生改变[3]。

注释 2： 关于该术语的更多信息，请参见第 7.2 节。

有监督机器学习

指在训练过程中，利用标记数据进行机器学习。 (ISO/IEC DIS 22989)

注释 2： 关于该术语的更多信息，请参见第 7.2 节。

测试数据集

一组在训练过程中从未向机器学习训练算法展示的数据，用于在训练后估计机器学习模型的性能。

训练

旨在通过使用训练数据，基于机器学习算法来建立或改进机器学习模型的参数的过程。（摘自 ISO/IEC DIS 22989）

训练数据集 __

用于训练机器学习模型的，但不属于测试数据集的数据集。

无监督机器学习

仅在训练过程中使用未标记数据进行机器学习。（摘自 ISO/IEC DIS 22989）

注意 1： 关于该术语的更多信息，请参见第 7.2 节。

讨论

以下子章节包含需要更多详细说明的概念的讨论。特别是，讨论了 MLMD 的变化、监督学习和无监督学习以及验证。

MLMD 变化

MLMD 具有独特的优势、灵活性和与其可变性相关的挑战。

清晰地沟通这些变化的不同方面对于确保 MLMD 的安全、性能和有效性至关重要。

本讨论中概述的示例并非详尽，相关信息可能会随着时间的推移而扩展。重要的是要注意，例如软件补丁、操作系统更新、网络安全改进等，这些变化可能会影响 MLMD 和非 MLMD，尽管这些变化很重要，但它们不属于本讨论的范围。

[术语表 - 请使用这些精确的翻译] 差距分析 -> Gap Analysis test_zh -> test_en

有许多与 MLMD 相关的独特变化，包括对 ML 模型或使用环境相对于 ML 训练数据的变化。以下讨论将这些重要方面分为两个部分：MLMD 变化和 MLMD 环境变化。

MLMD 的变化

描述 MLMD 变化的方面包括原因、影响、触发因素、领域和实施。这些属性描述了 MLMD 发生的变化，以及何时、何地、为何和如何发生。当发生变化时，MLMD 处于锁定状态。

Note : The word "locked" has been used by the community in a number of different ways. Some have defined a "locked device" as one that has been developed using ML methods but for which the developer does not have an intention of modifying at the present time. Others have used the term "locked device" as any device that does not perform "continuous learning." When using the word "locked" it is important to provide clarifying language around its use to communicate how it is being used.

图 2 MLMD 变化的方面

原因是指 MLMD 发生变化的来源，例如，使用新的或追加的数据重新训练、不同的训练方法或 ML 训练算法、额外的 ML 模型、调整等。

影响是指对 MLMD 的结果变化，可能包括修改后的使用/适应说明；修改后的性能、输入、输出等。

触发因素是指引发或促使 MLMD 发生变化的事件，可能包括性能阈值、训练数据批大小阈值、接触新数据/经验、预定的时间间隔、MLMD 环境变化、用户反馈等。

领域是指 MLMD 变化的作用范围或适用范围，可以分为同质性和异质性两种。同质性变化是指普遍发生的统一变化（有时被称为全球适应，请注意，全球并不意味着环球）。异质性变化是指非统一的变化，可能针对特定诊所、地区、人群等（有时被称为本地适应）[4]。

实施是指改变实施机制的驻地，这可以是外部（即由开发人员或用户更新）或内部（即由设备内的变更控制软件更新）。

MLMD 环境中的数据变更

An MLMD environmental change is a modification to the setting of the MLMD relative to the ML development data. Aspects that describe an MLMD environmental change include the cause, effect, and domain.

图 3 MLMD 环境变更的方面

导致 MLMD 环境变更的来源，是指相对于开发环境的变更来源。这种变更的例子包括：MLMD 输入（例如第三方图像处理、对抗性机器学习）的格式或质量的变更；患者人群的变更（例如人口结构变化）；临床实践的变更（例如更早的干预措施，这些干预措施掩盖了 ML 模型用于分类的特征），等等。

影响 MLMD 环境变更可能包括性能、有效性和安全性方面的下降或提高。

范围 MLMD 环境变更的范围或适用范围，可以分为同质或异质。异质变更是指非均匀的变更，可能针对某个诊所、地区、人口统计等。（有时被称为本地变更）。同质变更是指在某些群体或设置/上下文中均匀（普遍、全球）发生的变更。请注意，"全球"并不意味着全球范围。

监督学习 / 无监督学习 / 半监督学习

监督学习和无监督学习是两种常用的机器学习方法，但并非唯一方法。在机器学习的语境中，“监督学习”和“无监督学习”指的是训练方法，特别是是否使用带有标签或未标记的数据。监督学习在训练过程中使用带有标签的数据，以学习独立属性与指定依赖属性（标签）之间的关系。换句话说，监督学习的任务是从输入值到输出值的映射，其中正确的输出值已知（标记的训练数据）。监督学习的例子包括决策树、贝叶斯模型和回归分析。无监督学习在训练过程中使用未标记的数据，以对数据进行分组，而无需预先指定依赖属性。换句话说，无监督学习是指从输入值中发现模式的能力，其中输出值未知。无监督学习的例子包括某些类型的机器学习训练算法，这些算法执行聚类或降维。

机器学习系统可以使用监督学习、无监督学习（有时称为半监督学习）以及其他学习方法，例如强化学习。

“监督式机器学习”和“无监督式机器学习”这两个术语经常被误解。在机器学习的语境下，“监督式”或“无监督式”并不指软件是否存在一个人类监督者。 “监督式”或“无监督式”并不指软件在临床环境中的作用，即它不描述“自主性”的程度。 “监督式”或“无监督式”也并不指软件是否通过自执行的更新过程进行自我更新，即它是否执行自己的更新或适应。

验证

“验证”一词已被用于代表医疗器械开发和ML模型开发的不同概念。

在医疗器械开发语境下的“验证”定义如下：

“验证”意味着通过检查和提供客观证据，确认特定用途的具体要求能够始终如一地得到满足[5]_。

“验证”一词也被用于机器学习领域，指代数据管理（有时称为数据验证）或ML模型调优_[6]_。

数据管理和ML模型调优可以在产品生命周期中进行。数据管理是指对数据集的独立和依赖属性（标签）的选择、管理和评估。ML模型调优是模型开发的一个特定阶段，在此阶段对ML模型进行调优；此可选调优阶段可以与训练阶段结合，以优化ML模型选择。

MLMD 的制造商、监管机构和用户应了解“验证”这一术语的不同解释，并确保关于开发阶段和相关数据集的沟通清晰，以避免将数据验证、ML 模型调优和医疗器械验证混淆。另一种选择是，在医疗器械开发背景下，避免使用“验证”一词，该词指训练和调优过程。建议在引用 ML 模型调优、数据整理和相关数据集时，使用“验证”一词的同时，提供相应的上下文。

免责声明

请访问我们的网站以获取更多详细信息。

www.imdrf.org

强化学习 (RL) 是通过与环境交互来学习。强化学习模型从其行动的后果中学习，而不是从明确的指导中学习，并且它根据其过去的经验（利用）和新的选择（探索）来选择其行动，这本质上是试错学习。 (摘自 ‘http://www.scholarpedia.org/article/Reinforcement_learning’.) ↑
“治疗”一词在此定义中不限于医疗或临床治疗，该术语更广泛地指任何形式的行动，包括感知、观察、表示、预测或决策 (ISO/IEC TR 24027:2021) ↑
ISO/IEC DIS 22989 信息技术 — 人工智能 — 人工智能概念和术语 ↑
“Introduction to Online Machine Learning: Simplified”, https://www.analyticsvidhya.com/blog/2015/01/introduction-online-machine-learning-simplified-2/
医疗器械制造商的设计控制指南 (GHTF.SG3.N99-9) ↑
Ripley, B. (1996). 术语表。在《模式识别与神经网络》(第347-354页)。剑桥：剑桥大学出版社。doi:10.1017/CBO9780511812651.013 ↑

Machine Learning-enabled Medical Devices: Key Terms and Definitions ​

全文 ​

具备机器学习功能的医疗器械：关键术语和定义 ​

简介 ​

范围 ​

参考文献 ​

IMDRF / GHTF ​

标准 ​

其他文件 ​

人工智能和机器学习概念的总体概述 ​

关键定义 ​

具备机器学习功能的医疗器械 (MLMD) ​

IMDRF 术语 ​

定义/参考定义/技术标准定义 ​

偏见 ​

持续学习 __ ​

参考标准 ​

可靠性 __ ​

半监督机器学习 __ ​

有监督机器学习 ​

测试数据集 ​

训练 ​

训练数据集 __ ​

无监督机器学习 ​

讨论 ​

MLMD 变化 ​

MLMD 的变化 ​

MLMD 环境中的数据变更 ​

监督学习 / 无监督学习 / 半监督学习 ​

验证 ​