【AI智能医疗器械创新合作平台成果巡礼】积极构建智能化医疗器械技术测评体系

中国医药报 05版医疗器械专刊

2023年05月25日

测评技术研究工作组

测评技术研究工作组由中国信息通信研究院牵头组建，并作为组长单位组织开展人工智能医疗器械数据质控和产品验证等方面测评工作，研究数据质量要求及产品测评方法。

测评技术研究工作组基于人工智能医疗器械产品的发展现状、技术特性，提出了一套测评体系，包括可落地实施的测评方法，以及全面指标体系和指标计算方式，能够在一定程度上证明产品安全有效性，同时具有以下三点优势。

一是第三方数据库具有样本量丰富、信息量大、多维度等特点，能够更好评估算法的泛化性。

二是人工智能技术具有数据驱动、更新迭代快等特点，在产品发生数据驱动型更新后，可以基于第三方测试数据库验证其算法性能是否发生显著性变化。

三是可支持企业或第三方测评机构明晰网络安全漏洞扫描过程及扫描方法。

□ 赵阳光滕依杉崔日宏

融合人工智能等技术的医疗器械作为新兴产品，具有数据驱动、快速迭代、高流通性等特点，传统的基于软件质量模型的测试方法不能实现对其安全有效性的全面验证，急需建立面向智能化医疗器械的专有技术测评体系，规范技术标准。人工智能医疗器械创新合作平台测评技术研究工作组（以下简称工作组）牵头研究建设了一套包含测试公共服务平台、产品性能标准、网络安全漏洞扫描等在内的安全、权威、可追溯的测评体系，为监管提供依据，推动智能化医疗器械产业持续健康发展。

建立算法测评公共服务平台

工作组建立了人工智能医疗器械算法测评公共服务平台。目前，该平台已与北京协和医院建设的“糖尿病视网膜病变常规眼底彩色照相AI标准数据库”对接，具备针对糖网AI辅助决策产品开展测评工作的能力，支持是否需要转诊、有无糖尿病视网膜病变（DR）、国际分期DR、是否合并其他病变、图像质量等检测需求。平台能够动态接入第三方测试数据库，为不同的医疗AI产品提供测试环境，实现对医疗AI产品算法性能自动化测试并输出测试报告。

该平台采取分布式建库模式，可灵活对接多个测评数据库，通过整合第三方机构资源，充分保障数据库来源的可信性和可靠性。分布式建库将数据库建设工作委托给第三方机构，能够保障测评数据库具有产权清晰、高质量、大规模、多元化、动态更新、扩展灵活、可持续发展等特点。平台对接的“糖尿病视网膜病变常规眼底彩色照相AI标准数据库”，在建库过程中的各阶段参与人员均完成了相应培训并考核合格。该数据库收集了来自全国8个省份共14个地区的真实世界数据，共1.5万张糖尿病患者眼底彩照，涵盖目前市场上主要眼底照相机型；经伦理审查和数据脱敏，数据标注和建库流程均符合平台相关质控要求，已于2020年7月17日作为人工智能医疗器械创新合作平台成果发布。

人工智能医疗器械算法测评公共服务平台与第三方测试数据库间的数据交互、待测产品在平台上的部署，均采用专用加密VPN通道，以保障数据库和待测产品安全性。用于待测产品部署的VPN通道，设置了时效性限制，且遵循“只进不出”原则。整个测试过程在封闭的沙箱环境中完成，沙箱环境实现物理隔离；测试全流程实现自动化和加密化，遵循“无人工干预”原则。

该平台可自动记录每次检测的完整过程及测试数据的元属性，流经检测节点的所有关键数据记录均可查，以保证测试可追溯。

起草产品性能指标和测试方法

工作组组织相关单位共同起草了《基于眼底彩照的糖尿病视网膜病变辅助决策产品性能指标和测试方法》和《基于胸部CT的肺结节影像辅助决策产品性能指标和测试方法》两个技术文稿，目前已在人工智能医疗器械创新合作平台上发布。文稿内容包括范围、规范性引用文件、术语和定义、性能指标和测试方法五部分，用以指导人工智能医疗器械算法测评公共服务平台开展相关产品的性能评测工作。两个文稿均提出，人工智能医疗器械产品的性能指标分为两部分，分别是临床性能指标与其他性能指标。

其中，临床性能指标分不同技术场景制定。全部场景可分为四类，分别是判别分类、目标检测、图像分割与定量计算，不同类型的产品有其中的一类或多类技术场景。例如，糖网辅助诊断类产品的技术场景为判别分类；大多数肺结节辅助诊断类产品的技术场景为目标检测、图像分割与定量计算，部分产品还包括判别分类。

其他性能指标分为三部分，分别是鲁棒性、泛化性与可再现性。

鲁棒性指系统在一定（结构、大小）的参数摄动下维持某些性能的特性。测试方式为：抽取部分测试数据进行随机的基本变换，来进行产品鲁棒性的测试。其中，基本变换包括原图边长5%的裁剪、左右翻转、上下翻转、增加对比度（5%）、减少对比度（5%）、增加亮度（5%）、减少亮度（5%）、增加一定信号幅度的高斯白噪声（5%）。实际测试过程中应至少包括其中三种变换，具体采取何种变换由产品声称选择。进行基本变换的数据应占所有测试样本量的10%。用变换后的测试数据及剩余未变换的数据灌入封闭沙箱，计算得到临床性能指标结果，分析是否有统计学差异。

泛化性指算法对训练集之外的样本类别的预测能力。测试方式为：基于临床性能测试，根据不同维度的数据属性统计测试结果，分别计算不同属性下的临床性能指标，分析是否有统计学差异。例如，统计维度为不同地区，则每一类数据属性为中部地区、北部地区、南部地区等。具体统计维度可包括不同地区、不同采集设备厂商等。

可再现性指在算法测试环境和初始条件相同的情况下，算法对于相同或相似的数据集的不同测试结果之间的一致性。测试方式为：基于上次临床性能测试使用的相同数据集进行第二次测试，所得到的临床性能指标应不劣于上次测试结果。

编制网络漏洞识别与评估方法文件

2022年11月，工作组编制的《医疗器械网络安全漏洞识别与评估方法（征求意见稿）》在人工智能医疗器械创新合作平台向社会征求意见。该文件旨在规范医疗器械网络安全漏洞的评估过程和方法，指导相关单位开展网络安全漏洞检测工作，提升医疗器械网络安全防护能力。

征求意见稿将网络安全漏洞评估分为五个过程：

一是评估范围分析。对于医疗器械网络安全漏洞的评估，不仅针对医疗器械产品本身，还应综合考虑产品实际使用时所处的运行环境，包括产品技术要求中所描述的必备软硬件、运行环境等。

二是确定漏洞扫描策略。在进行网络安全漏洞扫描之前，需要确定产品的结构和组成，根据不同的产品结构特点和组成类型，确定相应扫描检测评估方法。

三是执行漏洞扫描。通过发现目标网络或主机，进一步搜集目标信息，包括操作系统类型、开放的端口、运行的服务、使用的协议类型等。根据搜集到的信息，由漏洞扫描工具向搜寻到的目标发送请求信息，分析返回信息，最终确定是否存在安全漏洞。

四是漏洞扫描检测结果评估。在对医疗器械产品完成扫描检测后，对扫描检测的情况进行描述，记录检测过程中的信息，说明漏洞分布情况，输出漏洞信息。

五是已知剩余漏洞的维护。根据扫描后已知的剩余漏洞及漏洞分布情况，注册申请人针对剩余漏洞的具体信息、漏洞风险等级、漏洞出现的位置、漏洞修复的难易程度、漏洞修复的紧迫性等，综合分析剩余漏洞对产品安全性方面的影响，确定网络安全策略，制定漏洞维护方案。

推动研究成果落地应用

人工智能医疗器械算法测评公共服务平台、医疗器械网络安全漏洞检测方法已支撑多款产品完成训练优化及测试验证工作，为产品上市过程中的安全有效性评价提供有力支撑。

人工智能医疗器械算法测评公共服务平台在应用过程中，根据产品类型与检测需求提交检测任务，测试数据库根据检测任务进行测试数据集准备，将抽取出来的测试数据分为影像数据与金标准数据标签两部分。影像数据与被测产品一同灌入封闭安全的测试环境，运行产品，产品输出预测数据标签，通过与金标准数据标签进行对比，依据指标体系，计算各项性能指标。

对于医疗器械网络安全漏洞检测方法，现阶段，工作组对网络安全的研究工作主要集中在辅助治疗、医学影像处理等人工智能医疗器械软件，以及有源类医疗器械，例如手术机器人、基因测序系统、持续葡萄糖监测系统、病人监护仪等。

以腹腔内窥镜手术系统为例，其结构组成主要包括医生控制台、患者手术平台、三维腹腔内窥镜、影像处理平台等，各个组成部分都是一个独立的功能模块，均含有各自的控制系统，通过网络连接进行协同工作。在产品设计上，医生控制台、三维腹腔内窥镜、影像处理平台多采用通用计算平台，使用Windows或Linux系统；患者手术平台因其对实时性、可靠性、小型化等要求较高，通常采用嵌入式系统，如嵌入式Linux、Vxworks、QNX等。在进行网络安全漏洞扫描时，对于不同的结构单元，使用不同的扫描策略。如上述情形，在对医生控制台、三维腹腔内窥镜、影像处理平台进行扫描时，采用基于网络的扫描方式，将检测工具接入其内部网络中进行扫描，以探测发现操作系统、组件、协议、数据库、网络系统等的漏洞；患者手术平台采用嵌入式系统，对其固件进行静态扫描检测，以逆向工程的方式发现二进制固件中存在的漏洞。

（作者单位：中国信息通信研究院）

\ 05版医疗器械专刊 \
【AI智能医疗器械创新合作平台成果巡礼】积极构建智能化医疗器械技术测评体系
人工智能医疗器械监管概况

分享按钮