关键信息
•相较于人类专家,基于AI的检测手段在检出渗出型(或湿性型)eAMD方面,可能具备相当的准确性。
•无论图像数据集中是否包含其他眼部病症,亦或采用何种图像类型,检测效能均无显著差异。
·需要更多研究和一致的报告来定义AI在eAMD诊断中的角色。
什么是年龄相关性黄斑变性?
黃斑是视网膜的中心部分,位于眼睛的后部。随着年龄增长,黄斑中的细胞死亡或受损,使他们难以看清东西。AMD是一种常见眼部疾病,可进展为渗出型(或湿性型)AMD,该病因异常血管增生,导致眼中心视力下降。eAMD的准确诊断很重要,因为它可以让患者接受视网膜专家的治疗。传统诊断eAMD的方法依赖于眼保健专家和多种成像技术,这可能时间和资源的消耗。利用AI的测试有望自动识别eAMD。这可以帮助更多的AMD患者进行眼部检查并得到及时的诊断和治疗。
AI能提供什么帮助?
AI是计算机科学的一个分支,旨在完成传统上需要人类智能的任务。AI应用已被开发来检查眼部图像,并经过训练以筛选那些可能显示出eAMD迹象的图像。病人可以及时被转诊以获得治疗,而眼科专家则能从耗时的眼科检查中解放出来。
我们想知道什么?
我们希望了解AI测试在从眼部图像诊断eAMD方面与人类专家相比有多准确。
我们做了什么?
我们在世界各地检索了将AI测试的诊断性能与人类专家在阅读眼部图像诊断eAMD方面的诊断性能进行比较的研究。这些图像可能来自在社区诊所或学术医疗中心寻求眼部护理的患者,也可能来自图像数据库。将基于AI的阅读结果与在AI测试之前审查图像的人类专家的阅读结果进行比较。
我们发现了什么?
我们纳入了36项研究,涉及超过16,000名人员及62,000张影像,报告了41种不同人工智能测试的结果。超过一半的研究是在亚洲进行的,其次是欧洲、美国和多国合作。研究中平均有33%的人患有eAMD.
对于在训练图像之外的新数据上评估的三项AI测试,当应用于检测10000名患者(包括100名实际患有eAMD的人)中的eAMD时,AI测试将错误地识别出约99人患有eAMD(假阳性),并错过约6例(假阴性)。
对于仅根据训练数据评估的28项AI测试,按照相同情境,这些测试会错误地识别出约396人患有eAMD(假阳性),并错过约7例(假阴性)。
无论是使用训练集还是新数据集的图像进行评估,AI测试的表现都与人类专家相当。eAMD的图像数据集和各种对照组或图像类型的性能相似。
证据的局限性是什么?
大多数纳入的研究在选择、训练或评估人工智能测试上有瑕疵。这些研究瑕疵可能使测试结果看起来比实际更好。因此,我们对测试结果准确性的信心很低。未来研究应该招募年龄和疾病严重程度反应真实世界情况的受试者。
证据的时效性如何?
证据截至2024年4月。
阅读完整摘要
年龄相关性黄斑变性(age-related macular degeneration,AMD)是一种以中央视网膜(黄斑)损伤为特征的视网膜疾病。大约10%至20%的非渗出性AMD病例会发展为渗出性,这可能导致中央视力迅速恶化。渗出型年龄相关性黄斑变性(exudative age-related macular degeneration, eAMD)患者需及时就诊于视网膜专科医师,以最大限度降低视力丧失的风险并减小其损伤程度。传统的眼科疾病诊断方法依赖于临床评估和多种成像技术,这可能会耗费大量资源。利用人工智能(artificial intelligence,AI)的测试有望自动识别和分类病理特征,从而及时诊断和治疗eAMD。
研究目的
为了明确AI作为eAMD分流工具的诊断准确性。
检索策略
我们检索了Cochrane对照试验中心注册库(Cochrane Central Register of Controlled Trials, CENTRAL)、MEDLINE、Embase、3个临床试验注册库,以及用于检索灰色文献的数据存档与网络服务中心(Data Archiving and Networked Services, DANS)。我们检索没有限制语言或出版日期。最后一次检索的日期是2024年4月。
纳入排除标准
纳入的研究将算法的测试性能与人类读者的测试性能进行了比较,以检测从在社区或学术医疗中心的眼科诊所接受评估的AMD患者收集的视网膜图像中的eAMD,以及在拍摄图像时未接受eAMD治疗的患者。我们采用了经过内部或外部验证的算法,或者两者兼而有之。
资料收集与分析
两名综述作者独立提取资料,并采用诊断准确性研究质量评价工具2(Quality Assessment of Diagnostic Accuracy Studies-2, QUADAS-2)评估研究质量。对于报告了多组效能结果的研究,我们会根据研究作者指明的最晚开发阶段或最优算法,为每项研究仅提取一组诊断准确性数据。对于二分类算法,在可行的情况下,我们均从2×2列联表中提取数据。对于多分类算法,我们先将除渗eAMD之外的所有类别数据进行合并,再构建相应的2×2列联表。假设纳入的研究采用了一个共同的阳性阈值,我们选择随机效应、双变量逻辑模型来估计总体敏感性和特异性,作为主要性能指标。
主要结果
我们确定了36项符合条件的研究,报告了40组算法性能数据,涵盖超过16,000名受试者和62,000张图像。我们在meta分析中纳入了28项研究(78%),报告了31种具有性能数据的算法。其余9项研究(25%)报告了8种缺乏可用效能数据的算法,我们将其纳入定性综合进行报告。
研究特征和偏倚风险
大多数研究是在亚洲进行的,其次是欧洲、美国以及跨多个国家的共同努力。大多数研究确定了来自医院的研究受试者,而其他研究则使用来自公共存储库的视网膜图像;少数研究没有指定图像来源。根据36项报告人口统计信息的研究中的4项,研究受试者的年龄从62岁到82岁不等。所包含的算法使用各种视网膜图像类型作为模型输入,例如光学相干断层扫描(OCT)图像(N=15)、眼底图像(N=6)和多模态成像(N=7)。使用的主要核心方法是深度神经网络。所有报告了外部验证算法的研究,均存在高偏倚风险,主要原因是双门设计、不当排除符合纳入标准的视网膜图像(或受试者)所引发的潜在选择偏倚。
发现
纳入的40种算法中,仅3种完成了外部验证(7.5%,3/40)。与人工分级员相比,总体敏感性和特异性分别为0.94(95%CI[0.90, 0.97])和0.99(95%CI[0.76, 1.00])(3项研究;27,872张图像;低质量证据)。eAMD的患病率从0.3%到49%不等。
据报告,28种算法仅完成内部验证(20%,8/40)或仅在开发集上进行测试(50%,20/40);与人工阅片者相比,其合并敏感度为0.93(95% CI [0.89,0.96]),合并特异度为0.96(95% CI [0.94,0.98])(28 项研究,33409 张图像,证据质量低)。在这28种算法中,我们没有发现显著的异质性来源。尽管采用OCT图像的算法异质性更低,且合并特异度最高(0.97,95%CI[0.93,0.98]),但其并不优于仅使用眼底图像的算法(0.94,95%CI[0.89,0.97])或多模式成像的算法(0.96,95%CI[0.88,0.99];meta回归P值=0.239)。eAMD的中位患病率为30%(四分位数间距[IQR]22%至39%)。
我们没有在meta分析中纳入描述九种算法的八项研究(一项研究报告了两组算法结果)来区分eAMD与正常图像、其他AMD图像或其他非AMD视网膜病变。其中五种算法通常基于较小的数据集(每个研究范围为21至218名受试者),但eAMD的患病率较高(范围为33%至66%)。相对于人工分级员,这些研究报告的敏感性范围为0.95至0.97,而特异性范围为0.94至0.99。同样,使用小数据集(范围46到106),另外四种用于检测其他视网膜病变中的eAMD的算法显示出高敏感性(范围0.96至 1.00)和特异性(范围0.77至1.00)。
作者结论
低至极低质量证据表明,基于算法的测试可以正确识别大多数患有eAMD的患者,而不会增加初级或专科护理环境中不必要的转诊(假阳性)。由于纳入的研究中eAMD患病率存在差异,因此人们对应用综述结果有着巨大的担忧。此外,在纳入的基于算法的测试中,由于研究受试者未能反映真实世界的特征、模型验证不充分以及选择性结果报告的可能性,诊断准确性估计存在偏倚风险。外部验证算法的质量和数量有限,凸显了对高质量证据的需求。这一证据将需要对不同成像模式的eAMD进行标准化定义,并对算法进行外部验证以评估普遍性。
译者:彭冬蕊(Cochrane中国协作网成员单位,兰州大学健康数据科学研究院),审校:王紫荆(Cochrane中国协作网成员单位,兰州大学健康数据科学研究院),2026年2月10日。简体中文翻译由Cochrane中国协作网成员单位,北京中医药大学循证医学中心翻译传播工作组负责,联系方式:tina000341@163.com
这篇Cochrane系统综述最初以英文撰写。翻译的准确性由翻译团队负责。翻译过程经过谨慎处理并遵循了标准流程以保证质量。然而,若翻译出现不符、不准确或不当,以英文原文为准。