AI是否比人类诊断眼部疾病“渗出性年龄相关性黃斑病变”更好？

关键信息

•相较于人类专家，基于AI的检测手段在检出渗出型（或湿性型）eAMD方面，可能具备相当的准确性。

•无论图像数据集中是否包含其他眼部病症，亦或采用何种图像类型，检测效能均无显著差异。

·需要更多研究和一致的报告来定义AI在eAMD诊断中的角色。

什么是年龄相关性黄斑变性？
黃斑是视网膜的中心部分，位于眼睛的后部。随着年龄增长，黄斑中的细胞死亡或受损，使他们难以看清东西。AMD是一种常见眼部疾病，可进展为渗出型（或湿性型）AMD，该病因异常血管增生，导致眼中心视力下降。eAMD的准确诊断很重要，因为它可以让患者接受视网膜专家的治疗。传统诊断eAMD的方法依赖于眼保健专家和多种成像技术，这可能时间和资源的消耗。利用AI的测试有望自动识别eAMD。这可以帮助更多的AMD患者进行眼部检查并得到及时的诊断和治疗。

AI能提供什么帮助？
AI是计算机科学的一个分支，旨在完成传统上需要人类智能的任务。AI应用已被开发来检查眼部图像，并经过训练以筛选那些可能显示出eAMD迹象的图像。病人可以及时被转诊以获得治疗，而眼科专家则能从耗时的眼科检查中解放出来。

我们想知道什么？
我们希望了解AI测试在从眼部图像诊断eAMD方面与人类专家相比有多准确。

我们做了什么？
我们在世界各地检索了将AI测试的诊断性能与人类专家在阅读眼部图像诊断eAMD方面的诊断性能进行比较的研究。这些图像可能来自在社区诊所或学术医疗中心寻求眼部护理的患者，也可能来自图像数据库。将基于AI的阅读结果与在AI测试之前审查图像的人类专家的阅读结果进行比较。

我们发现了什么？
我们纳入了36项研究，涉及超过16,000名人员及62,000张影像，报告了41种不同人工智能测试的结果。超过一半的研究是在亚洲进行的，其次是欧洲、美国和多国合作。研究中平均有33%的人患有eAMD.

对于在训练图像之外的新数据上评估的三项AI测试，当应用于检测10000名患者（包括100名实际患有eAMD的人）中的eAMD时，AI测试将错误地识别出约99人患有eAMD（假阳性），并错过约6例（假阴性）。

对于仅根据训练数据评估的28项AI测试，按照相同情境，这些测试会错误地识别出约396人患有eAMD（假阳性），并错过约7例（假阴性）。

无论是使用训练集还是新数据集的图像进行评估，AI测试的表现都与人类专家相当。eAMD的图像数据集和各种对照组或图像类型的性能相似。

证据的局限性是什么？
大多数纳入的研究在选择、训练或评估人工智能测试上有瑕疵。这些研究瑕疵可能使测试结果看起来比实际更好。因此，我们对测试结果准确性的信心很低。未来研究应该招募年龄和疾病严重程度反应真实世界情况的受试者。

证据的时效性如何？
证据截至2024年4月。

阅读完整摘要

研究背景

年龄相关性黄斑变性(age-related macular degeneration，AMD）是一种以中央视网膜（黄斑）损伤为特征的视网膜疾病。大约10%至20%的非渗出性AMD病例会发展为渗出性，这可能导致中央视力迅速恶化。渗出型年龄相关性黄斑变性（exudative age-related macular degeneration, eAMD）患者需及时就诊于视网膜专科医师，以最大限度降低视力丧失的风险并减小其损伤程度。传统的眼科疾病诊断方法依赖于临床评估和多种成像技术，这可能会耗费大量资源。利用人工智能(artificial intelligence，AI)的测试有望自动识别和分类病理特征，从而及时诊断和治疗eAMD。

研究目的

为了明确AI作为eAMD分流工具的诊断准确性。

检索策略

我们检索了Cochrane对照试验中心注册库（Cochrane Central Register of Controlled Trials, CENTRAL）、MEDLINE、Embase、3个临床试验注册库，以及用于检索灰色文献的数据存档与网络服务中心（Data Archiving and Networked Services, DANS）。我们检索没有限制语言或出版日期。最后一次检索的日期是2024年4月。

纳入排除标准

纳入的研究将算法的测试性能与人类读者的测试性能进行了比较，以检测从在社区或学术医疗中心的眼科诊所接受评估的AMD患者收集的视网膜图像中的eAMD，以及在拍摄图像时未接受eAMD治疗的患者。我们采用了经过内部或外部验证的算法，或者两者兼而有之。

资料收集与分析

两名综述作者独立提取资料，并采用诊断准确性研究质量评价工具2（Quality Assessment of Diagnostic Accuracy Studies-2, QUADAS-2）评估研究质量。对于报告了多组效能结果的研究，我们会根据研究作者指明的最晚开发阶段或最优算法，为每项研究仅提取一组诊断准确性数据。对于二分类算法，在可行的情况下，我们均从2×2列联表中提取数据。对于多分类算法，我们先将除渗eAMD之外的所有类别数据进行合并，再构建相应的2×2列联表。假设纳入的研究采用了一个共同的阳性阈值，我们选择随机效应、双变量逻辑模型来估计总体敏感性和特异性，作为主要性能指标。

主要结果

我们确定了36项符合条件的研究，报告了40组算法性能数据，涵盖超过16,000名受试者和62,000张图像。我们在meta分析中纳入了28项研究（78%），报告了31种具有性能数据的算法。其余9项研究（25%）报告了8种缺乏可用效能数据的算法，我们将其纳入定性综合进行报告。

研究特征和偏倚风险

大多数研究是在亚洲进行的，其次是欧洲、美国以及跨多个国家的共同努力。大多数研究确定了来自医院的研究受试者，而其他研究则使用来自公共存储库的视网膜图像；少数研究没有指定图像来源。根据36项报告人口统计信息的研究中的4项，研究受试者的年龄从62岁到82岁不等。所包含的算法使用各种视网膜图像类型作为模型输入，例如光学相干断层扫描(OCT)图像(N=15)、眼底图像(N=6)和多模态成像(N=7)。使用的主要核心方法是深度神经网络。所有报告了外部验证算法的研究，均存在高偏倚风险，主要原因是双门设计、不当排除符合纳入标准的视网膜图像（或受试者）所引发的潜在选择偏倚。

发现

纳入的40种算法中，仅3种完成了外部验证（7.5%，3/40）。与人工分级员相比，总体敏感性和特异性分别为0.94（95%CI[0.90, 0.97]）和0.99（95%CI[0.76, 1.00]）（3项研究；27,872张图像；低质量证据）。eAMD的患病率从0.3%到49%不等。

据报告，28种算法仅完成内部验证（20%，8/40）或仅在开发集上进行测试（50%，20/40）；与人工阅片者相比，其合并敏感度为0.93（95% CI [0.89,0.96]），合并特异度为0.96（95% CI [0.94,0.98]）（28 项研究，33409 张图像，证据质量低）。在这28种算法中，我们没有发现显著的异质性来源。尽管采用OCT图像的算法异质性更低，且合并特异度最高（0.97，95%CI[0.93,0.98]），但其并不优于仅使用眼底图像的算法（0.94，95%CI[0.89,0.97]）或多模式成像的算法（0.96，95%CI[0.88,0.99]；meta回归P值=0.239）。eAMD的中位患病率为30%（四分位数间距[IQR]22%至39%）。

我们没有在meta分析中纳入描述九种算法的八项研究（一项研究报告了两组算法结果）来区分eAMD与正常图像、其他AMD图像或其他非AMD视网膜病变。其中五种算法通常基于较小的数据集（每个研究范围为21至218名受试者），但eAMD的患病率较高（范围为33%至66%）。相对于人工分级员，这些研究报告的敏感性范围为0.95至0.97，而特异性范围为0.94至0.99。同样，使用小数据集（范围46到106），另外四种用于检测其他视网膜病变中的eAMD的算法显示出高敏感性（范围0.96至 1.00）和特异性（范围0.77至1.00）。

作者结论

低至极低质量证据表明，基于算法的测试可以正确识别大多数患有eAMD的患者，而不会增加初级或专科护理环境中不必要的转诊（假阳性）。由于纳入的研究中eAMD患病率存在差异，因此人们对应用综述结果有着巨大的担忧。此外，在纳入的基于算法的测试中，由于研究受试者未能反映真实世界的特征、模型验证不充分以及选择性结果报告的可能性，诊断准确性估计存在偏倚风险。外部验证算法的质量和数量有限，凸显了对高质量证据的需求。这一证据将需要对不同成像模式的eAMD进行标准化定义，并对算法进行外部验证以评估普遍性。

翻译笔记

译者：彭冬蕊（Cochrane中国协作网成员单位，兰州大学健康数据科学研究院），审校：王紫荆（Cochrane中国协作网成员单位，兰州大学健康数据科学研究院），2026年2月10日。简体中文翻译由Cochrane中国协作网成员单位，北京中医药大学循证医学中心翻译传播工作组负责，联系方式：tina000341@163.com

这篇Cochrane系统综述最初以英文撰写。翻译的准确性由翻译团队负责。翻译过程经过谨慎处理并遵循了标准流程以保证质量。然而，若翻译出现不符、不准确或不当，以英文原文为准。

引用文献

Kang C, Lo J-E, Zhang H, Ng SM, Lin JC, Scott IU, Kalpathy-Cramer J, Liu S-H(, Greenberg PB. Artificial intelligence for diagnosing exudative age-related macular degeneration. Cochrane Database of Systematic Reviews 2024, Issue 10. Art. No.: CD015522. DOI: 10.1002/14651858.CD015522.pub2.