不同AI脑卒中软件的差异会影响血栓切除术资格吗？

2024-05-20 11:05 点击：

　　脑卒中是引起人类死亡的第二位原因。随着脑卒中中心的建设，伴随着CT一站式脑卒中评估应用的普及，人工智能（AI）软件自动评估应用也越来越广泛。如果咱们医院足够有钱，可能会同时存在几个不同的评估软件，而通常不同的软件可能得出的梗死体积和半暗带结果都不相同。那么这时候，应该以谁为准呢？近日，佛罗里达大学的学者在Journal of Stroke Cerebrovascular Diseases发表了一篇文章，评估了两种人工智能软件在CTP评估中产生的体积估计值对患者血栓切除术资格的影响。

　　在这项包含362例脑卒中病例的研究中，作者比较了Viz.ai和RAPID.AI公司的人工智能脑卒中检测软件估计的梗死核心和半影体积，并评估了DEFUSE-3血栓切除术的资格。虽然软件应用程序之间的估计值存在系统性差异，但DEFUSE-3血栓切除术的合格性没有统计学差异。不过，他们确实在一家机构的一台扫描仪上发现了一个资格差异，这表明扫描仪型号和CTP扫描协议会影响性能，导致血栓切除资格的差异。因此，作者建议各中心与软件供应商和扫描仪制造商应讨论最佳扫描方案，以最大限度地提高CTP的准确性。

　　研究在四家不同制造商的 10 台扫描仪上进行：四台 Aquilion One扫描仪（佳能医疗）、三台Discovery扫描仪（GE医疗）、一台Revolution扫描仪（GE医疗）、一台Ingenuity扫描仪（飞利浦医疗）和一台SOMATOM Definition Flash扫描仪（西门子医疗）。每台扫描仪采用的扫描技术略有不同，以优化性能和辐射剂量，从而导致图像质量和时间分辨率略有不同。

　　佳能Aquilion ONE扫描仪有320排探测器，采用动态容积扫描技术。该技术利用增加的探测器排数来扩大脑部覆盖范围。每次检查包括15次扫描、每次1.95 s，80 kV、300 mA，准直320x0.5 mm，DFOV 24 cm，造影剂量40 ml（5 ml/s）。其中一台扫描仪将数据重建为5 mm层厚用于Viz.ai，10 mm层厚用于RAPID.AI处理（根据软件供应商的建议）。其他三台扫描仪的两个软件包都使用了5 mm厚的重建。总采集时间为49.75 s。

　　GE Discovery有64排探测器，使用穿梭扫描技术。该技术在两个颅脑层面之间移动检查床，在不需要更多辐射的情况下增加脑部覆盖范围，但会降低时间分辨率。每次检查包括17次扫描，每次2.6 s，80 kV、150 mA，准直64x0.625 mm，DFOV 25 cm，造影剂量40 ml（5 ml/s），重建层厚为 5 mm，扫描持续时间45 s。

　　西门子SOMATOM Definition Flash是一种双源CT扫描仪，利用包括检查床移动在内的自适应4D螺旋方法加速采集范围。该技术利用两个128排探测器，以更少的辐射增加大脑覆盖范围，同时不损失时间分辨率。每次检查包括36次扫描，每次1.5 s，80kV、200 mA，准直2x32x1.2 mm，DFOV 20 cm，造影剂量40 ml（5 ml/s），Viz.ai重新采样为5 mm，RAPID.AI重新采样为8 mm。扫描持续时间为67.9 s。

　　飞利浦Ingenuity有64排探测器，使用jog技术。该技术通过前后移动检查床来增加覆盖的扫描范围，类似于穿梭扫描技术。每次检查包括15次扫描，每次3.8 s， 80 kV、400 mA，准直128x0.625 mm，DFOV 16 cm，造影剂量40 ml（5 ml/s），重建层厚5 mm，扫描持续时间57 s。

　　在A中心，RAPID.AI于2018-2021年用于处理6-24小时窗口期内CTA诊断为LVO患者的CTP图像。为了本研究的目的，使用Viz.ai对原始成像数据进行了回顾性再处理。其余三个中心同时使用Viz.ai和RAPID.AI处理CTP数据。

　　中心B使用CTP对所有卒中患者进行常规扫描；筛选了2021年1月至2022年7月的数据。

　　C中心在NIHSS ≥ 4或CTA证实为LVO的急性卒中患者中使用CTP；筛选了2022年 12月至2023年3月的数据。

　　D中心在 NIHSS ≥ 5或CTA证实为LVO的急性卒中患者中使用CTP；筛选2022年1月至2022年3月的数据。

　　RAPID.AI和Viz.ai在分析CTP数据时，使用CBF 30 %和Tmax 6 s分别对应梗死核心区和半影区，同时报告错配率，反映了半影与梗死核心的比率。根据DEFUSE-3标准，使用血容量估计值和错配率来确定和报告血栓切除术的资格。用于估算CBF和Tmax的动脉输入功能 (AIF) 和静脉流出功能 (VOF) 输入参数由相应的处理软件包自动选择。

　　之后作者对软件包之间的结果进行了比较，并按美国国立卫生研究院卒中量表（NIHSS）评分、扫描仪制造商/型号和机构进行了分类。

　　研究发现，Viz.ai软件的梗死核心容积和 Viz.ai半影容积都明显高于RAPID.AI软件。且这些差异主要是由两个不同机构的佳能Aquilion One扫描仪造成。

　　例如，Viz.ai软件提供的估计值更大，梗死核心区和半影区的平均差异分别为 8 ml 和 18 ml（p 0.001）。一项NIHSS亚组分析也显示，Viz.ai的体积明显更大（p 0.001）。

　　RAPID.AI和 Viz.ai对核心和半影体积的相关性（左列）和布兰-阿特曼（右列）分析。核心体积（A）与半影体积（B）高度一致。Bland-Altman图中的虚线表示Viz.AI-RAPID.AI体积的平均差异，实线%的方法差异所在的一致区间。

　　尽管Viz.ai和RAPID.AI在梗死核心和半影容积估计方面存在系统性差异，但在主要或NIHSS亚组分析中，DEFUSE-3资格并无统计学差异。

　　按机构和扫描仪制造商/型号分层的结果不尽相同。在佳能亚组中，Viz.ai的血流量系统性地大于RAPID.AI，但血栓切除术资格方面同样没有显著差异。鉴于佳能数据所占比例过大，Viz.ai和RAPID.AI在主要分析中出现的容量差异几乎可以肯定是由佳能数据造成的。虽然中心B的飞利浦扫描仪采集的数据确实显示Viz.ai和RAPID.AI的半影有显著差异，但差异方向相反，即RAPID.AI的半影体积更大（平均差异为17 ml）。

　　只有D中心佳能扫描仪的数据显示DEFUSE-3的合格率存在显著差异（Viz.ai为53%，RAPID.AI为46%，p0.03），特别是考虑到一半以上的病例来自该中心（204/362），这一结果意义重大。

　　Viz.ai和RAPID.AI在数量和资格参数上的差异可归因于多种因素。例如，每个中心使用不同的CTP方案，包括可变层厚、辐射剂量、扫描持续时间、CTP适应症和CT灌注技术（jog、穿梭、动态等）等因素。中心A的佳能Aquilion One扫描仪向Viz.ai发送5 mm数据，向RAPID.AI发送 10 mm数据（基于软件供应商的建议），而中心D的佳能Aquilion One扫描仪（采用类似的扫描协议）向两个软件平台都发送5 mm数据。层厚的改变会改变图像特征，如平滑度和信噪比，这两者都会影响容积估计。例如，使用较薄的层厚会导致更高的空间分辨率，但信噪比较低，从而可能导致梗死核心/半影体积估计不足。

　　由于每个软件都使用不同的数据集进行训练，因此理论上，缺乏扫描仪和/或方案多样性的训练数据集可能会产生偏差。例如，这可以解释为什么RAPID.AI在飞利浦上的容积较大，而Viz.ai在佳能上的容积较大。

　　Viz.ai和RAPID.AI在处理CTP数据（包括 AIF/VOF 选择和运动校正）时使用了根本不同的算法，但由于其专有性质，向最终用户提供的信息很少。AIF/VOF选择的不同肯定会改变容积估计值，这与CTP算法无关。从CTP数据中估算灌注参数有多种方法（例如卷积法、去卷积法和机器学习法），这些方法也可能导致略有不同的容积估算。如前所述，层厚的选择直接影响输入数据，每种软件都可能针对特定的切片厚度进行优化，例如平衡空间分辨率和信噪比。

　　对上述差异的实际解释是，每种软件都针对一套特定的扫描协议进行了设计和优化，这些协议可能因扫描仪型号和CTP适应症的不同而略有差异。偏离推荐的参数集可能会导致容量估算不够准确。因此，使用 CTP 的中心应定期与CTP软件供应商和扫描仪制造商讨论最佳扫描协议参数，以最大限度地提高核心和半影容积估算的准确性。

　　本研究也有一些局限性。虽然研究涵盖了大量患者，但研究的主要分析受到了来自佳能Aquilion One扫描仪的大量病例的影响（246/362例），其中204例来自D中心，42例来自A中心。值得注意的是，D中心是所有四个中心中唯一一个在Viz.ai和RAPID.AI之间显示出显著DEFUSE-3合格性差异的中心。尽管A中心观察到的梗死核心和半影体积差异与D中心相似，但其DEFUSE-3合格率却完全相同（两个软件包的合格率均为 64%）。这表明，在D中心观察到的DEFUSE-3合格性差异可能源于其样本量更大、检测能力更强以及其他因素（如A中心和D中心的筛查方法不同）。相反，在其他中心发现此类差异的能力可能受到样本量较小、检测能力较低的限制。一项规模更大、范围更广、每个扫描模型包含更多受试者的研究可能会发现本初步分析中不明显的差异。

　　作者没有为单个病例手动选择AIF或VOF，而是让Viz.ai和RAPID.AI自动选择，因为这是实际操作中使用的方法。由于这两个软件平台在选择AIF和VOF时使用了不同的方法，这很可能会导致观察到的容量差异。

　　虽然研究专注于识别Viz.ai和RAPID.AI之间的体积差异，但作者无法获得标准参考值，因此无法确定哪个平台提供的估计值更准确。在未来的研究中，纳入此类参考值（例如通过同时进行的核磁共振成像）对于更全面地了解两种平台的准确性和可靠性非常有价值。

　　值得注意的是，DEFUSE-3的合格性并不是决定患者是否接受血栓切除术的唯一因素，因此，DEFUSE-3合格性的差异并不一定意味着错过了血栓切除术的机会。最终，血栓切除术治疗的决定是多因素、个性化和跨学科的，基于DEFUSE-3容量标准之外的其他变量，如基线功能状态、治疗目标和其他风险与收益的讨论。虽然作者关注的重点是DEFUSE-3标准（因为参与中心在决定是否进行血栓切除术时使用了这些标准），但作者也承认，如果使用DAWN标准来决定是否符合条件，研究结果可能会有所不同。

　　研究结果凸显了使用CTP确定血栓切除术资格所面临的固有挑战和不确定性。在D中心，如果使用RAPID.AI而不是Viz.AI，将改变14名患者的血栓切除策略，这将产生重大影响。此外，最近的研究表明，DAWN和DEFUSE-3的资格标准可能限制性过强，尤其是在最大核心梗死面积方面。使用CT平扫的ASPECTS评分和/或CTA的侧支状态选择患者的可比结果表明，在某些情况下，CTP的替代方法可能同样有效，甚至更为可取。虽然RAPID.AI和 Viz.ai是使用最广泛的两个软件包，但syngo.via和Olea等新兴软件也越来越受欢迎，可能会带来进一步的变化。尽管CTP仍是指南推荐的标准，但越来越多的证据对这一观点提出了挑战，并可能促使人们在未来重新评估其在确定血栓切除术资格方面的作用。

　　这项多中心回顾性研究表明，Viz.ai和RAPID.AI估算的梗死核心和半影容积之间存在显著差异，这种差异由单一扫描仪模型驱动，并且在对NIHSS进行分层后仍然存在。尽管体积估计值存在这些差异，但在血栓切除术资格方面没有发现显著差异，这一点令人欣慰。不过，按机构和扫描仪型号对数据进行分层后进行的亚组分析显示，特定机构和扫描仪型号的扫描结果在血栓切除资格方面存在统计学意义上的显著差异。研究表明，CTP软件的性能会受到扫描仪型号/制造商和CTP协议等参数的影响。这些结果支持一项建议，即各中心应与卒中AI软件供应商和扫描仪制造商讨论最佳CTP参数设置，以调整参数达到最高准确性。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。