人工智能的表现与人类乳房X光检查的性能相当
英国研究人员通过标准化评估,将商用人工智能 (AI) 算法与人类筛查乳房 X 光检查的性能进行了比较。他们的研究结果发表在北美放射学会 ( RSNA ) 的期刊《放射学》上。
乳房X光检查并不能检测出所有乳腺癌。假阳性的解释可能会导致未患癌症的女性接受不必要的成像和活检。为了提高筛查乳房 X 光检查的灵敏度和特异性,一种解决方案是让两名解读员解读每张乳房 X 光检查。
研究人员表示,双读可将癌症检出率提高 6% 至 15%,并保持较低的召回率。然而,这种策略是劳动密集型的,并且在读者短缺的情况下很难实现。
英国诺丁汉大学数字筛查教授 Yan Chen 博士表示:“快速部署人工智能来解决这些问题面临很大压力,但我们需要采取正确措施来保护女性健康。” 。
陈教授和她的研究团队使用来自英国国家卫生服务乳腺筛查计划 (NHSBSP) 使用的乳房 X 光检查个人表现(即 PERFORMS)质量保证评估的测试集,将人类阅读器的表现与人工智能进行比较。一项 PERFORMS 测试由 NHSBSP 进行的 60 项具有挑战性的检查组成,其中包括异常、良性和正常结果。对于每个测试乳房 X 光检查,读者的分数都会与人工智能结果的真实情况进行比较。
“从事乳腺癌筛查工作的人类读者表现出令人满意的表现非常重要,”她说。“一旦人工智能进入临床实践,情况也是如此。”
研究团队使用来自两个连续 PERFORMS 测试集或 120 个筛查乳房 X 光检查的数据,以及相同的两组数据来评估 AI 算法的性能。研究人员将人工智能测试分数与 552 名人类读者的分数进行了比较,其中包括 315 名(57%)经过委员会认证的放射科医生和 237 名非放射科医生读者,其中包括 206 名放射技师和 31 名乳腺临床医生。
“我们研究中的 552 名读者占 NHSBSP 读者的 68%,因此这提供了人类读者和人工智能之间的稳健性能比较,”陈教授说。
分别治疗每个乳房,有 161/240 (67%) 正常乳房、70/240 (29%) 患有恶性肿瘤、9/240 (4%) 良性乳房。肿块是最常见的恶性乳房 X 光检查特征(45/70 或 .3%),其次是钙化(9/70 或 12.9%)、不对称(8/70 或 11.4%)和结构扭曲(8/70 或 11.4%) 。恶性病变的平均大小为15.5毫米。
在 120 项检查中,人工智能和人类阅读器在乳腺癌检测方面的表现没有差异。人类阅读器的表现显示出平均 90% 的灵敏度和 76% 的特异性。与人类阅读器相比,人工智能的敏感性 (91%) 和特异性 (77%) 相当。
“这项研究的结果提供了强有力的支持证据,证明人工智能在乳腺癌筛查方面的表现可以与人类阅读器一样好,”陈教授说。
陈教授表示,在人工智能作为临床实践中的第二阅读器之前,还需要进行更多的研究。
“我认为现在准确地说我们最终将如何在乳房筛查中使用人工智能还为时过早,”她说。“正在进行的大型前瞻性临床试验将告诉我们更多信息。但无论我们如何使用人工智能,提供持续性能监控的能力对其成功至关重要。”
陈教授表示,重要的是要认识到人工智能性能可能会随着时间的推移而发生变化,并且算法可能会受到操作环境变化的影响。
版权声明:本文由用户上传,如有侵权请联系删除!