合成X射线能否解决医学成像数据中的缺口
专门研究罕见疾病的医生只能在工作中获得有限的学习机会。缺乏用于培训学生的多样化医疗保健数据是这些领域的主要挑战。“当你在数据稀缺的环境中工作时,你的表现与经验相关——你看到的图像越多,你就会变得越好,”胸部放射科医生和斯坦福医学与影像人工智能中心 (AIMI) 博士后研究员 Christian Bluethgen 说在过去的七年里,他一直在研究罕见的肺部疾病。
当 Stability AI 在 8 月向公众发布其文本到图像基础模型 Stable Diffusion 时,Bluethgen 有了一个想法:如果您可以将医学的真正需求与通过简单的文本提示轻松创建精美图像相结合,会怎样?如果 Stable Diffusion 可以创建准确描述临床背景的医学图像,它可以缓解训练数据的差距。
Bluethgen 与斯坦福大学计算与数学工程研究所的研究生和 AIMI 的机器学习研究员 Pierre Chambon 合作设计了一项研究,旨在扩展稳定扩散的能力以生成最常见类型的医学图像——胸部 X 光片。
他们共同发现,通过一些额外的训练,通用潜在扩散模型在创建具有可识别异常的人类肺部图像的任务中表现出奇的好。这是一个很有前途的突破,可能会导致更广泛的研究,更好地了解罕见疾病,甚至可能开发新的治疗方案。
从通用到特定领域
到目前为止,在给定特定领域的任务时,以自然图像和语言训练的基础模型表现不佳。医学和金融等专业领域有自己的行话、术语和规则,一般训练数据集中没有考虑到这些。但该团队的研究有一个优势:放射科医生总是准备一份详细的文本报告,描述他们在他们分析的每张图像中的发现。通过将这些训练数据添加到他们的稳定扩散模型中,该团队希望该模型能够在提示相关医学关键词时学会创建合成医学成像数据。
“我们不是第一个训练胸部 X 光模型的人,但以前你必须使用专用数据集来做,并为计算能力付出非常高的代价,”Chambon 解释道。“这些障碍阻碍了很多重要的研究。我们想看看你是否可以引导这种方法并使用现有的开源基础模型,只需进行一些小的调整。”
三步流程
为了测试 Stable Diffusion 的功能,Bluethgen 和 Chambon 检查了模型架构的三个子组件:
变分自动编码器 (VAE),压缩源图像并解压缩生成的图像;
文本编码器,将自然语言提示转化为自动编码器可以理解的向量;
U-Net,作为潜在空间中图像生成过程(称为扩散)的大脑。
研究人员创建了一个数据集来研究图像自动编码器和文本编码器组件。他们从两个大型公共数据集(称为 CheXpert 和 MIMIC-CXR)中的每一个中随机选择了 1,000 张正面射线照片。然后他们添加了五张手动选择的正常胸部 X 光片图像和五张具有清晰可见异常的图像(在这种情况下,组织之间积液,称为胸腔积液)。这些图像与一组简单的文本提示配对,用于测试微调组件的各种方法。最后,他们从 LAION-400M 开放数据集(为模型训练和广泛研究目的设计的大规模、非策划的图像文本对集)中提取了 100 万个通用文本提示的样本。
以下是他们在高层次上询问和发现的内容:
文本编码器:使用来自 Open AI 的连接文本和图像的通用域神经网络 CLIP,当给出特定于放射学领域的文本提示(如“胸腔积液”)时,模型能否生成有意义的结果?答案是肯定的——文本编码器本身为 U-Net 提供了足够的上下文来创建医学上准确的图像。
VAE:在自然图像上训练的稳定扩散自动编码器能否在未压缩后成功呈现医学图像?结果再次是肯定的。“原始图像中的一些注释被打乱了,”Bluethgen 说,“所以它并不完美,但采用第一性原理方法,我们决定将其标记为未来探索的机会。”
U-Net:鉴于其他两个组件的开箱即用功能,U-Net 能否根据提示创建解剖学上正确并代表正确异常集的图像?在这种情况下,Bluethgen 和 Chambon 认为需要进行一些额外的微调。“在第一次尝试时,最初的 U-Net 不知道如何生成医学图像,”Chambon 报告说。“但通过一些额外的培训,我们能够获得一些有用的东西。”
展望未来
在对提示进行实验并使用定量质量指标和定性放射科医生驱动的评估对他们的努力进行基准测试后,学者们发现他们表现最好的模型可以调整为在合成放射学图像上插入逼真的异常,同时保持 95% 的准确度一种深度学习模型,经过训练可以根据异常情况对图像进行分类。
在后续工作中,Chambon 和 Bluethgen 加大了训练力度,使用了数万张胸部 X 光片和相应的报告。由此产生的模型(称为 RoentGen,Roentgen 和 Generator 的合成词)于 11 月 23 日宣布,可以创建具有更高保真度和更多多样性的 CXR 图像,并通过自然语言文本提示。(预印本可在此处获得。)
虽然这项工作建立在以前的研究基础上,但它是第一个研究胸部成像潜在扩散模型的同类研究,也是第一个探索用于生成医学图像的新稳定扩散模型的研究。诚然,当团队反思该方法时,出现了一些局限性:
测量生成图像的临床准确性很困难,因为标准指标无法捕捉图像的有用性,因此研究人员增加了一名训练有素的放射科医生进行定性评估。
他们发现微调模型生成的图像缺乏多样性。这是因为用于调节和训练域的 U-Net 的样本数量相对较少。
最后,用于进一步训练 U-Net 的放射学用例的文本提示是为研究创建的简化词,而不是从实际的放射科医师报告中逐字提取。Bluethgen 和 Chambon 注意到需要根据全部或部分放射学报告调整未来模型。
此外,即使有一天这个模型能完美运行,也不清楚医学研究人员是否可以合法使用它。Stable Diffusion 的开源许可协议目前禁止用户生成用于医疗建议或医疗结果解释的图像。
版权声明:本文由用户上传,如有侵权请联系删除!