AI模型加速高分辨率计算机视觉
自动驾驶车辆必须快速、准确地识别遇到的物体,从停在街角的空转送货卡车到驶向即将到来的十字路口的骑自行车者。
为此,车辆可能会使用强大的计算机视觉模型来对该场景的高分辨率图像中的每个像素进行分类,这样它就不会忽视低质量图像中可能被遮挡的物体。但这项称为语义分割的任务很复杂,并且当图像具有高分辨率时需要大量计算。
来自 MIT、MIT-IBM Watson AI 实验室和其他地方的研究人员开发了一种更高效的计算机视觉模型,可以大大降低该任务的计算复杂性。他们的模型可以在硬件资源有限的设备上实时准确地执行语义分割,例如使自动驾驶车辆能够做出瞬间决策的车载计算机。
最近最先进的语义分割模型直接学习图像中每对像素之间的相互作用,因此随着图像分辨率的增加,它们的计算量呈二次方增长。因此,虽然这些模型很准确,但它们速度太慢,无法在传感器或手机等边缘设备上实时处理高分辨率图像。
麻省理工学院的研究人员为语义分割模型设计了一个新的构建块,它实现了与这些最先进模型相同的能力,但仅具有线性计算复杂性和硬件高效操作。
结果是一个用于高分辨率计算机视觉的新模型系列,当部署在移动设备上时,其执行速度比以前的模型快九倍。重要的是,这个新模型系列表现出与这些替代品相同或更好的精度。
这项技术不仅可以用来帮助自动驾驶汽车实时做出决策,还可以提高其他高分辨率计算机视觉任务的效率,例如医学图像分割。
“虽然研究人员长期以来一直在使用传统的视觉转换器,并且取得了令人惊叹的结果,但我们希望人们也关注这些模型的效率方面。我们的工作表明,可以大幅减少计算量,因此这种实时图像分割可以在设备本地进行。”电气工程与计算机科学系 (EECS) 副教授、 MIT-IBM Watson AI 实验室的成员,也是描述新模型的论文的高级作者。
这篇 论文的 主要作者是 EECS 研究生 Han Cai。李俊彦,浙江大学本科生;胡慕彦,清华大学本科生;甘创 (Chang Gan),麻省理工学院-IBM 沃森人工智能实验室的主要研究人员。该研究将在国际计算机视觉会议上公布。
简化的解决方案
对于机器学习模型来说,对可能具有数百万像素的高分辨率图像中的每个像素进行分类是一项艰巨的任务。一种强大的新型模型,称为视觉变换器,最近得到了有效的使用。
Tranormer 最初是为自然语言处理而开发的。在这种情况下,他们将句子中的每个单词编码为标记,然后生成注意图,该图捕获每个标记与所有其他标记的关系。该注意力图有助于模型在做出预测时理解上下文。
使用相同的概念,视觉转换器将图像切成像素块,并将每个小块编码为令牌,然后生成注意图。在生成此注意力图时,模型使用相似性函数来直接学习每对像素之间的交互。通过这种方式,该模型开发了所谓的全局感受野,这意味着它可以访问图像的所有相关部分。
由于高分辨率图像可能包含数百万个像素,分成数千个块,因此注意力图很快就会变得巨大。因此,随着图像分辨率的增加,计算量呈二次方增长。
版权声明:本文由用户上传,如有侵权请联系删除!