您的位置:首页 >综合精选 >正文

MIT的研究人员在最新突破中建立了可以使用声音模拟世界的人工智能系统

计算机视觉是一个在过去几十年中被大量研究的领域,主要是因为它直接且明显地应用于构建自动驾驶汽车和其他可以像人类一样“看到”世界的工具。然而,直到最近才看到这种水平的研究的一个领域是使用声音而不是视觉来模拟环境。现在,麻省理工学院 (MIT) 的研究人员撰写了一篇关于构建在该领域训练的机器学习 (ML) 模型的研究论文。

麻省理工学院新闻网站上的一篇博文描述了麻省理工学院和 MIT-IBM Watson AI 实验室的研究人员合作建立了一个机器学习模型,该模型使用空间声学来查看和建模环境。简而言之,该模型通过确定听众将如何听到源自某个点并传播到不同位置的声音来实现环境映射。

这种技术有很多好处,因为它允许仅使用声音来确定环境对象的底层 3D 几何形状。然后它可以渲染准确的视觉效果来重建环境。潜在的应用包括虚拟和增强现实,以及增强的人工智能代理,以便他们可以利用声音和视觉来更好地可视化他们的环境。例如,与计算机视觉相比,水下探索机器人可以使用声学更好地确定某些物体的位置。

研究人员强调,基于声音构建这种 ML 模型比基于计算机视觉的模型复杂得多。这是因为计算机视觉模型利用了一种称为光度一致性的属性,这意味着从不同角度观察物体时看起来大致相同。这不适用于声音,因为根据您的位置和其他障碍物,您从来源听到的声音可能会有很大差异。

为了解决这个问题,研究人员使用了另外两个特征,称为互易性和局部几何。前者基本上意味着即使你交换扬声器和听者的位置,声音也会完全一样。同时,局部几何映射涉及结合神经声场 (NAF) 中的互易性来捕获对象和其他建筑组件。

免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!