机器人新AI算法的表现始终优于最先进的系统

西北大学工程师开发了一种专为智能机器人设计的新型人工智能(AI) 算法。通过帮助机器人快速可靠地学习复杂技能，新方法可以显著提高机器人在一系列应用中的实用性和安全性，包括自动驾驶汽车、送货无人机、家庭助理和自动化。

该算法被称为最大扩散强化学习 (MaxDiff RL)，其成功之处在于它能够鼓励机器人尽可能随机地探索其环境，以获得多样化的体验。这种“设计随机性”提高了机器人收集的有关其自身周围环境的数据质量。而且，通过使用更高质量的数据，模拟机器人表现出更快、更高效的学习能力，从而提高了其整体可靠性和性能。

在与其他 AI 平台进行测试时，使用西北大学新算法的模拟机器人始终优于最先进的模型。事实上，新算法的效果非常好，机器人可以学习新任务，然后在一次尝试中成功完成任务——第一次就成功了。这与当前的 AI 模型形成了鲜明对比，当前的 AI 模型通过反复试验来实现较慢的学习。

该研究将于周四(5 月 2 日)发表在《自然机器智能》杂志上。

“其他人工智能框架可能有点不可靠，”领导这项研究的西北大学的托马斯·贝鲁埃塔 (Thomas Berrueta)说。“有时它们会完全完成一项任务，但有时它们会完全失败。在我们的框架下，只要机器人能够解决任务，每次打开机器人时，你都可以期待它完全按照要求去做。这使得解释机器人成功和失败变得更容易，这在一个越来越依赖人工智能的世界里至关重要。”

Berrueta 是西北大学的校长研究员，也是麦考密克工程学院机械工程专业的博士候选人。机器人专家 Todd Murphey是麦考密克大学机械工程教授，也是 Berrueta 的导师，也是这篇论文的资深作者。Berrueta 和 Murphey与 Murphey 实验室的博士候选人Allison Pinosky共同撰写了这篇论文。

无形的脱节

为了训练机器学习算法，研究人员和开发人员使用大量大数据，这些数据由人类仔细筛选和整理。人工智能从这些训练数据中学习，通过反复试验直到达到最佳结果。虽然这个过程对于 ChatGPT 和 Google Gemini(前身为 Bard)等非实体系统很有效，但它并不适用于机器人等实体人工智能系统。相反，机器人会自行收集数据——无需人类管理员的帮助。

“传统算法在两个方面与机器人技术不兼容，”Murphey 说。“首先，无实体系统可以利用物理定律不适用的世界。其次，个别故障不会产生任何后果。对于计算机科学应用来说，唯一重要的是它大多数时候都能成功。而在机器人技术中，一次故障可能会带来灾难性的后果。”

为了解决这一问题，Berrueta、Murphey 和 Pinosky 致力于开发一种新算法，确保机器人在移动过程中收集高质量数据。MaxDiff RL 的核心是命令机器人更随机地移动，以收集有关其环境的全面、多样化数据。通过自我策划的随机体验进行学习，机器人可以获得完成有用任务所需的技能。

第一次就做对

为了测试新算法，研究人员将其与当前最先进的模型进行了比较。研究人员使用计算机模拟，要求模拟机器人执行一系列标准任务。总体而言，使用 MaxDiff RL 的机器人比其他模型学习得更快。它们还比其他机器人更一致、更可靠地正确执行任务。

也许更令人印象深刻的是：使用 MaxDiff RL 方法的机器人通常能够在一次尝试中成功正确执行任务。即使它们在没有任何知识的情况下也能如此。

“我们的机器人速度更快、更灵活——能够有效地概括它们所学到的知识并将其应用于新情况，”Berrueta 说。“对于机器人无法承受无休止的反复试验时间的现实世界应用来说，这是一个巨大的好处。”

由于 MaxDiff RL 是一种通用算法，因此可用于多种应用。研究人员希望它能解决阻碍该领域发展的基础问题，最终为智能机器人的可靠决策铺平道路。

“这不一定只用于四处移动的机器人车辆，”皮诺斯基说。“它也可以用于固定机器人——比如厨房里学习如何装载洗碗机的机械臂。随着任务和物理环境变得越来越复杂，在学习过程中，具体化的作用变得更加重要。这是迈向执行更复杂、更有趣任务的真实系统的重要一步。”

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

机器人新AI算法的表现始终优于最先进的系统

猜你喜欢

最新文章