微软展示了如何将Azure与NVIDIA芯片结合起来制造AI超级计算机

• 2023-03-21 10:45:45

摘要微软正在推动其使用其Azure 云计算程序创建超级计算机的努力，以帮助 OpenAI 开发其ChatGPT 聊天机器人。同时，它还发布了一款新的 AI

微软正在推动其使用其Azure 云计算程序创建超级计算机的努力，以帮助 OpenAI 开发其ChatGPT 聊天机器人。同时，它还发布了一款新的 AI 虚拟机，该虚拟机使用了 NVIDIA 的升级版 GPU。

Microsoft 的新ND H100 v5 VM使用 NVIDIA 的 H100 GPU，这是对之前 A100 GPU 的升级。需要添加 AI 功能的公司可以访问此虚拟机服务，该服务具有以下功能：

8 个 NVIDIA H100 Tensor Core GPU 通过下一代 NVSwitch 和 NVLink 4.0 互连

非阻塞胖树网络中每个 GPU 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand，每个 VM 3.2Tb/s

NVSwitch 和 NVLink 4.0，每个 VM 内的 8 个本地 GPU 之间的对分带宽为 3.6TB/s

第 4 代英特尔至强可扩展处理器

PCIE Gen5 主机到 GPU 互连，每个 GPU 带宽为 64GB/s

16 通道 4800MHz DDR5 DIMM

这是微软先前在 Azure OpenAI 服务中宣布的 ChatGPT 的补充，它允许第三方通过 Azure 访问聊天机器人技术。

在另一篇博文中，微软谈到了该公司如何首先开始与 OpenAI 合作，以帮助创建 ChatGPT 的大型语言模型(以及微软自己的 Bing Chat)所需的超级计算机。这意味着以全新的方式将数千个 GPU 连接在一起。该博客提供了微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 的解释：

她解释说，为了训练一个大型语言模型，计算工作量被分配到一个集群中的数千个 GPU 上。在此计算的某些阶段(称为 allreduce)，GPU 会交换有关它们已完成工作的信息。InfiniBand 网络加速了这一阶段，该阶段必须在 GPU 开始下一个计算块之前完成。

该硬件与软件相结合，有助于优化 NVIDIA GPU 和使它们协同工作的网络的使用。微软表示，它正在继续添加 GPU 并扩展其网络，同时还试图通过冷却系统、备用发电机和不间断电源系统让它们全天候 24/7 工作。

标签：

微软展示了如何将Azure与NVIDIA芯片结合起来制造AI超级计算机

猜你喜欢

最新文章