您的位置:首页 >要闻 >正文

微软的Phi 3 vision 小型语言模型为移动设备带来图像分析

摘要 微软正在通过引入 Phi-3-vision 来扩展其 Phi-3 小语言模型系列。与它的兄弟姐妹不同,Phi-3-vision 不仅仅专注于文本 - 它是一个多...

微软正在通过引入 Phi-3-vision 来扩展其 Phi-3 小语言模型系列。与它的兄弟姐妹不同,Phi-3-vision 不仅仅专注于文本 - 它是一个多模态模型,还可以分析和理解图像。

这个拥有 42 亿个参数的模型专为移动设备而设计,擅长处理一般的视觉推理任务。用户可以向 Phi-3-vision 询问有关图像或图表的问题,它会给出有见地的答案。虽然 Phi-3-vision 不是像DALL-E或 Stable Diffusion 这样的图像生成工具,但它擅长图像分析和理解。

Phi-3-vision 紧随 Phi-3-mini 的到来,Phi-3-mini 是 Phi-3 系列中最小的成员,拥有 38 亿个参数。完整的系列现在包括 Phi-3-mini、Phi-3-vision、Phi-3-small(70 亿个参数)和 Phi-3-medium(140 亿个参数)。

这种对较小模型的关注反映了人工智能发展的增长趋势。较小的模型需要较少的处理能力和内存,这使得它们非常适合移动设备和其他资源受限的环境。微软已经看到了这种方法的成功,据报道其 Orca-Math 模型在解决数学问题方面超越了更大的竞争对手。 Phi-3-vision 目前提供预览版,而 Phi-3 系列的其余产品(迷你、小型和中型)可以通过 Azure 的模型库进行访问。

版权声明:本文由用户上传,如有侵权请联系删除!