OpenAI推出ChatGPT4现已在BingAI中可用

OpenAI 发布了其最新的 AI 模型 GPT-4，该模型在各种专业和学术基准测试中均达到了人类水平。

之前的版本包括 ChatGPT 和 Whisper API，而 GPT-3.5 在模拟律师考试中得分在后 10%，而 GPT-4 得分在前 10%，这要归功于 6 个月的改进和调整。GPT-4 在真实性、可操纵性和保持在护栏内也取得了很好的结果。

GPT-4 能力

与 GPT-3.5 相比，GPT-4 已被证明更可靠、更具创造性并且能够处理细微的指令。为了验证这一点，该公司测试了各种基准，包括：

GPT-4：更可靠、更有创意并且能够处理细微的指令

测试：各种基准测试，为人类设计的模拟考试资料

来源：最新的公开测试，2022-2023 年模拟考试

英语表演

该公司一直在内部使用 GPT-4 取得巨大成功，涉及支持、销售、内容审核和编程等职能。

为了初步了解其他语言的能力，他们将 MMLU 基准翻译成多种语言，发现 GPT-4 在测试的 26 种语言中有 24 种语言的性能优于 GPT-3.5 和其他 LLM，包括拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。

这标志着他们对齐策略第二阶段的开始，即使用 GPT-4 来帮助人类评估 AI 输出。

视觉输入

GPT-4 可以接受文本和图像提示，允许用户分配任何视觉或语言任务。它从文本和图像的输入中生成文本输出，并适用于许多领域，例如包含文本和照片的文档、图表和屏幕截图。

此外，它可以使用相同的纯文本语言模型进行少量镜头和思维链提示。图像输入仍处于研究预览阶段，尚未公开。

操纵性

该公司一直致力于他们的 AI 计划，允许开发人员(以及很快的用户)通过系统消息定制体验。这些消息让用户定义边界来控制 AI 的风格和任务。他们知道对边界的遵守并不完美，并且乐于接受反馈。

限制

GPT-4 仍然存在局限性，例如幻觉事实和推理错误，因此即使在高风险的情况下也应谨慎使用。

对抗性真实性：在我们的内部对抗性真实性评估中，GPT-4 的得分比 GPT-3.5 高 40%，并且在区分事实与错误陈述方面明显更好。

偏差：模型可能存在偏差，但已经取得了进展，还需要做更多的工作。

错误： GPT-4 可能会犯简单的推理错误，对最近发生的事件缺乏了解，并且过于容易上当受骗。它也可能在预测中自信地出错，在训练后失去校准。

风险与缓解措施

该公司通过迭代措施、专家参与和模型级干预，正在大踏步确保 GPT-4 的安全。这些在 GPT-3.5 的基础上有所改进，但仍然存在局限性和风险，因此他们也在与外部研究人员合作，以了解 GPT-4 和其他 AI 系统的潜在影响。

迭代：该公司一直在 GPT-4 上进行迭代，通过选择数据、进行安全改进和执行政策，使其从一开始就更安全、更一致。

专家： 50多位来自不同领域的专家参与测试模型，识别潜在风险。

安全奖励信号： GPT-4 在训练期间加入了安全奖励信号，以减少有害输出。

改进：与 GPT-3.5 相比，缓解措施提高了 GPT-4 的安全属性。

局限性：模型级干预增加了引发不良行为的难度，但仍有可能。

影响：该公司正在与外部研究人员合作，以了解和评估潜在影响，并对未来系统的危险能力进行评估。

训练过程

GPT-4 基础模型使用网络规模的数据进行了预训练，其中包括范围广泛的意识形态和想法。为了确保它在预定义的护栏内满足用户意图，我们使用强化学习和人类反馈来微调模型的行为。

可预测的扩展

GPT-4 项目开发了可预测扩展的基础设施和优化。为了证明这一点，他们提前准确地预测了内部代码库的损失，从计算量减少 10,000 倍的模型中推断出来。他们现在正在扩大他们的努力，开发方法来预测更多可解释的指标。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：