您的位置:首页 >综合要闻 >正文

OpenAI推出ChatGPT4现已在BingAI中可用

摘要 OpenAI 发布了其最新的 AI 模型 GPT-4,该模型在各种专业和学术基准测试中均达到了人类水平。之前的版本包括 ChatGPT 和 Whisper A

OpenAI 发布了其最新的 AI 模型 GPT-4,该模型在各种专业和学术基准测试中均达到了人类水平。

之前的版本包括 ChatGPT 和 Whisper API,而 GPT-3.5 在模拟律师考试中得分在后 10%,而 GPT-4 得分在前 10%,这要归功于 6 个月的改进和调整。GPT-4 在真实性、可操纵性和保持在护栏内也取得了很好的结果。

GPT-4 能力

与 GPT-3.5 相比,GPT-4 已被证明更可靠、更具创造性并且能够处理细微的指令。为了验证这一点,该公司测试了各种基准,包括:

GPT-4:更可靠、更有创意并且能够处理细微的指令

测试:各种基准测试,为人类设计的模拟考试 资料

来源:最新的公开测试,2022-2023 年模拟考试

英语表演

该公司一直在内部使用 GPT-4 取得巨大成功,涉及支持、销售、内容审核和编程等职能。

为了初步了解其他语言的能力,他们将 MMLU 基准翻译成多种语言,发现 GPT-4 在测试的 26 种语言中有 24 种语言的性能优于 GPT-3.5 和其他 LLM,包括拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。

这标志着他们对齐策略第二阶段的开始,即使用 GPT-4 来帮助人类评估 AI 输出。

视觉输入

GPT-4 可以接受文本和图像提示,允许用户分配任何视觉或语言任务。它从文本和图像的输入中生成文本输出,并适用于许多领域,例如包含文本和照片的文档、图表和屏幕截图。

此外,它可以使用相同的纯文本语言模型进行少量镜头和思维链提示。图像输入仍处于研究预览阶段,尚未公开。

操纵性

该公司一直致力于他们的 AI 计划,允许开发人员(以及很快的用户)通过系统消息定制体验。这些消息让用户定义边界来控制 AI 的风格和任务。他们知道对边界的遵守并不完美,并且乐于接受反馈。

限制

GPT-4 仍然存在局限性,例如幻觉事实和推理错误,因此即使在高风险的情况下也应谨慎使用。

对抗性真实性:在我们的内部对抗性真实性评估中,GPT-4 的得分比 GPT-3.5 高 40%,并且在区分事实与错误陈述方面明显更好。

偏差:模型可能存在偏差,但已经取得了进展,还需要做更多的工作。

错误: GPT-4 可能会犯简单的推理错误,对最近发生的事件缺乏了解,并且过于容易上当受骗。它也可能在预测中自信地出错,在训练后失去校准。

风险与缓解措施

该公司通过迭代措施、专家参与和模型级干预,正在大踏步确保 GPT-4 的安全。这些在 GPT-3.5 的基础上有所改进,但仍然存在局限性和风险,因此他们也在与外部研究人员合作,以了解 GPT-4 和其他 AI 系统的潜在影响。

迭代:该公司一直在 GPT-4 上进行迭代,通过选择数据、进行安全改进和执行政策,使其从一开始就更安全、更一致。

专家: 50多位来自不同领域的专家参与测试模型,识别潜在风险。

安全奖励信号: GPT-4 在训练期间加入了安全奖励信号,以减少有害输出。

改进:与 GPT-3.5 相比,缓解措施提高了 GPT-4 的安全属性。

局限性:模型级干预增加了引发不良行为的难度,但仍有可能。

影响:该公司正在与外部研究人员合作,以了解和评估潜在影响,并对未来系统的危险能力进行评估。

训练过程

GPT-4 基础模型使用网络规模的数据进行了预训练,其中包括范围广泛的意识形态和想法。为了确保它在预定义的护栏内满足用户意图,我们使用强化学习和人类反馈来微调模型的行为。

可预测的扩展

GPT-4 项目开发了可预测扩展的基础设施和优化。为了证明这一点,他们提前准确地预测了内部代码库的损失,从计算量减少 10,000 倍的模型中推断出来。他们现在正在扩大他们的努力,开发方法来预测更多可解释的指标。

版权声明:本文由用户上传,如有侵权请联系删除!