返回列表 发布新帖
查看: 182|回复: 1

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

<
灌水成绩
596
15
15
主题
帖子
回贴

等级头衔
UID : 1
组图 :
用户组 :
星级 :

积分成就 威望 : 3 个
贡献 : 57 点
星源币 : 12653 元
违规 : 0
在线时间 : 219 小时
注册时间 : 2025-2-17
最后登录 : 2025-4-28

荣誉勋章

最佳新人活跃会员热心会员推广达人宣传达人灌水之王优秀版主荣誉管理精华达人金牌管理创始人男员勋章歌唱达人音乐达人交友达人

联系方式

QQ

发表于 2025-4-15 21:13:22 | 查看全部 |阅读模式 来自 中国–福建–福州 电信

GPT-4.1 来了。

北京时间4 月 15 号凌晨,OpenAI 直播发布了名为 GPT-4.1 的多模态系列模型。

它有三个版本:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。其中 mini 和 nano 的效率更高、速度更快、成本更低,但牺牲了准确性。
OpenAI 表示,“它们编码和指令遵循方面取得了重大进展。完整的GPT-4.1 模型在几乎所有维度上均优于 GPT-4o 系列模型。”

仅从基准测试成绩来看,GPT-4.1 的纸面性能虽然比自家前辈有所提升,但如果跟谷歌、Anthropic 等竞争对手的旗舰模型相比,还是有一定的差距。

看来想要完全超越竞争对手,OpenAI 只能尽快拿出 o3 完全体了。
值得注意的是,GPT-4.1 系列模型目前只能通过 OpenAI 的 API 获取,无法在 ChatGPT 上使用。

与此同时OpenAI 还宣布,将很快停止通过 API 提供其有史以来最大的 AI 模型 GPT-4.5。该模型是今年 2 月刚刚发布的,其运行成本十分昂贵,API 定价也高达每百万输入 75 美元,每百万输出 150 美元。

今年7 月 14 日之后,API 开发者必须将 GPT-4.5 服务转移到 OpenAI 的其他模型,首选替代方案是 GPT-4.1。这暂时不会影响通过 ChatGPT 使用 GPT-4.5。

GPT-4.1 系列模型的上下文窗口提高到了 100 万 token(包含文本、图像或视频的组合),这意味着它们可以一次性输入大约 75 万个单词。此前的 GPT-4o 最多支持 12.8 万 token。

但OpenAI 也承认,GPT-4.1 处理的输入 token 越多,可靠性就越低,更容易出错。

在该公司自己的测试OpenAI-MRCR 中,随着 token 的数量从 8000 增长到 100 万,模型的准确率从 84% 左右下降到了不足 50%。该公司表示,GPT-4.1 也比 GPT-4o 更“直接”,有时需要更具体、更明确的提示。
定价方面,GPT-4.1 每百万输入 token 成本为 2 美元,每百万输出 token 成本为 8 美元。GPT-4.1 mini 每百万输入 token 成本为 0.4 美元,每百万输出 token 成本为 1.6 美元;GPT-4.1 nano 每百万输入 token 成本为 0.1 美元,每百万输出 token 成本为 0.4 美元。

综合来看,GPT-4.1 的成本比 GPT-4o 低 26%。同时,OpenAI 还将新模型的即时缓存折扣输入提高到了 75%(之前为 50%)。

性能方面,GPT-4.1 可以一次性生成比 GPT-4o 更多的 token(最多 32768 个 token),在最受程序员关心的 SWE-bench Verified 上的得分在 52% 到 54.6% 之间。这个成绩低于谷歌 Gemini 2.5 Pro 的 63.8% 和 Anthropic Claude 3.7 Sonnet 的 62.3%。

对于需要编辑大型文件的API 开发者来说,GPT-4.1 在跨多种格式的代码差异分析方面更加可靠。在 Aider 的多语言差异基准测试中,GPT-4.1 的得分是 GPT-4o 的两倍多,甚至比 GPT-4.5 还高出 8%。

“我们专门训练了GPT-4.1,使其能够更可靠地遵循差异格式,这使得开发人员只需让模型输出更改的行,而无需重写整个文件,从而节省成本和延迟。”OpenAI 写道。
这一点在指令遵循上也有所体现。

OpenAI 在博客中介绍称,GPT-4.1 能更可靠地遵循指令,并且“已经在各种指令遵循评估中测量到了显著的改进”。

OpenAI 开发了一个内部教学跟踪评估系统,以跟踪模型在多个维度和几个关键教学跟踪类别中的表现,包括格式遵循、避免负面指示、有序遵循指令、遵守内容要求、排序和过度自信。

这些类别是根据开发人员的反馈得出的,这些反馈是关于哪些指令遵循方面对他们来说最相关且最重要。在每个类别中,OpenAI 将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。
多轮指令遵循对许多开发者来说至关重要。对于模型而言,在对话中保持连贯性并跟踪用户之前输入的内容至关重要。

“我们已经训练了GPT-4.1,使其能够更好地从对话中的过往消息中识别信息,从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有效指标,GPT-4.1 的表现比 GPT-4o 提高了 10.5%。”OpenAI 表示。

GPT-4.1 在前端编码方面也比 GPT-4o 有了显著提升,能够创建功能更强大、更美观的 Web 应用。在 OpenAI 的评估中,相比 GPT-4o,测试人员更喜欢 GPT-4.1 创建的网站。

在另一项评估中,OpenAI 使用 Video-MME 测试了 GPT-4.1,该模型旨在衡量模型“理解”视频内容的能力。

OpenAI 声称,GPT-4.1 在“长篇无字幕”视频类别中达到了72% 的最高准确率,高于 GPT-4o 的 65.3%。
在衡量真实世界软件工程技能的SWE-bench Verified 测试中,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o(2024-11-20)的完成率为 33.2%。这反映了模型在探索代码库、完成任务以及生成可运行并通过测试的代码方面的能力有所提升。

OpenAI 还表示,除了上述基准测试之外,GPT-4.1 在遵循代码格式方面表现更佳,可靠性更高,并且减少了无关编辑的频率。在内部评估中,代码中的无关编辑从 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。
此外,根据OpenAI 不久前发布的更新日志,OpenAI 将很快从 ChatGPT 中淘汰其两年多前推出的 AI 模型 GPT-4。

OpenAI 表示,自今年 4 月 30 日起,GPT-4 将被 ChatGPT 当前的默认模型 GPT-4o 完全取代。如有需要,GPT-4 仍可通过 OpenAI 的 API 访问。

GPT-4o 最初于 2024 年 5 月作为旗舰模型推出,可实时推理音频、视觉和文本。

OpenAI 在更新日志中写道:“在针对性评估中,GPT-4o 在写作、编码、STEM 等方面始终超越 GPT-4。最近的升级进一步提高了 GPT-4o 的指令遵循、问题解决和对话流程,使其成为 GPT-4 的自然继承者。”

GPT-4 于 2023 年 3 月推出,适用于 ChatGPT 和微软的 Copilot 聊天机器人,具备多模态功能,能够同时理解图像和文本,是广泛部署的 OpenAI 模型的首个版本。

如今,随着OpenAI 刚刚发布的 GPT-4.1 系列模型,以及传闻中待发布的 o3 和 o4-mini 推理模型,GPT-4 的正式退役也在情理之中。

不过,如今OpenAI 面对的竞争压力远远大于 GPT-4 初亮相的时候。在 Gemini 2.5 Pro、Claude 3.7 Sonnet 和 DeepSeek 的夹击之下,新 GPT 和 o 系列模型任重而道远。
MVP星源–发现最有趣的!https://www.mvpxo.com
<
灌水成绩
0
0
0
主题
帖子
回贴

等级头衔
UID : 4
组图 :
用户组 :
星级 :

积分成就 威望 : 0 个
贡献 : 0 点
星源币 : 1000000 元
违规 : 0
在线时间 : 0 小时
注册时间 : 2025-3-4
最后登录 : 2025-3-4

荣誉勋章

联系方式

发表于 2025-4-15 21:33:18 | 查看全部 来自 法国 国际航空电讯集团公司(SITA)

刚刚,OpenAI 发布 GPT-4.1 !吊打 GPT-4.5,14 万/月的博士级 AI 曝光

OpenAI发布GPT-4.1系列模型,包含标准版、mini和nano版本,提升多模态处理能力与成本效率,但长文本可靠性有所下降。API定价显著优化,开发者需在7月前迁移GPT-4.5服务。新模型在代码差异分析和指令遵循方面表现突出,但基准测试仍落后于竞品。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /2 下一条

  • 手机网页版
  • 移动APP端
Copyright © 2001-2025 MVP星源–发现最有趣的! 版权所有 All Rights Reserved. 手机版|小黑屋|站点统计|Archiver|网站地图 |闽ICP备12007159号-8|闽公网安备35021202000806号
关灯 在本版发帖
扫一扫访问移动端
QQ客服返回顶部
快速回复 返回顶部 返回列表