文｜魏琳华编｜王一粟

从2023年底OpenAI CEO Sam Altman第一次提到GPT-5，到今天模型的正式发布，时间过去了一年半。

如今，人们仍然熬夜围观OpenAI的发布会，但彻夜讨论的呼声中少了惊呼，多了质疑。

值得欣慰的是，从模型性能上来说，OpenAI成功扳回了之前下滑的口碑。在发布会上拿出的GPT-5，依然做到了多方面能力SOTA，更是靠GPT-5直言“世界最强编程模型”，狙击Claude的领先地位。

但绕不开的一些固有印象是，OpenAI拉开同行的差距，远远不及GPT-3、GPT-4的断崖式领先。

OpenAI的同行者也虎视眈眈。不说Anthropic本周官宣要在当月发布大版本更新的模型，马斯克更是刷屏一晚，强调自家模型Grok-4在部分测试上已经超过了OpenAI的新模型。

OpenAI又能在这个新“王座”上坐多久？Altman不语，只是一味地讲起了大模型便宜落地的故事。

盯上最强代码模型

GPT-5全面升级

刷新的性能分数、极高的性价比、针对性优化的幻觉问题和超长上下文，方方面面的优化，都是为了让GPT-5成为一个更适合干活的大模型。

首先在架构上，GPT-5是一个统一架构版本的模型，由三个部分组成：一个基础模型、一个具有深度推理能力的GPT-5 thinking模型，加上一个实时路由器。

这样设计的好处是，实时路由器能根据对话类型、问题复杂性、工具需求以及用户意图快速决定使用哪个模型。比如当用户的提示词包括“帮我认真思考一下”这类话术，它就会调用深度推理模型。

在发布会前一天就大肆预热的Altman，就在X上发图暗示GPT-5的性能优势，在发布会上，他也强调了对GPT-5的信心。

“如果说和GPT-4的聊天像跟高中生对话，和O3像是跟大学生聊天，那么跟GPT-5的交流就相当于对话博士生。”Altman这样定义GPT-5的体验感受。

先从性能说起，被Altman当成杀器的GPT-5，确实在多个模型能力上做到了SOTA。聚焦到测评指标上，GPT-5的优势体现在编程、数学、多模态理解和健康等方面。

先说OpenAI着重放到开头讲的编程能力，这一次，OpenAI如愿以偿地抢回了领先地位。用他们的话说，“GPT-5是世界上最强的编程模型。”

在SWE-Bench（测试大模型代码补全能力）的指标上，GPT-5的推理版本拿到了74.9%，不仅超越了自家模型O3，也超越了Anthropic刚发布的Claude Opus 4.1（74.5%）。在编程能力上，OpenAI抢过了Claude系列的王座。

发布会现场，OpenAI通过一些案例具体展示了OpenAI的编程能力，比如让它做一个阐释伯努利效应的网页，在两分钟内，GPT-5跑出了400行代码，做了一个支持调整参数的网页版本。

除此之外，OpenAI还展示了模型做一些网页端小游戏的能力，比如蹦跳躲障碍的网页小游戏、随心画画的画布小游戏，还有美观提升一个度的贪吃蛇。这些能力其实交给当下一些开源大模型同样能完成，只是OpenAI的美观度和流程完整度上了一个台阶。

除了这种面向C端用户体验的案例，在B端实际使用上，OpenAI也面向开发者演示了GPT-5写代码落地的能力，GPT-5不再埋头写代码，而是把“开箱可用”的落地能力夯实了。比如，GPT-5在后台写代码并自行优化迭代之后，按照需求开发了一个财务信息看板，UI做得也足够漂亮。

除了编程，在其他多个维度上，GPT-5也有部分指标刷新自家模型的上限，包括数学（AIME 2025，GPT-5无工具版本拿到94.6%）、多模态理解（MMMU 为 84.2%）和健康（HealthBench Hard 为 46.2%）。

GPT-5再次向我们证明了“模型即产品”的观点可行性——加上工具能力的GPT-5 pro，它甚至能直接把AIME 2025（美国数学竞赛）的测试刷满分。

不过，OpenAI的翻车变成了第一个出圈的讨论。在发布会演示的现场，OpenAI上来就犯了一个非常严重和低级的错误：在现场展示的图表中，数字大小和柱状图显示的关系甚至都匹配不上，69.1和30.8的柱图高度一模一样，52.8甚至比69.1更大......

对此，光锥智能也随便给了一组数据测试，让GPT-5做柱状图。最终跑出来的数据和图表关系对照没有错误，可见不是模型生成的问题，大概单纯是制图失误。

除了上述优化外，GPT-5还在模型的超长上下文理解、幻觉问题等方面做调整，一切的努力都是为了让这个模型能够更好地落地。

根据OpenAI给出的数据，GPT-5在上下文理解上的处理效果不仅有所提升，并且在文本更长的阶段（比如输入在128-256k长度），可以从图示看到，GPT-5理解能力下降的速度显著低于其他模型。再有，GPT-5还显著降低了幻觉问题，其事实错误率比GPT-4o降低了45%，这对于模型应用在法律、医疗等要求精准的行业算是利好。

如果从性能上评估，GPT-5虽然能力全面升级，不过显然不是大众期待的颠覆式超越。但从性价比上来说，GPT-5给出的价格直接甩了对手一条街。

以标准版的GPT-5来说，和Claude Opus 4.1每百万Token输入15美元、输出75美元的定价相比，前者的输入价格低于后者的1/10，输出价格低于后者1/7。

极低的价格，也是OpenAI愿意限量免费开放给所有用户使用的底气。目前，免费用户也可以体验到GPT-5，不过区别于付费用户的不限量开放，前者会在用到一定额度后自动切换为GPT-5-mini模型使用。

此外，针对开发者使用的不同需求，GPT-5还在API 中引入了新功能，通过控制冗余量（verbosity）的方式，分为低中高三档，帮助开发者控制AI生成内容的长短。

难坐稳的SOTA但价格或许能赢过一切

GPT-5固然在多项能力上刷新了SOTA纪录，但这种领先优势，不再是需要长期追赶的鸿沟。

先从本次OpenAI最先喊出的“最强编程模型”来说，领先于Claude Opus 4.1仅0.4%的优势，很有可能在本月被Anthropic赶超。

从去年挖角OpenAI成员，再到部分能力超过OpenAI旗舰模型。Anthropic正处在像之前OpenAI狙击Google新模型的阶段，紧紧追着OpenAI的步伐。

本月，在OpenAI发布两个开源模型的当天，Anthropic早其十几分钟，发布了小更新版本Claude 4.1。特别是在这家公司还预告了“大幅度更新模型”即将在本月发布的情况下，0.4%的微弱差距，很难让人对OpenAI保持乐观。

微弱的优势同样造成了评测口碑的两极分化。即使OpenAI喊出了最佳编程模型的地位，但在用户使用体验的阶段，OpenAI还没有形成一边倒的优势。

有用户表示，对比GPT-5和Claude，后者跑出的各个案例都明显优于前者，在UI和前端效果上更佳；也有用户认为，用GPT-5跑出来的代码效果更精细。

而GPT-5的面面俱到以及微弱优势，或许还不如前一天Google发布的视觉生成模型Genie更让人印象深刻。毕竟每秒24帧已经能让AI跑出来的视频达到流畅的效果，画质720p的清晰度也翻越了一倍。

在Anthropic、Google等竞争对手的步步紧逼下，AI领域的“SOTA”宝座，正变得越来越难以坐稳，也难以留下深刻印象。

那么，在性能趋同的背景下，AI大模型的竞争将走向何方？OpenAI给出的答案是价格。当技术领先难以形成绝对壁垒时，“价格战”才是赢得市场的终极武器。

“GPT-5 是我们迄今为止最聪明的模型，但我们主要追求的是实际应用价值和大规模的普及/负担能力。”Altman在X上说，“我们完全可以发布更智能的模型，而且我们会这样做，但这个模型将有数十亿人受益。”

通过优化成本的方式，OpenAI的价格虽然不能和国内便宜大碗的开源模型们比较，不过和一个月让程序员轻松花掉上千美元的Claude相比，OpenAI能在API端把输入输出价格分别拉低到1/10和1/7，其成本优势断层领先。

这也是为什么发布会后半场，OpenAI开设了一个“开发者专场”，专门面向开发者群体展示模型的实用能力，并拉来Cursor CEO、Manus的首席科学家背书，秀自家模型在Agent、Vibe Coding（氛围式编程）上的效果。

于C端，免费开放的GPT-5将大幅提升之前无法体验O3等付费模型用户的使用体验；于B端，便宜的API也会成为开发者寻求性价比的考虑。

从GPT-5秘密训练到发布的一年半之间，OpenAI真正的壁垒已然不再靠越来越短的SOTA红利支撑，而是变成了价格和模型的落地效果。

当成本急剧降低到更普适大众的节点，AI应用的爆发，才能指日可待。

特此声明

本文为正观号作者或机构在正观新闻上传并发布，仅代表该作者或机构观点，不代表正观新闻的观点和立场，正观新闻仅提供信息发布平台。

分享至

光锥智能

光锥智能官方正观号

+ 关注

查看更多文章

0/300

还没有评论，快来抢沙发吧！

历史搜索

当前热榜

GPT-5王座难坐稳，OpenAI想靠价格赢过一切

文｜魏琳华编｜王一粟

光锥智能

GPT-5王座难坐稳，OpenAI想靠价格赢过一切

文｜魏琳华 编｜王一粟

光锥智能

发表评论

最新评论

文｜魏琳华编｜王一粟