GPT-5.4 Pro 在 MESNA 挪威测试中智商飙升至 150,OpenAI 打破了自己的纪录

CryptoSlate 在 上成为首选

OpenAI 最新的 GPT-5.4 Pro 模型现已取得比 99.96% 的所有人类更高的 IQ 分数,这给市场一个新的信号:AI 能力的提升开始超过通常的产品周期噪音。

OpenAI 的 GPT-5.4 Pro 在公开 IQ 基准上触及 150,当市场进入又一个偏宏观的繁忙周

TrackingAI 的公开排行榜现在将 OpenAI GPT-5.4 Pro 的 IQ 分数置于 150,这较去年 OpenAI 的 o3 在 Mensa Norway 测试中打出的 136 分有了明显跃升。

这一跃升出现在市场注意力缩窄至伊朗、能源、劳动力走弱以及下一次通胀数据之际。这让接下来几天形成了一个不同的问题:机器智能的复利增长有多快,又会在何时开始与经济层面的布局重叠?

为什么这很重要:在一个广为理解的基准上,从 136 跃升到 150,是将复杂的能力变化压缩成一个简单信号。对企业而言,这个信号会直接影响围绕自动化、软件预算和人员编制规划的决策。对市场而言,它是在利率、通胀和增长预期之外,增加了另一个变量。

OpenAI 将 GPT-5.4 定位为其为专业工作打造的最强大且最高效的前沿模型,具备更强的编程能力、更好的工具使用与计算机使用能力,并拥有最多可达 1 million tokens 的上下文窗口。在同一发布中,OpenAI 表示 GPT-5.4 在 GDPval 上达成新的最先进水平,并在 OSWorld-Verified 上超过了人类表现。

这些基准与公开 IQ 测试是分开的,但行进方向是一致的。能力在不同的测量体系中都在上升,而这种上升变得足够快,已经能够影响预算制定、招聘计划、工作流设计和软件支出。

在公开 IQ 风格基准上取得 150,会将更广泛的能力跃升压缩成一个单一、可携带的信号。即使在方法论尚未被争论之前,这个数字也很容易理解。

此前的 o3 Mensa 结果确立了该基准及其边界。GPT-4.1 的一百万 token 上下文窗口展示了 OpenAI 如何在长周期代码和文档任务中扩展模型的可用性;而我们对 OpenAI 不断扩张的资本循环的分析,则将模型进展与硬件扩张、融资循环以及基础设施需求联系起来。

综合来看,这些进展使得最新的 IQ 分数处于更广泛的商业与经济语境之中。在公开基准上从 136 到 150 本身就足够引人注目。在 OpenAI 进一步深入工具使用、计算机使用、企业生产力以及资本密集型基础设施的同时,从 136 到 150 的变化带来了更广泛的含义。

公开 IQ 基准有限,但能力曲线仍在继续上行

公开 IQ 风格测试对衡量前沿模型依然是不完美的工具。TrackingAI 运行一个公开的 Mensa 风格基准,同时还维护一个更严格的私有离线测试。

IQ 风格测试会把狭窄的一小段认知表现压缩成一个单一数字,从而掩盖不同推理类型、上下文处理、创造力以及真实世界问题解决能力之间的差异。

对 AI 和人类而言,分数都容易受到测试设计、训练暴露以及模式熟悉度的影响,这使得它成为衡量通用能力的一个嘈杂替代指标。

150 的 IQ 处在分布的极端上尾,常与阿尔伯特·爱因斯坦或理查德·费曼等个体联系在一起。就实际意义而言,它暗示了非常快的抽象能力、强大的模式识别能力,以及在有限指导下驾驭复杂的多步骤问题的能力。

平台将分数作为最近多次完成结果的滚动平均来报告,而方法论也提出了熟悉的疑问:提示结构、可复现性、训练集污染以及格式熟悉度等。这些担忧在 o3 达到 136 时就已显现,而当 GPT-5.4 Pro 站上 150 时,这些问题仍在持续发酵。

相关阅读

OpenAI 的 o3 在 Mensa Norway 测试中得分 136,超过 98% 的人类

OpenAI 的 o3 模型在独立测试中达到 Mensa 级 IQ。

2025-04-17 · Liam ‘Akiba’ Wright

即便存在这些限制,更广泛的趋势也变得更难被轻易忽视。单一孤立的基准结果可以被解释为某种偶然怪癖。多项公开 IQ 风格测试、编程、浏览器使用、桌面导航以及知识工作表现中的一组增益,所承载的分析权重更高。

TrackingAI 最新的排行榜将 GPT-5.4 Pro 置于其公开 IQ 榜首,领先于所有 Cluade、Gemini、Qwen 和 Grok 模型,为关于更广泛能力争论提供了一个外部且易读的公开基准,能快速映射到整体能力讨论中。

要理解 150 落在罕见区间,并不需要人们详细懂得基准设计;投资者也不必接受 IQ 风格测试背后的每一个前提,就能认识到这种规模的跃升更像是加速而非漂移。

标题为“AI IQ 测试结果”的图表,展示主要 AI 模型在钟形曲线上的平均 Mensa Norway IQ 分数,其中 OpenAI 的 GPT-5.4 变体绘制在区间的上端附近。

企业买家同样不需要相信“IQ 等于一般智力”,就能看到具备更强模式识别、更强工具使用能力,以及更强长周期任务处理能力的系统,正在向具备经济价值的领域推进,远远超出解谜范畴。

这指向了能够在延长的上下文中进行检索、制定计划、验证、导航并产出真实工作的系统。在这种情况下,IQ 分数不再太像新奇数字,而更像是前沿推理“密度”的信号。

排行榜本身也具有竞争价值。在公开基准上处于领先位置,会强化 OpenAI 在可见能力领导权之争中的地位,尤其是在仅凭架构笔记越来越难辨别模型差异化的时刻。

基准领先会把复杂性压缩成一个简单的层级结构。它为开发者提供信号,为企业买家提供叙事抓手,为投资者再提供一个代理指标,用来判断能力前沿当前处于何处。

CryptoSlate Daily Brief

每日信号,无零噪音。

每天早晨用一段紧凑的阅读呈现市场会推动的标题和背景信息。

5 分钟摘要 100k+ 读者

电子邮箱地址

获取简报

免费。无骚扰。随时取消订阅。

哎呀,看来出了点问题。请再试一次。

你已订阅。欢迎登船。

OpenAI 的基准攀升开始与未来一周的经济节奏重叠

未来一周仍然被宏观因素主导。美国劳工统计局的日程表清楚列出下一批关键发布:4 月 8 日公布的 3 月 17 日至 3 月 18 日会议的 FOMC 会议纪要;4 月 10 日公布的 3 月消费者价格指数(CPI);以及 4 月 14 日公布的 3 月生产者价格指数(PPI)。

这个时间表让利率、通胀与增长焦虑持续处于显眼位置,但在表面之下,第二条经济轨道正在成形,而 OpenAI 位于其中的中心附近。

前沿 AI 的能力增长愈发与资本配置相交。一个在公开推理测试上把分数推得更高,同时在编程、检索与计算机使用方面也持续改进的模型,会改变企业对工作流重设计的思考方式。它会改变软件购买者对 copilots(副驾驶)和 agents(代理)的预期。它会改变企业从试验推进到部署的速度。

Jack Dorsey 最近发帖称 Block 正在“从层级走向智能”,用 AI 接管过去由管理层处理的协调工作,因为公司在重组时围绕个人贡献者展开——这些个人贡献者是直接负责的人,并且类似“球员教练”。

能力增长也会改变哪些任务能够从劳动力成本结构中被拆分出来,并交给软件来承担。这些影响会先在更窄的通道中体现,包括文档工作流、电子表格工作流、客户支持、研究任务、浏览器自动化、内部运营、代码生成以及验证循环。

OpenAI 的商业方向强化了这种解读。在其 GPT-5.4 的发布材料中,公司描述了专业工作中更强的表现、更强的工具搜索能力、原生计算机使用能力,以及在跨职业的基准知识工作中获得的提升,这些都能直接映射到美国经济。

这让 AI 能力增长进入了一个熟悉的市场提问:如果这些系统能继续以这样的速度改进,那么下一笔支出会流向哪里。

答案不仅延伸到模型订阅收入,还会延伸到云端需求、芯片、数据中心、网络、供电、软件许可证以及劳动力生产率假设。OpenAI 扩张中的资本循环已经反映了该结构的一部分,而这次基准增益则在其上叠加了一个更简单、面向公众的信号。

这种重叠正是为什么在一个偏宏观的周内,最新结果拥有更广泛的相关性。市场已经知道 CPI 的安排。市场也已经知道油价会如何影响通胀预期。市场也知道美联储纪要将会被用来解析政策口径。

但智能本身的增长,是否开始表现得像一个宏观变量?更快的能力增速可能会改变企业的支出计划,在白领职能领域加紧竞争压力,支持更高的基础设施支出,并且即便在较慢的名义增长环境中,也会加强将资金投入与 AI 挂钩的资本开支论点。

当 TrackingAI 在 150 的位置展示 GPT-5.4 Pro 时,这个数字落在一个市场视角里:市场已经把 OpenAI 看作不仅仅是实验室。它是一家平台公司、一家部署型公司、一个基础设施客户,并且也是相邻行业的信号生成器。

下一项测试同时存在于两个位置。一个是方法论;公开的 IQ 风格基准将继续受到审视,而且也应该如此。另一个是经济层面;市场将会一步步决定,像这样规模的能力跃升,是否值得与劳动力数据、利率预期和资本支出趋势一起被计入定价。

OpenAI 最新的基准攀升让这一决策更接近现实。这个分数简洁、易读、便于传播。它更深的相关性来自与公司更广泛产品推进同一个地方:前沿仍在攀升,而这次攀升所带来的经济足迹变得更难被单独归入一个类别。

本文提及

OpenAI Anthropic Google X Sam Altman

发表于

精选 美国 科技 文化 AI 社区

语境

相关报道

切换栏目以深入挖掘或获得更广泛的背景。

美国本地新闻      AI 顶级栏目      新闻稿 新闻专线  

分析

美国就业岗位大幅胜过预期,但隐藏的劳动力走弱可能会让比特币承压

一份强劲的头条就业数据推动降息进一步推迟,但较弱的劳动力信号让比特币暴露在下一轮数据测试之下。

4小时前

随着债务和现金压力上升,“永续买家”开始出售比特币

随着国库持有人出售以覆盖债务和流动性需求,比特币最强的机构叙事之一正在出现裂缝。

1天前

当比特币衍生品闪现警报:46B 美元市场从伊朗停火集会中回撤

分析 · 1天前

美国为银行释放数十亿美元,同时悄悄承认 SVB 的核心失败从未消失

银行业 · 1天前

比特币避险故事破裂:战争冲击重新点燃 10,000 美元风险——如果油价触及每桶 150 美元

分析 · 2天前

CFTC 起诉 3 个州,试图将加密预测市场重新定义为联邦产品

监管 · 2天前

科技

Ripple 将更私密的区块链推向银行,并新增 AI 代码审查;随着担忧加剧,它可能会让 XRP 价格落后

Ripple 旨在通过增强隐私和 AI 安全功能来革新机构级区块链,XRPL。

6天前

分析

AI 的加密赢家并不是 AI 币:当代理开始自主花钱时

AI 代理的兴起为加密带来一个简单问题且影响巨大:软件如何支付?

1周前

随着裁员加速,一项“AI 重置”正在进行,且有一组人遭受最严厉打击

AI · 3周前

加密能否保护我们免受不断扩张的经济型 AI 代理网络?

AI · 4周前

AI 正在招聘更多资深开发者,同时悄悄抹除创造这些岗位的工作

AI · 4周前

美国最大的比特币矿企之一盯上出售其全部 53,000 BTC 资产

挖矿 · 1个月前

ADI Chain 宣布 ADI Predictstreet 作为 2026 年 FIFA 世界杯预测市场合作伙伴

ADI Predictstreet 由 ADI Chain 支持,将在足球最大的舞台亮相,成为 2026 年 FIFA 世界杯的官方预测市场合作伙伴。

2天前

BTCC 交易所被任命为阿根廷国家队官方区域合作伙伴

BTCC 通过 2026 年 FIFA 世界杯与阿根廷足球协会合作,将交易所长期以来的加密业务与足球界最具荣誉的国家队之一连接起来。

3天前

Encrypt 将登陆 Solana,以驱动加密的资本市场

PR · 5天前

Ika 将登陆 Solana,以驱动无桥资本市场

PR · 5天前

TxFlow L1 主网上线标志着多应用链上金融进入新阶段

PR · 5天前

BYDFi 以为期一个月的庆典迎来第 6 周年,打造可靠性

PR · 5天前

免责声明

我们的作者观点仅代表其个人,不反映 CryptoSlate 的观点。你在 CryptoSlate 上阅读的任何信息都不应被视为投资建议;CryptoSlate 也不背书本文中可能被提及或链接的任何项目。购买和交易加密货币应被视为高风险行为。在采取与本文内容相关的任何行动之前,请自行进行尽职调查。最后,如果你在交易加密货币时亏损,CryptoSlate 不承担任何责任。如需更多信息,请查看我们公司的免责声明。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论