一文讀懂 GPT-5.5:從今天起,OpenAI “不賣” Token了

作者:海倫

當地時間 4月 23 日,OpenAI 正式發布新一代旗艦模型 GPT-5.5,官方將其定位為“面向真實工作的全新智能層級”,也是邁向全新計算機工作方式的重要一步。

這次發布核心關注的有兩點:

一是效率層面的突破:同等延遲下,模型更大了,速度卻沒慢。GPT-5.5 上下文窗口達到 100萬 Token,但它不是 GPT-5.4 簡單能力升級,而是在效率上做到了同等延遲下的更高智能。

二是 GPT-5.5 在訓練過程中,參與了自身推理基礎設施的優化。簡而言之,AI 第一次學會幫自己調參數。

在測試複雜命令行工作流的 Terminal-Bench 2.0 中,GPT-5.5 得分 82.7%,Claude Opus 4.7的 69.4%超過 13 個百分點;在測試 AI 獨立操作真實電腦的 OSWorld-Verified 中,成功率 78.7%,超越人類基線;在測試跨 44 種職業知識工作的 GDPval 中,84.9%的任務達到或超過行業專家水平。

不過,GPT-5.5 的價格也明顯漲了。

API 定價為每百萬 Token 輸入 5 美元、輸出 30 美元,是 GPT-5.4(每百萬 Token 輸入 2.50 美元、輸出 15 美元)的兩倍,但官方強調 GPT-5.5 完成相同任務所需 Token 數量大幅減少,綜合成本未必顯著上升。GPT-5.5 Pro API 定價為每百萬 Token 輸入 30 美元、輸出 180 美元。批量處理和彈性定價享受半價優惠,優先處理為標準價格的 2.5 倍。

在 ChatGPT 中,GPT-5.5 以“GPT-5.5 Thinking”形式上線,逐步取代此前版本。

一個新增的小設計是:模型開始思考前會先給出一段思路概述,使用者可以在執行過程中隨時插話,調整方向。

如果用一句話概括 GPT-5.5 的意義:過去的模型是能力的集合,GPT-5.5 更接近一個會規劃、會檢查、會持續推進的工作系統。

01 84.9%的任務,達到專業人士水準

GPT-5.5 與各競品在 Terminal-Bench 2.0、GDPval、OSWorld-Verified 等核心基準測試中的對比

先看評估模型在真實職業場景中的表現。OpenAI 用了一個叫“GDPval”的基準測試,它要求模型完成一整套職業任務。測試涵蓋 44 種職業場景,包括財務建模、法律分析、數據科學報告、運營規劃等等。

結果顯示:GPT-5.5在 84.9%的任務中達到或超過行業專業人士水平。作為對比,GPT-5.4是 83.0%,Claude Opus 4.7是 80.3%,Gemini 3.1 Pro 只有 67.3%。

這種差距不止體現在總分上。電子表格建模任務中,GPT-5.5 內部測試拿到 88.5%;投資銀行級別的建模任務同樣領先前代。早期測試者的反饋也挺一致:GPT-5.5 Pro 的回答在全面性、結構性和實用性上比 GPT-5.4 Pro 有明顯提升,商業、法律、教育和數據科學領域尤其明顯。

光看數字容易麻木,OpenAI 這次乾脆掀開自家工位給你看。

OpenAI 表示,公司內部超過 85%的員工每週都在用 Codex,覆蓋財務、傳播、市場、產品、數據科學等多個部門。傳播團隊拿它分析了六個月的演講邀約數據,搭起了一套自動化分級流程;財務團隊用它審閱了 24,771份 K-1 稅務表格、合計 71,637 頁,比去年提前兩週完工;市場拓展團隊靠自動化周報生成,每人每週省下 5到 10 小時。

這不是實驗室 demo,已經變成一種工作日常。

02 最強自主編程模型

OpenAI 稱,GPT-5.5 目前是其最強的自主編程模型。

在 Terminal-Bench 2.0 上(測試複雜命令行工作流,需要規劃、迭代與工具協調),GPT-5.5 得分 82.7%,對比 GPT-5.4的 75.1%,提升幅度接近 8 個百分點,同時 Token 消耗更少。在 SWE-Bench Pro 上(評估真實 GitHub 問題的一次性解決能力),GPT-5.5 得分 58.6%。在內部 Expert-SWE 評測上(長周期編程任務,中位人工完成時間約 20 小時),GPT-5.5 同樣超越 GPT-5.4。

Terminal-Bench 2.0和 Expert-SWE 散點圖

Codex在 GPT-5.5 的驅動下,已經能夠從一句話的提示詞出發,獨立完成從代碼生成、功能測試到視覺調試的完整開發流程。

OpenAI 官方展示的演示案例顯示,太空任務應用基於 NASA 真實軌道數據構建,支持 3D 交互操控,軌道力學模擬達到真實物理精度;地震追蹤器接入實時數據源並完成可視化,說明模型已具備調用外部 API、處理動態數據並實時渲染的完整能力。

對於使用反饋方面。Every 創始人兼 CEO Dan Shipper 講了一段經歷:他之前遇到過一個上線後的 bug,自己調了好幾天沒搞定,最後只能請公司最強的工程師出手,重寫了一部分系統。GPT-5.5 出來後,他做了一個實驗——把模型放回 bug 還沒修的那個狀態,看它能不能自己得出和工程師一樣的方案。GPT-5.4 做不到,GPT-5.5 做到了。他評價:“這是我用過的第一個真正具備概念清晰度的編程模型”。

一位英偉達工程師的評價更直白:“失去 GPT-5.5 的存取權,感覺就像截肢”。

Cursor 聯合創始人兼 CEO Michael Truell 對此的補充是:GPT-5.5比 GPT-5.4 更聰明、更堅韌,在複雜長時任務中能堅持更久而不提前停下——而這恰恰是工程工作最需要的。

03 知識工作:AI 第一次真正能“用”電腦

在 OSWorld-Verified 測試中(測試模型能否獨立操作真實計算機環境),GPT-5.5 成功率 78.7%,高於 GPT-5.4的 75.0%,也優於 Claude Opus 4.7的 78.0%。

這不是截圖分析,而是真正的螢幕操控:看到界面、點擊、輸入、在多個工具之間切換,直到任務完成。GPT-5.5 讓人第一次感受到,AI 可以真正與你共同使用同一台電腦。

財務建模演示影片

在電信客服工作流測試 Tau2-bench 上,GPT-5.5 在無提示詞調優情況下準確率達 98.0%,GPT-5.4 僅為 92.8%。

這意味著模型對任務意圖的理解足夠深入,不需要精心設計提示詞就能處理複雜的多步驟對話流程。

在工具搜尋能力上,GPT-5.5在 BrowseComp 測試中得分 84.4%,GPT-5.5 Pro 更達 90.1%,意味著在需要跨多個資訊來源綜合理推的研究類任務中,模型表現出了相當強的持續檢索和資訊整合能力。

04 科學研究:協助發現數學新證明

在這次發布中,GPT-5.5 在科研領域的表現,可能是最出人意料的一部分。

過去我們談 AI 做科研,更多是“輔助工具”,用來查文獻、寫程式、整理資料。但這一次,它的角色明顯前移,開始參與更核心的環節:複雜推理,甚至是發現本身。

在 GeneBench 上(遺傳學和定量生物學多階段資料分析評測),GPT-5.5 得分 25.0%,GPT-5.4為 19.0%。這些任務通常對應科學專家數天的工作量,模型需要在幾乎沒有監督的情況下推理可能存在錯誤的資料、應對隱藏的混雜因素,並正確實施現代統計方法。

從圖表曲線可以看出,隨著輸出 Token 數量的增加,GPT-5.5 的得分提升幅度始終領先於 GPT-5.4,且在約 15,000Token 處出現明顯拉開——這意味著面對需要深度推理的長任務,GPT-5.5 的優勢會隨任務複雜度的提升而進一步放大。

在 BixBench(真實世界生物資訊學和資料分析基準測試)上,GPT-5.5以 80.5%的得分領先於 GPT-5.4的 74.0%,在已發布得分的模型中位居前列。

真正引發關注的是一個具體案例:配備自訂工具框架的 GPT-5.5 內部版本,協助發現了一項關於拉姆齊數的新數學證明,並在形式化證明工具 Lean 中得到驗證。拉姆齊數是組合數學的核心研究對象,該領域的成果十分罕見,技術難度極高。這不是 AI 提供程式碼或解釋,而是真正貢獻了一個數學論證。

實際應用層面同樣有說服力。Jackson 實驗室免疫學教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一個包含 62 個樣本、近 28,000 個基因的基因表達資料集,生成詳細研究報告,提煉出關鍵發現和研究問題——他表示這項工作通常需要團隊耗費數月。

波茲南亞當·米茨凱維奇大學數學系助理教授 Bartosz Naskręcki,僅憑一條提示詞,用 Codex 中的 GPT-5.5在 11 分鐘內構建出一款代數幾何應用,可視化兩個二次曲面的交線並將所得曲線轉化為魏爾斯特拉斯模型。右側即時顯示的方程係數可直接用於後續數學研究,從提示詞到可運行的研究工具,全程由模型獨立完成。

Bartosz Naskręcki 教授構建的代數幾何應用截圖——二次曲面相交可視化與魏爾斯特拉斯方程即時計算界面

Axiom Bio 聯合創始人 Brandon White 的評價更為直接:“如果 OpenAI 保持這一勢頭,年底前藥物發現的基礎將會改變。”

05 推理效率:AI 第一次幫自己優化了基礎設施

這次發布有一個容易被忽視的細節,但它可能是技術層面最值得關注的進展。

GPT-5.5 是一個更大、更強的模型,但它在實際服務中的單 Token 延遲與 GPT-5.4 持平。要在更強的能力下維持同等延遲,OpenAI 將推理系統作為整體重新設計——而 Codex和 GPT-5.5 本身在這一過程中直接參與了優化。

從 Artificial Analysis 智能指數圖可以直觀看出這一點:橫軸是輸出 Token 總量(對數刻度),縱軸是綜合智能得分。GPT-5.5 的曲線不僅在得分上全面領先 GPT-5.4、Claude Opus 4.7和 Gemini 3.1 Pro Preview,更關鍵的是,它在 Token 消耗較少的區間就已經達到其他模型需要消耗更多 Token 才能達到的得分水平——更強的能力,更低的成本,這正是“效率提升”的直觀體現。

Artificial Analysis 智能指數折線圖

具體來說,團隊面臨的問題是負載平衡:此前將請求拆分為固定數量的塊以均衡 GPU 工作,但靜態分塊對所有流量形態並非最優。Codex 分析了數周的生產流量數據,編寫了自訂啟發式算法,將 Token 生成速度提升超過 20%。

GPT-5.5與 NVIDIA GB200和 GB300 NVL72 系統協同設計、協同訓練和協同部署。換句話說,這一代模型參與優化了服務自身的推理架構——這不是比喻,是字面意義上的“AI 改進了跑自己的系統”。

06 網路安全:能力提升,管控同步收緊

GPT-5.5 在網路安全能力上有明確提升。在 CyberGym 測試中,GPT-5.5 得分 81.8%,GPT-5.4為 79.0%,Claude Opus 4.7為 73.1%。在內部“奪旗”(CTF)挑戰任務中,GPT-5.5 得分 88.1%,GPT-5.4為 83.7%。

CyberGym 柱狀圖與 CTF 挑戰任務散點圖

OpenAI將 GPT-5.5 的網路安全和生物/化學能力評級定為應急準備框架下的“高”級,尚未達到“關鍵”級,但相比前代有明顯提升。與此同時也坦承,新部署的更嚴格風險分類器“部分用戶最初可能會覺得有些不便”,並將持續調整。

為平衡防禦需求與存取限制,OpenAI 推出了“網路安全可信存取”計畫:符合條件的安全研究人員和關鍵基礎設施防禦者可申請更寬鬆的存取權限,以更少摩擦使用高級網路安全能力。

究其背後的邏輯,像網路安全、甚至生物相關的能力,技術擴散幾乎是不可逆的趨勢。與其試圖徹底限制所有人使用,不如換一種思路——讓真正做防禦的人,優先用上最先進的工具。簡而言之,這不是一個“要不要開放”的問題,關鍵是“先給誰用”。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言