OpenAI 推 GPT-5.5:12M контекст, AA індекс на першому місці, Terminal-Bench 82.7% переписує агентський бенчмарк

OpenAI 於 4/23 正正式發布 GPT-5.5, 定定位 як головної моделі, орієнтованої на агентський (agentic) робочий процес та опрацювання корпоративних знань, а також синхронно з’являється в ChatGPT і Codex. Офіційна рекламна подача визначає це як «наша найрозумніша й найінтуїтивніша у використанні модель», а AA Intelligence Index, набравши 60 балів, виходить на перше місце, випереджаючи Claude Opus 4.7 та Gemini 3.1 Pro Preview відповідно на 3 бали.

Ключові дані огляд

Показник GPT-5.5 порівняно (GPT-5.4 або рівнозначні конкуруючі продукти) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0 (командний рядок робочі процеси) 82.7% GPT-5.4:75.1% Expert-SWE (внутрішнє програмне оцінювання OpenAI) 73.1% GPT-5.4:68.5% Контекстне вікно 1,200 万 tokens Значне покращення, здатне обробляти весь корпоративний програмний репозиторій або кілька годин відео Ціна (за мільйон token) Вхід 5 доларів, вихід 30 доларів Ціна в 2 рази вища, ніж GPT-5.4; але кількість токенів на виході зменшилась приблизно на 40%, а чиста вартість зросла приблизно на 20%

Позиціювання: розроблено для «Епохи агентів»

OpenAI описує GPT-5.5 як базову модель для агентського обчислення: вона може розуміти складні цілі, використовувати інструменти, самостійно перевіряти результати роботи та доводити багатокрокові завдання до завершення без потреби в тому, щоб людина втручалася на кожному етапі. За даними інтерв’ю TechCrunch, президент Greg Brockman назвав цю версію «великим кроком уперед до майбутнього обчислення, але це лише крок», і підкреслив, що вона «порівняно з 5.4 є швидшим і гострішим розумувачем, використовуючи менше token».

Головний науковець Jakub Pachocki зазначив, що «у короткостроковій перспективі ми бачимо дуже суттєве покращення»; керівник досліджень Mark Chen натомість наголосив, що цього разу версія принесла «значущі прориви» у робочих процесах наукових та технічних досліджень.

Обсяг постачання та багаторівнева сегментація версій

GPT-5.5:плюс, pro, business, enterprise користувачі в ChatGPT та Codex можуть використовувати

GPT-5.5 Pro:вища за рівнем версія міркувань, доступна Pro, Business, Enterprise користувачам у ChatGPT

Інтеграція Codex: синхронно доступна для інструментів програмних агентів OpenAI, посилюючи редагування кількох файлів, командний рядок і тестові цикли

Тези щодо кібербезпеки та оборони підвищуються синхронно

Член технічної команди Mia Glaese під час інтерв’ю TechCrunch заявила, що можливості GPT-5.5 у сфері кібербезпеки матимуть «істотний вплив на те, як OpenAI впроваджує моделі» та «спрямовує ресурси на цифровий оборонний захист». Цей меседж прямо перегукується з недавніми суперечками навколо Claude Mythos — «зброєподібної» моделі кібербезпеки в Anthropic. Раніше Altman у програмі《Core Memory》критикував «стратегію страхового маркетингу» Anthropic. На GPT-5.5 OpenAI більше акцентує на тезі «і напад, і оборона, і можна розгортати», прагнучи чіткіше відмежуватися від позиції Anthropic щодо обмеження доступу.

Зміни цінової стратегії

Ціна GPT-5.5 за кожен мільйон token подвоюється до 5 доларів за вхід і 30 доларів за вихід — це перше покоління в серії GPT-5, де одинична ціна суттєво зростає. Пояснення OpenAI таке: завдяки підвищеній ефективності в обчисленнях можна скоротити приблизно на 40% використання токенів на виході, тож типові рахунки за фактом приблизно на 20% вищі, ніж у GPT-5.4, а не просто в 2 рази. Для підприємств це зумовлює зміну міркування з «чи вигідна одинична ціна» на «у межах одного prompt: чи може GPT-5.5 виконувати більш складні завдання за меншої загальної кількості token».

Сигнали для індустрії

GPT-5.5 розширює розрив між OpenAI у Terminal-Bench та внутрішньою оцінкою SWE: ці два бенчмарки тестують агентське виконання командного рядка та фактичні завдання з інженерії програмного забезпечення. Для позитивного протистояння Codex і Claude Code це є більш прямим полем битви за результативність. Додавши синхронне відкриття контекстного вікна на 1,200 万 tokens, OpenAI одночасно посилює тиск на дві «стежки» — «повне опрацювання корпоративної бази знань» і «агентське виконання довгих завдань». Для Anthropic Claude Opus 4.7 відстає на 3 бали від лідера: 57 балів у AA індексі проти 60; а для користувачів Claude Code це дає додаткову причину спостерігати за прогресом наступного покоління (Opus 4.8 або нове покоління Claude).

Ця стаття, у якій OpenAI представляє GPT-5.5: 12M контекст, лідерство в AA індексі, Terminal-Bench 82.7% — переписано за агентським бенчмарком, вперше з’явилася на 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Worxphere перейменовує JobKorea, додаючи інструменти для найму на базі ШІ

Повідомлення Gate News, 26 квітня — Платформа з управління персоналом у Південній Кореї Worxphere перейменувала JobKorea, переходячи від традиційних онлайн-дошок вакансій до рішень для найму, керованих ШІ. Компанія об’єднує сервіси, зокрема JobKorea та Albamon, в єдину платформу, що охоплює постійну зайнятість, гіг-роботу та рекрутинг іноземних працівників.

GateNews6год тому

AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI

Моллік зазначає, що опубліковані методи та дані дозволяють AI-агентам відтворювати складні дослідження без наявності оригінальних наукових праць і коду; якщо відтворення не відповідає оригінальній статті, то найчастіше проблема не в AI, а в помилках обробки даних у самій статті або в надмірному узагальненні висновків. Claude спочатку відтворює статтю, а потім GPT‑5 Pro перехресно верифікує; у більшості випадків це вдається, лише коли дані надто великі або виникають проблеми з replication data. Ця тенденція значно знижує трудовитрати, роблячи відтворення поширеною, практично здійсненною перевіркою, а також висуває інституційні виклики для рецензування та управління (governance): інструменти державного управління можуть стати ключовим питанням.

ChainNewsAbmedia7год тому

ОАЕ оголошують перехід до моделі AI-держави протягом наступних двох років

Його Високість шейх Мохаммед бін Рашид Аль Мактум заявив, що метою було забезпечити роботу 50% державних секторів через автономний агентний ШІ. Перехід також включатиме навчання федеральних працівників, щоб «опанувати ШІ», і перебуватиме під наглядом шейха Мансура бін Зайєда. Ключові висновки:

Coinpedia04-25 08:39

Платформа для ШІ-торгівлі Fere AI залучила $1,3 млн фінансування під проводом Ethereal Ventures

Повідомлення Gate News, 25 квітня — Fere AI, платформа для торгівлі цифровими активами з підтримкою ШІ, оголосила про завершення раунду фінансування на $1,3 млн під проводом Ethereal Ventures за участі Galaxy Vision Hill та Kosmos Ventures, повідомляє Globenewswire. Платформа підтримує кросчейн

GateNews04-25 07:46

Nvidia розгортає AI-агента OpenAI Codex для всієї команди працівників на інфраструктурі Blackwell

Повідомлення Gate News, 25 квітня — Nvidia розгорнула Codex від OpenAI, AI-агента з підтримкою GPT-5.5, для всієї своєї команди працівників після успішного випробування приблизно з 10,000 співробітників, повідомляють внутрішні матеріали від CEO Дженсена Хуанга та CEO OpenAI Сема Альтмана. Codex розроблено для того, щоб допомагати з

GateNews04-25 03:11

Стартап з розробки коду за допомогою ШІ Cognition веде переговори про фінансування за оцінкою $25B

Повідомлення Gate News, 25 квітня — стартап з розробки коду за допомогою ШІ Cognition перебуває на ранніх переговорах щодо залучення сотень мільйонів доларів або більше за приблизною оцінкою в $25 мільярда, повідомили люди, обізнані з цією справою. Інтерес зріс після придбання SpaceX конкуруючого стартапу з розробки коду за допомогою ШІ. Co

GateNews04-25 02:51
Прокоментувати
0/400
Немає коментарів