GPT-5.4 Pro піднімається до 150 IQ на тесті MESNA Norway, встановлюючи новий рекорд OpenAI

Зробіть CryptoSlate бажаним на

Найновіша модель OpenAI GPT-5.4 Pro тепер досягла IQ-оцінки вищої, ніж у 99,96% усіх людей, що дає ринкам свіжий сигнал: приріст можливостей ШІ починає випереджати звичний “шум” звичайного продуктового циклу.

OpenAI’s GPT-5.4 Pro touches 150 on public IQ benchmark as markets enter another macro-heavy week

Оціночний рейтинг TrackingAI тепер ставить OpenAI GPT-5.4 Pro у 150 балів IQ, що є різким кроком уперед від результату 136, який OpenAI’s o3 показав на тесті Mensa Norway минулого року.

Цей стрибок відбувається в момент, коли увага ринку звузилася до Ірану, енергетики, м’якості на ринку праці та наступного релізу інфляції. Це створює інше питання на найближчий тиждень: як швидко нарощується машинний інтелект, і коли це прискорення почне перетинатися з економічним позиціонуванням?

Чому це важливо: Перехід з 136 до 150 за широко зрозумілим бенчмарком стискає складний зсув можливостей у простий сигнал. Для бізнесів цей сигнал безпосередньо впливає на рішення щодо автоматизації, бюджетів на софт і планування чисельності персоналу. Для ринків це додає ще одну змінну поряд із ставками, інфляцією та очікуваннями зростання.

OpenAI представила GPT-5.4 як свою найздатнішу й ефективну модель-фронтир для професійної роботи: вона має сильніше програмування, використання інструментів і роботу з комп’ютером, а контекстне вікно — до 1 мільйона токенів. У тому ж релізі OpenAI заявила, що GPT-5.4 досягла нового стану “state of the art” на GDPval і перевершила людські показники на OSWorld-Verified.

Ці бенчмарки окремі від публічного IQ-тесту, але напрям розвитку узгоджується. Можливості зростають у межах різних систем вимірювання, і це зростання стає достатньо швидким, щоб почати впливати на бюджетування, плани найму, дизайн робочих процесів і витрати на софт.

Оцінка 150 у бенчмарку “у стилі IQ” для публічного використання стискає ширший зсув у можливостях в один портативний сигнал. Число легко зрозуміти навіть до того, як буде обговорено методологію.

Раніший результат o3 з Mensa встановив сам бенчмарк і його межі. Контекстне вікно GPT-4.1 на один мільйон токенів показало, як OpenAI розширювала корисність моделей для довгострокових задач із кодом і документами, тоді як наш аналіз зростання “capital loop” OpenAI пов’язав прогрес моделі з розширенням апаратної бази, інвестиційними/фінансовими циклами та попитом на інфраструктуру.

У сукупності ці розробки поміщають найновішу IQ-оцінку в ширший комерційний і економічний контекст. Перехід з 136 до 150 на публічному бенчмарку сам по собі вражає. Перехід з 136 до 150, поки OpenAI просувається глибше в використання інструментів, роботу з комп’ютером, продуктивність на рівні підприємств і інфраструктуру, що потребує значних капіталовкладень, несе ширші наслідки.

Публічні IQ-бенчмарки обмежені, але крива можливостей усе ще рухається вище

Публічні тести “у стилі IQ” залишаються недосконалими інструментами для вимірювання моделей на рівні “frontier”. TrackingAI проводить публічний бенчмарк у стилі Mensa, а також підтримує складніший приватний офлайн-тест.

Тести “у стилі IQ” стискають вузьку частину когнітивної продуктивності в одне число, приховуючи відмінності між типами міркувань, роботою з контекстом, креативністю та розв’язанням реальних задач.

І для ШІ, і для людей бали чутливі до дизайну тесту, впливу тренувальних даних і знайомості з патернами, що робить таку оцінку шумним проксі для загальних можливостей.

IQ у 150 сидить на крайньому верхньому хвості розподілу й часто асоціюється з такими людьми, як Альберт Ейнштейн або Річард Фейнман. На практиці це означає дуже швидку абстракцію, сильне розпізнавання патернів і здатність орієнтуватися в складних багатокрокових задачах за обмежених підказок.

Платформа показує бали як рухомі середні за останні завершення, а методологія піднімає знайомі питання щодо структури промптів, відтворюваності, “забруднення” тренувальним набором і знайомості з форматом. Ці застереження були вже видимі, коли o3 досяг 136, і вони залишаються актуальними зараз, коли GPT-5.4 Pro стоїть на рівні 150.

Related Reading

OpenAI’s o3 scores 136 on Mensa Norway test, surpassing 98% of human population

Модель OpenAI’s o3 досягає IQ рівня Mensa в незалежному тестуванні.

Apr 17, 2025 · Liam ‘Akiba’ Wright

Навіть із цими обмеженнями, загальніші патерни стало складніше ігнорувати. Один ізольований результат може бути пояснений як примха. Скупчення приростів у публічному тестуванні “у стилі IQ”, у програмуванні, використанні браузера, навігації на робочому столі та продуктивності в задачах, пов’язаних зі знаннями, має більше аналітичної ваги.

Найновіший лідерборд TrackingAI ставить GPT-5.4 Pro на верхівку його публічної IQ-таблиці попереду всіх моделей Cluade, Gemini, Qwen і Grok, пропонуючи зовнішній, читабельний публічний бенчмарк, який швидко “картографується” на ширшу дискусію про можливості.

Мало хто потребує детального розуміння дизайну бенчмарку, щоб збагнути, що 150 — це рідкісний діапазон, і інвесторам не треба приймати кожну передумову тесту “у стилі IQ”, щоб зрозуміти: стрибок такого масштабу радше означає прискорення, ніж дрейф.

Діаграма під назвою “AI IQ Test Results”, що показує середні IQ Mensa Norway для основних моделей ШІ на дзвоноподібній кривій, із варіантами OpenAI’s GPT-5.4, нанесеними біля верхнього краю діапазону.

Покупцям для підприємств також не потрібно вірити, що IQ дорівнює загальному інтелекту, щоб побачити: системи з сильнішим розпізнаванням патернів, сильнішим використанням інструментів і сильнішою обробкою довгострокових задач рухаються в напрямку економічно корисної території — далеко за межі розв’язування головоломок.

Це вказує на системи, які можуть шукати, планувати, верифікувати, навігувати та створювати реальну роботу в розширених контекстах. У такій постановці IQ-оцінка працює менше як “число-новинка” і більше як сигнал про щільність міркувань на рівні frontiers.

У самій таблиці лідерів також є конкурентна цінність. Лідерська позиція в публічному бенчмарку підсилює позицію OpenAI в перегонах за видиме лідерство за можливостями, особливо в момент, коли відмінності моделей стає важче розрізнити лише за примітками про архітектуру.

Лідерство в бенчмарку стискає складність у просту ієрархію. Воно дає розробникам сигнал, корпоративним покупцям “зручну” інтерпретацію історії, а інвесторам ще один проксі того, де зараз знаходиться межа можливостей.

CryptoSlate Daily Brief

Щоденні сигнали, нуль шуму.

Заголовки, що рухають ринки, і контекст — щодня вранці в одному стислому огляді.

5-хвилинний дайджест 100k+ читачів

Електронна адреса

Отримати дайджест

Безкоштовно. Без спаму. Відписатися можна будь-коли.

Ой, схоже, виникла проблема. Спробуйте ще раз.

Ви підписані. Ласкаво просимо.

Зростання бенчмарків OpenAI починає перетинатися з економічним тижнем попереду

Попередній тиждень усе ще проходить через макроекономіку. Календар Бюро статистики праці США (Bureau of Labor Statistics) чітко розкладає наступні ключові релізи: протокол засідання FOMC з 17–18 березня, який вийде 8 квітня; березневий індекс споживчих цін (Consumer Price Index), який вийде 10 квітня; та березневий індекс цін виробників (Producer Price Index), який вийде 14 квітня.

Цей графік тримає ставки, інфляцію та тривогу щодо зростання на передньому плані, але під цією поверхнею формується другий економічний трек, і OpenAI знаходиться неподалік його центру.

Зростання можливостей у frontier AI дедалі частіше перетинається з розподілом капіталу. Модель, яка піднімає результат у публічних тестах міркувань і водночас покращує програмування, пошук та роботу з комп’ютером, змінює те, як бізнеси думають про переробку робочих процесів. Це змінює те, чого покупці софту очікують від copilots і агентів. Це змінює те, як швидко підприємства переходять від експериментів до впровадження.

Недавно Джек Дорсі (Jack Dorsey) опублікував, що Block рухається “від ієрархії до інтелекту”, використовуючи AI, щоб перебрати на себе координаційну роботу, яку раніше виконували управлінські рівні, у процесі реорганізації компанії навколо індивідуальних учасників, безпосередньо відповідальних осіб та player-coaches

Зростання можливостей також змінює, які задачі можна “вийняти” з структур витрат на працю і переназначити на софт. Ці ефекти проходять першими через вужчі канали, зокрема документообіг, роботу з таблицями, підтримку клієнтів, дослідницькі задачі, автоматизацію браузера, внутрішні операції, генерацію коду та цикли верифікації.

Комерційний напрям OpenAI підсилює це прочитання. У матеріалах запуску GPT-5.4 компанія описала сильнішу продуктивність у професійній роботі, сильніший пошук інструментів, нативне використання комп’ютера та прирости в “knowledge work” за бенчмарком у професіях, які безпосередньо відповідають економіці США.

Це розміщує зростання можливостей AI всередині знайомого ринкового питання: куди далі спрямовуватимуться витрати, якщо ці системи й надалі покращуватимуться такими темпами.

Відповідь виходить за межі доходів від підписки на моделі й заходить у попит на хмарні сервіси, чипи, дата-центри, мережі, електроенергію, ліцензії на софт і припущення щодо продуктивності праці. Розширюваний “capital loop” OpenAI уже відображає частину цієї структури, а приріст бенчмарку додає до неї простіший публічний сигнал.

Саме це накладання дає останньому результату ширшу релевантність під час макронасиченого тижня. Ринки вже знають налаштування CPI. Ринки вже знають, що ціни на нафту можуть впливати на очікування щодо інфляції. Ринки вже знають, що протоколи ФРС (Fed minutes) будуть розбирати на предмет політичного тону.

Але чи починає зростання самого інтелекту поводитися як макроперемінна? Швидші прирости можливостей можуть змінити плани витрат підприємств, посилити конкурентний тиск у функціях “білих комірців”, підтримати вищі витрати на інфраструктуру та підсилити аргументи для капітальних витрат, пов’язаних з AI, навіть у середовищі повільнішого номінального зростання.

Коли TrackingAI показує GPT-5.4 Pro на рівні 150, це число потрапляє в ринок, який уже сприймає OpenAI не просто як лабораторію. Це компанія-платформа, компанія для впроваджень, клієнт інфраструктури та генератор сигналів для суміжних секторів.

Наступний тест знаходиться одразу в двох місцях. Одне — методологічне: публічні бенчмарки “у стилі IQ” й надалі притягатимуть критику, і так і має бути. Інше — економічне: ринки вирішать, крок за кроком, чи варто оцінювати стрибки в можливостях такого масштабу разом із даними по праці, очікуваннями щодо ставок і трендами капітальних витрат.

Найновіше підняття бенчмарку OpenAI наближає це рішення. Оцінка компактна, зрозуміла й легко поширювана. Її глибша релевантність походить з того ж місця, що й ширший продуктовий поштовх компанії; фронтир усе ще піднімається, а економічний слід цього підйому стає важче тримати в окремій категорії.

Упомінано в цій статті

OpenAI Anthropic Google X Sam Altman

Опубліковано в

Featured US Technology Culture AI Community

Контекст

Супутнє висвітлення

Змініть категорії, щоб зануритися глибше або отримати ширший контекст.

US Local News      AI Top Category      Press Releases Newswire  

Аналіз

Робочі місця у США “розбивають” прогнози, але прихована слабкість на ринку праці може тримати Bitcoin під тиском

Сильний звіт із вакансіями відсунув зниження ставок далі в майбутнє, але слабші сигнали з ринку праці роблять Bitcoin вразливим до наступного тесту даних.

4 години тому

Аналіз

“Вічні покупці” Bitcoin починають продавати, коли зростає тиск боргу й готівки

Оскільки власники казначейських активів продають, щоб покрити борг і потреби в ліквідності, один із найсильніших інституційних наративів навколо Bitcoin починає тріскатися.

1 день тому

Деривативи на Bitcoin блимають попередженням, коли ринок $46B відтягується від ралі припинення вогню за участі Ірану

Аналіз · 1 день тому

США розблоковують мільярди для банків, та водночас тихо визнають, що ключова помилка SVB так і не зникла

Банківська справа · 1 день тому

Історія про “тиху гавань” для Bitcoin тріскає, коли шок від війни відновлює ризик $10,000, якщо нафта досягне $150 за барель

Аналіз · 2 дні тому

CFTC подає позов проти 3 штатів у спробі переосмислити крипто-ринок прогнозів як федеральні продукти

Регулювання · 2 дні тому

Технології

Ripple просуває більш приватний блокчейн для банків і додає перевірки AI-коду, поки ростуть побоювання, що XRP може відстати в ціні

Ripple прагне революціонізувати інституційний блокчейн, додавши розширені функції конфіденційності та безпеки AI для XRPL.

6 днів тому

Аналіз

Криптові “переможці” від AI — це не AI-коїни, бо агенти починають витрачати автономно

Зростання AI-агентів створює просте питання з величезними наслідками для крипто: як програмне забезпечення платить?

1 тиждень тому

AI reset вже розпочато: звільнення прискорюються, і одна група постраждала найбільше

AI · 3 тижні тому

Чи може крипто захистити нас від дедалі ширшої мережі економічних AI-агентів?

AI · 4 тижні тому

AI наймає більше старших розробників, тихо стираючи робочі місця, які створюють їх

AI · 4 тижні тому

Один із найбільших майнерів Bitcoin у США дивиться на продаж своїх усіх 53,000 BTC

Майнинг · 1 місяць тому

ADI Chain оголошує ADI Predictstreet як партнера ринку прогнозів FIFA World Cup 2026

Підтримуваний ADI Chain, ADI Predictstreet дебютує на найбільшій футбольній сцені як офіційний партнер ринку прогнозів FIFA World Cup 2026.

2 дні тому

Фондова біржа BTCC названа офіційним регіональним партнером національної збірної Аргентини

BTCC співпрацює з Аргентинською федерацією футболу через FIFA World Cup 2026, поєднуючи довготривалу присутність біржі в крипто з однією з найтитулованіших національних команд у футболі.

3 дні тому

Encrypt Is Coming to Solana to Power Encrypted Capital Markets

PR · 5 днів тому

Ika Is Coming to Solana to Power Bridgeless Capital Markets

PR · 5 днів тому

Запуск TxFlow L1 Mainnet започатковує новий етап для багатозастосункового ончейн-фінансування

PR · 5 днів тому

BYDFi відзначає 6-ту річницю місячним святкуванням, створеним для надійності

PR · 5 днів тому

Disclaimer

Мнения наших авторів є виключно їх власними та не відображають думку CryptoSlate. Жодну інформацію, яку ви прочитаєте на CryptoSlate, не слід сприймати як інвестиційну пораду, і CryptoSlate не підтримує жоден проєкт, який може бути згаданий або на який може бути посилання в цій статті. Купівлю та торгівлю криптовалютами слід вважати діяльністю з високим ризиком. Будь ласка, проведіть власну належну перевірку, перш ніж вживати будь-яких дій, пов’язаних із контентом у цій статті. Нарешті, CryptoSlate не несе відповідальності, якщо ви зазнаєте збитків під час торгівлі криптовалютами. Для отримання додаткової інформації див. наші корпоративні застереження.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:0
    0.00%
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$0.1Холдери:0
    0.00%
  • Закріпити