Google Gemini 3 Deep Think Велике оновлення: здатність до логічних висновків перевищує Opus 4.6, GPT-5.2, прагне стати «найбільш дослідницьким AI»

BTC-0,84%

Google випустила значне оновлення Gemini 3 Deep Think, яке у тесті ARC-AGI-2 показало результат 84,6%, суттєво перевищивши Claude Opus 4.6 (68,8%) та GPT-5.2 (52,9%), одночасно досягнувши рівня «легендарного майстра» у Codeforces.
(Попередній огляд: З’явилася модель ChatGPT для навчання: західний закат або нова ера освіти?)
(Додатковий контекст: Google офіційно презентувала «Gemini 3»! Що робить цю модель найрозумнішою у світі?)

Зміст статті

  • Не лише тестування, а й виявлення людських помилок
  • Зміни у ринкових долях
  • Вплив на криптоіндустрію
  • Науковий етап перемоги тільки починається

13-го числа Google оголосила про значне оновлення Gemini 3 Deep Think. У тесті ARC-AGI-2, спеціально розробленому для перевірки здатності моделей логічно мислити без заздалегідь заданих правил, Gemini 3 Deep Think набрав 84,6%.

Для порівняння, Claude Opus 4.6 (у режимі Thinking Max) отримав 68,8%, GPT-5.2 (у режимі Thinking xhigh) — 52,9%, а середня оцінка людських тестувальників становить близько 60%.

Ще більш вражаюче, що на базовій версії ARC-AGI-1 Deep Think показав результат 96%, фактично досягши межі тесту, який раніше вважався одним із найскладніших для штучного інтелекту.

Зараз Deep Think доступний підписникам Google AI Ultra, а API — для раннього доступу підприємствам.

Не лише тестування, а й виявлення людських помилок

Крім результатів, у повідомленні Google згадано один цікавий випадок: Deep Think під час рецензування математичної статті, що пройшла незалежне рецензування, виявив логічну помилку, яку раніше не помітили всі рецензенти. Статтю підтвердили математики з Університету Рутгерса.

Цей випадок важливий тим, що він демонструє здатність моделі працювати не лише у стандартних тестах, а й у реальних наукових сценаріях. Рецензування — це ключовий механізм контролю якості в науці, і якщо AI може стабільно допомагати у цьому процесі, це суттєво прискорить наукові дослідження, перевищуючи будь-які результати тестів.

Deep Think також досягнув рівня золотої медалі на Міжнародній фізичній олімпіаді 2025 року та Міжнародній хімічній олімпіаді, а у рейтингу Elo на Codeforces має 3455 балів, що відповідає рівню «легендарного майстра», і лише кілька людських програмістів у світі досягають такого рівня.

Ще один рекорд — у «останньому іспиті людства» (Humanity’s Last Exam), створеному експертами з різних галузей, щоб ускладнити завдання для AI, Deep Think отримав 48,4% без використання інструментів.

Зміни у ринкових долях

Конкуренція між трьома гігантами AI змінює розподіл ринку. Частка ChatGPT з пікових 87% знизилася до приблизно 68%, тоді як Gemini стрімко зросла з менш ніж 5% до понад 18%, а Claude від Anthropic поступово захоплює корпоративний сегмент.

Унікальна перевага Google — це можливість поширення. Gemini інтегрована у Android, Chrome, Google Workspace та пошукову систему, що дозволяє навіть при рівності можливостей з конкурентами залучати користувачів через канали.

Однак перевага у поширенні — двосічний меч. Якщо досвід користування Gemini буде незадовільним, вона може швидше за будь-який інший продукт втратити довіру користувачів, оскільки вони «пасивно контактують», а не «свідомо обирають». Користувачі OpenAI платять за послуги, тому мають вищу толерантність і лояльність.

Вплив на криптоіндустрію

Кожне оновлення у гонці озброєнь AI підвищує попит на обчислювальні ресурси. Вартість навчання передових моделей зросла з сотень мільйонів доларів у 2024 році до кількох мільярдів у 2026-му. Це безпосередньо впливає на два напрямки.

Перший — трансформація майнерів біткоїна. Коли прибутковість майнінгу знижується (згідно з оцінками JPMorgan, вартість виробництва BTC знизилася до 77 тисяч доларів, тоді як ціна коливається біля 66 тисяч), майнери з великими обчислювальними потужностями швидко переключаються на AI-обчислювальні послуги.

Замість «виходу з ринку» вони «перекваліфікуються», перетворюючись із майнерів біткоїна на постачальників AI-обчислень за контрактами.

Другий — нарратив навколо AI-токенів. Коли Google, OpenAI або Anthropic випускають значущі оновлення, на блокчейні з’являються короткострокові спекуляції навколо AI-активів (децентралізованих протоколів обчислень).

Однак фундаментальні проблеми цих токенів залишаються: децентралізовані обчислення ще далекі від потреб корпоративного рівня для тренування AI. Нарратив може швидко розвиватися, але інфраструктура — ні.

Науковий етап перемоги тільки починається

Оновлення Deep Think повернуло Google у лідери AI-гонки, принаймні у сфері логіки та науки. Але якщо уважно прочитати заяву Google, помітно тонкий зсув у позиціонуванні: тепер вони не акцентують увагу на «найрозумнішому універсальному AI», а знову і знову підкреслюють «створений для науки».

Коли стандарти універсального AI стають все більш насиченими та важко відрізнити один від одного, цінність «мій AI допомагає у наукових дослідженнях» стає переконливішою за «мій AI має найвищі бали у тестах». Якщо Deep Think зможе стабільно підтримувати рецензентів, прискорювати відкриття ліків або знаходити людські прогалини у фізичних моделях, це матиме значення більше за будь-який рейтинг.

Проблема у тому, що перехід від «може набрати високий бал у тесті» до «може надійно допомагати у реальній науці» може бути більш віддаленим, ніж натякає Google, адже тестові завдання мають стандартні відповіді, а наука — ні.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

昨日美国以太坊现货 ETF 净流入 2670 万美元,ETHA 流入 3240 万美元

Gate News 消息,3 月 14 日,据 Farside 监测,昨日(3 月 13 日)美国以太坊现货 ETF 净流入 2670 万美元。具体数据显示:贝莱德 ETHA 净流入 3240 万美元,Bitwise ETHW 净流入 220 万美元,富达 FETH 净流出 790 万美元。

GateNews2год тому

比特币现货 ETF 昨日净流入 1.80 亿美元,贝莱德 IBIT 领涨

3月13日,比特币现货ETF总净流入达1.80亿美元,已连续五天实现净流入。其中贝莱德ETF IBIT单日净流入1.44亿美元,总净流入达到630.66亿美元。富达ETF FBTC单日净流入2324.14万美元,总净流入109.90亿美元。目前,比特币现货ETF总资产净值为918.26亿美元,累计净流入561.36亿美元。

GateNews2год тому

Strategy 公司 STRC 本周交易量创新高,推算对应约 3.9 万枚 BTC 潜在购买规模

加密分析师Ragnar指出,Strategy公司的永续优先股STRC本周创下7.45亿美元的单日交易量,预计可能对应约3.9万枚比特币的购买规模。尽管市场潜力巨大,但当前加密市场结构尚未完全转向牛市,比特币与纳斯达克100指数相关性较高,可能面临市场回调风险。

GateNews4год тому

昨日美国 SOL 现货 ETF 净流入 759.64 万美元,BSOL 贡献全部流入

3月14日消息,SoSoValue数据显示,3月13日美国SOL现货ETF单日净流入759.64万美元,唯一净流入产品为Bitwise Solana Staking ETF,历史总净流入达7.82亿美元。目前SOL现货ETF总资产净值为8.55亿美元。

GateNews4год тому

一周精选丨告别“龙虾”狂欢,回归加密本源,Hyperliquid是本周最热项目

PANews编者按:PANews精选了一周的优质内容,帮助大家利用周末时间查漏补缺,点击标题即可阅读。 宏观视角 a16z:致加密创始人,企业不买最好的技术 区块链创始人如何向企业销售?本文揭示企业不买“最好”技术,而选择破坏最小的升级路径。结合真实案例,分享将区块链技术包装成企业可接受方案的关 马斯克最新访谈:AI已进入自我进化循环,人类正从“回路”中消失 马斯克在科技峰会透露,特斯拉擎天柱3人形机器人即将投产,AI已进入自我改进阶段。他预测未来经济将高速增长并转向通缩,商品服务产出远超货币供给,甚至预言“钱不再重要”。 对话Bitwise首席信息官:量子计算与AI威胁被夸大,

PANews4год тому

美股收盘三大指数均下跌,加密概念股 UPXI 涨超 19%

3月14日,美股三大指数收跌,道指跌0.26%,标普500跌0.61%,纳指跌0.93%。加密概念股表现不一,UPXI涨超19.3%。同时,去中心化RWA交易平台msx.com上线数百种RWA代币,包括美股及ETF。

GateNews5год тому
Прокоментувати
0/400
Немає коментарів