Відкрийте SCENE
Google DeepMind представила SIMA 2 в четверг—нового AI-агента, который компания утверждает ведет себя как “супутник” внутри виртуальних світів. З запуском SIMA 2 DeepMind прагне перейти від простих дій на екрані до AI, який може планувати, пояснювати себе і вчитися на досвіді.
“Це важливий крок у напрямку штучного загального інтелекту (AGI), з важливими наслідками для майбутнього робототехніки та втілення ШІ загалом,” – йдеться на сайті компанії.
Перша версія SIMA (Масштабований Інструктивний Мультидослідник), випущена в березні 2024 року, навчилася сотням базових навичок, спостерігаючи за екраном і використовуючи віртуальну клавіатуру та мишу. Нова версія SIMA, як повідомила Google, робить ще один крок уперед, дозволяючи ШІ думати самостійно.
SIMA 2 є нашим найпотужнішим AI агентом для віртуальних 3D світів. 👾🌐
Підтримується Gemini, він виходить за межі простого виконання інструкцій, щоб думати, розуміти та діяти в інтерактивних середовищах - це означає, що ви можете спілкуватися з ним через текст, голос або навіть зображення. Ось як 🧵 pic.twitter.com/DuVWGJXW7W
— Google DeepMind (@GoogleDeepMind) 13 листопада 2025 р.
“SIMA 2 - це наш найбільш здатний AI-агент для віртуальних 3D-світів,” написала Google DeepMind в X. “Запущений на базі Gemini, він виходить за межі простого виконання базових інструкцій, щоб думати, розуміти та діяти в інтерактивних середовищах - це означає, що ви можете спілкуватися з ним через текст, голос або навіть зображення.”
Використовуючи модель штучного інтелекту Gemini, Google заявив, що SIMA може інтерпретувати високі цілі, обговорювати кроки, які вона планує зробити, і співпрацювати в іграх з рівнем міркування, якого оригінальна система не могла досягти.
DeepMind повідомила про покращену узагальненість у віртуальних середовищах, а також про те, що SIMA 2 завершила довші, складніші завдання, які включали логічні запити, ескізи, намальовані на екрані, та емодзі.
“Внаслідок цієї здатності продуктивність SIMA 2 значно ближча до продуктивності людини в широкому спектрі завдань”, - написали в Google, зазначивши, що SIMA 2 має 65% рівень виконання завдань, в той час як SIMA 1 - 31%.
Система також інтерпретувала інструкції та діяла в абсолютно нових 3D-світах, створених Genie 3, ще одним проектом DeepMind, випущеним минулого року, який створює інтерактивні середовища з одного зображення або текстового запиту. SIMA 2 орієнтувалася, усвідомлювала цілі та вживала значущих дій у світах, з якими вона ніколи не стикалася до моментів перед тестуванням.
“SIMA 2 тепер значно краще виконує детальні інструкції, навіть у світах, яких вона ніколи раніше не бачила,” написав Google. “Вона може переносити усвідомлені концепції, такі як 'видобуток' в одній грі та застосовувати їх до 'збирання' в іншій—пов'язуючи точки між схожими завданнями.”
Після навчання на основі демонстрацій людей, дослідники повідомили, що агент перейшов до самостійної гри, використовуючи метод спроб і помилок та зворотний зв'язок, згенерований Gemini, для створення нових даних досвіду, включаючи навчальне коло, в якому SIMA 2 генерував завдання, намагався їх виконати, а потім передавав свої дані траєкторії назад у наступну версію моделі.
Хоча Google вважає SIMA 2 кроком уперед для штучного інтелекту, дослідження також визначило прогалини, які ще потрібно вирішити, зокрема, труднощі з дуже довгими, багатоступеневими завданнями, робота в межах обмеженого вікна пам'яті та проблеми з візуальною інтерпретацією, характерні для 3D-систем штучного інтелекту.
Навіть так, DeepMind заявила, що платформа слугувала випробувальним майданчиком для навичок, які в кінцевому рахунку можуть перейти в робототехніку та навігацію.
“Наше дослідження SIMA 2 пропонує сильний шлях до застосувань у робототехніці та ще один крок до AGI у реальному світі,” йдеться в повідомленні.