Google DeepMind представила совершенно новую базовую модель для роботов Gemini Robotics ER 1.6, где ER означает Embodied Reasoning (воплощённое рассуждение). Эта модель достигла текущего наилучшего уровня (SOTA) в задачах визуального и пространственного рассуждения и уже доступна через Gemini API. Руководитель по работе с разработчиками в Google AI Логан Килпатрик (Logan Kilpatrick) сообщил об этом в социальных сетях. (Источник)
Что такое Embodied Reasoning?
Embodied Reasoning — это способность ИИ понимать и рассуждать о физическом мире. В отличие от традиционных языковых моделей, воплощённые модели рассуждения должны обрабатывать положения, формы, материалы и физические связи взаимодействия объектов в трёхмерном пространстве. Gemini Robotics ER 1.6 специально оптимизирована для таких задач, чтобы робот мог точнее понимать окружающую среду и принимать решения о соответствующих действиях.
Ключевые возможности
Основные преимущества Gemini Robotics ER 1.6 сосредоточены в двух направлениях:
Возможность Описание Визуальное рассуждение Способность распознавать объекты по изображениям и видео, понимать структуру сцены и на их основе принимать решения Пространственное рассуждение Понимание относительного положения, расстояния и направления объектов в трёхмерном пространстве, поддержка сложного планирования операций
Сочетание этих двух возможностей позволяет роботам справляться с более сложными задачами в реальном мире. Например, в складской среде роботу нужно одновременно распознавать предметы разных форм и рассчитывать оптимальный угол захвата и место размещения — именно в таких сценах Gemini Robotics ER 1.6 особенно сильна.
Использование через Gemini API
В отличие от многих прошлых робототехнических моделей, которые оставались лишь на уровне научных работ, Gemini Robotics ER 1.6 уже предоставляет доступ через Gemini API. Это означает, что разработчики и производители оборудования могут напрямую интегрировать эту модель в свои собственные роботизированные системы, не обучая модель с нуля.
Открытие API также снижает порог разработки робототехнического ИИ. Раньше создание роботизированной системы с возможностями визуального и пространственного рассуждения требовало большого объёма сбора данных и работ по обучению моделей. Теперь разработчики могут сосредоточиться на разработке аппаратного дизайна и сценариев применения, а вычислительные возможности нижнего уровня отдать на обработку Gemini Robotics ER 1.6.
Робототехническая стратегия Google
Gemini Robotics ER 1.6 — это последняя разработка Google DeepMind в сфере робототехники. От ранних RT-2 до нынешней серии Gemini Robotics Google продолжает расширять возможности больших языковых моделей на взаимодействие с физическим миром. Версия ER 1.6 на основе предшественников ещё больше улучшает точность рассуждений, особенно демонстрируя более высокие результаты в сценариях, где требуется точная работа.
По мере того как робототехническая индустрия входит в новый этап роста, базовые модели с мощными возможностями визуального и пространственного рассуждения станут ключевой инфраструктурой. Чтобы узнать больше о развитии экосистемы Gemini, можно обратиться к полному руководству Gemini.
Эта статья Google представила Gemini Robotics ER 1.6: SOTA-модель роботов, сильна в визуальном и пространственном рассуждении впервые появилась на ABMedia News Network.
Связанные статьи
Microsoft представляет инфраструктуру для торговли с ИИ-агентами: маркетплейс для издателей, протоколы для продавцов и инструменты для рекламы
NeoCognition привлекает $40M в посевном финансировании для ИИ-агентов обучения на рабочем месте
Виталик: Решения по постквантовой криптографии уже зрелые; Ethereum нацелен на защиту и от квантовых, и от ИИ-угроз
Сэм Альтман подробно рассказывает о провалившихся переговорах с Илоном Маском по контролю над OpenAI; иск назначен на 27 апреля
GPT-5.4 Pro от OpenAI решает новую задачу Эрдёша; Брокман поддразнивает улучшения модели для письма