Google выпускает Gemini Robotics ER 1.6: SOTA-модель для роботов, отличающуюся визуальным и пространственным рассуждением

Google DeepMind представила совершенно новую базовую модель для роботов Gemini Robotics ER 1.6, где ER означает Embodied Reasoning (воплощённое рассуждение). Эта модель достигла текущего наилучшего уровня (SOTA) в задачах визуального и пространственного рассуждения и уже доступна через Gemini API. Руководитель по работе с разработчиками в Google AI Логан Килпатрик (Logan Kilpatrick) сообщил об этом в социальных сетях. (Источник)

Что такое Embodied Reasoning?

Embodied Reasoning — это способность ИИ понимать и рассуждать о физическом мире. В отличие от традиционных языковых моделей, воплощённые модели рассуждения должны обрабатывать положения, формы, материалы и физические связи взаимодействия объектов в трёхмерном пространстве. Gemini Robotics ER 1.6 специально оптимизирована для таких задач, чтобы робот мог точнее понимать окружающую среду и принимать решения о соответствующих действиях.

Ключевые возможности

Основные преимущества Gemini Robotics ER 1.6 сосредоточены в двух направлениях:

Возможность Описание Визуальное рассуждение Способность распознавать объекты по изображениям и видео, понимать структуру сцены и на их основе принимать решения Пространственное рассуждение Понимание относительного положения, расстояния и направления объектов в трёхмерном пространстве, поддержка сложного планирования операций

Сочетание этих двух возможностей позволяет роботам справляться с более сложными задачами в реальном мире. Например, в складской среде роботу нужно одновременно распознавать предметы разных форм и рассчитывать оптимальный угол захвата и место размещения — именно в таких сценах Gemini Robotics ER 1.6 особенно сильна.

Использование через Gemini API

В отличие от многих прошлых робототехнических моделей, которые оставались лишь на уровне научных работ, Gemini Robotics ER 1.6 уже предоставляет доступ через Gemini API. Это означает, что разработчики и производители оборудования могут напрямую интегрировать эту модель в свои собственные роботизированные системы, не обучая модель с нуля.

Открытие API также снижает порог разработки робототехнического ИИ. Раньше создание роботизированной системы с возможностями визуального и пространственного рассуждения требовало большого объёма сбора данных и работ по обучению моделей. Теперь разработчики могут сосредоточиться на разработке аппаратного дизайна и сценариев применения, а вычислительные возможности нижнего уровня отдать на обработку Gemini Robotics ER 1.6.

Робототехническая стратегия Google

Gemini Robotics ER 1.6 — это последняя разработка Google DeepMind в сфере робототехники. От ранних RT-2 до нынешней серии Gemini Robotics Google продолжает расширять возможности больших языковых моделей на взаимодействие с физическим миром. Версия ER 1.6 на основе предшественников ещё больше улучшает точность рассуждений, особенно демонстрируя более высокие результаты в сценариях, где требуется точная работа.

По мере того как робототехническая индустрия входит в новый этап роста, базовые модели с мощными возможностями визуального и пространственного рассуждения станут ключевой инфраструктурой. Чтобы узнать больше о развитии экосистемы Gemini, можно обратиться к полному руководству Gemini.

Эта статья Google представила Gemini Robotics ER 1.6: SOTA-модель роботов, сильна в визуальном и пространственном рассуждении впервые появилась на ABMedia News Network.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Microsoft представляет инфраструктуру для торговли с ИИ-агентами: маркетплейс для издателей, протоколы для продавцов и инструменты для рекламы

Сообщение Gate News, 22 апреля — вице-президент Microsoft по монетизации ИИ Тим Фрэнк объявил о комплексе обновлений коммерческой инфраструктуры, рассчитанных на эпоху «агентского веба», чтобы издатели, продавцы и рекламодатели оставались обнаруживаемыми и доступными для торговли, пока ИИ-агенты принимают решения о покупке от имени пользователей на

GateNews46м назад

NeoCognition привлекает $40M в посевном финансировании для ИИ-агентов обучения на рабочем месте

Сообщение Gate News, 22 апреля — AI-исследовательская лаборатория NeoCognition объявила о завершении посевного раунда на $40 миллионов долларов, выйдя из режима скрытности. Основанная доцентом Университета штата Огайо Ю Су вместе с Сян Дэн и Ю Гу, компания базируется в Пало-Альто, штат Калифорния. Раунд w

GateNews1ч назад

Виталик: Решения по постквантовой криптографии уже зрелые; Ethereum нацелен на защиту и от квантовых, и от ИИ-угроз

Сообщение Gate News, 22 апреля — Виталик Бутерин заявил в диалоге с Сяо Фэном, что зрелые решения постквантовой криптографии уже существуют, и выразил предпочтение алгоритму GeoHash. Он отметил, что видение Ethereum выходит за рамки простого превращения в постквантовую сеть — сеть также

GateNews1ч назад

Сэм Альтман подробно рассказывает о провалившихся переговорах с Илоном Маском по контролю над OpenAI; иск назначен на 27 апреля

Альтман в Core Memory вспоминает провал переговоров по управлению OpenAI с Илоном Маском: этапы уступок на пути к модели ради прибыли, требования Маска о контрольном пакете и контроле над должностью CEO, Альтман выступает против абсолютной власти — на горизонте судебный процесс. Аннотация: Сэм Альтман подробно рассказывает на Core Memory о провалившихся переговорах с Илоном Маском по управлению OpenAI, описывая шаги к модели ради прибыли, требования Маска о контрольном пакете и полномочиях CEO, а также отказ Альтмана от абсолютного контроля; на горизонте судебный иск: слушание назначено на 27 апреля.

GateNews1ч назад

GPT-5.4 Pro от OpenAI решает новую задачу Эрдёша; Брокман поддразнивает улучшения модели для письма

Брокман ссылается на то, что GPT-5.4 Pro решает новую задачу Эрдёша, как доказательство внезапных скачков модели, и OpenAI намекает на персонализированные улучшения письма, одновременно отмечая существующие пробелы в «душе» и готовящуюся модель. Аннотация: В материале сообщаются два раскрытия от OpenAI из Core Memory: достижение GPT-5.4 Pro, решившего задачу Эрдёша, что сигнализирует о быстром росте возможностей с широкими последствиями; и план OpenAI по созданию новой модели, которая будет обеспечивать более персонализированное, «душевное» письмо, отвечая на критику субъективности LLM.

GateNews1ч назад
комментарий
0/400
Нет комментариев