Zhiyuan GE-Sim 2.0: Используя World Model для создания мира, конкурент Yushu продвигает человекоподобных роботов к самосовершенствованию

Воплощённый интеллект (Embodied AI) сейчас переживает ключевой переломный момент. В последнее время китайская компания Zhirun Robotics выпустила Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), пытаясь продвинуть World Model (модель мира) из инструмента, просто понимающего среду, в симулятор мира (World Simulator), который может напрямую запускать, обучать и оптимизировать роботов.

Если вы пока не понимаете, насколько это важно, сначала взгляните на фундаментальные недостатки архитектуры LLM: с точки зрения обучения существующие LLM просто предсказывают контекст по большим массивам данных; они могут знать, что эти слова «яблоко упало» часто встречаются вместе, но не понимают причинно-следственные связи гравитации или физического мира по-настоящему.

Именно поэтому такие учёные, как Ян Лекун и Ли Фэй-Лэй, вкладываются в направление World Model: когда у ИИ появятся способности понимать 3D-среду и делать физические прогнозы, эта технология станет цифровым «мозгом» для автономных роботов, беспилотного вождения и интеллектуального производства — так называемого «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня в игру вошли производители гуманоидных роботов в масштабе «роста человека», в лице Zhirun Robotics, что символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель совета директоров TSMC Вэй Чжэцзя говорил: если смотреть на материковый Китай, там постоянно «делают роботов, которые прыгают туда-сюда». Это не имеет смысла — просто красиво. Он указал, что ключ в том, чтобы мозг робота мог работать, и чей это мозг: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% «мозга» производит TSMC. Боттлнек в развитии GE-Sim 2.0 всё ещё сохраняется и тесно связан с развитием моделей в Китае.

В дорожной карте World Model утверждается, что робот — ключ

Нынешние основные LLM опираются на огромные массивы данных и статистические взаимосвязи, чтобы понимать контекст, и предсказывать следующее слово. Она может знать, что слова «яблоко упало» часто встречаются вместе, но не понимает причинно-следственные связи гравитации или физического мира по-настоящему.

Такая схема отлично работает в задачах генерации текста, программной поддержки или вопрос-ответ, но в сценариях, где нужно понимать структуру реального мира, рассуждать о причинно-следственных связях и строить долгосрочные планы, остаются фундаментальные ограничения. Большее же проблема в том, что источники данных постепенно иссякают. Обучение LLM очень зависит от высококачественных человеческих данных, а в последние годы индустрия начала предупреждать, что доступные человеческие текстовые данные могут быть исчерпаны в ближайшие несколько лет. Тогда это будет как при близкородственном скрещивании: наследственные дефекты в конечном итоге приведут к тому, что модель всё больше отдалится от реальности и начнёт деградировать по производительности.

(Глубокий разбор: у LLM есть недостатки? Почему Ян Лекун делает ставку на AMI по направлению World Model)

Вот почему в последние годы два тяжеловеса в научном сообществе ИИ — Ян Лекун и Ли Фэй-Лэй (Fei-Fei Li), которую называют «крёстной матерью ИИ», — выбрали ставку на новое поколение AI-архитектуры, известной как World Model (модель мира).

Тогда автор писал: если посмотреть дальше, после того как у ИИ появятся способности понимать 3D-среду и делать физические предсказания, эта технология станет цифровым мозгом для автономных роботов, беспилотного вождения и интеллектуального производства — «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня, когда производитель гуманоидных роботов Zhirun Robotics выходит на сцену, это символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель TSMC Вэй Чжэцзя, говоря о развитии роботов и полупроводников, прямо заявил: если смотреть на материковый Китай, там роботы «прыгают туда-сюда, подпрыгивают». Это не нужно — просто «витрина». Он указал, что ключ в том, чтобы мозг робота мог работать, а мозг делает: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% мозга производится TSMC.

(Вэй Чжэцзя (TSMC) язвит: китайские роботы прыгают туда-сюда — это просто «витрина», толку нет! Ключ всё равно в Nvidia)

Эволюция World Model: от понимания мира к обучению в мире

В последние несколько лет World Model постоянно рассматривали как ключевую технологию для ИИ, чтобы понимать реальность. За счёт изображений, языка и данных сенсоров модель может предсказывать изменения в среде, давая роботам базовые способности к принятию решений.

Но главной прорывной особенностью GE-Sim 2.0 является то, что это не просто понимание мира: система обучения и действий встроена прямо в «мир, сгенерированный моделью». Переменная для Action (действия) включается в основу, а переход происходит от традиционного прогнозирования состояния к полноценному циклу:

State

Action

State Evolution

Это означает, что робот больше не просто наблюдает и реагирует, а может активно пробовать в симуляционной среде, автономно оптимизировать и постоянно обучаться. Этот сдвиг переводит World Model от «когнитивной модели» к «инфраструктуре для обучения».

GE-Sim 2.0: «эволюция» роботов в виртуальном мире

GE-Sim 2.0 определяется как набор «симуляторов воплощённого мира». Основная цель — решить три ключевых узких места реального обучения: слишком высокая стоимость, недостаток данных и сложность масштабирования. За счёт генерации среды моделью система может массово обучать роботов без зависимости от реального мира.

Технически GE-Sim 2.0 интегрирует три ключевые способности. Во-первых, это «движение-ориентированная генерация видео»: модель может генерировать соответствующие будущие изображения в зависимости от действий робота, сохраняя согласованность по нескольким ракурсам, включая ракурс головы и ракурсы управления левыми и правыми руками.

Во-вторых, это моделирование проприоцепции (proprioception): она не только имитирует внешние видеокадры, но и может предсказывать собственные состояния суставов и действий робота, делая принятие решений ближе к реальному физическому миру.

В-третьих, это «автоматическая оценка задач»: с помощью встроенной reward model (модели вознаграждения) система может автоматически определять, выполнена ли задача. Например, «поместить синий объект в красный ящик», и выдавать обратную связь, которая напрямую используется для обучения с подкреплением. Это позволяет роботу завершать полный замкнутый цикл в симуляционной среде:

GE-Sim 2.0 уже умеет обеспечивать «минутную» стабильную генерацию видео

По сравнению с ранними моделями, которые могли генерировать лишь короткие фрагменты, GE-Sim 2.0 уже может обеспечивать «минутную» стабильную генерацию видео и поддерживать симуляцию задач на протяжении длительного времени. При этом за счёт обучения на масштабных реальных данных (данных дистанционного управления, развертывания и взаимодействия) модель демонстрирует более сильные возможности обобщения между разными сценами и задачами. Это особенно важно для гуманоидных роботов: потому что операции в реальном мире сильно различаются, и нельзя полагаться только на обучение в фиксированных сценах.

Появление World Simulator означает, что роботы могут «бесконечно тренироваться» в виртуальном мире. Это приведёт к двум структурным изменениям: первое — стоимость обучения существенно снизится. Второе — скорость итерации возможностей вырастет на порядки по экспоненте.

Zhirun Robotics: новая сила китайских гуманоидных роботов

Zhirun Robotics была основана в 2023 году Пэн Чжи-хуэй (одним из «гениев» Huawei), который учредил компанию. Она фокусируется на области воплощённого интеллекта, где объединяются AI и робототехника.

Ключевые продукты компании включают:

гуманоидных роботов серии «Юаньчжэн» (远征)

роботизированную систему «Линси» (灵犀)

универсальную крупномасштабную модель GO-1

На данный момент компания завершила несколько раундов финансирования и получила инвестиции от таких организаций, как Sequoia China и Hillhouse Capital, и рассматривается как важный игрок в сфере китайских гуманоидных роботов, образуя конкурентную конфигурацию вместе с компанией Unitree Robotics.

Эта статья Zhirun Robotics GE-Sim 2.0: с помощью World Model генерируют мир, соперник Unitree в лице стремительных гуманоидных роботов продвигает их к самосовершенствованию впервые появилась в Lianxin ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Google: 75% нового кода в Google генерируется ИИ

Google сообщает, что 75% нового кода, создаваемого с помощью ИИ, и что более половины инвестиций в вычисления для машинного обучения нацелены на операции облачного бизнеса. Аннотация: В корпоративном обновлении Google заявляет, что ИИ теперь генерирует около 75% нового кода, а основная часть инвестиций компании в вычисления для машинного обучения будет направлена на облачные бизнес-операции.

GateNews38м назад

Google Cloud запускает чипы TPU8T и TPU8I для приложений искусственного интеллекта

Сообщение Gate News, 22 апреля — Google Cloud запустила новые чипы TPU8T и TPU8I, предназначенные для приложений искусственного интеллекта.

GateNews47м назад

Kimi K2.6 登顶 OpenRouter 编程基准,超越 Claude 与 GPT 系列

Kimi K2.6 登顶 OpenRouter 榜单,超越 Claude、GPT 以及开源竞争对手,表明本土 AI 取得进展,并缩小与全球领先者的差距。 摘要:Kimi.ai 宣布其最新模型 Kimi K2.6 在 OpenRouter 编程能力榜单中排名第一,领先开发者评测。基准测试显示,K2.6 相比 Claude、GPT 系列以及其他开源模型,在各类编程任务上都表现出更优的性能,凸显其在代码生成和开发任务处理方面的提升,并传递出本土 AI 向国际领先水平迈进的信号。

GateNews53м назад

Robinhood Ventures Fund Инвестирует $75M в OpenAI: Розничные инвесторы получают доступ к ИИ-гиганту

Robinhood Ventures Fund I инвестирует $75M в OpenAI, чтобы предоставить розничным инвесторам прямой доступ к долевому участию, добавив Databricks, Revolut и Oura; напряженность с OpenAI, похоже, улажена. Аннотация: В статье сообщается, что частное инвестиционное юрлицо Robinhood, Robinhood Ventures Fund I, обязалось $75 миллионов инвестировать в OpenAI, чтобы предоставить розничным инвесторам прямые доли в капитале ведущей AI-компании, одновременно формируя портфель, включающий Databricks, Revolut и Oura. Этот шаг расширяет доступ к частным технологическим долевым инвестициям и нацелен на экспозицию ключевых игроков в сфере ИИ, таких как OpenAI, Anthropic и xAI, сигнализируя о пути к более активному участию розничных инвесторов в высокорослых AI-инвестициях. Похоже, партнерство разрешает прежние противоречия между Robinhood и OpenAI из-за планов по токенизированному долевому участию в Европе.

GateNews57м назад

На создателей AI16Z и ELIZAOS подали в суд по обвинениям в мошенничестве на $2,6 млрд; падение токена на 99,9% от пика

Федеральный коллективный иск обвиняет AI16Z/ELIZAOS в криптомошенничестве на $2,6 млрд через фальшивые заявления об ИИ и обманный маркетинг, утверждая покровительство инсайдеров и инсценированную автономную систему; требует возмещения ущерба в соответствии с законами о защите прав потребителей. Аннотация: В этом отчете описан поданный 21 апреля в SDNY федеральный коллективный иск, в котором обвиняются AI16Z и его переименование ELIZAOS в криптомошенничестве на $2,6 млрд с использованием фальшивых заявлений об ИИ и обманного маркетинга. В иске утверждается о созданной связке с Andreessen Horowitz и о неавтономной системе. Приводятся данные о пиковой оценке в начале 2025 года, об обвале на 99,9% и примерно о 4 000 убыточных кошельков; при этом инсайдеры получили ~40% новых токенов. Истцы просят возмещения ущерба и справедливой помощи (equitable relief) в соответствии с законами штатов Нью-Йорк и Калифорния о защите потребителей. Регуляторы в Корее и крупные биржи предупреждали или приостанавливали связанную торговлю.

GateNews1ч назад

Tencent и Alibaba обсуждают инвестиции в DeepSeek, оценка превышает $200 миллиардов

Сообщение Gate News, 22 апреля — Tencent и Alibaba ведут переговоры о вложениях в DeepSeek, сообщило The Information. Оценка DeepSeek превышает $200 миллиардов.

GateNews1ч назад
комментарий
0/400
Нет комментариев