Zytron GE-Sim 2.0: gerar o mundo com o World Model, e o rival imbatível Yu Tech impulsiona o robô humanoide para a autoevolução

ChainNewsAbmedia

A Inteligência Incorporada (Embodied AI) está a atravessar uma mudança decisiva. Recentemente, o robô chinês da empresa Zhiren lançou o Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), tentando avançar o World Model (modelo do mundo) de ser uma ferramenta apenas para compreender o ambiente, para um simulador do mundo (World Simulator) em que se possa executar, treinar e otimizar diretamente robôs.

Se ainda não perceberes o quão crítico isto é, vale a pena começar por analisar as fragilidades da arquitetura LLM: do ponto de vista do treino, os LLM existentes apenas predizem o contexto com base em enormes conjuntos de dados textuais; conseguem saber que palavras como “maçã cai” tendem a aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

É por isso que cientistas como Yang LeCun, Li Fei-Fei e outros se têm dedicado ao setor do World Model: quando a IA passa a ter capacidade de compreender ambientes 3D e de prever a física, esta tecnologia tornar-se-á o “cérebro digital” para robôs autónomos, condução autónoma e fabrico inteligente — ou seja, o “AI físico” (Physical AI). Assim, a linha do World Model defende que robôs serão o veículo absolutamente crucial. Hoje, a entrada do fabricante de robôs humanoides Unitree Robot simboliza o avanço pioneiro da China numa “inversão” vinda do hardware.

Anteriormente, o presidente da TSMC, Wei Zhejia, tinha afirmado: “Se olhares para a China continental a brincar com robôs, a saltar para cá e para lá, a dar saltos e pulos. Isso não serve para nada, é só bonito para ver.” Ele apontou que o essencial é fazer com que o “cérebro” do robô funcione; quem o faz são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas, mas 95% dos cérebros são fabricados pela TSMC. O gargalo de desenvolvimento do GE-Sim 2.0 ainda está em aberto, fortemente associado ao desenvolvimento de modelos na China.

A linha do World Model defende que robôs são fundamentais

Os LLMs dominantes atualmente dependem de enormes conjuntos de dados e de relações estatísticas para compreender o contexto e prever a próxima palavra. Podem saber que as palavras “maçã cai” costumam aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

Este tipo de padrão tem um desempenho excelente em geração de texto, assistência à programação ou tarefas de perguntas e respostas, mas ainda existem limitações fundamentais em cenários que exigem compreender a estrutura do mundo real, raciocinar relações causais e fazer planeamento de longo prazo. O problema ainda maior é que as fontes de dados estão gradualmente a esgotar-se. O treino dos LLMs depende fortemente de dados humanos de alta qualidade, e nos últimos anos a indústria tem começado a alertar que os dados textuais humanos utilizáveis poderão esgotar-se nos próximos anos. Tal como em reprodução entre parentes próximos que pode herdar defeitos, acabando por fazer o modelo se desviar gradualmente da realidade e ocorrer uma degradação do desempenho.

(Análise aprofundada: há falhas nos LLM? Por que Yang LeCun aposta na rota do World Model com a AMI)

É também por isso que, nos últimos anos, duas figuras de peso na comunidade de IA — Yang LeCun e Fei-Fei Li, conhecida como “a madrinha da IA” — escolheram apostar na nova geração de arquitetura de IA conhecida como World Model (modelo do mundo).

Na altura, o autor deste artigo referiu: “Vendo mais além, quando a IA tiver capacidade de compreender ambientes 3D e prever a física, esta tecnologia será o cérebro digital para robôs autónomos, condução autónoma e fabrico inteligente, ou seja, o ‘AI físico’ (Physical AI). Por conseguinte, a rota do World Model defende que robôs serão o veículo extremamente crucial. Hoje, quando fabricantes de robôs humanoides entram em cena — com a Zhiren Robot — isso simboliza o pioneirismo da China na inversão pelo hardware.”

Anteriormente, o presidente da TSMC, Wei Zhejia, ao falar sobre o desenvolvimento de robôs e semicondutores, foi direto: “Se olhares para a China continental a andar sempre a fazer robôs a saltar para cá e para lá, a dar pulos e a fazer coisas. Isso não serve, é só para parecer bonito.” Ele indicou que a chave é permitir que o “cérebro” do robô funcione; quanto a quem o faz, são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas — mas 95% dos cérebros são fabricados pela TSMC.

(Wei Zhejia da TSMC ironiza: robôs chineses a saltar e a pular — é só bonito, não serve para nada! A chave continua a vir da Nvidia)

Evolução do World Model: de compreender o mundo a aprender dentro do mundo

Nos últimos anos, o World Model tem sido visto como uma tecnologia-chave para a IA compreender a realidade. Através de imagens, linguagem e dados de sensores, o modelo consegue prever mudanças no ambiente, dotando os robôs de capacidades básicas de tomada de decisão.

Mas a principal inovação do GE-Sim 2.0 está em não ser apenas compreender o mundo; é fazer com que sistemas de aprendizagem e ação se incorporem diretamente no “mundo gerado pelo modelo”. A ação (Action) é integrada como uma variável central, passando da previsão do estado tradicional para um ciclo completo:

State

Action

State Evolution

Isto significa que o robô deixa de ser apenas um observador e respondente, passando a poder fazer tentativas ativas no ambiente simulado, otimizar de forma autónoma e aprender continuamente. Esta mudança faz com que o World Model evolua de “modelo de cognição” para “infraestrutura de treino”.

GE-Sim 2.0: fazer os robôs “evoluir” em mundos virtuais

O GE-Sim 2.0 é definido como um conjunto de “simuladores de mundo incorporado”, tendo como objetivo central resolver três grandes gargalos do treino na realidade: custos demasiado altos, falta de dados e dificuldade em escalar. Ao gerar ambientes com modelos, o sistema pode treinar robôs em grande escala sem depender do mundo real.

Em termos técnicos, o GE-Sim 2.0 integra três capacidades-chave. Em primeiro lugar, “geração de imagens orientada por ações”: o modelo consegue gerar os futuros quadros correspondentes com base nas ações do robô, mantendo consistência entre múltiplas perspetivas, incluindo a perspetiva da cabeça e as perspetivas da operação com a mão esquerda e a mão direita.

Em segundo lugar, a modelação de proprioceção (proprioception): não só simula imagens externas, como também consegue prever as juntas e estados de movimento do próprio robô, tornando a decisão mais próxima do mundo físico real.

Em terceiro lugar, “avaliação automática de tarefas”: através de um reward model (modelo de recompensa) embutido, o sistema consegue determinar automaticamente se a tarefa foi concluída — por exemplo, “colocar o objeto azul dentro da caixa vermelha” — e fornecer feedback, que é diretamente usado para reforço de aprendizagem. Isto permite que o robô complete um ciclo fechado no ambiente simulado:

O GE-Sim 2.0 já consegue gerar vídeo de forma estável em “nível de minutos”

Em comparação com modelos anteriores que apenas conseguiam gerar segmentos de curta duração, o GE-Sim 2.0 já consegue gerar vídeos estáveis em “nível de minutos”, suportando simulações de tarefas durante longos períodos. Ao mesmo tempo, através de treino com dados reais em grande escala (dados de operação remota, deployment e interação), o modelo adquire uma capacidade de generalização mais forte entre diferentes cenários e tarefas. Isto é especialmente crucial para robôs humanoides: porque a operação no mundo real é altamente variável e não é possível confiar apenas em treino com cenários fixos.

O aparecimento do World Simulator significa que os robôs podem “treinar sem limites” no mundo virtual; isso trará duas mudanças estruturais: primeiro, os custos de treino diminuem drasticamente. Segundo, a velocidade da iteração de capacidades aumenta a um ritmo exponencial.

Zhiren Robot: nova força no setor de robôs humanoides da China

A Zhiren Robot foi fundada em 2023 por Peng Zhihui, o “talento jovem” da Huawei, e foca-se na área de inteligência incorporada que combina IA e robótica.

Os principais produtos da empresa incluem:

robôs humanoides da série “Yuan Zheng”

sistema de robôs “Ling Xi”

grande modelo geral GO-1

Neste momento, já concluiu várias rondas de financiamento e recebeu investimento de instituições como Sequoia China e Hillhouse Capital, sendo considerada uma das participantes importantes no setor de robôs humanoides na China, num quadro concorrencial com a Unitree Technology.

Este artigo Zhiren GE-Sim 2.0: usar o World Model para gerar mundos, o adversário da Unitree empurra robôs humanoides para a autoevolução apareceu pela primeira vez em Lianxin ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A Anthropic Identifica Três Mudanças na Camada de Produto Por Trás da Queda de Qualidade do Claude Code, e Não um Problema de Modelo

Mensagem do Gate News, 23 de abril — A equipe de engenharia da Anthropic confirmou que a degradação da qualidade do Claude Code relatada pelos usuários no último mês se deveu a três mudanças independentes na camada de produto, e não a problemas de API ou do modelo subjacente. Os três problemas foram corrigidos em 7 de abril, 10 de abril e A

GateNews1m atrás

A NEC Corporation se tornará o primeiro parceiro global da Anthropic no Japão

A NEC anuncia se tornar o primeiro parceiro global da Anthropic no Japão, e ambas as partes desenvolverão soluções de IA seguras e altamente especializadas em conhecimento do setor para indústrias altamente regulamentadas, como finanças, manufatura e governos locais, além de integrar a série Claude ao NEC BluStellar, com foco em transformação de gerenciamento orientada por dados e experiência do cliente. Ao mesmo tempo, introduzem o Claude Cowork e a integração com SOC para aprimorar a proteção de segurança cibernética. Para validar a eficácia, a NEC inicia o Zero Client Program para testar internamente, de forma abrangente, agentes de IA, e planeja promover a implantação do Claude globalmente, estabelecendo o maior CoE (Centro de Excelência) em engenharia nativa de IA do Japão.

ChainNewsAbmedia2h atrás

Brecha de Segurança da Vercel se Expande para Centenas de Usuários; Desenvolvedores de IA em Maior Risco

Mensagem do Gate News, 23 de abril — A Vercel revelou em 19 de abril que seu incidente de segurança, inicialmente descrito como afetando um "subconjunto limitado de clientes", se expandiu para uma comunidade de desenvolvedores muito mais ampla, especialmente aqueles que estão construindo fluxos de trabalho de agentes de IA. O ataque pode afetar centenas de usuários

GateNews3h atrás

OpenAI lança GPT-5.5: contexto de 12M, índice AA em primeiro lugar, Terminal-Bench 82,7% reescreve o benchmark de agentes

A OpenAI anunciou o GPT-5.5, com foco em trabalho orientado por agentes e processamento de conhecimento empresarial, e também lançou em sincronia no ChatGPT e no Codex. Os principais pontos incluem uma janela de contexto de 1200 milhões de tokens, AA Intelligence Index 60, superando o Claude Opus em 4,7 e o Gemini 3,1 Pro; os preços são de 5 dólares por 1 milhão de tokens de entrada e 30 dólares por 1 milhão de tokens de saída, com redução de tokens de saída de aproximadamente 40%, e custo real aumentando aproximadamente 20%.

ChainNewsAbmedia4h atrás

Cluster Protocol Capta $5M para Acelerar o CodeXero, IDE de IA Nativa do Navegador para EVM

Mensagem do Gate News, 23 de abril — O Cluster Protocol, uma empresa de infraestrutura Web3 e deeptech em IA, anunciou que captou $5 milhões em uma nova rodada de financiamento liderada pela DAO5, com participação da Paper Ventures, JPEG Trading e Mapleblock Capital, elevando o financiamento total para US$ 7,75 milhões. O capital wi

GateNews4h atrás

Nvidia Expande Parcerias de IA no Reino Unido, China e Setor Automotivo Diante de Desafios na Cadeia de Suprimentos

Mensagem do Gate News, 23 de abril — Apesar da concorrência do Google e das interrupções na cadeia de suprimentos, a Nvidia continua sendo a principal empresa no setor de hardware de IA. A TD Cowen reafirmou sua recomendação de compra para a Nvidia na quinta-feira, citando a liderança da empresa em desempenho e a amplitude do ecossistema de software. A recomendação

GateNews4h atrás
Comentário
0/400
Sem comentários