A capacidade dos grandes modelos de IA já superou a de pessoas em alguns aspectos, como programação e matemática. Fontes dizem que, internamente na Anthropic, quase atingiram 100% de programação por IA, e o Gemini Deep Think do Google resolveu 5 das 6 questões no IMO 2025, atingindo nível de medalha de ouro.

Porém, em raciocínio visual, mesmo o Gemini 3 Pro, que está à frente, só alcançou o nível de uma criança de 3 anos na prova de raciocínio visual básica BabyVision.

Por que os grandes modelos são fortes em programação e matemática, mas fracos em raciocínio visual? Isso ocorre porque seu “modo de pensar” apresenta limitações. Os modelos de linguagem visual (VLM) precisam primeiro transformar entradas visuais em linguagem, para depois fazer raciocínio baseado em texto, mas muitas tarefas visuais não podem ser descritas com precisão por palavras, o que prejudica sua capacidade de raciocínio visual.

Andrew Dai, que trabalhou na Google DeepMind por 14 anos, juntou-se ao especialista em IA da Apple, Yinfei Yang, e fundou a Elorian AI. O objetivo deles é elevar a capacidade de raciocínio visual do modelo de “nível infantil” para “nível adulto”, e fazer com que o modelo tenha a verdadeira capacidade de pensar nativamente no “espaço visual”, impactando a AGI no mundo físico.

A Elorian AI recebeu US$ 55 milhões em financiamento inicial, liderado por Striker Venture Partners, Menlo Ventures e Altimeter, com participação de 49 Palms e de top cientistas de IA, incluindo Jeff Dean.

Pioneiros em modelos multimodais, querem dotar modelos visuais de raciocínio

Andrew Dai, de origem chinesa, formado em Ciência da Computação em Cambridge e com doutorado em Aprendizado de Máquina em Edimburgo, fez estágio na Google durante o doutorado. Em 2012, entrou na Google, onde ficou 14 anos até fundar sua própria empresa.

Fonte: LinkedIn de Andrew Dai

Pouco depois de entrar na Google, co-escreveu com Quoc V. Le o primeiro artigo sobre pré-treinamento de modelos de linguagem e ajuste supervisionado, “Semi-supervised Sequence Learning”. Essa pesquisa foi fundamental para o nascimento do GPT. Outra contribuição importante dele foi o artigo “Glam: Efficient scaling of language models with mixture-of-experts”, que abriu caminho para a arquitetura MoE, hoje bastante usada.

Fonte: Google

Durante seu tempo na Google, participou de quase todos os treinamentos de grandes modelos, de Plam a Gemini 1.5 e Gemini 2.5. Sob orientação de Jeff Dean, em 2023, passou a liderar a equipe de dados do Gemini (incluindo dados sintéticos), que posteriormente cresceu para centenas de pessoas.

Fonte: LinkedIn de Yinfei Yang

Ao lado de Dai, fundou a Yinfei Yang, que trabalhou na Google Research por quatro anos, focada em representação multimodal, e depois entrou na Apple, liderando o desenvolvimento de modelos multimodais.

Fonte: arXiv

Seu trabalho de destaque, “Scaling up visual and vision-language representation learning with noisy text supervision”, impulsionou o avanço na aprendizagem multimodal.

Os cofundadores da Elorian AI também incluem Seth Neel, ex-assistente de ensino na Harvard e especialista em dados e IA.

Por que discutir as publicações pioneiras desses cofundadores? Porque eles não buscam apenas otimizações técnicas, mas uma mudança de paradigma na arquitetura fundamental, elevando a IA de compreensão inteligente baseada em texto para compreensão inteligente baseada em visão.

Hoje, embora os modelos de IA tenham bom desempenho em tarefas baseadas em texto, até os mais avançados modelos multimodais ainda tropeçam na tarefa de (Visual grounding), que é fundamental para alinhamento visual.

Por exemplo, como encaixar uma peça perfeitamente em uma máquina, para que funcione com maior precisão e eficiência? Essas tarefas espaciais físicas são simples para uma criança, mas muito difíceis para os atuais grandes modelos multimodais.

Ainda é preciso buscar pistas na biologia. No cérebro humano, a visão é a base de muitos processos cognitivos. Nossa capacidade de raciocínio espacial e visual é muito mais antiga do que o raciocínio lógico por linguagem.

Por exemplo, ensinar alguém a passar por um labirinto usando palavras é confuso; desenhar um esboço, sim, faz a pessoa entender instantaneamente.

Ou, mesmo uma ave, que não usa linguagem, consegue reconhecer características geográficas e raciocinar para migrar globalmente. Isso é um forte sinal de que, para avançar na capacidade de raciocínio das máquinas, a visão provavelmente é o caminho evolutivo correto.

Imagine, então, se desde a construção do modelo, tentássemos incorporar esse instinto visual biológico ao DNA da IA, criando um modelo multimodal nativo capaz de “entender e processar simultaneamente texto, imagens, vídeos e áudio”. Assim, a IA teria a capacidade de compreender visualmente o mundo. Dai e sua equipe querem criar um “sinestésico nato”, que ensine a máquina não só a “ver” o mundo, mas a “entender” o que vê.

Para Dai e sua equipe, compreender profundamente o “mundo físico” é a chave para a próxima geração de inteligência de máquina, e para alcançar a “IA visual geral (Visual AGI)”.

VLM com raciocínio posterior não é o caminho certo para raciocínio visual

Já houve equipes tentando essa abordagem. Dai, na equipe Gemini, liderou uma das mais avançadas no campo multimodal globalmente. Mas os modelos multimodais tradicionais ainda são baseados em VLM (modelos de linguagem visual), que funcionam em duas etapas: primeiro convertem a entrada visual em linguagem, depois fazem raciocínio baseado em texto (às vezes usando ferramentas externas).

Porém, o raciocínio posterior tem limitações. Pode gerar alucinações do modelo e muitas tarefas visuais não podem ser descritas com precisão por palavras.

Além disso, modelos como NanoBanana, que geram imagens, têm grande capacidade de geração, mas geração não equivale a raciocínio. Antes de gerar, eles dependem de um “pensamento” baseado em linguagem, não de raciocínio nativo.

Para criar modelos que realmente compreendam a complexidade espacial, estrutural e relacional do mundo visual, é preciso uma inovação disruptiva na tecnologia de base.

Como fazer isso? Os fundadores da Elorian AI, com anos de experiência em multimodalidade, propõem: integrar profundamente o treinamento multimodal com uma arquitetura totalmente nova, projetada especificamente para raciocínio multimodal. Abandonam a visão tradicional de tratar imagens como entradas estáticas, treinando o modelo para interagir e manipular representações visuais (Visual representations), para analisar suas estruturas, relações e restrições físicas de forma autônoma.

Outro elemento fundamental é o dado. A qualidade, a mistura, a origem e a diversidade dos dados são decisivos para o desempenho do modelo.

Dai afirma que eles valorizam muito a qualidade dos dados, a proporção de diferentes fontes e a diversidade, além de inovar na coleta de dados, reconstruindo o raciocínio no espaço visual e usando em larga escala dados sintéticos.

Esses esforços, combinados, devem gerar um sistema de IA capaz de ir além da “percepção” visual simples, evoluindo para “raciocínio” visual avançado.

Esse sistema pode ser um modelo de raciocínio visual fundamental: uma base altamente geral, com desempenho excepcional em capacidades específicas, como raciocínio visual.

Como um modelo base universal, suas aplicações devem ser amplas.

Na robótica, pode servir como núcleo neural para sistemas autônomos em ambientes desconhecidos.

Por exemplo, um robô enviado para lidar com uma falha de segurança emergencial em um ambiente perigoso. Ele precisa tomar decisões rápidas e precisas. Sem um modelo de raciocínio profundo, não se arriscaria a operar comandos aleatórios. Com forte raciocínio, poderia pensar: “Antes de operar este painel, talvez devesse puxar esta alavanca para ativar o mecanismo de segurança.”

Na gestão de desastres, modelos com raciocínio visual podem analisar imagens de satélite para monitorar e prevenir incêndios florestais; na engenharia, entender desenhos complexos e esquemas de sistemas. Essas habilidades são essenciais porque as leis de funcionamento do mundo físico diferem fundamentalmente do mundo do código. Não dá para projetar uma asa de avião apenas escrevendo algumas linhas de código.

Porém, atualmente, os modelos e capacidades da Elorian AI ainda estão na fase conceitual. Planejam lançar, em 2026, um modelo de ponta em raciocínio visual, para testar se suas promessas se confirmam.

Quando a IA realmente adquirir “raciocínio visual”, como ela mudará o mundo físico?

Para que a IA compreenda e influencie o mundo real, a tecnologia evoluiu várias vezes.

Desde o reconhecimento de imagens na era tradicional de CV, até os modelos generativos de imagens e multimodais, e agora os modelos de mundo, a compreensão do mundo físico só aumenta.

E o modelo de raciocínio visual provavelmente avançará ainda mais, pois, ao fazer raciocínio visual, a IA pode entender o mundo físico de forma mais profunda, levando a um nível superior de inteligência de máquina.

Imagine um modelo com compreensão profunda e capacidade de operação refinada, alimentando setores como robótica e hardware de IA — expandindo suas aplicações em manufatura confiável, saúde, assistência pessoal, etc.

Porém, tudo começa com os dados. Dai reforça que a qualidade, a mistura, a origem e a diversidade dos dados determinam o desempenho do modelo.

Na área de IA física, empresas chinesas, tanto em modelos quanto em dados, estão mais próximas do topo mundial do que os modelos de texto. Se conseguirem usar dados e cenários mais diversos para acelerar a evolução, terão chances de liderar em inteligência incorporada, hardware de IA, industrial, saúde e domicílio, podendo até criar empresas de nível mundial.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
Gate13thAnniversaryLive
1.23M Popularidade
#
WCTCTradingChallengeShare8MUSDT
799.83K Popularidade
#
BitcoinBouncesBack
216.14K Popularidade
#
IsraelStrikesIranBTCPlunges
30.66K Popularidade
#
EthereumMemeSeasonReturns
2M Popularidade

Marcar

sitemap

Usando "raciocínio visual" para explorar o mundo físico AGI, ElorianAI levanta 55 milhões de dólares

Tendências

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Marcar