Los investigadores de Meta revelan las cinco escuelas de World Model: ¿Cuál es la IA en la que apuestan Yann LeCun y Fei-Fei Li?

ChainNewsAbmedia

En la reciente ronda de financiación de 1,03 mil millones de dólares en la startup Advanced Machine Intelligence (AMI), fundada por Yann LeCun, ganador del Premio Turing y ex Científico Principal de Meta AI, “World Model” (Modelo del Mundo) volvió a ser una palabra clave popular en el campo de la inteligencia artificial. Sin embargo, aunque la comunidad de IA discute frecuentemente sobre modelos del mundo, los conceptos que diferentes investigadores tienen al respecto varían enormemente.

(Análisis profundo: ¿Defectos de los LLM? ¿Por qué AMI de Yang LeCun apuesta por la ruta del Modelo del Mundo?)

Recientemente, Zhuokai Zhao, científico investigador de Meta AI, publicó un extenso artículo en redes sociales señalando que los llamados modelos del mundo en el campo de la IA pueden dividirse en al menos cinco enfoques tecnológicos diferentes. Él opina que estos métodos no compiten directamente, sino que abordan distintos niveles de problemas.

JEPA: Comprensión física comprimida

Inteligencia Espacial: Reconstrucción del mundo en 3D

Simulación Aprendida: Entrenamiento de IA en mundos simulados

NVIDIA Cosmos: Provisión de infraestructura

Inferencia Activa: Propuesta de una nueva teoría de la inteligencia

Se espera que las fronteras entre estos enfoques se vuelvan pronto difusas.

Ruta 1: JEPA de LeCun, comprensión del mundo en espacio abstracto

Zhao considera que el primer tipo de modelo del mundo es Joint Embedding Predictive Architecture (JEPA), cuyo principal representante es Yann LeCun.

El núcleo de JEPA es: la IA no debe intentar predecir cada píxel, sino predecir el futuro en un espacio de representación abstracta.

En el mundo real, muchos detalles son inherentemente impredecibles, como cambios en la iluminación, la posición específica de las hojas, texturas superficiales. Si el modelo debe generar todos los píxeles, se ve obligado a manejar una gran cantidad de detalles sin sentido.

La estrategia de JEPA es primero codificar imágenes o videos en representaciones abstractas, y luego predecir en ese espacio las partes ocultas. De esta forma, el modelo puede aprender cosas como: “la pelota caerá desde la mesa”, sin tener que generar cada cuadro completo.

V-JEPA de Meta ya es uno de los resultados experimentales más representativos. Este modelo fue entrenado con 1 millón de horas de videos en modo auto-supervisado, y con solo 62 horas de datos de robots, fue capaz de generar un modelo del mundo que soporta planificación con cero muestras. El robot genera secuencias de acciones candidatas, las introduce en el modelo del mundo, y selecciona la secuencia cuya predicción más se asemeja a la imagen objetivo. Este método es aplicable incluso a objetos y entornos nunca antes vistos durante el entrenamiento.

La alta eficiencia en datos es precisamente una de las razones por las que AMI apuesta por la arquitectura JEPA. Si las representaciones son suficientemente buenas, no es necesario explorar exhaustivamente cada tarea desde cero. AMI Labs es el intento de LeCun de llevar esta tecnología del ámbito de investigación a la aplicación práctica. Inicialmente apuntan a salud y robótica, pero es una inversión a largo plazo; su CEO ha declarado públicamente que los productos comerciales podrían tardar varios años en llegar.

Ruta 2: “Inteligencia espacial” de Fei-Fei Li

Otra ruta conocida proviene de World Labs, fundada por Fei-Fei Li.

(¿Quién es la mentora de IA Fei-Fei Li? La startup unicornio World Labs recibe apoyo de NVIDIA y AMD)

A diferencia de JEPA, que se centra en “predecir el futuro”, el núcleo del enfoque de Li es: “¿Cómo es el mundo en tres dimensiones?” Su concepto, llamado Spatial Intelligence (Inteligencia Espacial), sostiene que la comprensión verdadera requiere una estructura espacial clara: formas geométricas, profundidad, persistencia y la capacidad de observar la escena desde nuevos ángulos — no solo predecir en el tiempo. Esto difiere del enfoque de JEPA: en lugar de aprender dinámicas abstractas, se aprende la estructura 3D del entorno, que puede manipularse directamente.

El producto Marble de World Labs puede generar mundos 3D persistentes a partir de imágenes, textos o videos. A diferencia de los modelos tradicionales de generación de videos, Marble crea escenarios 3D reales. Permite mover la vista libremente, modificar objetos y exportar modelos 3D. Esto lo acerca más a un motor de creación 3D que a un simple generador de contenido.

Ruta 3: “Simulación aprendida” de DeepMind

El tercer tipo de modelo del mundo es la simulación aprendida (Learned Simulation).

Investigaciones representativas incluyen:

DeepMind Genie 3

Serie Dreamer

Runway GWM-1

Estos modelos intentan construir mundos simulados interactivos en los que la IA pueda aprender.

Ruta 4: Infraestructura de IA física de NVIDIA

El cuarto enfoque no consiste en construir modelos directamente, sino en crear plataformas ecológicas completas. La empresa representativa es NVIDIA, cuyo plataforma Cosmos ofrece infraestructura integral:

Procesamiento de datos de videos

Tokenización visual

Entrenamiento de modelos

Servicios de despliegue

El modelo base del mundo (World foundation models) de Cosmos fue entrenado con 20 millones de horas de videos reales, con un total de 9000 billones de tokens.

(Nueva ecosistema Alpamayo de NVIDIA: permite a los autos autónomos tener capacidades de razonamiento y explicar sus decisiones)

La estrategia de NVIDIA es clara: no necesariamente crear modelos del mundo, sino proporcionar herramientas para que todos puedan construirlos.

Ruta 5: Inferencia activa (Active Inference) — escuela de neurociencia

Por último, una ruta basada en teorías de neurociencia. El principal representante es Karl Friston, quien propuso el famoso Free Energy Principle (Principio de Energía Libre). A diferencia del aprendizaje por refuerzo tradicional, la inferencia activa considera que la IA es como un organismo que intenta entender el mundo continuamente. Toma acciones con el objetivo de mejorar la precisión de sus predicciones y reducir las discrepancias entre lo esperado y lo observado.

La empresa VERSES AI, con su sistema AXIOM, usa un modelo orientado a objetos, donde cada objeto es una entidad independiente. El sistema actualiza sus creencias mediante inferencia bayesiana, sin depender de entrenamiento con gradientes en redes neuronales profundas. Esta arquitectura es interpretable, modular y altamente eficiente en datos. En abril de 2025, AXIOM lanzó su producto comercial (Genius), y en pruebas estándar de control, su rendimiento fue competitivo frente a métodos de refuerzo, usando mucho menos datos.

El próximo campo de batalla de la IA: entender el mundo

Zhao concluye señalando que estos cinco enfoques de modelos del mundo no son excluyentes, sino que abordan diferentes problemas:

JEPA: Comprensión física comprimida

Inteligencia Espacial: Reconstrucción del mundo en 3D

Simulación Aprendida: Entrenamiento en mundos simulados

NVIDIA Cosmos: Provisión de infraestructura

Inferencia activa: Nuevas teorías de la inteligencia

A medida que la IA avanza hacia robots, conducción autónoma y IA física, es muy probable que estas tecnologías se integren rápidamente en el futuro.

Este artículo revela las cinco principales escuelas de modelos del mundo en investigación de Meta: ¿en qué consiste la IA en la que confían LeCun y Li? Publicado originalmente en Chain News ABMedia.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios