La IA dominó el lenguaje. El mundo físico es el siguiente

El próximo gran salto en inteligencia artificial no vendrá de modelos de lenguaje mejores. Vendrá de máquinas que entienden cómo funciona el mundo físico y cómo controlarlo.

Video recomendado


He pasado años pensando en esto, primero como inmunólogo en Oxford, estudiando cómo las redes inmunológicas aprenden a través de retroalimentación en lugar de instrucciones, luego como inversor liderando la mayor inversión semilla de Khosla Ventures desde OpenAI, en un laboratorio de modelado del mundo llamado General Intuition.

La restricción principal en la IA incorporada no es la computación ni la arquitectura. Es un tipo específico de datos que apenas existe.

Dejando salir al Genio

A principios de este año, Google lanzó Project Genie y envió todo el mercado de juegos cuesta abajo. El mercado lo interpretó como una amenaza a Unity, TakeTwo Interactive, Roblox, toda la cadena de creación de contenido—la IA llegando a los desarrolladores de juegos. Pero reducir esto a una disrupción en los juegos es como ver la primera demostración del iPhone y concluir que Apple venía por Nokia. La verdadera estrategia es poseer cada carga de trabajo espacial en el planeta.

Lo que reveló la mano de Google no es lo que Genie hace bien, sino en qué compromete: entornos que duran solo unos minutos, latencia perceptible, física que se comporta de manera extraña. Por ahora, estas son limitaciones aceptables cuando el propósito real no es el entretenimiento. Google nos dijo explícitamente que Genie 3 es “un paso clave en el camino hacia la AGI,” infraestructura para entrenar a SIMA, su agente generalista que necesita entornos diversos e interminables para aprender navegación, manipulación de objetos y física del mundo real. Generar objetos en medio de la sesión y cambiar condiciones ambientales sobre la marcha no es una función de juego. Es un generador de currículo para el aprendizaje por refuerzo.

Lo que Google ha construido es una fábrica de entornos, un sistema que reduce los meses de codificación manual tradicional necesarios para crear simulaciones de entrenamiento a segundos de indicaciones de texto.

Ir más allá de las pantallas de cristal

Para entender por qué esa distinción importa, hay que ampliar la vista. A pesar de toda la agitación de la revolución digital, sorprendentemente poco ha cambiado en cómo interactuamos físicamente con la realidad. El salto desde la computación de escritorio temprana hasta el teléfono inteligente y la arquitectura transformer fue enorme en términos de flujo de información. Pero todavía estamos en su mayoría tocando pantallas de cristal.

Considera la ardilla fuera de tu ventana, saltando de rama en rama, ajustándose en vuelo por el viento y la flexión. Posee un modelo interno de física extraordinariamente sofisticado: gravedad, impulso, fricción, y puede planear secuencias de acción complejas. Sin embargo, no tiene lenguaje. Simplemente sabe, de la misma manera que el conocimiento existía mucho antes de poder describirlo.

La IA ha ignorado casi por completo este tipo de conocimiento. Los modelos de lenguaje grandes de hoy pueden escribir sonetos y depurar código. Pero si le pides que doble una toalla, descubrirás la brecha entre saber sobre el mundo y saber cómo actuar en él. El lenguaje es solo una compresión de la experiencia humana. El texto captura solo una pequeña parte de lo que sabemos.

Los modelos del mundo, redes neuronales entrenadas para entender y predecir la realidad física, prometen cambiar esa ecuación. Yann LeCun entiende esto y proclamó “los LLMs son básicamente un callejón sin salida en cuanto a superinteligencia” antes de dejar Meta para lanzar su propia startup de modelos del mundo. Fei-Fei Li’s World Labs acaba de lanzar Marble, que genera entornos 3D. Ambos entienden que la inteligencia espacial es la próxima frontera de la IA.

Pero ninguno ha resuelto la restricción principal: no tienen los datos para construir agentes.

Entrenar a un agente requiere datos condicionados a la acción. No solo cómo se veía el mundo, sino qué hizo alguien y qué ocurrió después: observación, decisión, acción, consecuencia. El ciclo completo. La transición a agentes requiere millones de horas de decisiones humanas capturadas en la fuente, alineadas con los cambios de estado resultantes, seleccionadas por sí mismas para casos límite.

Las manos como la última limitación

Los juegos pueden ser la respuesta improbable. Proporcionan registros completos de la agencia humana, cada entrada registrada y etiquetada, en entornos que capturan física y toma de decisiones bajo incertidumbre. Millones de horas de juicio humano, ya digitalizadas.

El valor más profundo no es la física. Es la intuición humana. Un motor de física modela cómo se mueve un dron; no puede modelar cómo reacciona un operador experto cuando se sorprende. En cirugía, es la sensibilidad de cómo responde el tejido al bisturí. Entrenar en decisiones humanas captura experiencia que no puede describirse con palabras, solo mostrarse, sentirse.

Si esto se hace bien, las consecuencias resonarán como lo hizo el software con la información.

Cuando una máquina puede aprender una tarea de manipulación en horas de demostración en lugar de meses de programación, la economía de la manufactura cambia. La producción en pequeñas cantidades se vuelve viable. Los bienes personalizados cuestan lo que hoy cuestan los bienes de masa. El conocimiento de toda una vida de un electricista maestro se despliega en mil ciudades a la vez. El juicio del mejor cirujano se escala a hospitales rurales que hoy no tienen acceso. La limitación nunca fueron los bisturíes. Fueron las manos.

Agricultura, logística, cuidado de ancianos. Cada dominio donde la habilidad física escasea se vuelve candidato a la transformación. El hilo común: la experiencia atada a cuerpos individuales se vuelve transferible.

La revolución digital hizo que la información fuera gratuita. La revolución del modelo del mundo hará que la capacidad sea gratuita. No puedo pensar en una apuesta más importante que hacer.

AGI-2,11%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado