Autor: Haotian
Después de despertarme, muchos amigos me pidieron que mirara manus, que se autodenomina un agente de IA verdaderamente universal a nivel mundial, capaz de pensar de forma independiente, planificar y ejecutar tareas complejas, y entregar resultados completos. Suena muy genial, pero aparte de la ansiedad en muchos círculos de amigos sobre el posible desempleo, ¿qué aportará a la explosión del escenario DeFai de web3? A continuación, compartiré mis reflexiones:
Hace aproximadamente un mes, OpenAI lanzó Operator, un producto similar en el que la IA puede realizar tareas como reservar restaurantes, hacer compras, comprar boletos, pedir comida para llevar, etc., de forma independiente en el navegador. Los usuarios pueden supervisar visualmente y tomar el control en cualquier momento.
La aparición de este agente no ha sido discutida por muchas personas, debido a que está impulsado por un único modelo, o es el marco de herramientas de llamada, cuando los usuarios piensan en la necesidad de intervenir en decisiones clave, pierden la idea de depender de él para llevar a cabo tareas.
2)A simple vista, el manus no es muy diferente, solo que tiene muchos más casos de uso, incluyendo la selección de currículums, la investigación de acciones, la compra de propiedades, etc., pero en realidad son las diferencias en el marco y el sistema de ejecución detrás de él, Manus impulsado por múltiples modelos multimodales e innovadoramente utiliza un sistema de firmas múltiples.
En resumen, la IA debe imitar el ciclo PDCA (Planificar-Hacer-Verificar-Actuar) ejecutado por humanos, que será realizado por múltiples grandes modelos trabajando en conjunto. Cada modelo se enfocará en una etapa específica, lo que no solo reducirá el riesgo de toma de decisiones de un solo modelo en una tarea, sino que también mejorará la eficiencia de ejecución. El llamado ‘sistema de firmas múltiples’ es en realidad un mecanismo de verificación de decisiones colaborativas de múltiples modelos, que garantiza la fiabilidad de las decisiones y la ejecución al requerir la confirmación conjunta de varios modelos especializados.
El punto clave radica en la complejidad de sus tareas de ejecución, así como en la definición de la tasa de tolerancia a fallos y la tasa de éxito en la entrega del gran modelo después de que los usuarios input Prompt no tengan un estándar unificado. De lo contrario, ¿se puede aplicar de inmediato esta innovación para que el escenario DeFai de web3 sea maduro? Obviamente, aún no se puede lograr.
Por ejemplo: En el escenario DeFai, el Agente debe tomar decisiones comerciales, necesita un Agente de capa Oracle para recopilar y verificar datos en la cadena, realizar análisis e integración de datos, y monitorear en tiempo real para capturar oportunidades comerciales basadas en precios en la cadena. Este proceso presenta grandes desafíos para el análisis en tiempo real. Es posible que una oportunidad comercial que era válida hace un segundo ya no exista una vez que el Agente de ejecución de transacciones reciba el modelo grande de Oracle (ventana de arbitraje).
Esto revela realmente la mayor debilidad de este tipo de grandes modelos multimodales al tomar decisiones ejecutivas, cómo conectarse a la red, acceder a datos de nivel de análisis en tiempo real, identificar oportunidades comerciales, y luego capturar las transacciones. El entorno de red no es tan malo en realidad, muchos sitios web de comercio electrónico no tienen precios de pedidos que cambien en tiempo real, lo que no dificulta en gran medida el equilibrio dinámico de toda la colaboración multimodal. Sin embargo, si se trata de una cadena de bloques, este tipo de desafíos prácticamente siempre están presentes.
4)Por lo tanto, en general, la aparición de manus realmente desencadenará una ola de ansiedad en el campo de la web2, después de todo, muchos trabajos de oficina y de procesamiento de información altamente repetitivos podrían enfrentar el riesgo de ser reemplazados por la IA. Pero los hace ansiosos a ellos.
Tenemos que entender objetivamente el papel de la web3 en la promoción de los escenarios de aplicación de DeFai:
Debe reconocerse: definitivamente tiene un gran significado, después de todo, su propuesta de LLM OS y el concepto de Menos Estructura más Inteligencia, especialmente el sistema de firma múltiple, proporcionará una gran inspiración para la combinación de DeFi y IA en la expansión de web3.
Esto en realidad corrige un malentendido importante en la mayoría de los proyectos DeFai, no intentes depender de un gran modelo para lograr objetivos complejos como el pensamiento autónomo y la toma de decisiones del Agente de IA. Esto simplemente no es práctico en el contexto financiero.
La realización de la verdadera visión de DeFai requiere abordar problemas complejos como el límite de capacidad de los modelos de IA monolíticos, la garantía de la atomicidad en la interacción y colaboración multimodal, la coordinación y el control unificados de los recursos en sistemas multimodales, y los mecanismos de tolerancia a fallos y manejo de fallas, entre otros.
Por ejemplo: el agente de la capa Oracle, responsable de recopilar y analizar datos en la cadena, supervisar los precios y formar una fuente de datos efectiva;
El Agente de la Capa de Toma de Decisiones analiza y evalúa el riesgo según los datos proporcionados por Oracle, y elabora un conjunto de decisiones y planes de acción;
El Agente de la capa de ejecución, basándose en varias soluciones proporcionadas por la capa de decisión y considerando la situación real para la ejecución, incluyendo la optimización de los costos de gas, el estado entre cadenas, conflictos en el orden de las transacciones, etc.
Solo cuando esta serie de Agentes esté sincronizada y tenga un marco de sistema sólido, se desatará una verdadera revolución DeFai.