Auteur: Haotian
Après m’être réveillé, beaucoup d’amis m’ont demandé de regarder manus, qui se vante d’être un agent d’IA réellement universel à l’échelle mondiale, capable de penser de manière autonome, de planifier et d’exécuter des tâches complexes, et de livrer des résultats complets. Cela semble très cool, mais à part l’anxiété de nombreux amis quant à la perte d’emploi, qu’apportera-t-il à l’explosion majeure de la scène DeFai web3 ? Voici mes réflexions :
Il y a environ un mois, OpenAI a lancé Operator, un produit similaire, où l’IA peut effectuer indépendamment des tâches telles que la réservation de restaurants, les achats, la réservation de billets, la commande de plats à emporter, etc. dans le navigateur. Les utilisateurs peuvent superviser visuellement et reprendre le contrôle à tout moment.
La présence de cet agent n’a pas suscité beaucoup de discussions, car il s’agit d’un simple modèle piloté, ou d’un cadre d’outils d’appel, et les utilisateurs perdent l’idée de compter sur son exécution des tâches dès qu’ils pensent qu’ils doivent intervenir dans les décisions clés.
2)Le manuscrit semble ne pas être très différent en surface, mais il y a beaucoup plus d’applications, y compris le tri des CV, l’étude des actions, l’achat de biens immobiliers, etc., mais en réalité, les différences se trouvent dans le cadre et le système d’exécution. Manus est alimenté par de grands modèles multimodaux et utilise de manière innovante un système de signatures multiples.
En bref, l’IA doit imiter l’action PDCA (Plan-Do-Check-Act) effectuée par les humains, qui sera réalisée par la collaboration de plusieurs grands modèles, chacun se concentrant sur une étape spécifique. Cela permet non seulement de réduire les risques de prise de décision pour un seul modèle lors de l’exécution des tâches, mais aussi d’améliorer l’efficacité de l’exécution. Le soi-disant “système de signature multiple” est en fait un mécanisme de validation des décisions par la collaboration de plusieurs modèles, garantissant la fiabilité des décisions et de l’exécution en exigeant la confirmation commune de plusieurs modèles experts.
3)En comparaison, l’avantage de manus est clairement mis en évidence, accompagné d’une série d’expériences opérationnelles présentées dans la démo vidéo, ce qui procure réellement une expérience extraordinaire. Cependant, objectivement, l’itération innovante de Manus pour l’opérateur n’est qu’un début et n’atteint pas encore un sens révolutionnaire de renversement.
La clé réside dans la complexité de l’exécution de la tâche, ainsi que dans la définition du taux de tolérance aux erreurs et du taux de réussite de la livraison du grand modèle après que l’utilisateur input Prompt non standard entre. Sinon, en suivant cette innovation, le scénario DeFai de web3 ne peut-il pas être immédiatement appliqué ? De toute évidence, ce n’est pas encore le cas :
Par exemple : Dans le contexte DeFai, l’agent doit prendre des décisions de transaction, un agent de couche Oracle est nécessaire pour la collecte et la validation des données en chaîne, l’analyse et l’intégration des données, ainsi que la surveillance en temps réel des prix en chaîne pour capturer les opportunités de transaction. Ce processus présente de grands défis pour l’analyse en temps réel. Il est possible qu’une opportunité de transaction qui était encore valable il y a une seconde ne soit plus disponible une fois que le grand modèle d’Oracle est transmis à l’agent d’exécution des transactions (fenêtre d’arbitrage) ;
Cela expose en fait l’une des plus grandes faiblesses des grands modèles multimodaux de ce type pour la prise de décision, à savoir comment se connecter, accéder et analyser des données au niveau Real-Time, et en tirer des opportunités de trading pour les capturer. L’environnement de connexion n’est pas si mal en fait, de nombreux sites de commerce électronique n’ont pas de fluctuations de prix en temps réel, ce qui ne crée pas de grands déséquilibres dynamiques pour l’ensemble de la collaboration multimodale, mais sur la chaîne, de tels défis sont presque toujours présents.
Nous devons comprendre objectivement le rôle du web3 dans la promotion des scénarios d’application DeFai :
Il faut admettre : le sens est certainement important, après tout, son concept LLM OS et Less Structure more intelligence, en particulier le système de signature multiple, apportera certainement de grandes idées inspirantes pour l’expansion de DeFi et de l’IA dans le cadre de web3.
Cela corrige en fait une grande erreur dans la plupart des projets DeFai, ne comptez pas sur un grand modèle pour réaliser des objectifs complexes tels que la réflexion autonome de l’agent AI et la prise de décision. Cela n’a tout simplement aucun sens dans le contexte financier.
La réalisation de la véritable vision de DeFai nécessite de résoudre des problèmes complexes tels que la limite des capacités des modèles d’IA monolithiques, la garantie de l’atomicité de l’interaction et de la collaboration multimodales, la coordination et la gouvernance unifiées des ressources multimodales, ainsi que les mécanismes de tolérance aux pannes et de gestion des défaillances du système, etc.
Par exemple : l’Agent de couche Oracle, responsable de la collecte et de l’analyse des données on-chain, surveille les prix et forme une source de données efficace ;
L’Agent de la couche de décision analyse et évalue les risques en fonction des données fournies par Oracle, puis élabore un ensemble de décisions et de plans d’action ;
L’agent de couche d’exécution, en fonction de diverses solutions fournies par la couche de décision et en tenant compte de la situation réelle, effectue l’exécution, y compris l’optimisation des frais de gaz, l’état de la chaîne croisée, les conflits de tri des transactions, etc.
Seule une série d’agents de cette envergure, tous synchronisés et reposant sur un vaste cadre systémique, pourraient déclencher une véritable révolution DeFai.