Source de l’article : GenAI New World
Auteur : Miao Zheng
Source de l’image : Générée par Unbounded AI
Laissons de côté les Polar Smash Bros. au sein de la direction d’OpenAI et parlons des dernières rumeurs de cette société - Q*. OpenAI a envoyé une lettre interne aux employés le 22 novembre, reconnaissant Q et décrivant le projet comme « un système autonome au-delà des humains ». C’est vraiment effrayant.
Bien qu’OpenAI n’ait pas officiellement publié de nouvelles sur Q*, nous avons toujours la capacité de le comprendre de manière superficielle.
Tout d’abord, la première étape consiste à comprendre la prononciation de Q*, le nom officiel est Q-Star, qui se traduit par Q-Star. Oui, vous avez bien lu, même si en deep learning, les blocs sont résolus par multiplication, mais en Q*, « * » ne signifie pas multiplication, mais « astérisque ». La lettre « **Q » indique la récompense attendue pour une action dans l’apprentissage par renforcement. **
Dans le domaine de l’intelligence artificielle, tout ce qui a quelque chose à voir avec le Q majuscule est essentiellement de l’apprentissage du Q. L’apprentissage Q peut être considéré comme une sorte d’apprentissage par renforcement basé sur les critères d’évaluation actuels, qui fait référence à la manière dont le processus de formation, dans la manière d’enregistrer la valeur de récompense historique de la formation, en indiquant à l’agent comment choisir l’étape suivante pour qu’elle soit la même que la valeur de récompense historique la plus élevée. Cependant, veuillez noter que la valeur de récompense maximale historique ne représente pas la valeur de récompense maximale du modèle, elle peut ou non l’être, et il peut même ne pas être atteinte. En d’autres termes, l’apprentissage Q et les agents sont comme la relation entre un analyste et un coach d’équipe. L’entraîneur est responsable de l’entraînement de l’équipe, et l’analyste est utilisé pour aider l’entraîneur.
Dans le processus d’apprentissage par renforcement, les décisions de sortie de l’agent sont renvoyées à l’environnement afin de recevoir des valeurs de récompense. L’apprentissage Q, quant à lui, n’enregistre que la valeur de la récompense, il n’a donc pas besoin de modéliser l’environnement, ce qui équivaut à « bons résultats, tout va bien ».
Cependant, en le regardant de cette façon, il semble que l’apprentissage Q ne soit pas aussi bon que les modèles d’apprentissage profond couramment utilisés en intelligence artificielle, en particulier les grands modèles. Avec des milliards et des dizaines de milliards de paramètres comme celui actuel, l’apprentissage Q non seulement n’aide pas le modèle, mais augmente également la complexité et réduit ainsi la robustesse.
Ne vous inquiétez pas, c’est parce que l’idée derrière l’apprentissage Q ci-dessus lui-même n’est qu’un concept de base né en 1989. **
En 2013, DeepMind a lancé un algorithme appelé Deep Q Learning en améliorant l’apprentissage Q, dont la caractéristique la plus distinctive est l’utilisation de la lecture d’expérience, l’échantillonnage de plusieurs résultats dans le passé, puis l’utilisation de l’apprentissage Q, afin d’améliorer la stabilité du modèle et de réduire la divergence de la direction d’apprentissage du modèle en raison d’un certain résultat.
Cependant, à vrai dire, il y a une raison pour laquelle ce concept n’est pas devenu populaire, et d’un point de vue pratique, le plus grand rôle de l’apprentissage profond Q dans la communauté universitaire a été le développement du DQN.
DQN fait référence à Deep Q Network, qui est né de l’apprentissage profond Q. L’idée du DQN est exactement la même que celle de l’apprentissage Q, mais le processus de recherche de la valeur de récompense maximale dans l’apprentissage Q est réalisé par les réseaux neuronaux. Tout d’un coup, c’est devenu à la mode.
DQN ne génère qu’un seul nœud à la fois. Dans le même temps, DQN génère une file d’attente prioritaire, puis stocke les nœuds restants et les ancêtres d’action dans la file d’attente prioritaire. De toute évidence, un seul nœud n’est certainement pas suffisant, et si l’ensemble du processus n’est qu’un seul nœud, la solution finale doit être ridiculement fausse. Lorsqu’un noeud et un ancêtre d’action sont supprimés de la file d’attente, un nouveau noeud est généré en fonction de l’association que l’action applique au noeud qui a déjà été généré, et ainsi de suite.
Les gens qui connaissent un peu l’histoire de l’intelligence artificielle auront l’impression que plus ils la regardent, plus ils deviennent familiers, n’est-ce pas la version haut de gamme de Freud demandant une longueur latérale ?
Dans les ordinateurs modernes, le principe de base utilisé par les processeurs est l’algorithme de Freud, qui est utilisé pour trouver le chemin le plus court entre deux points en le comparant à l’optimum historique. Le but de la mémoire est de stocker les calculs de manière prioritaire, et chaque fois que le processeur termine un calcul, la mémoire envoie le calcul suivant au processeur.
Le DQN est essentiellement le même.
C’est essentiellement ce que Q signifie, alors que signifie * ?
**À en juger par l’analyse de nombreux initiés de l’industrie, il est très probable que le * fasse référence à l’algorithme A*. **
Il s’agit d’une heuristique. Sans me précipiter sur ce que sont les heuristiques, laissez-moi vous raconter une blague :
A demande à B : « Trouvez rapidement le produit de 1928749189571*1982379176 », et B répond immédiatement : « 32 ». Quand j’ai entendu cela, je me suis demandé que lorsque deux nombres d’un si grand nombre étaient multipliés, il était impossible que la réponse soit à deux chiffres. B a demandé à A : « Allez-vous dis-le vite ? »
Cela semble scandaleux, mais l’heuristique est la même.
Son essence est l’estimation, et vous ne pouvez en choisir qu’une entre l’efficacité et la solution positive. Soit c’est très efficace, mais parfois c’est faux, soit c’est très précis, et parfois cela prend beaucoup de temps. L’algorithme A* utilise d’abord un algorithme heuristique pour estimer une valeur approximative, qui est susceptible de s’écarter considérablement de la solution correcte. Une fois l’estimation terminée, la boucle commence à se parcourir, et s’il n’y a aucun moyen de la résoudre, elle est réévaluée jusqu’à ce que la solution commence à apparaître. Ceci est répété pour finalement arriver à la meilleure solution.
Bien que la meilleure solution puisse être obtenue, A* est le deuxième type mentionné ci-dessus, et la réponse est correcte, et cela prend beaucoup de temps. Il est possible de le placer dans un environnement de laboratoire, mais si cet algorithme est placé sur un appareil personnel, il peut provoquer des débordements de mémoire et des problèmes système, tels que des écrans bleus.
Par conséquent, cette limitation fait que l’algorithme A* souvent appliqué à certains modèles moins complexes dans le passé, le plus typique est le pathfinding de personnage dans les jeux en ligne. Dans certains grands jeux, le moment où le personnage commence à trouver son chemin, c’est à cause de l’algorithme A*.
Dans l’ensemble, le consensus actuel dans le cercle de l’intelligence artificielle est que l’algorithme Q* mentionné dans la lettre interne d’OpenAI est probablement une combinaison de Q learning et A, c’est-à-dire d’économiser de la puissance de calcul, d’économiser de la mémoire et d’obtenir la meilleure solution - parce qu’il ne peut pas toujours dépenser plus de puissance de calcul et gaspiller de la mémoire, et finalement ne peut pas obtenir la meilleure solution !
Et, tout comme OpenAI a finalement créé le modèle de base, il a également existé pendant longtemps, et a même été ignoré par les gens pendant un certain temps, jusqu’à ce qu’OpenAI redécouvre son potentiel avec des méthodes spécifiques et innovantes. Aujourd’hui, les gens ont naturellement des raisons de croire que dans les deux idées d’algorithme de longue date de Q et R, OpenAI peut répéter les vieilles astuces et créer à nouveau des miracles - bien sûr, le mal que ce miracle peut apporter à l’humanité a également inquiété plus de gens à cause de la récente farce d’OpenAI.
Par conséquent, pour en revenir à cet algorithme, Q* est le plus susceptible d’utiliser l’apprentissage Q pour trouver rapidement la valorisation de la solution quasi optimale, puis d’utiliser l’algorithme A* pour le résoudre dans une petite zone, éliminant ainsi de nombreux processus de calcul inutiles, afin de trouver rapidement la meilleure solution. Mais ce qu’OpenAI va faire exactement devra attendre l’article public (s’il peut attendre).
L’émergence de **Q* montre en fait un problème, et les principales entreprises d’intelligence artificielle se rendent compte que le processus de résolution dans le développement actuel de l’intelligence artificielle est plus significatif que la résolution. Parce qu’aujourd’hui, la seule recherche de la justesse de la réponse ne peut plus répondre aux besoins des gens en matière d’intelligence artificielle. Par exemple, sur OpenCompass, même si la différence de score moyenne est de 10 ou 20 points, si vous regardez la précision de la compréhension, il n’y a pas de grand écart entre le meilleur et le pire modèle.
Au milieu de la spéculation et de la panique, l’une des affirmations à propos de Q est que Q peut résoudre des problèmes mathématiques très avancés. Andrew Rogosky, directeur de l’Institut de Surrey pour l’intelligence artificielle centrée sur l’humain, a déclaré : « Nous savons que l’IA existante s’est avérée capable de faire des mathématiques au niveau du premier cycle, mais n’est pas capable de gérer des problèmes mathématiques plus avancés. Mais Q* est très probablement utilisé pour résoudre des problèmes mathématiques difficiles. « Peut-être que lorsque Q* sortira, vous pourrez tester sa conjecture de Goldbach. Les mathématiques sont considérées comme l’une des plus grandes cristallisations de la sagesse humaine, donc Q* n’est qu’un nom de code qui a provoqué la panique sur Internet.
Et derrière Q* est également lié à la mission d’OpenAI, c’est-à-dire l’exploration de l’intelligence artificielle générale (AGI), et même de la superintelligence. OpenAI définit l’AGI comme un système autonome qui surpasse les humains dans les tâches les plus rentables sur le plan économique, et Q* est un pas vers l’AGI d’OpenAI.
Pour le moment, OpenAI n’a pas commenté Q et la fuite de lettre interne, mais j’ai des sentiments mitigés. Je suis heureux que Q* ait de fortes capacités, et que le développement de l’intelligence artificielle aille plus loin. En même temps, j’avais aussi peur que le gimmick de Q* soit plus grand que la réalité, et à la fin, les résultats des tests étaient exactement comme ça le jour où ils sont sortis, ce qui m’a fait être giflé au visage.