Fuente del artículo: GenAI New World
Autor: Miao Zheng
Fuente de la imagen: Generada por Unbounded AI
Dejemos a un lado los Polar Smash Bros. dentro de la dirección de OpenAI y hablemos de los últimos rumores de esta empresa: Q*. OpenAI envió una carta interna a los empleados el 22 de noviembre, reconociendo a Q y describiendo el proyecto como “un sistema autónomo más allá de los humanos”. Es realmente aterrador.
Aunque OpenAI no ha publicado oficialmente ninguna noticia sobre Q*, todavía tenemos la capacidad de entenderlo de una manera superficial.
En primer lugar, el primer paso es entender la pronunciación de Q*, el nombre oficial es Q-Star, que se traduce como Q-Star. Sí, has leído bien, aunque en el aprendizaje profundo, los bloques se resuelven por multiplicación, pero en Q*, “*” no significa multiplicación, sino “asterisco”. La letra “**Q” denota la recompensa esperada por una acción en el aprendizaje por refuerzo. **
En el campo de la inteligencia artificial, cualquier cosa que tenga algo que ver con la Q mayúscula es esencialmente aprendizaje de la Q. El aprendizaje Q se puede considerar como un tipo de aprendizaje por refuerzo basado en los criterios de evaluación actuales, que se refiere a la forma en que se encuentra el proceso de entrenamiento, en la forma de registrar el valor histórico de la recompensa del entrenamiento, diciéndole al agente cómo elegir el siguiente paso para que sea el mismo que el valor histórico de recompensa más alto. Sin embargo, tenga en cuenta que el valor máximo histórico de la recompensa no representa el valor máximo de recompensa del modelo, puede serlo o no, e incluso puede no alcanzarlo. En otras palabras, el aprendizaje Q y los agentes son como la relación entre un analista y un entrenador de un equipo. El entrenador es responsable de entrenar al equipo, y el analista se utiliza para ayudar al entrenador.
En el proceso de aprendizaje por refuerzo, las decisiones de salida del agente se retroalimentan al entorno para recibir valores de recompensa. El aprendizaje Q, por otro lado, solo registra el valor de la recompensa, por lo que no necesita modelar el entorno, lo que equivale a “buenos resultados, todo está bien”.
Sin embargo, viéndolo de esta manera, parece que el aprendizaje Q no es tan bueno como los modelos de aprendizaje profundo comúnmente utilizados en inteligencia artificial, especialmente los modelos grandes. Con miles y decenas de miles de millones de parámetros como el actual, el aprendizaje de Q no solo no ayuda al modelo, sino que también aumenta la complejidad y, por lo tanto, reduce la robustez.
No te preocupes, esto se debe a que la idea detrás del aprendizaje Q anterior en sí es solo un concepto básico que nació en 1989. **
En 2013, DeepMind lanzó un algoritmo llamado Deep Q Learning mejorando el aprendizaje Q, cuya característica más distintiva es el uso de la reproducción de experiencias, el muestreo de múltiples resultados en el pasado y luego el uso del aprendizaje Q, para mejorar la estabilidad del modelo y reducir la divergencia de la dirección de entrenamiento del modelo debido a un determinado resultado.
Sin embargo, a decir verdad, hay una razón por la que este concepto no se ha popularizado, y desde un punto de vista práctico, el mayor papel del aprendizaje profundo de Q en la comunidad académica ha sido el desarrollo de DQN.
DQN se refiere a Deep Q Network, que nació del aprendizaje profundo de Q. La idea de DQN es exactamente la misma que la de Q learning, pero el proceso de encontrar el máximo valor de recompensa en el aprendizaje Q se realiza mediante redes neuronales. De repente, se puso de moda.
DQN genera solo un nodo a la vez. Al mismo tiempo, DQN genera una cola de prioridad y, a continuación, almacena los nodos restantes y los antecesores de acción en la cola de prioridad. Obviamente, un nodo definitivamente no es suficiente, y si todo el proceso es solo un nodo, la solución final debe ser ridículamente incorrecta. Cuando un nodo y un antecesor de acción se eliminan de la cola, se generará un nuevo nodo en función de la asociación que la acción aplica al nodo que ya se ha generado, y así sucesivamente.
Las personas que conocen un poco sobre la historia de la inteligencia artificial sentirán que cuanto más la miran, más familiares se vuelven, ¿no es esta la versión de gama alta de Freud pidiendo una longitud lateral?
En las computadoras modernas, el principio básico utilizado por los procesadores es el algoritmo de Freud, que se utiliza para encontrar el camino más corto entre dos puntos comparándolo con el óptimo histórico. El propósito de la memoria es almacenar cálculos de manera prioritaria, y cada vez que el procesador completa un cálculo, la memoria lanza el siguiente cálculo al procesador.
DQN es esencialmente lo mismo.
Eso es básicamente lo que significa Q, entonces, ¿qué significa *?
**A juzgar por el análisis de muchos expertos de la industria, es muy probable que el * se refiera al algoritmo A*. **
Esta es una heurística. Sin precipitarme en lo que son las heurísticas, déjame contarte un chiste:
A le pregunta a B: “Encuentra rápidamente el producto de 1928749189571*1982379176”, y B responde inmediatamente: “32”. Cuando escuché esto, me pregunté que cuando se multiplicaban dos números de un número tan grande, era imposible que la respuesta fuera de dos dígitos. B le preguntó a A: “¿Vas a decir que es rápido?”
Parece escandaloso, pero la heurística es la misma.
Su esencia es la estimación, y solo se puede elegir entre eficiencia y solución positiva. O es muy eficiente, pero a veces está mal, o es muy preciso, y a veces lleva mucho tiempo. El algoritmo A* utiliza primero un algoritmo heurístico para estimar un valor aproximado, que es probable que se desvíe en gran medida de la solución correcta. Una vez completada la estimación, el bucle comienza a recorrer, y si no hay forma de resolverlo, se revaloriza hasta que empiece a aparecer la solución. Esto se repite para finalmente llegar a la mejor solución.
Aunque se puede obtener la mejor solución, A* es el segundo tipo mencionado anteriormente, y la respuesta es correcta, y lleva mucho tiempo. Está bien colocarlo en un entorno de laboratorio, pero si este algoritmo se coloca en un dispositivo personal, puede causar desbordamientos de memoria y causar problemas en el sistema, como pantallas azules.
Por lo tanto, esta limitación hace que el algoritmo A* se aplique a menudo a algunos modelos menos complejos en el pasado, el más típico es la búsqueda de rutas de caracteres en los juegos en línea. En algunos juegos grandes, el momento en que el personaje comienza a buscar rutas, se debe al algoritmo A*.
En general, el consenso actual en el círculo de la inteligencia artificial es que el algoritmo Q mencionado en la carta interna de OpenAI es probablemente una combinación de aprendizaje Q y A, es decir, ahorrar potencia de cálculo, ahorrar memoria y obtener la mejor solución, porque no siempre puede gastar más potencia de cálculo y desperdiciar memoria, ¡y finalmente no puede obtener la mejor solución!
Y, así como OpenAI finalmente hizo el modelo básico, también existió durante mucho tiempo, e incluso fue ignorado por la gente durante un tiempo, hasta que OpenAI redescubrió su potencial con métodos específicos e innovadores. Hoy en día, la gente naturalmente tiene razones para creer que en las dos ideas de algoritmos de larga data de Q y A, OpenAI puede repetir los viejos trucos y crear milagros nuevamente, por supuesto, el daño que este milagro puede traer a la humanidad también ha hecho que más personas se preocupen debido a la reciente farsa de OpenAI.
Por lo tanto, volviendo a este algoritmo, lo más probable es que Q * use el aprendizaje Q para encontrar rápidamente la valoración de la solución casi óptima, y luego use el algoritmo A * para resolverlo en un área pequeña, eliminando muchos procesos de cálculo sin sentido, para encontrar rápidamente la mejor solución. Pero lo que va a hacer exactamente OpenAI tendrá que esperar al documento público (si es que puede esperar).
La aparición de **Q* en realidad muestra un problema, y las empresas líderes de inteligencia artificial se dan cuenta de que el proceso de resolución en el desarrollo actual de la inteligencia artificial es más significativo que la resolución. Porque ahora solo perseguir la corrección de la respuesta ya no puede satisfacer las necesidades de inteligencia artificial de las personas. Por ejemplo, en OpenCompass, incluso si la diferencia de puntuación media es de 10 o 20 puntos, si nos fijamos en la precisión de la comprensión, no hay una gran brecha entre el mejor modelo y el peor.
En medio de la especulación y el pánico, una de las afirmaciones sobre Q es que Q puede resolver problemas matemáticos muy avanzados. Andrew Rogosky, director del Instituto Surrey para la Inteligencia Artificial Centrada en el Ser Humano, dijo: "Sabemos que se ha demostrado que la IA existente es capaz de hacer matemáticas a nivel de pregrado, pero no es capaz de manejar problemas matemáticos más avanzados. Pero lo más probable es que Q* se use para resolver problemas matemáticos difíciles. "Tal vez cuando salga Q*, puedas probar su conjetura de Goldbach. Las matemáticas se consideran una de las mayores cristalizaciones de la sabiduría humana, por lo que Q es solo un nombre en clave que ha causado pánico en Internet.
Y detrás de Q* también está vinculado a la misión de OpenAI, es decir, la exploración de la inteligencia artificial general (AGI), e incluso la superinteligencia. OpenAI define AGI como un sistema autónomo que supera a los humanos en las tareas económicamente más valiosas, y Q* es un paso hacia AGI by OpenAI.
Por el momento, OpenAI no ha comentado sobre Q y la filtración de la carta interna, pero tengo sentimientos encontrados. Estoy contento de que Q tenga fuertes capacidades, y el desarrollo de la inteligencia artificial irá más allá. Al mismo tiempo, también me preocupaba que el truco de Q fuera más grande que la realidad, y al final, los resultados de las pruebas fueron así el día en que se publicaron, lo que hizo que me abofetearan.