Fonte do artigo: GenAI New World
Autor: Miao Zheng
Fonte da imagem: Gerada por Unbounded AI
Vamos deixar de lado o Polar Smash Bros dentro da gestão da OpenAI e falar sobre os últimos rumores desta empresa - Q*. A OpenAI enviou uma carta interna aos funcionários em 22 de novembro, reconhecendo Q e descrevendo o projeto como “um sistema autônomo além dos humanos”. É realmente assustador.
Embora a OpenAI não tenha lançado oficialmente nenhuma notícia sobre Q*, ainda temos a capacidade de entendê-la de forma superficial.
Em primeiro lugar, o primeiro passo é entender a pronúncia de Q*, o nome oficial é Q-Star, que se traduz para Q-Star. Sim, você leu certo, mesmo que no deep learning os blocos sejam resolvidos pela multiplicação, mas em Q*, “*” não significa multiplicação, mas “asterisco”. A letra “**Q” denota a recompensa esperada por uma ação de aprendizagem por reforço. **
No campo da inteligência artificial, tudo o que tem a ver com Q capitalizado é essencialmente aprendizagem Q. A aprendizagem Q pode ser considerada como uma espécie de aprendizagem por reforço com base nos critérios de avaliação atuais, que se refere à forma como o processo de formação é registado, na forma de registar o valor histórico de recompensa do treino, dizendo ao agente como escolher o próximo passo para ser o mesmo que o maior valor histórico de recompensa. No entanto, tenha em atenção que o valor máximo de recompensa histórico não representa o valor máximo de recompensa do modelo, pode ou não ser, e pode até falhar em atingir. Em outras palavras, Q learning e agentes são como a relação entre um analista e um coach de uma equipe. O treinador é responsável por treinar a equipe, e o analista é usado para auxiliar o treinador.
No processo de aprendizagem por reforço, as decisões de saída do agente são realimentadas para o ambiente, a fim de receber valores de recompensa. A aprendizagem Q, por outro lado, apenas regista o valor da recompensa, pelo que não precisa de modelar o ambiente, o que equivale a “bons resultados, está tudo bem”.
No entanto, olhando desta forma, parece que o Q learning não é tão bom quanto os modelos de deep learning comumente usados em inteligência artificial, especialmente modelos grandes. Com bilhões e dezenas de bilhões de parâmetros como o atual, o aprendizado Q não só não ajuda o modelo, mas também aumenta a complexidade e, portanto, reduz a robustez.
Não se preocupe, isso ocorre porque a ideia por trás do aprendizado Q acima em si é apenas um conceito básico que nasceu em 1989. **
Em 2013, a DeepMind lançou um algoritmo chamado Deep Q Learning melhorando a aprendizagem Q, cuja característica mais distintiva é o uso da reprodução de experiência, amostragem de vários resultados no passado e, em seguida, usando Q learning, de modo a melhorar a estabilidade do modelo e reduzir a divergência da direção de treinamento do modelo devido a um determinado resultado.
No entanto, para dizer a verdade, há uma razão pela qual este conceito não se tornou popular, e de um ponto de vista prático, o maior papel da aprendizagem profunda Q na comunidade acadêmica tem sido o desenvolvimento do DQN.
DQN refere-se à Deep Q Network, que nasceu da aprendizagem profunda Q. A ideia do DQN é exatamente a mesma do aprendizado Q, mas o processo de encontrar o valor máximo de recompensa no aprendizado Q é realizado por redes neurais. De repente, virou moda.
O DQN gera apenas um nó de cada vez. Ao mesmo tempo, o DQN gera uma fila de prioridade e, em seguida, armazena os nós restantes e os ancestrais de ação na fila de prioridade. Obviamente, um nó definitivamente não é suficiente, e se todo o processo for apenas um nó, a solução final deve estar ridiculamente errada. Quando um nó e um ancestral de ação são removidos da fila, um novo nó será gerado com base na associação que a ação se aplica ao nó que já foi gerado, e assim por diante.
As pessoas que conhecem um pouco sobre a história da inteligência artificial sentirão que quanto mais olharem para ela, mais familiares se tornam, não é esta a versão high-end de Freud pedindo um comprimento lateral?
Nos computadores modernos, o princípio central usado pelos processadores é o algoritmo de Freud, que é usado para encontrar o caminho mais curto entre dois pontos, comparando-o com o ótimo histórico. O objetivo da memória é armazenar cálculos de forma prioritária, e cada vez que o processador conclui um cálculo, a memória lança o próximo cálculo para o processador.
DQN é essencialmente o mesmo.
Isso é basicamente o que Q significa, então o que significa *?
**A julgar pela análise de muitos insiders da indústria, é muito provável que o * se refira ao algoritmo A*. **
Esta é uma heurística. Sem me precipitar no que é heurística, deixe-me contar-lhe uma piada:
A pergunta a B: “Encontre rapidamente o produto de 1928749189571*1982379176”, e B responde imediatamente “32”. Quando ouvi isto, perguntei-me que, quando dois números de um número tão grande eram multiplicados, era impossível que a resposta fosse de dois dígitos. B perguntou a A: “Vai dizer que é rápido?”
Parece ultrajante, mas a heurística é a mesma.
Sua essência é a estimativa, e você só pode escolher uma entre eficiência e solução positiva. Ou é muito eficiente, mas às vezes está errado, ou é muito preciso, e às vezes leva muito tempo. O algoritmo A* primeiro usa um algoritmo heurístico para estimar um valor aproximado, que provavelmente se desviará muito da solução correta. Uma vez concluída a estimativa, o loop começa a percorrer e, se não houver como resolvê-lo, ele é revalorizado até que a solução comece a aparecer. Isto repete-se para finalmente se chegar à melhor solução.
Embora a melhor solução possa ser obtida, A* é o segundo tipo mencionado acima, e a resposta está correta, e leva muito tempo. Não há problema em colocá-lo em um ambiente de laboratório, mas se esse algoritmo for colocado em um dispositivo pessoal, ele pode causar estouros de memória e causar problemas no sistema, como telas azuis.
Portanto, esta limitação faz com que o algoritmo A* muitas vezes aplicado a alguns modelos menos complexos no passado, o mais típico é pathfinding personagem em jogos online. Em alguns jogos grandes, no momento em que o personagem começa a encontrar caminhos, é por causa do algoritmo A*.
No geral, o consenso atual no círculo de inteligência artificial é que**O algoritmo Q* mencionado na carta interna da OpenAI é provavelmente uma combinação de aprendizagem Q e A, ou seja, economizar poder de computação, economizar memória e obter a melhor solução - porque nem sempre pode gastar mais poder de computação e desperdiçar memória, e finalmente não pode obter a melhor solução!
E, assim como a OpenAI finalmente fez o modelo básico, ela também existiu por um longo tempo, e foi até ignorada pelas pessoas por um tempo, até que a OpenAI redescobriu seu potencial com métodos específicos e inovadores. Hoje, as pessoas naturalmente têm motivos para acreditar que, nas duas ideias de algoritmo de longa data de Q e A, a OpenAI pode repetir os velhos truques e criar milagres novamente - é claro, o dano que esse milagre pode trazer para a humanidade também deixou mais pessoas preocupadas por causa da recente farsa da OpenAI.
Portanto, voltando a este algoritmo, é mais provável que Q* use o aprendizado Q para encontrar rapidamente a avaliação da solução quase ideal e, em seguida, use o algoritmo A* para resolvê-lo em uma pequena área, eliminando muitos processos de cálculo sem sentido, de modo a encontrar rapidamente a melhor solução. Mas o que exatamente a OpenAI vai fazer terá que esperar pelo papel público (se puder esperar).
O surgimento do **Q* realmente mostra um problema, e as principais empresas de inteligência artificial percebem que o processo de resolver no desenvolvimento atual da inteligência artificial é mais significativo do que resolver. Porque agora apenas buscar a correção da resposta não pode mais atender às necessidades das pessoas por inteligência artificial. Por exemplo, no OpenCompass, mesmo que a diferença média de pontuação seja de 10 ou 20 pontos, se você olhar para a precisão do entendimento, não há grande diferença entre o melhor modelo e o pior modelo.
Em meio à especulação e pânico, uma das alegações sobre Q é que Q pode resolver problemas matemáticos muito avançados. Andrew Rogosky, diretor do Surrey Institute for Human-Centered Artificial Intelligence, disse: "Sabemos que a IA existente demonstrou ser capaz de fazer matemática em nível de graduação, mas não é capaz de lidar com problemas matemáticos mais avançados. Mas Q* é provavelmente usado para resolver problemas matemáticos difíceis. "Talvez quando Q* saia, você possa testar sua conjetura de Goldbach. A matemática é considerada uma das maiores cristalizações da sabedoria humana, então Q* é apenas um nome de código que causou pânico em toda a Internet.
E por trás de Q* também está ligada à missão da OpenAI - ou seja, a exploração de inteligência geral artificial (AGI), e até mesmo superinteligência. OpenAI define AGI como um sistema autônomo que supera os seres humanos nas tarefas economicamente mais valiosas, e Q* é um passo para AGI pela OpenAI.
No momento, a OpenAI não comentou sobre Q e o vazamento de carta interna, mas tenho sentimentos mistos. Estou feliz que Q* tem fortes capacidades, e o desenvolvimento da inteligência artificial vai mais longe. Ao mesmo tempo, eu também estava preocupado que o truque Q* fosse maior do que a realidade e, no final, os resultados dos testes foram exatamente assim no dia em que foram lançados, o que me fez levar um tapa na cara.