Secret R&D, "ameaçando a humanidade", um nome de código causou pânico em toda a rede?Qual é o Q* da OpenAI?

巴比特_

Fonte do artigo: GenAI New World

Autor: Miao Zheng

Fonte da imagem: Gerada por Unbounded AI

Vamos deixar de lado o Polar Smash Bros dentro da gestão da OpenAI e falar sobre os últimos rumores desta empresa - Q*. A OpenAI enviou uma carta interna aos funcionários em 22 de novembro, reconhecendo Q e descrevendo o projeto como “um sistema autônomo além dos humanos”. É realmente assustador.

Embora a OpenAI não tenha lançado oficialmente nenhuma notícia sobre Q*, ainda temos a capacidade de entendê-la de forma superficial.

Em primeiro lugar, o primeiro passo é entender a pronúncia de Q*, o nome oficial é Q-Star, que se traduz para Q-Star. Sim, você leu certo, mesmo que no deep learning os blocos sejam resolvidos pela multiplicação, mas em Q*, “*” não significa multiplicação, mas “asterisco”. A letra “**Q” denota a recompensa esperada por uma ação de aprendizagem por reforço. **

No campo da inteligência artificial, tudo o que tem a ver com Q capitalizado é essencialmente aprendizagem Q. A aprendizagem Q pode ser considerada como uma espécie de aprendizagem por reforço com base nos critérios de avaliação atuais, que se refere à forma como o processo de formação é registado, na forma de registar o valor histórico de recompensa do treino, dizendo ao agente como escolher o próximo passo para ser o mesmo que o maior valor histórico de recompensa. No entanto, tenha em atenção que o valor máximo de recompensa histórico não representa o valor máximo de recompensa do modelo, pode ou não ser, e pode até falhar em atingir. Em outras palavras, Q learning e agentes são como a relação entre um analista e um coach de uma equipe. O treinador é responsável por treinar a equipe, e o analista é usado para auxiliar o treinador.

No processo de aprendizagem por reforço, as decisões de saída do agente são realimentadas para o ambiente, a fim de receber valores de recompensa. A aprendizagem Q, por outro lado, apenas regista o valor da recompensa, pelo que não precisa de modelar o ambiente, o que equivale a “bons resultados, está tudo bem”.

No entanto, olhando desta forma, parece que o Q learning não é tão bom quanto os modelos de deep learning comumente usados em inteligência artificial, especialmente modelos grandes. Com bilhões e dezenas de bilhões de parâmetros como o atual, o aprendizado Q não só não ajuda o modelo, mas também aumenta a complexidade e, portanto, reduz a robustez.

Não se preocupe, isso ocorre porque a ideia por trás do aprendizado Q acima em si é apenas um conceito básico que nasceu em 1989. **

Em 2013, a DeepMind lançou um algoritmo chamado Deep Q Learning melhorando a aprendizagem Q, cuja característica mais distintiva é o uso da reprodução de experiência, amostragem de vários resultados no passado e, em seguida, usando Q learning, de modo a melhorar a estabilidade do modelo e reduzir a divergência da direção de treinamento do modelo devido a um determinado resultado.

No entanto, para dizer a verdade, há uma razão pela qual este conceito não se tornou popular, e de um ponto de vista prático, o maior papel da aprendizagem profunda Q na comunidade acadêmica tem sido o desenvolvimento do DQN.

DQN refere-se à Deep Q Network, que nasceu da aprendizagem profunda Q. A ideia do DQN é exatamente a mesma do aprendizado Q, mas o processo de encontrar o valor máximo de recompensa no aprendizado Q é realizado por redes neurais. De repente, virou moda.

O DQN gera apenas um nó de cada vez. Ao mesmo tempo, o DQN gera uma fila de prioridade e, em seguida, armazena os nós restantes e os ancestrais de ação na fila de prioridade. Obviamente, um nó definitivamente não é suficiente, e se todo o processo for apenas um nó, a solução final deve estar ridiculamente errada. Quando um nó e um ancestral de ação são removidos da fila, um novo nó será gerado com base na associação que a ação se aplica ao nó que já foi gerado, e assim por diante.

As pessoas que conhecem um pouco sobre a história da inteligência artificial sentirão que quanto mais olharem para ela, mais familiares se tornam, não é esta a versão high-end de Freud pedindo um comprimento lateral?

Nos computadores modernos, o princípio central usado pelos processadores é o algoritmo de Freud, que é usado para encontrar o caminho mais curto entre dois pontos, comparando-o com o ótimo histórico. O objetivo da memória é armazenar cálculos de forma prioritária, e cada vez que o processador conclui um cálculo, a memória lança o próximo cálculo para o processador.

DQN é essencialmente o mesmo.

Isso é basicamente o que Q significa, então o que significa *?

**A julgar pela análise de muitos insiders da indústria, é muito provável que o * se refira ao algoritmo A*. **

Esta é uma heurística. Sem me precipitar no que é heurística, deixe-me contar-lhe uma piada:

A pergunta a B: “Encontre rapidamente o produto de 1928749189571*1982379176”, e B responde imediatamente “32”. Quando ouvi isto, perguntei-me que, quando dois números de um número tão grande eram multiplicados, era impossível que a resposta fosse de dois dígitos. B perguntou a A: “Vai dizer que é rápido?”

Parece ultrajante, mas a heurística é a mesma.

Sua essência é a estimativa, e você só pode escolher uma entre eficiência e solução positiva. Ou é muito eficiente, mas às vezes está errado, ou é muito preciso, e às vezes leva muito tempo. O algoritmo A* primeiro usa um algoritmo heurístico para estimar um valor aproximado, que provavelmente se desviará muito da solução correta. Uma vez concluída a estimativa, o loop começa a percorrer e, se não houver como resolvê-lo, ele é revalorizado até que a solução comece a aparecer. Isto repete-se para finalmente se chegar à melhor solução.

Embora a melhor solução possa ser obtida, A* é o segundo tipo mencionado acima, e a resposta está correta, e leva muito tempo. Não há problema em colocá-lo em um ambiente de laboratório, mas se esse algoritmo for colocado em um dispositivo pessoal, ele pode causar estouros de memória e causar problemas no sistema, como telas azuis.

Portanto, esta limitação faz com que o algoritmo A* muitas vezes aplicado a alguns modelos menos complexos no passado, o mais típico é pathfinding personagem em jogos online. Em alguns jogos grandes, no momento em que o personagem começa a encontrar caminhos, é por causa do algoritmo A*.

No geral, o consenso atual no círculo de inteligência artificial é que**O algoritmo Q* mencionado na carta interna da OpenAI é provavelmente uma combinação de aprendizagem Q e A, ou seja, economizar poder de computação, economizar memória e obter a melhor solução - porque nem sempre pode gastar mais poder de computação e desperdiçar memória, e finalmente não pode obter a melhor solução!

E, assim como a OpenAI finalmente fez o modelo básico, ela também existiu por um longo tempo, e foi até ignorada pelas pessoas por um tempo, até que a OpenAI redescobriu seu potencial com métodos específicos e inovadores. Hoje, as pessoas naturalmente têm motivos para acreditar que, nas duas ideias de algoritmo de longa data de Q e A, a OpenAI pode repetir os velhos truques e criar milagres novamente - é claro, o dano que esse milagre pode trazer para a humanidade também deixou mais pessoas preocupadas por causa da recente farsa da OpenAI.

Portanto, voltando a este algoritmo, é mais provável que Q* use o aprendizado Q para encontrar rapidamente a avaliação da solução quase ideal e, em seguida, use o algoritmo A* para resolvê-lo em uma pequena área, eliminando muitos processos de cálculo sem sentido, de modo a encontrar rapidamente a melhor solução. Mas o que exatamente a OpenAI vai fazer terá que esperar pelo papel público (se puder esperar).

O surgimento do **Q* realmente mostra um problema, e as principais empresas de inteligência artificial percebem que o processo de resolver no desenvolvimento atual da inteligência artificial é mais significativo do que resolver. Porque agora apenas buscar a correção da resposta não pode mais atender às necessidades das pessoas por inteligência artificial. Por exemplo, no OpenCompass, mesmo que a diferença média de pontuação seja de 10 ou 20 pontos, se você olhar para a precisão do entendimento, não há grande diferença entre o melhor modelo e o pior modelo.

Em meio à especulação e pânico, uma das alegações sobre Q é que Q pode resolver problemas matemáticos muito avançados. Andrew Rogosky, diretor do Surrey Institute for Human-Centered Artificial Intelligence, disse: "Sabemos que a IA existente demonstrou ser capaz de fazer matemática em nível de graduação, mas não é capaz de lidar com problemas matemáticos mais avançados. Mas Q* é provavelmente usado para resolver problemas matemáticos difíceis. "Talvez quando Q* saia, você possa testar sua conjetura de Goldbach. A matemática é considerada uma das maiores cristalizações da sabedoria humana, então Q* é apenas um nome de código que causou pânico em toda a Internet.

E por trás de Q* também está ligada à missão da OpenAI - ou seja, a exploração de inteligência geral artificial (AGI), e até mesmo superinteligência. OpenAI define AGI como um sistema autônomo que supera os seres humanos nas tarefas economicamente mais valiosas, e Q* é um passo para AGI pela OpenAI.

No momento, a OpenAI não comentou sobre Q e o vazamento de carta interna, mas tenho sentimentos mistos. Estou feliz que Q* tem fortes capacidades, e o desenvolvimento da inteligência artificial vai mais longe. Ao mesmo tempo, eu também estava preocupado que o truque Q* fosse maior do que a realidade e, no final, os resultados dos testes foram exatamente assim no dia em que foram lançados, o que me fez levar um tapa na cara.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário