O misterioso novo modelo Q* da OpenAI foi exposto, o que era poderoso demais para o conselho de administração estar vigilante, ou o estopim para Ultraman ser expulso

Fonte do artigo: qubits

Fonte da imagem: Gerada por Unbounded AI

O drama de luta do palácio OpenAI acabou de terminar, e imediatamente desencadeará outro alvoroço!

A Reuters revelou que, antes de Altman ser demitido, vários pesquisadores escreveram cartas de advertência ao conselho de administração que podem ter desencadeado todo o incidente:

O modelo de IA de próxima geração, chamado internamente de Q (pronuncia-se Q-Star), é muito poderoso e avançado para ameaçar a humanidade.

Q* é liderado pela figura central desta tempestade, o cientista-chefe Ilya Sutskever.

As pessoas rapidamente ligaram as observações anteriores de Altman na cimeira da APEC:

Houve quatro vezes na história da OpenAI, mais recentemente nas últimas semanas, quando eu estava na sala quando ultrapassamos o véu da ignorância e chegamos à fronteira da descoberta, que foi a maior honra da minha carreira. "

Q* pode ter as seguintes características principais que são consideradas um passo chave no caminho para AGI ou superinteligência.

  • Quebrar as limitações dos dados humanos e pode produzir enormes quantidades de dados de treinamento por si mesmo
  • Capacidade de aprender e melhorar de forma independente

A notícia rapidamente provocou uma enorme discussão, e Musk também perguntou com um link.

O meme mais recente é que, aparentemente da noite para o dia, as pessoas passaram de especialistas no conselho de administração da Ultraman e OpenAI para especialistas Q*.

Quebrando Limites de Dados

De acordo com as últimas notícias do The Information, Q’* era anteriormente conhecido como GPT-Zero, um projeto iniciado por Ilya Sutskever, com um nome que presta homenagem ao Alpha-Zero da DeepMind.

Alpha-Zero não precisa aprender jogos de xadrez humanos, mas aprende a jogar Go jogando contra si mesmo.

O GPT-Zero permite que modelos de IA de próxima geração sejam treinados usando dados sintéticos em vez de depender de dados do mundo real, como texto ou imagens extraídas da internet.

Em 2021, o GPT-Zero foi oficialmente estabelecido, e não houve muitas notícias diretamente relacionadas desde então.

Mas apenas algumas semanas atrás, Ilya mencionou em uma entrevista:

Sem entrar em muitos detalhes, quero apenas dizer que as limitações de dados podem ser superadas e o progresso continuará.

Baseado no GPT-Zero, Q* foi desenvolvido por Jakub Pachocki e Szymon Sidor.

Ambos foram os primeiros membros da OpenAI, e também foram os primeiros membros a anunciar que seguiriam Ultraman para a Microsoft.

Jakub Pachocki, que foi promovido a Diretor de Pesquisa no mês passado, tem sido um contribuinte fundamental para muitos de seus avanços passados, incluindo o projeto Dota 2 e o pré-treinamento GPT-4.

Szymon Sidor também trabalhou no projeto Dota 2, e sua biografia é “construindo AGI, linha por linha”.

Na mensagem da Reuters, foi mencionado que Q* recebeu enormes recursos de computação para ser capaz de resolver certos problemas matemáticos. Embora a habilidade matemática atual seja apenas no nível do ensino fundamental, os pesquisadores estão muito otimistas sobre o sucesso futuro.

Além disso, foi mencionado que a OpenAI estabeleceu uma nova equipe de “cientistas de IA”, que é uma fusão das duas equipes de “Code Gen” e “Math Gen” nos primeiros dias, e está explorando e otimizando para melhorar a capacidade de raciocínio da IA e, eventualmente, realizar a exploração científica.

Três Palpites

Não há nenhuma palavra mais específica sobre o que exatamente Q* é, mas alguns especularam a partir do nome que pode ter algo a ver com Q-Learning.

O Q-Learning, que remonta a 1989, é um algoritmo de aprendizagem por reforço sem modelos que não requer modelação do ambiente, mesmo para funções de transferência com fatores aleatórios ou funções de recompensa, e pode ser adaptado sem alterações especiais.

Em contraste com outros algoritmos de aprendizagem por reforço, o Q-Learning se concentra em aprender o valor de cada par estado-ação para decidir qual ação trará o maior retorno a longo prazo, em vez de aprender diretamente a estratégia de ação em si.

O segundo palpite tem a ver com o lançamento da OpenAI em maio, que resolve problemas de matemática através de “supervisão de processos” em vez de “supervisão de resultados”.

No entanto, os nomes de Jakub Pachocki e Szymon Sidor não aparecem na lista de contribuintes para este estudo.

Há também especulações de que Noam Brown, o “pai da Depo AI” que se juntou à OpenAI em julho, também pode estar envolvido no projeto.

Quando aderiu, disse que queria generalizar os métodos que costumavam ser aplicáveis apenas aos jogos, e que o raciocínio poderia ser 1000 vezes mais lento e caro, mas poderia descobrir novas drogas ou provar conjeturas matemáticas.

Está de acordo com as descrições rumorosas de “exigir enormes recursos de computação” e “ser capaz de resolver certos problemas matemáticos”.

Enquanto mais especulações ainda estão sendo feitas, se os dados sintéticos e o aprendizado de reforço podem levar a IA para o próximo nível tornou-se um dos tópicos mais discutidos na indústria.

O cientista da Nvidia, Fan Linxi, acredita que os dados sintéticos fornecerão trilhões de tokens de treinamento de alta qualidade, e a questão-chave é como manter a qualidade e evitar cair em gargalos prematuramente.

Musk concorda, mencionando que cada livro escrito por um humano pode caber em um disco rígido, e os dados sintéticos estarão muito além disso.

Mas LeCun, um dos triunvirato do Prêmio Turing, argumenta que mais dados sintéticos são uma medida paliativa, e que a IA precisará aprender com muito poucos dados, assim como humanos ou animais.

Cameron R. Wolfe, Ph.D. na Rice University, disse que o Q-Learning pode não ser o segredo para desbloquear o AGI.

Mas combinar “dados sintéticos” com “algoritmos de aprendizagem por reforço eficientes em termos de dados” pode ser a chave para o avanço do atual paradigma de pesquisa em IA.

Ele disse que o ajuste fino por meio do aprendizado por reforço é o segredo para treinar modelos grandes de alto desempenho, como o ChatGPT/GPT-4. No entanto, a aprendizagem por reforço é inerentemente ineficiente em termos de dados, e é muito caro ajustar a aprendizagem por reforço usando conjuntos de dados rotulados manualmente por humanos. Com isso em mente, o avanço da pesquisa em IA (pelo menos no paradigma atual) dependerá fortemente de dois objetivos fundamentais:

  • Fazer com que a aprendizagem por reforço tenha um melhor desempenho com menos dados.
  • Sintetizar e gerar dados de alta qualidade usando modelos grandes e uma pequena quantidade de dados anotados manualmente sempre que possível.

… Se nos ativermos à previsão do próximo paradigma de token (ou seja, pré-treinado -> SFT -> RLHF) usando Transformador somente decodificador… A combinação destes dois métodos dará a todos acesso a técnicas de formação de ponta, não apenas a equipas de investigação com muito dinheiro!

Mais uma coisa

Ninguém dentro da OpenAI ainda respondeu à mensagem de Q.

Mas Altman acaba de revelar que teve algumas horas de conversa amigável com o fundador do Quora, Adam D’Angelo, que permaneceu no conselho.

Parece que se Adam D’Angelo estava ou não por trás do incidente, como todos especulavam, chegou agora a um acordo.

Links de referência:
[1]
[2]
[3]
[4]
[5]
[6]

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)