Tian Yuandong jogou água fria no misterioso projeto Q* da OpenAI: dados sintéticos não são um salvador da AGI, e a habilidade é limitada a problemas matemáticos simples
A discussão da conjetura Q continua, e hoje, o guru da IA Tian Yuandong declarou publicamente que Q* só pode resolver problemas de matemática de nível básico, e AGI também é provável que seja incapaz de ser alcançado através de dados sintéticos.
A conjetura Q* continua a ser popular na comunidade de IA.
Todo mundo está especulando se Q* é “Q-learning + A*”.
O guru da IA Fuchito Tian também analisou em detalhes a probabilidade da hipótese de “Q*=Q-learning+A*”.
Ao mesmo tempo, cada vez mais pessoas estão julgando que os dados sintéticos são o futuro dos LLMs.
No entanto, Tian Yuandong jogou água fria nesta declaração.
Discordo parcialmente da afirmação de que a AGI pode ser resolvida simplesmente ampliando os dados sintéticos.
Pesquisa é poderosa porque, se o ambiente for projetado corretamente, criará um número infinito de novos padrões para os modelos aprenderem e se adaptarem.
No entanto, a questão de saber se são necessários milhares de milhões de dados para aprender esse novo modelo permanece uma questão em aberto, o que pode indicar algumas falhas fundamentais no nosso paradigma de arquitetura/aprendizagem.
Em contraste, muitas vezes é mais fácil para os seres humanos descobrirem novos paradigmas através do momento “aha”.
Jim Fan, cientista sênior da NVIDIA, concorda que os dados sintéticos desempenharão um papel importante, mas simplesmente dimensioná-los cegamente não será suficiente para alcançar o AGI.
Q*=Q-learning+A, qual a probabilidade disso
Tian Yuandong disse que, com base em sua experiência passada com OpenGo (uma reprodução de AlphaZero), A* pode ser considerado como uma versão MCTS determinística com apenas o valor (ou seja, heurística) função Q.
A* é adequado para tarefas em que o estado é fácil de avaliar após uma determinada ação, mas a ação é difícil de prever após um determinado estado. Um excelente exemplo disso é um problema de matemática.
Go, pelo contrário, é uma história diferente: o próximo candidato é relativamente fácil de prever (apenas verificando a forma local), mas é muito mais complicado avaliar a situação no quadro.
É por isso que também temos bots Go bastante poderosos, mas eles só fazem uso de redes de estratégia.
Para LLMs, pode haver uma vantagem adicional em usar Q(s,a), pois a avaliação de Q(s,a) pode exigir apenas pré-população, enquanto a estratégia preditiva a = pi(s) requer amostragem autorregressiva, que é muito mais lenta. Além disso, no caso de usar apenas o decodificador, o cache KV de s pode ser compartilhado em várias operações.
O lendário Q*, que já deu um grande salto em frente na resolução de problemas matemáticos, qual é a probabilidade disso?
Tian Yuandong disse que seu palpite é que a função de valor deve ser relativamente fácil de configurar por causa do problema de matemática de nível de entrada sendo resolvido (por exemplo, pode ser previsto a partir da especificação alvo na forma de linguagem natural).
Se você quer resolver um problema de matemática difícil e não sabe como fazê-lo, essa abordagem pode não ser suficiente.
LeCun retuitou a discussão de Tian e concordou com seu ponto de vista - "Ele explicou a diferença de aplicabilidade entre A* (procurando o caminho mais curto em um gráfico) e MCTS (pesquisando em uma árvore de crescimento exponencial). 」
Sobre o retweet de LeCun, Tian Yuandong disse que ele tem feito muitas coisas diferentes, incluindo planejamento, compreensão de Transformers / LLMs e técnicas de otimização eficientes, esperando combinar essas tecnologias.
Alguns internautas expressaram ceticismo, dizendo: "Para que A* seja válido, uma função heurística demonstrável, aceitável e consistente é necessária. Mas duvido muito que alguém possa criar tal função, porque não é fácil determinar o valor de uma subsequência. 」
Mesmo se você fizer um problema de matemática do ensino fundamental, Q* é esperado para ser alto
Qualquer pessoa que conheça um pouco sobre grandes modelos sabe que a capacidade de resolver problemas matemáticos básicos significa que a capacidade de um modelo para fazê-lo é um grande salto em frente.
Isso ocorre porque é difícil para modelos grandes generalizar fora dos dados treinados.
Charles Higgins, cofundador da startup de treinamento de IA Tromero, disse que o principal problema que assola os grandes modelos agora é como raciocinar logicamente sobre conceitos abstratos e, se esse passo for alcançado, será sem dúvida um grande salto.
A matemática é o estudo do raciocínio simbólico, por exemplo, se X é maior que Y e Y é maior que Z, então X é maior que Z.
Se Q* é realmente Q-learning+A*, isso mostra que o novo modelo da OpenAI pode combinar a tecnologia de aprendizagem profunda habilitada para ChatGPT com as regras da programação humana. E este método pode ajudar a resolver o quebra-cabeça alucinatório do LLM.
De acordo com a cocriadora do Tromero, Sophia Kalanovska, isto tem um significado simbólico muito importante, mas, a nível prático, é improvável que acabe com o mundo.
Então, por que existe um boato de que “Q* já apareceu no protótipo do AGI”?
Kalanovska argumenta que, de acordo com as alegações atuais, Q* é capaz de combinar os dois lados do cérebro e entender as coisas a partir da experiência enquanto raciocina sobre fatos.
Obviamente, este é um passo mais perto de nossa inteligência reconhecida, porque Q* é provável que dê novas ideias para modelos grandes, o que o ChatGPT não pode fazer.
A maior limitação dos modelos existentes é que eles só podem regurgitar informações dos dados de treinamento, mas não podem raciocinar e desenvolver novas ideias.
Resolver o problema invisível é um passo fundamental na criação do AGI.
Andrew Rogoyski, diretor do Instituto de IA do Centro para a Humanidade de Surrey, disse que os grandes modelos que existem hoje podem fazer problemas de matemática de nível de graduação, mas quando se trata de problemas de matemática mais avançados, todos eles falham.
Mas se os LLMs são realmente capazes de resolver problemas novos e invisíveis, isso é um grande problema, mesmo que os problemas matemáticos feitos sejam relativamente simples.
Dados sintéticos são a chave para o futuro dos LLMs?
Então, os dados sintéticos são rei?
A explosão de Q* causou muita especulação entre os figurões, e os figurões especulam que os rumores de “enormes recursos de computação que permitem que o novo modelo resolva certos problemas matemáticos” podem ser RLAIF (reforço aprendendo com feedback de IA).
O RLAIF é uma tecnologia que substitui as preferências de marcação humana de LLMs prontos para uso, tornando as operações de alinhamento contra LLMs mais escaláveis automatizando o feedback humano.
O RLHF (Reinforcement Learning Based on Human Feedback), que já brilhou no treinamento LLM, pode efetivamente alinhar grandes modelos de linguagem com as preferências humanas, mas coletar rótulos de preferência humana de alta qualidade é um gargalo fundamental.
Como resultado, empresas como Anthropic e Google tentaram recorrer ao RLAIF, usando IA para substituir humanos no processo de treinamento de feedback.
Isso significa que os dados sintéticos são fundamentais, e usar uma estrutura de árvore fornece mais e mais opções para mais tarde, para chegar à resposta certa.
Não muito tempo atrás, Jim Fan tuitou que os dados sintéticos fornecerão o próximo trilhão de dados de treinamento de alta qualidade.
"Aposto que os grupos mais sérios sabem disso. A questão-chave é como manter a qualidade e evitar a estagnação prematura. 」
Jim Fan também cita o artigo de Richard S. Sutton “The Bitter Lesson” para ilustrar que existem apenas dois paradigmas no desenvolvimento da IA que podem ser infinitamente escalados através da computação: aprendizagem e pesquisa.
"Era verdade em 2019 no momento em que escrevo este artigo, e é verdade hoje, aposto até ao dia em que resolvermos o AGI. 」
Richard S. Sutton é membro da Royal Society of Canada e da Royal Society, e é considerado um dos fundadores da aprendizagem moderna por reforço computacional, fazendo várias contribuições significativas para o campo, incluindo aprendizagem de diferença de tempo e métodos de gradiente estratégico.
Neste artigo, Sutton faz as seguintes observações:
Uma abordagem genérica que aproveita a computação é, em última análise, a mais eficiente e eficiente. Mas a razão para isso é a Lei de Moore, ou mais precisamente devido ao declínio exponencial contínuo no custo por unidade de computação.
Inicialmente, os pesquisadores trabalharam para evitar a busca explorando o conhecimento humano ou as características especiais do jogo, o que pareceria irrelevante uma vez que a pesquisa fosse efetivamente aplicada em larga escala.
Mais uma vez, os métodos estatísticos triunfaram sobre os métodos baseados no conhecimento humano, o que levou a mudanças significativas em todo o campo do processamento da linguagem natural, onde a estatística e a computação se tornaram gradualmente dominantes durante décadas.
Os investigadores em IA tentam muitas vezes incorporar conhecimentos nos sistemas, o que pode ser útil a curto prazo, mas pode impedir novos progressos a longo prazo.
Os avanços acabarão por ser alcançados através de uma abordagem baseada na pesquisa e aprendizagem.
O conteúdo real da mente é extremamente complexo, e devemos parar de tentar encontrar maneiras simples de representar pensamentos e, em vez disso, devemos apenas construir meta-métodos que possam encontrar e capturar essa complexidade arbitrária.
Assim, parece que Q* compreendeu o cerne do problema (procurar e aprender), e os dados sintéticos permitirão ainda mais romper as limitações do passado e dar o seu próprio salto.
Em relação aos dados sintéticos, Musk também disse que os humanos realmente não conseguem vencer as máquinas.
"Você poderia colocar o texto de cada livro que um ser humano escreve em um disco rígido (suspiro), e os dados sintéticos seriam muito mais do que isso. 」
A este respeito, Jim Fan interagiu com Musk e disse:
"Se pudermos simulá-los em grande escala, muitos dados sintéticos virão de agentes incorporados, como o Tesla Optimus. 」
Jim Fan acha que o RLAIF, ou RLAIF a partir do feedback da verdade, percorrerá um longo caminho se for dimensionado corretamente. Além disso, os dados sintéticos incluem simuladores, o que, em princípio, pode ajudar os LLMs a desenvolver modelos mundiais.
"O ideal é que seja infinito. Mas a preocupação é que, se o ciclo de autoaperfeiçoamento não for eficaz o suficiente, corre o risco de estagnar. 」
Sobre o canto e a harmonia dos dois, LeCun disse que tinha algo a dizer:
LeCun acredita que animais e humanos rapidamente se tornam muito inteligentes com muito poucos dados de treinamento.
Portanto, usar mais dados (sintéticos ou não sintéticos) é uma medida paliativa temporária, simplesmente porque nossa abordagem atual tem limitações.
Nesse sentido, internautas que apoiam a “fação big data” expressaram sua insatisfação:
“Milhões de anos de adaptação evolutiva não deveriam assemelhar-se ao pré-treino, e a nossa experiência ao longo da vida assemelha-se a ajustes finos contínuos?”
LeCun deu então um exemplo para explicar que o único meio usado pelos seres humanos para levar adiante os resultados de milhões de anos de evolução são os genes, e a quantidade de dados no genoma humano é muito pequena, apenas 800MB.
Mesmo um pequeno LLM 7B requer 14GB de armazenamento, o que realmente não é um monte de dados no genoma humano.
Além disso, a diferença entre os genomas do chimpanzé e do humano é de cerca de 1% (8MB). Esta pequena diferença não é de todo suficiente para explicar a diferença de habilidades entre humanos e chimpanzés.
Quando se trata da quantidade de dados aprendidos, uma criança de 2 anos vê uma quantidade muito pequena de dados visuais, com cerca de 32 milhões de segundos (2x365x12x3600) de todo o seu tempo de aprendizagem.
Os seres humanos têm 2 milhões de fibras nervosas óticas, e cada fibra nervosa transmite cerca de 10 bytes por segundo. - Isso é um total de 6E14 bytes.
Em contraste, o treinamento LLM normalmente tem um volume de dados de tokens 1E13, que é cerca de 2E13 bytes. Assim, uma criança de 2 anos recebe apenas 30 vezes mais dados do que o LLM.
Independentemente dos argumentos dos grandes, grandes empresas de tecnologia como Google, Anthropic, Cohere, etc., estão usando supervisão de processos ou métodos semelhantes ao RLAIF para criar conjuntos de dados pré-treinados, que estão custando enormes recursos.
Portanto, está claro para todos que os dados sintéticos são um atalho para expandir seu conjunto de dados. A curto prazo, podemos obviamente utilizá-lo para criar alguns dados úteis.
Mas será este o caminho para o futuro? Teremos de esperar pela resposta.
Recursos:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Tian Yuandong jogou água fria no misterioso projeto Q* da OpenAI: dados sintéticos não são um salvador da AGI, e a habilidade é limitada a problemas matemáticos simples
Fonte: Novo Zhiyuan
A conjetura Q* continua a ser popular na comunidade de IA.
Todo mundo está especulando se Q* é “Q-learning + A*”.
O guru da IA Fuchito Tian também analisou em detalhes a probabilidade da hipótese de “Q*=Q-learning+A*”.
Ao mesmo tempo, cada vez mais pessoas estão julgando que os dados sintéticos são o futuro dos LLMs.
No entanto, Tian Yuandong jogou água fria nesta declaração.
Q*=Q-learning+A, qual a probabilidade disso
Tian Yuandong disse que, com base em sua experiência passada com OpenGo (uma reprodução de AlphaZero), A* pode ser considerado como uma versão MCTS determinística com apenas o valor (ou seja, heurística) função Q.
Go, pelo contrário, é uma história diferente: o próximo candidato é relativamente fácil de prever (apenas verificando a forma local), mas é muito mais complicado avaliar a situação no quadro.
É por isso que também temos bots Go bastante poderosos, mas eles só fazem uso de redes de estratégia.
O lendário Q*, que já deu um grande salto em frente na resolução de problemas matemáticos, qual é a probabilidade disso?
Tian Yuandong disse que seu palpite é que a função de valor deve ser relativamente fácil de configurar por causa do problema de matemática de nível de entrada sendo resolvido (por exemplo, pode ser previsto a partir da especificação alvo na forma de linguagem natural).
Se você quer resolver um problema de matemática difícil e não sabe como fazê-lo, essa abordagem pode não ser suficiente.
Alguns internautas expressaram ceticismo, dizendo: "Para que A* seja válido, uma função heurística demonstrável, aceitável e consistente é necessária. Mas duvido muito que alguém possa criar tal função, porque não é fácil determinar o valor de uma subsequência. 」
Mesmo se você fizer um problema de matemática do ensino fundamental, Q* é esperado para ser alto
Qualquer pessoa que conheça um pouco sobre grandes modelos sabe que a capacidade de resolver problemas matemáticos básicos significa que a capacidade de um modelo para fazê-lo é um grande salto em frente.
Isso ocorre porque é difícil para modelos grandes generalizar fora dos dados treinados.
Charles Higgins, cofundador da startup de treinamento de IA Tromero, disse que o principal problema que assola os grandes modelos agora é como raciocinar logicamente sobre conceitos abstratos e, se esse passo for alcançado, será sem dúvida um grande salto.
A matemática é o estudo do raciocínio simbólico, por exemplo, se X é maior que Y e Y é maior que Z, então X é maior que Z.
De acordo com a cocriadora do Tromero, Sophia Kalanovska, isto tem um significado simbólico muito importante, mas, a nível prático, é improvável que acabe com o mundo.
Então, por que existe um boato de que “Q* já apareceu no protótipo do AGI”?
Kalanovska argumenta que, de acordo com as alegações atuais, Q* é capaz de combinar os dois lados do cérebro e entender as coisas a partir da experiência enquanto raciocina sobre fatos.
A maior limitação dos modelos existentes é que eles só podem regurgitar informações dos dados de treinamento, mas não podem raciocinar e desenvolver novas ideias.
Resolver o problema invisível é um passo fundamental na criação do AGI.
Mas se os LLMs são realmente capazes de resolver problemas novos e invisíveis, isso é um grande problema, mesmo que os problemas matemáticos feitos sejam relativamente simples.
Dados sintéticos são a chave para o futuro dos LLMs?
Então, os dados sintéticos são rei?
A explosão de Q* causou muita especulação entre os figurões, e os figurões especulam que os rumores de “enormes recursos de computação que permitem que o novo modelo resolva certos problemas matemáticos” podem ser RLAIF (reforço aprendendo com feedback de IA).
O RLAIF é uma tecnologia que substitui as preferências de marcação humana de LLMs prontos para uso, tornando as operações de alinhamento contra LLMs mais escaláveis automatizando o feedback humano.
Isso significa que os dados sintéticos são fundamentais, e usar uma estrutura de árvore fornece mais e mais opções para mais tarde, para chegar à resposta certa.
Não muito tempo atrás, Jim Fan tuitou que os dados sintéticos fornecerão o próximo trilhão de dados de treinamento de alta qualidade.
Jim Fan também cita o artigo de Richard S. Sutton “The Bitter Lesson” para ilustrar que existem apenas dois paradigmas no desenvolvimento da IA que podem ser infinitamente escalados através da computação: aprendizagem e pesquisa.
"Era verdade em 2019 no momento em que escrevo este artigo, e é verdade hoje, aposto até ao dia em que resolvermos o AGI. 」
Richard S. Sutton é membro da Royal Society of Canada e da Royal Society, e é considerado um dos fundadores da aprendizagem moderna por reforço computacional, fazendo várias contribuições significativas para o campo, incluindo aprendizagem de diferença de tempo e métodos de gradiente estratégico.
Uma abordagem genérica que aproveita a computação é, em última análise, a mais eficiente e eficiente. Mas a razão para isso é a Lei de Moore, ou mais precisamente devido ao declínio exponencial contínuo no custo por unidade de computação.
Inicialmente, os pesquisadores trabalharam para evitar a busca explorando o conhecimento humano ou as características especiais do jogo, o que pareceria irrelevante uma vez que a pesquisa fosse efetivamente aplicada em larga escala.
Mais uma vez, os métodos estatísticos triunfaram sobre os métodos baseados no conhecimento humano, o que levou a mudanças significativas em todo o campo do processamento da linguagem natural, onde a estatística e a computação se tornaram gradualmente dominantes durante décadas.
Os investigadores em IA tentam muitas vezes incorporar conhecimentos nos sistemas, o que pode ser útil a curto prazo, mas pode impedir novos progressos a longo prazo.
Os avanços acabarão por ser alcançados através de uma abordagem baseada na pesquisa e aprendizagem.
O conteúdo real da mente é extremamente complexo, e devemos parar de tentar encontrar maneiras simples de representar pensamentos e, em vez disso, devemos apenas construir meta-métodos que possam encontrar e capturar essa complexidade arbitrária.
Em relação aos dados sintéticos, Musk também disse que os humanos realmente não conseguem vencer as máquinas.
A este respeito, Jim Fan interagiu com Musk e disse:
Jim Fan acha que o RLAIF, ou RLAIF a partir do feedback da verdade, percorrerá um longo caminho se for dimensionado corretamente. Além disso, os dados sintéticos incluem simuladores, o que, em princípio, pode ajudar os LLMs a desenvolver modelos mundiais.
Sobre o canto e a harmonia dos dois, LeCun disse que tinha algo a dizer:
Portanto, usar mais dados (sintéticos ou não sintéticos) é uma medida paliativa temporária, simplesmente porque nossa abordagem atual tem limitações.
Nesse sentido, internautas que apoiam a “fação big data” expressaram sua insatisfação:
LeCun deu então um exemplo para explicar que o único meio usado pelos seres humanos para levar adiante os resultados de milhões de anos de evolução são os genes, e a quantidade de dados no genoma humano é muito pequena, apenas 800MB.
Além disso, a diferença entre os genomas do chimpanzé e do humano é de cerca de 1% (8MB). Esta pequena diferença não é de todo suficiente para explicar a diferença de habilidades entre humanos e chimpanzés.
Quando se trata da quantidade de dados aprendidos, uma criança de 2 anos vê uma quantidade muito pequena de dados visuais, com cerca de 32 milhões de segundos (2x365x12x3600) de todo o seu tempo de aprendizagem.
Os seres humanos têm 2 milhões de fibras nervosas óticas, e cada fibra nervosa transmite cerca de 10 bytes por segundo. - Isso é um total de 6E14 bytes.
Em contraste, o treinamento LLM normalmente tem um volume de dados de tokens 1E13, que é cerca de 2E13 bytes. Assim, uma criança de 2 anos recebe apenas 30 vezes mais dados do que o LLM.
Independentemente dos argumentos dos grandes, grandes empresas de tecnologia como Google, Anthropic, Cohere, etc., estão usando supervisão de processos ou métodos semelhantes ao RLAIF para criar conjuntos de dados pré-treinados, que estão custando enormes recursos.
Portanto, está claro para todos que os dados sintéticos são um atalho para expandir seu conjunto de dados. A curto prazo, podemos obviamente utilizá-lo para criar alguns dados úteis.
Mas será este o caminho para o futuro? Teremos de esperar pela resposta.
Recursos: