GPT-5.5 '9,7T Parâmetros' Reavaliado: Revisado para Aproximadamente 1,5T

De acordo com a monitorização feita pela Beating, os investigadores de IA Lawrence Chan e Benno Sturgeon publicaram uma análise do artigo do Cientista Chefe da Pine AI, Li Bojie, intitulado ‘Incompressible Knowledge Probes: Estimating the Parameter Count of Black Box Large Language Models Based on Fact Capacity.’ O artigo original estimou que o GPT-5.5 tinha cerca de 9,7T, o Claude Opus 4.7 aproximadamente 4,0T, e o o1 cerca de 3,5T, usando 1.400 perguntas de trivia para ‘avaliar’ os modelos de código fechado. Os revisores acreditam que, embora a abordagem em si seja valiosa, os números originais foram significativamente inflacionados devido aos critérios de pontuação e à qualidade das perguntas. A questão principal reside na ‘pontuação mínima.’ O artigo original dividiu as perguntas em sete níveis de dificuldade, e quando um modelo respondia a muitas perguntas incorretamente num determinado nível, a pontuação poderia teoricamente tornar-se negativa; no entanto, o código realmente ajustava a pontuação mínima de cada nível para 0. Isso inflacionou a diferença de desempenho dos modelos de ponta em perguntas difíceis e aumentou ainda mais a estimativa do número de parâmetros. O artigo afirma que isso não foi tratado dessa forma, mas o código e os resultados publicados empregaram esse procedimento. Após remover a ‘pontuação mínima,’ a inclinação do ajuste diminuiu de 6,79 para 3,56. Essa inclinação pode ser entendida como ‘para cada ponto de aumento na pontuação, quanto crescimento de parâmetros é traduzido’; uma inclinação menor indica que a mesma diferença de pontuação não corresponde mais a uma diferença de parâmetros tão exagerada. O valor de R² caiu de 0,917 para 0,815, indicando que a curva de ajuste de ‘pontuação para contagem de parâmetros’ não é tão estável quanto no artigo original. O intervalo de previsão de 90% expandiu-se de 3,0 vezes para 5,7 vezes, sugerindo uma margem de erro maior e que números pontuais não devem ser levados a sério. A análise também apontou que 131 de 1.400 perguntas apresentaram ambiguidades ou respostas incorretas, representando 9,4%. Os problemas concentraram-se principalmente nas perguntas difíceis, usadas para diferenciar modelos de código fechado de ponta, como GPT-5.5 e Claude Opus 4.7. De acordo com seus critérios revisados, o GPT-5.5 foi reduzido de 9659B na versão original para 1458B, com um intervalo de previsão de 256B a 8311B; o Claude Opus 4.7 foi reduzido de 4042B para 1132B; e o GPT-5 foi reduzido de 4088B para 1330B. Os revisores também enfatizaram que 1,5T não deve ser considerado como a verdadeira contagem de parâmetros do GPT-5.5. Uma conclusão mais precisa é que esse método de ponderação por trivia é altamente sensível aos detalhes de pontuação e à qualidade das perguntas, e números como 9,7T não podem ser usados diretamente como uma medida de peso para modelos de código fechado.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar