A última iteração do Grok acabou de lançar alguns números interessantes. A versão 4.1 Rápida com capacidades de raciocínio atingiu 93.5 no benchmark Extended NYT Connections—um salto de 1.4 pontos em relação ao 92.1 do predecessor.

O que chamou a atenção? O modo padrão (sem raciocínio) também viu ganhos, subindo para 25,8. Nenhum anúncio chamativo, apenas métricas de desempenho atualizadas foram divulgadas discretamente.

Para contextualizar, esses benchmarks testam modelos de linguagem em tarefas complexas de reconhecimento de padrões. A melhoria do modo de raciocínio sugere um processamento lógico aprimorado, enquanto a atualização do modelo base indica refinamentos na arquitetura geral.

As atualizações de versão como esta normalmente refletem otimizações de treinamento iterativas em vez de redesenhos fundamentais. Ainda assim, os ganhos consistentes em ambos os modos apontam para um progresso significativo nas capacidades do modelo.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

11 gostos