A Gemma do Google já age como a Gemini—alguém fez ela pensar como o Claude Opus também

Se você tem acompanhado o cenário de IA local, provavelmente conhece o Qwopus—o modelo de código aberto que tentou destilar o raciocínio do Claude Opus 4.6 no Qwen da Alibaba, para que você pudesse rodar algo semelhante ao Opus em seu próprio hardware de graça. Funcionou surpreendentemente bem. A vantagem óbvia: Qwen é um modelo chinês, e nem todo mundo se sente confortável com isso. Jackrong, o mesmo desenvolvedor pseudônimo por trás daquele projeto, ouviu o feedback. Sua resposta é o Gemopus—uma nova família de ajustes finos ao estilo Claude Opus, construídos inteiramente com o Gemma 4 de código aberto do Google. DNA totalmente americano, mesma ideia: raciocínio de nível de fronteira, rodando localmente em hardware que você já possui. A família vem em duas versões. Gemopus-4-26B-A4B é a opção mais pesada—um modelo de Mistura de Especialistas que possui 26 bilhões de parâmetros no total, mas ativa cerca de 4 bilhões durante a inferência, o que significa que entrega um desempenho muito superior ao esperado para hardware restrito.

Parâmetros são o que determinam a capacidade de uma IA de aprender, raciocinar e armazenar informações. Ter 26 bilhões de parâmetros no total dá ao modelo uma vasta gama de conhecimentos. Mas, ao “acordar” apenas os 4 bilhões de parâmetros relevantes para sua solicitação específica, ele oferece resultados de alta qualidade de uma IA massiva, mantendo-se leve o suficiente para rodar suavemente em hardware cotidiano. A outra é a Gemopus-4-E4B, um modelo de 4 bilhões de parâmetros projetado para rodar confortavelmente em um iPhone moderno ou um MacBook fino e leve—sem necessidade de GPU.  A escolha do modelo base é importante aqui. O Gemma 4 do Google, lançado em 2 de abril, é construído diretamente a partir da mesma pesquisa e tecnologia do Gemini 3—disse a própria empresa na estreia. Isso significa que o Gemopus carrega algo que nenhuma ajuste fino baseado em Qwen pode reivindicar: o DNA do próprio modelo fechado de ponta do Google, sob o capô, envolto no estilo de pensamento da Anthropic. O melhor de ambos os mundos, mais ou menos.

O que diferencia o Gemopus da onda de outros ajustes finos do Gemma que estão inundando o Hugging Face agora é a filosofia por trás dele. Jackrong deliberadamente optou por não forçar as trilhas de raciocínio em cadeia do Claude nos pesos do Gemma—uma solução rápida que a maioria das versões concorrentes adota. Seu argumento, apoiado por pesquisas recentes, é que encher um modelo estudante com textos de raciocínio superficial de um professor não transfere realmente a habilidade de raciocínio. Ensina imitação, não lógica. “Não há necessidade de imaginação excessiva ou replicação supersticiosa do raciocínio no estilo Claude,” diz a ficha do modelo. Em vez disso, ele focou na qualidade das respostas, clareza estrutural e naturalidade na conversa—corrigindo o tom rígido de Wikipedia do Gemma e sua tendência a dar aulas sobre coisas que você não pediu. O engenheiro de infraestrutura de IA Kyle Hessling realizou benchmarks independentes e publicou os resultados diretamente na ficha do modelo. Sua avaliação da variante de 26B foi bastante favorável. “Fiquei bastante satisfeito com os testes e é um ajuste fino excelente de um modelo já excepcional,” escreveu no X. “Ele se sai muito bem em solicitações de uma única vez em contextos longos, e roda incrivelmente rápido graças à arquitetura MOE (mistura de especialistas).”

Gemopus-4-26B-A4B de Jackrong ESTÁ NO AR!

Feliz por ter testado bastante este modelo (veja meus testes na ficha do modelo) e é um ajuste fino excelente de um modelo já excepcional! Meu amigo Jackrong está sempre criando o melhor!

Ele se sai muito bem em solicitações de uma única vez em contextos longos…

— Kyle Hessling (@KyleHessling1) 10 de abril de 2026

A variante menor E4B passou em todos os 14 testes de competência essenciais—seguimento de instruções, codificação, matemática, raciocínio em múltiplas etapas, tradução, segurança, cache—and passou em todos os 12 testes de contexto longo com 30K e 60K tokens. Em buscas de agulha no palheiro, passou em 13 de 13 sondagens, incluindo um teste de resistência com um milhão de tokens usando YaRN 8× RoPE scaling.

O 26B se estende nativamente até 131K de contexto e até 524K com YaRN, que Hessling também testou sob estresse: “Ele também destruiu meus testes simples de agulha no palheiro até um contexto estendido de 524k!” Em hardware de borda, o E4B é realmente rápido. Jackrong relata 45–60 tokens por segundo no iPhone 17 Pro Max, e 90–120 tokens por segundo no MacBook Air M3/M4 via MLX. A arquitetura MoE de 26B significa que ele descarrega de forma eficiente em sistemas de memória unificada ou GPUs com menos de 10GB de VRAM. Hessling recomendou como seu modelo diário para setups com VRAM limitada.

Ambos os modelos estão disponíveis em formato GGUF, o que significa que você pode inseri-los diretamente no LM Studio ou llama.cpp sem precisar de configuração. O código completo de treinamento e um guia passo a passo de ajuste fino estão no GitHub do Jackrong—mesmo pipeline usado para o Qwopus, mesma configuração de Unsloth e LoRA, reproduzível no Colab. Gemopus não está sem suas arestas. A chamada de ferramentas ainda está quebrada em toda a série Gemma 4 no llama.cpp e no LM Studio—falhas na chamada, incompatibilidade de formatos, loops—então, se seu fluxo de trabalho depende de agentes usando ferramentas externas, este ainda não é seu modelo. Jackrong mesmo chama isso de “uma referência de exploração de engenharia, não uma solução totalmente pronta para produção,” e recomenda sua própria série Qwopus 3.5 para quem precisa de algo mais estável para cargas de trabalho reais. E, como Jackrong deliberadamente evitou a distilação agressiva do raciocínio em cadeia ao estilo Claude, não espere que ele seja tão profundamente Opus quanto o Qwopus—foi uma troca consciente por estabilidade, não uma falha.

Sim, a filosofia deste foi prioridade na estabilidade, entendo que os modelos Gemma tendem a ficar instáveis se você força muitas trilhas de raciocínio do Claude neles, como pode ver ao testar várias outras versões do Opus Gemma no hugging face.

Jackrong tentou uma…

— Kyle Hessling (@KyleHessling1) 10 de abril de 2026

Para quem quer aprofundar o ajuste fino do Gemma especificamente para raciocínio, há também um projeto comunitário separado que vale a pena acompanhar: Ornstein, do desenvolvedor pseudônimo DJLougen, que usa a mesma base Gemma 4 de 26B e foca especificamente em melhorar suas cadeias de raciocínio sem depender da lógica ou estilo de qualquer modelo de terceiros. Uma advertência honesta: as dinâmicas de treinamento do Gemma são mais caóticas do que as do Qwen para ajustadores finos—flutuações de perda mais amplas, maior sensibilidade a hiperparâmetros. Jackrong mesmo admite isso. Se você precisa de um modelo local mais testado para fluxos de trabalho de produção, sua série Qwopus 3.5 continua mais robusta e validada. Mas, se você quer um modelo americano com acabamento ao estilo Opus, o Gemopus é atualmente sua melhor opção disponível. Uma variante mais densa de 31B do Gemopus também está em desenvolvimento, com Hessling sugerindo que será “uma bomba, com certeza.” Se você quer experimentar rodar modelos locais no seu próprio hardware, confira nosso guia de como começar com IA local.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar