Esta IA Frankenstein Mescla Claude Opus, GLM e Qwen—E Supera os Modelos Mais Avançados

Resumidamente

  • O engenheiro de IA Kyle Hessling mesclou duas finetunes do Claude Opus 4.6 e GLM-5.1 de Jackrong em uma única “frankenmerge”.
  • Uma “cura de fine-tune” pós-mesclagem foi necessária para corrigir a saída de código confusa causada pela fronteira de camada entre os dois modelos treinados de forma independente.
  • O modelo tende a raciocinar demais em algumas tarefas, mas é um problema que pode ser resolvido.

Você achava que Qwopus era legal porque mesclou Qwen e Opus? Bem, Kyle Hessling, um engenheiro de IA com bastante conhecimento e tempo livre, simplesmente pegou essa receita e colocou o GLM—um dos melhores modelos de raciocínio disponíveis—na mistura. O resultado é uma frankenmerge de 18 bilhões de parâmetros que cabe em uma GPU barata e supera o mais novo modelo de 35B da Alibaba. Para quem não sabe, parâmetros são os valores numéricos incorporados a uma rede neural durante o treinamento, como botões que uma rede neural pode ajustar — quanto mais deles, mais conhecimento e complexidade o modelo pode lidar, e mais memória ele precisa para rodar. Hessling, um engenheiro de infraestrutura de IA, empilhou duas finetunes do Qwen3.5 de Jackrong uma sobre a outra: camadas 0 a 31 do Qwopus 3.5-9B-v3.5, que destila o estilo de raciocínio do Claude 4.6 Opus em Qwen como modelo base, e camadas 32 a 63 do Qwen 3.5-9B-GLM5.1-Distill-v1, treinado com dados de raciocínio do modelo professor GLM-5.1 da z.AI, sobre a mesma base Qwen.

A hipótese: Dar ao modelo uma estrutura de planejamento ao estilo Opus na primeira metade do raciocínio e a decomposição de problemas do GLM na segunda—64 camadas no total, em um único modelo.  A técnica é chamada de frankenmerge de passagem—sem mistura, sem média de pesos, apenas empilhamento bruto de camadas. Hessling teve que escrever seu próprio script de mesclagem do zero porque as ferramentas existentes não suportam a arquitetura híbrida de atenção linear/completa do Qwen 3.5. O modelo resultante passou em 40 de 44 testes de capacidade, superando o Qwen 3.6-35B-A3B MoE da Alibaba—que requer 22 GB de VRAM—enquanto roda com apenas 9,2 GB na quantização Q4_K_M. Um NVIDIA RTX 3060 lida com isso tranquilamente… teoricamente.

Hessling explica que fazer esse modelo não foi fácil. A mesclagem bruta costumava gerar código confuso. Mas mesmo assim, os modelos de teste que ele publicou viralizaram entre entusiastas. A última correção de Hessling foi uma “cura de fine-tune”—basicamente um QLoRA (um pouco de código embutido no modelo como um apêndice e que condiciona fortemente a saída final ) direcionando toda atenção e projeções. Testamos, e mesmo que a ideia de ter Qwen, Claude Opus e GLM 5.1 rodando localmente em nosso hardware modesto seja tentadora, na prática descobrimos que o modelo é tão bom em raciocinar que acaba pensando demais. Quando testamos em um MacBook M1 rodando uma versão quantizada MLX (um modelo otimizado para Macs), ao solicitar a geração do nosso jogo de teste habitual, a cadeia de raciocínio ficou tão longa que atingiu o limite de tokens e nos deu um longo trecho de raciocínio sem um resultado funcional em uma interação de zero-shot. Isso é um obstáculo diário para quem quer rodar isso localmente em hardware de consumo para aplicações sérias. Ficamos um pouco mais suaves e as coisas ainda foram desafiadoras. Um simples comando “escreva um jogo da Cobra” levou mais de 40 minutos de raciocínio… muita coisa.

Você pode ver os resultados no nosso repositório no Github. Essa é uma tensão conhecida na linhagem Qwopus: as finetunes v2 de Jackrong foram criadas para resolver a tendência do Qwen 3.5 a loops internos repetitivos e “pensar de forma mais econômica.” Empilhar 64 camadas de duas destilações de raciocínio parece amplificar esse comportamento em certos prompts.

Esse é um problema que pode ser resolvido, e a comunidade de código aberto provavelmente irá resolvê-lo. O que importa aqui é o padrão mais amplo: um desenvolvedor pseudônimo publica finetunes especializados com guias de treinamento completos, outro entusiasta os empilha com um script personalizado, realiza 1.000 passos de cura, e consegue um modelo que supera uma versão de 35 bilhões de parâmetros de um dos maiores laboratórios de IA do mundo. Tudo isso cabe em um arquivo pequeno. É isso que torna o código aberto interessante—não apenas os grandes laboratórios lançando pesos, mas as soluções camada por camada, a especialização acontecendo abaixo do radar. A diferença entre um projeto de fim de semana e uma implantação de fronteira fica menor à medida que mais desenvolvedores entram na comunidade. Jackrong desde então espelhou o repositório de Hessling, e o modelo acumulou mais de três mil downloads nas primeiras duas semanas de disponibilidade.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar