A Anthropic revela que o Claude Code tem três bugs em cascata: degradação do raciocínio, esquecimento de cache e instruções de 25 caracteres com efeito colateral adverso

ChainNewsAbmedia

A Anthropic em 4/23 publicou uma revisão de incidente de qualidade do Claude Code, admitindo publicamente que três erros de engenharia em camadas, sobrepostos nos últimos quase dois meses, causaram uma queda na qualidade de uso do Claude Code, e sincronamente que os impactos se estenderam ao Claude Agent SDK e ao Claude Cowork. A empresa disse: “Levamos muito a sério os retornos sobre a degradação do modelo, e nunca reduzimos deliberadamente a capacidade do modelo”, e em 4/23 redefiniu o limite de uso para todos os assinantes como compensação.

Linha do tempo dos três bugs e causas técnicas

Problema Intervalo de vigência Causa raiz Versão de correção Degradação de orçamento de raciocínio 3/4–4/7 effort de reasoning padrão caiu de high para medium, fazendo com que os usuários sentissem o modelo “mais burro” 4/7 Reversão Limpeza de cache bug 3/26–4/10 thinking cache de uma sessão ociosa por mais de 1 hora é limpo a cada rodada, e não apenas uma vez v2.1.101 prompt conciso反噬 (efeito colateral) 4/16–4/20 instrução de sistema recém-adicionada “texto entre chamadas de ferramentas ≤25 palavras”, ablation mostrou queda de inteligência geral de 3% v2.1.116

Degradação de raciocínio: o custo de reduzir latência

3/4 A Anthropic ajustou o effort de raciocínio (reasoning effort) do Claude Code, de high para medium, por padrão. A intenção era encurtar a latência de resposta. Mas essa mudança fez com que o modelo, em tarefas de raciocínio e depuração de código, parecesse “mais burro”. Depois da reversão em 4/7, agora o Opus 4.7 tem xhigh por padrão, e os outros modelos mantêm high. A empresa admitiu: a avaliação interna antes da mudança não conseguiu detectar essa degradação.

Bug de limpeza de cache: erro implícito na fronteira entre sistemas

3/26 A Anthropic introduziu uma otimização de prompt caching para sessões ociosas por mais de uma hora. O projeto original era “limpar o cache de thinking depois de ficar ocioso por uma hora”, mas, na implementação, passou a ser “limpar a cada rodada após o acionamento da ociosidade”, fazendo com que o Claude demonstrasse “amnésia, repetição” em longas sessões; além disso, a cada cache miss em cada rodada, o uso do usuário foi consumido rapidamente. A Anthropic apontou que esse bug “existe na interseção entre gerenciamento de contexto do Claude Code, Anthropic API e extended thinking”, envolvendo múltiplas fronteiras de sistema e sendo um erro implícito difícil de capturar com testes de unidade. A correção foi lançada em 4/10 na v2.1.101.

Instrução concisa de 25 palavras: ablation só então descobriu a queda de inteligência de 3%

4/16 A Anthropic adicionou uma instrução de sistema: “a saída de texto entre chamadas de ferramentas deve manter-se em até 25 palavras”, com o objetivo de reduzir explicações longas do modelo e deixar a experiência mais limpa. Na época, os testes internos não encontraram degradação, mas após uma ablation mais rigorosa e um experimento comparativo, a empresa descobriu que essa instrução causou uma queda geral de inteligência de cerca de 3% nos dois modelos Opus 4.6 e 4.7. Em 4/20, ela foi revertida na v2.1.116. Esse incidente destacou: até a pequena redação de um system prompt pode gerar impactos estruturais não previstos no comportamento do modelo.

Escopo de impacto

Camada de produto: Claude Code (todos os três problemas afetam), Claude Agent SDK (①②), Claude Cowork (tudo)

Camada de modelo: Sonnet 4.6, Opus 4.6, Opus 4.7

Infraestrutura básica da API: não afetada

Em termos de percepção do usuário, os efeitos se manifestaram como: queda na qualidade das respostas e na “inteligência”, aumento de latência, perda no meio do conversation context e consumo de uso mais rápido do que o esperado.

Compensação e melhorias de processo

A Anthropic, em 4/23, redefiniu o limite de uso para todos os assinantes como compensação direta. As melhorias de processo prometidas em paralelo incluem:

Aplicar um conjunto de avaliações (evaluation suite) mais amplo às mudanças de system prompt

Melhorar as ferramentas de Code Review para detectar regressões mais cedo

Padronizar critérios de testes internos para um build público, evitando divergências de comportamento entre “versão interna” e “versão para o público”

Adicionar um período de soak e um rollout progressivo para mudanças que possam afetar a inteligência do modelo

Lições para os usuários

Para usuários que dependem do Claude Code para desenvolvimento e pesquisa cotidianos, este postmortem tem três pontos principais para levar: primeiro, se você sentiu que o modelo Claude “ficou mais burro” entre meados de março e 20 de abril, ou se o Claude Code apresentou um esquecimento anormal em longas sessões, isso não foi uma impressão sua nem uso inadequado de prompt; segundo, para usuários cujo limite de uso foi consumido rapidamente durante esse período, eles podem, após 4/23, verificar se a Anthropic já redefiniu automaticamente; terceiro, mesmo um ajuste fino de prompt de “até 25 palavras” pode gerar impacto sistêmico no comportamento global do modelo — esse é um risco comum a engenharia de produtos de LLM.

Em comparação com o fato de outras empresas terem usado mais silêncio ou “isso é erro do usuário” como resposta às críticas sobre degradação do modelo, a divulgação proativa e a transparência técnica da Anthropic, desta vez, estabelecem um exemplo de referência para revisões de incidentes de produtos de IA.

Este artigo sobre como a Anthropic revelou por conta própria a sobreposição de três bugs no Claude Code: degradação de raciocínio, esquecimento de cache e efeitos colaterais da instrução de 25 palavras, foi publicado pela primeira vez em 鏈新聞 ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

DeepSeek V4 Consegue Pontuação Perfeita no Putnam-2025, Empata com Axiom em Raciocínio Matemático Formal

Mensagem do Gate News, 24 de abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, alcançando uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar. No regime prático usando LeanExplore e amostragem restrita, o V4-Flash-Max obteve 81.00 no

GateNews1m atrás

Qual IA mostra mais claramente seu status e posição? Pesquisa revela que a renda dos usuários do Claude é muito maior do que a de seus pares, e a Meta AI fica na parte de baixo

A pesquisa da Epoch AI mostra que os usuários do Claude são predominantemente de faixas de alta renda, com 80% tendo uma renda anual acima de US$ 100.000; a distribuição de renda do Meta AI é a mais ampla, com 36,5% acima de US$ 100.000, e a maior proporção é entre os de baixa renda; com o aumento do preço do Claude e a cobrança por níveis, os custos podem aumentar, enquanto o Meta é mais fácil para começar. Qual IA pode se tornar uma etiqueta de identidade implícita no futuro.

ChainNewsAbmedia6m atrás

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo

GateNews20m atrás

O Reino Unido observa a Anthropic AI para fortalecer a cibersegurança bancária

O Reino Unido está explorando um grande passo em cibersegurança financeira ao trabalhar com a empresa de IA Anthropic. As primeiras discussões sugerem que o governo pode implantar o avançado modelo Claude Mythos da Anthropic em bancos e instituições financeiras. Essa medida visa aprimorar as defesas contra ameaças cibernéticas

CryptometerIo25m atrás

O Escritório de PI da China Adiciona IA, Semicondutores e Interfaces Cérebro-Computador ao Programa de Proteção com Tramitação Acelerada

Mensagem do Gate News, 24 de abril — A Administração Nacional de Propriedade Intelectual da China anunciou em 24 de abril que estabelecerá proteção abrangente de propriedade intelectual para tecnologias emergentes por meio de reformas institucionais, serviços aprimorados e aplicações ampliadas. A administração wi

GateNews32m atrás

O governo dos EUA opera um nó de Bitcoin sem mineração, indica o almirante

Um almirante sênior indicou que o Governo dos EUA está operando ativamente um nó na rede Bitcoin, enquanto deliberadamente evita participar das atividades de mineração. A divulgação sugere que as autoridades estão assumindo um papel mais envolvido na infraestrutura de blockchain para supervisão e

CryptoFrontier48m atrás
Comentário
0/400
Sem comentários