A Anthropic revela três falhas do Claude Code em cascata: degradação do raciocínio, esquecimento do cache e reação adversa de comandos de 25 caracteres

A Anthropic publicou em 4/23 uma revisão da qualidade do incidente do Claude Code, reconhecendo publicamente que três erros de engenharia em sobreposição nos últimos cerca de dois meses levaram a uma degradação da qualidade de utilização do Claude Code, e sincronizou também o impacto para o Claude Agent SDK e o Claude Cowork. A empresa afirma que «valorizamos imenso os relatórios sobre a degradação do modelo e nunca reduzimos deliberadamente as capacidades do modelo», e em 4/23 reiniciou o limite máximo de utilização para todos os subscritores como compensação.

Cronologia dos três bugs e causas técnicas

Problema Período em que esteve ativo Causa raiz Versão de correção Degradação do orçamento de inferência 3/4–4/7 effort de reasoning Por predefinição passou de high para medium, fazendo com que os utilizadores sintam o modelo «mais parvo» 4/7 rollback Limpeza de cache bug 3/26–4/10 sessão com thinking mais de 1 hora ociosa O cache de thinking é limpo em cada ronda, em vez de apenas uma vez v2.1.101 prompt conciso phản噬 4/16–4/20 novo comando de sistema «texto entre chamadas de ferramenta ≤25 caracteres», ablation revela queda de inteligência global de 3% v2.1.116

Degradação do reasoning: o custo de reduzir a latência

3/4 A Anthropic ajustou o reasoning effort predefinido do Claude Code de high para medium, com o objetivo de reduzir a latência de resposta. Porém, esta alteração fez com que o modelo parecesse «mais parvo» em tarefas de raciocínio de código e depuração. Depois do rollback em 4/7, agora o Opus 4.7 tem por predefinição xhigh, e os outros modelos mantêm high. A empresa reconheceu: a avaliação interna antes da mudança não conseguiu detetar esta degradação.

Bug de limpeza de cache: erro implícito nas fronteiras entre sistemas

3/26 A Anthropic introduziu otimização de prompt caching para sessões em estado ocioso por mais de uma hora. O desenho original era «limpar o cache de thinking uma vez quando a ociosidade atingir uma hora», mas na prática passou a ser «limpar a cada ronda após a ociosidade ser acionada», levando a que o Claude, em sessões longas, se comportasse como «esquecido, repetitivo», e que, em cada cache miss, o consumo do utilizador fosse esgotado rapidamente. A Anthropic indicou que este bug «existe na interseção entre a gestão de contexto do Claude Code, a Anthropic API e o extended thinking», envolvendo várias fronteiras de sistemas e sendo um erro implícito difícil de detetar com testes unitários. A correção foi publicada em 4/10 na v2.1.101.

Comando conciso de 25 caracteres: a queda de inteligência só foi detetada com ablation

4/16 A Anthropic adicionou uma instrução de sistema: «a saída de texto entre chamadas de ferramentas deve manter-se dentro de 25 caracteres». A intenção era reduzir explicações longas do modelo, tornando a experiência mais limpa. Na altura, os testes internos não detetaram degradação, mas após uma comparação experimental de ablation mais rigorosa, a empresa descobriu que esta instrução causou cerca de 3% de queda de inteligência global tanto nos modelos Opus 4.6 como 4.7. O rollback ocorreu em 4/20 na v2.1.116. Este incidente evidencia que até uma ligeira reformulação do system prompt pode gerar impactos estruturais não previstos no comportamento do modelo.

Âmbito de impacto

Camada do produto: Claude Code (todos os três problemas são afetados), Claude Agent SDK (①②), Claude Cowork (todos)

Camada do modelo: Sonnet 4.6, Opus 4.6, Opus 4.7

Infraestrutura base de API: não afetada

No nível da perceção do utilizador, isso manifestou-se como: diminuição da qualidade de resposta e da «inteligência», aumento da latência, perda de contexto da conversation a meio, e consumo de uso mais rápido do que o previsto.

Compensação e melhorias de processo

A Anthropic, em 4/23, reiniciou o limite máximo de utilização para todos os subscritores como compensação direta. As melhorias de processo comprometidas em simultâneo incluem:

Implementar um conjunto mais amplo de avaliação (evaluation suite) para mudanças no system prompt

Melhorar a ferramenta de Code Review para detetar regressões mais cedo

Padronizar os critérios dos testes internos em builds públicas, evitando divergências de comportamento entre «versões internas» e «versões para fora»

Adicionar um soak period e rollout faseado para alterações que possam afetar a inteligência do modelo

Lições para os utilizadores

Para utilizadores que dependem do Claude Code para desenvolvimento diário e pesquisa, esta postmortem tem três pontos-chave a reter: primeiro, se entre meados de março e 20 de abril sentiste que o modelo Claude «ficou mais parvo», ou se o Claude Code teve uma perda de memória anormal em sessões longas, isso não é tua perceção errada nem um uso inadequado do prompt; segundo, utilizadores cujo limite de utilização foi rapidamente consumido durante este período podem confirmar após 4/23 se a Anthropic já reiniciou automaticamente; terceiro, mesmo um ajuste de prompt tão pequeno quanto «dentro de 25 caracteres» pode produzir impactos sistémicos no comportamento global do modelo — este é um risco comum na engenharia de produtos LLM.

Em comparação com a concorrência, que muitas vezes responde às acusações de degradação do modelo com silêncio ou «isto é operação incorreta do utilizador», a divulgação proativa e a transparência técnica da Anthropic nesta ocasião estabelecem um exemplo de referência para revisões de incidentes de produtos de IA.

Este artigo, em que a Anthropic revela de forma autónoma a sobreposição dos três bugs do Claude Code: degradação do reasoning, esquecimento do cache, e efeito adverso de instruções de 25 caracteres, aparece pela primeira vez em 鏈新聞 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Anthropic Implementa Salvaguardas Eleitorais para o Claude Antes das Eleições Gerais de 2026

A Anthropic anunciou na sexta-feira um conjunto de medidas de integridade eleitoral concebidas para impedir que o seu chatbot de IA Claude seja usado como arma para espalhar desinformação ou manipular eleitores antes das eleições legislativas intercalares dos EUA de 2026 e de outras grandes contendas a nível mundial este ano. A sede da San Francisco-based

CryptoFrontier1h atrás

DeepRoute.ai Sistema avançado de assistência à condução supera o avanço de 300 000 veículos: Objetivo de 2026: uma frota de 1 milhão de veículos NOA da cidade

DeepRoute.ai anuncia que o seu avançado sistema de assistência à condução já foi implantado em mais de 300.000 veículos na China, tendo evitado mais de 180.000 potenciais incidentes ao longo do ano passado. A meta para 2026 é atingir 1 milhão de veículos na frota de NOA urbana, com uma utilização superior a 50%, sendo considerado um fator-chave para a comercialização em larga escala do Robotaxi. Este movimento mostra que a condução autónoma na China entrou numa utilização normalizada, ao mesmo tempo que cria uma distinção em relação ao percurso de integração vertical com os EUA, afetando o calendário da cadeia de abastecimento na Ásia-Pacífico.

ChainNewsAbmedia2h atrás

DeepSeek lança os modelos V4-Pro e V4-Flash a um custo 98% inferior ao do GPT-5.5 Pro da OpenAI

Notícias Gate, 25 de abril — A DeepSeek lançou versões de pré-visualização de V4-Pro e V4-Flash a 24 de abril, ambos modelos open-weight com janelas de contexto de um milhão de tokens. O V4-Pro tem 1,6 triliões de parâmetros no total, mas activa apenas 49 mil milhões por passagem de inferência utilizando uma arquitectura Mixture-of-Experts.

GateNews8h atrás

Juiz rejeita alegações de fraude no processo de Elon Musk contra a OpenAI; caso avança para julgamento com duas alegações remanescentes

Notícias do Gate, 24 de abril — Um juiz federal indeferiu as acusações de fraude do processo de Elon Musk contra a OpenAI, Sam Altman, Greg Brockman e a Microsoft, abrindo caminho para que o caso avance para julgamento com base em duas alegações que permanecem: violação de confiança fiduciária de caráter beneficente e enriquecimento sem causa. EUA.

GateNews11h atrás

O CEO da OpenAI, Sam Altman, pede desculpa por não ter denunciado às autoridades a conta banida do atirador da escola

Mensagem do Gate News, 25 de abril — O director executivo da OpenAI, Sam Altman, pediu desculpa à comunidade de Tamborine, no Canadá, pela falha da empresa em notificar a polícia sobre uma conta banida associada a Jesse Van Rootselaar, que matou oito pessoas numa escola em fevereiro antes de tirar a própria vida. OpenAI

GateNews11h atrás

Os EAU Anunciam uma Mudança Para um Modelo de Governo Baseado em IA nos Próximos Dois Anos

Sua Alteza o Sheikha Mohammed bin Rashid Al Maktoum afirmou que o objectivo era fazer com que 50% dos sectores do governo operassem através de IA agentic autónoma. A transição irá também incluir a formação dos funcionários federais para “dominar a IA” e será supervisionada por Sheikh Mansour bin Zayed. Principais Conclusões:

Coinpedia11h atrás
Comentar
0/400
Nenhum comentário