A apresentação focou no SWE-bench, mas o verdadeiro sinal estava escondido nas notas de rodapé, no bloco de introdução e em uma frase discreta de modo automático. Os veteranos, após essa leitura, vão desmontar.

ZOMBIE CAFÉ · 16 DE ABRIL DE 2026 · PALO ALTO

Na California Ave, em Palo Alto, às nove e meia da manhã, a luz entra diagonalmente pelas janelas de vidro do Coupa Café, iluminando metade de um flat white frio de Alan Walker. Ele acabou de visitar o site da Anthropic, recostou-se na cadeira e abriu a boca para Tony, que acabou de se sentar do outro lado.

“Anthropic lançou o Opus 4.7, a apresentação foi bem contida — o destaque são as colunas do SWE-bench, as citações de clientes em rotação, e uma bela imagem de alinhamento. A maior parte da mídia tecnológica só leu o comunicado e foi embora.”

“Mas o que realmente importa está escondido nas notas de rodapé, no guia de migração, e na frase ‘auto mode expandido para Max users’. Você precisa ler como se fosse um relatório 10-K — o texto principal é para investidores de varejo, as notas são para instituições.”

“Antes de terminar essa xícara de café, vou desmontar oito lâminas. Cada uma delas aponta para quem ela ataca.”

— LÂMINA NO. 01

xhigh não é uma atualização de nível — Default foi secretamente elevado

Na apresentação: “No Claude Code, elevamos o nível padrão de esforço para xhigh em todos os planos.”

A maioria das pessoas viu xhigh e pensou que era só mais uma opção, como uma cor extra no iPhone. Errado. O sinal verdadeiro está na última frase — o padrão de todos os planos no Claude Code foi elevado para xhigh.

É um movimento muito Anthropic: silenciosamente, elevar a linha de base de todos, mantendo a mesma conta de poder computacional. É como colocar um colega mais inteligente ao seu lado, sem aumentar o salário.

TONY: Espera, isso quer dizer que o antigo usuário Pro, que gastava $20 para medium, agora vai direto para xhigh?

ALAN: Exato. E leia com atenção a citação do Hex — “low-effort 4.7 ≈ medium-effort 4.6”. Com o aumento do padrão padrão, o esforço efetivo que o usuário comum consegue é duas categorias acima. A apresentação não destacou esse número, porque eles não querem que a página de consumo de tokens fique feia.

Cenários de aplicação

Na manhã de segunda, você pede para o Claude Code modificar um módulo backend de 500 linhas — antes, você tinha que digitar /effort max para deixá-lo rodar sozinho; agora, você não precisa fazer nada, o padrão já é xhigh, e uma xícara de café depois, o trabalho está feito. A diferença não é só 10% mais rápido, é “você não precisa mais se preocupar com isso”.

LISTA DE ELIMINAÇÃO

→ SaaS de “ajuste de IA / configuração de prompt” — ferramentas que ensinam como ajustar o thinking budget, como escolher effort, com valores padrão automáticos, sem negócio na camada intermediária

→ Posições de engenheiro iniciante — o que xhigh faz, já é o limite de qualidade de um engenheiro com três anos de experiência

→ Empresas terceirizadas de revisão de código — a terceira lâmina vai travar isso de vez

— LÂMINA NO. 02

Auto Mode — A revolução silenciosa na interface de permissões

Na terceira nota de rodapé: “Auto mode expandido para Max users”. Apenas uma frase.

No site da Anthropic: “auto mode é uma nova opção de permissões onde Claude toma decisões por você.” — “decide por você.”

No último ano, todas as startups de agentes se dividiram em dois extremos: ou pulavam todas as permissões de uma vez só (caminho de Devin, Cognition), ou exibiam janelas pop-up de aprovar/recusar (early Cursor). A Anthropic escolheu o terceira via: treina o modelo para decidir quando perguntar, quando não perguntar, internalizando essa decisão no auto mode.

KAI: Alan, qual a diferença essencial entre skip permissions e auto mode? Não é só deixar rolar?

ALAN: A diferença é grande. Skip é você tirar a trava de segurança, e se der problema, você responde. Auto é o modelo que colocou um sistema de segurança — ele para operações perigosas e pergunta, ou lida com riscos baixos sozinho. No fundo, é mover toda a camada de “interface de permissões” do produto para dentro do peso do modelo.

TONY: Então, aquelas startups de “agent governance / guardrails”…

ALAN: O produto virou parte do modelo. É o que Andrej falou no ano passado: “the model is the product”, um exemplo vivo.

LISTA DE ELIMINAÇÃO

→ SaaS de guardrails / fluxo de aprovação de agentes — toda a categoria foi reduzida a uma camada mais simples

→ Indústria tradicional de RPA (UiPath / Automation Anywhere) — seu valor central era “automação controlada”, agora ela se internalizou

→ Backoffice de terceirização de BPO — processamento de dados, atendimento ao cliente, reconciliação de faturas, tudo rodando com auto mode por um dia, para um time inteiro

— LÂMINA NO. 03

/ultrareview — Uma ordem de execução para engenheiros seniores

No site: “uma sessão dedicada de revisão que analisa mudanças e sinaliza bugs e problemas de design que um revisor cuidadoso detectaria.”

Note a palavra — “um revisor cuidadoso”. Não é júnior, não é linter, é “revisor cuidadoso”. Em linguagem comum: engenheiro sênior.

David Loker, do CodeRabbit, dá números mais diretos: aumento de mais de 10% na recall, detectando os bugs mais difíceis em PRs complexos, quase sem perda de precisão. Recall aumentado, precisão mantida — isso é o santo graal na revisão de código, o último a conseguir essa combinação foi o Tricorder interno do Google, que trabalha há dez anos.

MARCUS: Nosso FAANG tem um staff engineer que ganha US$ 800 mil por ano, e ele passa metade do tempo revisando PRs. Se isso realmente funcionar…

ALAN: Usuários Pro e Max ganham três ultrareviews grátis, para testar. É a estratégia de “freemium” de Silicon Valley — você prova, e fica viciado.

MARCUS: Então, isso não é só uma ferramenta, é um substituto.

ALAN: Nem totalmente. Ele não substitui o staff, mas substitui aquelas duas horas diárias de revisão de dez PRs à tarde. O que sobra dessas duas horas, o sênior trabalha de verdade, não é um robô humano no GitHub.

Cenários de aplicação

Uma equipe de vinte engenheiros, onde o tech lead gastava três horas por dia revisando PRs, agora, com o /ultrareview, só precisa olhar os poucos “design issues” destacados pelo Claude — de três horas, para vinte minutos, e o tempo economizado é usado para arquitetura. Não é “IA assistindo”, é uma reescrita de responsabilidades.

LISTA DE ELIMINAÇÃO

→ Todas as startups independentes de revisão de código com IA — CodeRabbit, Codacy, Qodo, agora recursos do Anthropic

→ Ferramentas tradicionais de segurança de código (Snyk / Checkmarx) — varrem código com regras, agora “lêem código como humanos”

→ Serviços terceirizados de revisão de código na Índia / Europa Oriental — mercado avaliado em dezenas de bilhões de dólares na última década, agora desaparecendo

— LÂMINA NO. 04

Visual de 2.576 pixels — Computer-Use vira arma a partir de demonstrações

“Comprimento máximo de imagem aceitável até 2.576 pixels, cerca de 3,75 megapixels, mais de três vezes o anterior.”

Essa é a mais subestimada. A maioria pensa que é só mais HD. Errado. É o divisor de águas do Computer-Use, da fase de demonstração para produção.

A prova está na citação no final da página de apresentação, do CEO da XBOW, Oege de Moor:

54,5% → 98,5%. Não é uma melhoria gradual, é uma transição de “não utilizável” para “não dá para não usar”. O opus 4.6 ainda tenta adivinhar onde estão os botões na tela, o 4.7 já consegue ler textos pequenos em painéis densos e tabelas aninhadas.

SARAH: Nosso cliente corporativo sempre ficou preso nisso. Com o 4.6, ele consegue automatizar a leitura de faturas, mas erra metade — o chefe manda parar.

ALAN: Agora, com 98,5%, todas as tarefas que dependem de visão — RPA, operações de TI, auditoria de reembolso, migração de sistemas antigos — têm uma base confiável de modelo.

KAI: Computer use deixou de ser só demonstração e virou produtividade.

ALAN: Exato, e atenção — isso é uma atualização no nível do modelo, não na API. Os usuários antigos não precisam mudar nada, já usufruem automaticamente. A Anthropic está elevando o nível dos produtos integrados.

LISTA DE ELIMINAÇÃO

→ SaaS de OCR / compreensão de documentos (Rossum / Hyperscience / Nanonets) — seu diferencial era “visão + estruturação”, agora igualaram ou superaram modelos genéricos

→ Três gigantes de RPA — a tecnologia de reconhecimento de tela do UiPath, que valia bilhões, perdeu metade do valor

→ Setor de entrada de dados corporativos — processamento de seguros, KYC bancário, formulários governamentais, toda a linha de produção manual

→ Testes de penetração / red team — empresas como XBOW se beneficiam, mas consultorias tradicionais de pentesting perdem espaço

— LÂMINA NO. 05

Memória de sistema de arquivos — Anthropic escolheu o caminho mais simples

Na apresentação: “Opus 4.7 é melhor em usar memória baseada em sistema de arquivos. Ele lembra notas importantes ao longo de sessões longas e múltiplas.”

OpenAI aposta na “memória embutida” — embute a memória no modelo, invisível e não editável. Google trabalha com atenção infinita (infinite attention). A Anthropic revelou: o sistema de arquivos é a memória. Claude escreve notas .md, lê notas .md, e você pode catá-las a qualquer momento.

Essa escolha parece low-tech, mas é uma vitória de princípios fundamentais. O núcleo da memória nunca foi armazenamento, mas auditoria, edição e transferência. Bancos de vetores e memória embutida violam esses três pontos.

ERIC: Os clientes empresariais têm medo de “o que esse AI realmente lembra de mim, e eu não sei”.

ALAN: A memória de sistema de arquivos resolve a conformidade. Direito ao esquecimento do GDPR? É só rm. Auditoria SOC2? É só cat. Não é vantagem técnica, é vantagem legal.

ERIC: Então, essas startups de “camada de memória de IA”…

ALAN: Mem0, LangMem, Zep — receberam bastante investimento neste ano. Elas resolvem o problema de “modelo que não gerencia memória”, a Anthropic integrou essa capacidade no próprio modelo, usando o mais simples sistema de arquivos POSIX. A camada intermediária foi pulada.

LISTA DE ELIMINAÇÃO

→ Infraestrutura de memória de IA (Mem0, LangMem, Zep) — valor internalizado no modelo

→ Cenários de uso de memória de agentes em bancos de dados vetoriais — Pinecone, Weaviate, com narrativa principal afetada

→ SaaS de gestão de conhecimento empresarial com IA — sem necessidade de middleware, Claude lê e escreve arquivos de projeto diretamente

— LÂMINA NO. 06

Orçamento de tarefas — Dar freio ao agente, depois soltar o acelerador

“Permitir que desenvolvedores orientem o gasto de tokens do Claude para priorizar tarefas ao longo de execuções mais longas.” (beta pública)

Essa inovação passou despercebida por todos, mas é a maior conquista de engenharia do agente de longo prazo neste ano.

No último ano, todas as empresas de agentes enfrentaram o mesmo problema: o token de tarefas longas saía do controle. Dar a Devin ou Cursor uma tarefa complexa, eles rodam duas horas, voltam e mostram que gastaram US$ 800, e só fizeram metade do trabalho. Os chefes ficam de cabelo em pé com a conta.

O design do Task Budget é genial — não é só limitar tokens, é o modelo que vê o tempo restante e decide quais passos pular, como garantir que a tarefa mais importante seja concluída.

CLAIRE: Isso não é só gestão de projetos, é o pensamento de “entregável mínimo viável”?

ALAN: Exatamente. A Anthropic treinou o modelo para fazer cortes de escopo — o scope-cutting — uma habilidade de gerenciamento de projetos. Você dá um orçamento, e ele decide qual funcionalidade fazer até 80%, qual precisa de 100%.

TONY: Então, aquela citação do Notion — “testes de necessidade implícita” — é a primeira a passar—

ALAN: Isso mesmo. O modelo começa a ter “consciência de recursos”, consegue prever o que você espera, mesmo sem dizer, e prioriza dentro do orçamento. É como treinar o “julgamento de engenheiro sênior” no modelo.

LISTA DE ELIMINAÇÃO

→ Startups de controle de custos de IA / monitoramento de LLM — Helicone, Langfuse, com seus módulos de custo — funcionalidades nativas

→ Frameworks de orquestração de agentes (parte do LangGraph, CrewAI) — o modelo consegue planejar o orçamento sem precisar de um orquestrador externo

→ Gestão de recursos em projetos de consultoria — “alocação de recursos + corte de entregas” — o modelo faz essa inteligência

— LÂMINA NO. 07

Provas antes de codificar — O novo comportamento da Vercel

Joe Haddad, engenheiro sênior na Vercel: “Ele até faz provas em código de sistemas antes de começar a trabalhar, algo que não víamos nos modelos anteriores do Claude.”

Essa frase está escondida entre mais de vinte citações, ninguém deu atenção. Mas os veteranos, ao lerem isso, largaram o café.

“Provas em código de sistemas” — antes de escrever código de sistema, o modelo faz provas matemáticas ou formais. Não é mais inteligente, é o modelo usando métodos de validação de tese de PhD para verificar seu próprio código.

MARCUS: Isso veio nos dados de treinamento, indicando que a Anthropic explicitamente recompensou o “provar antes de codificar” na fase de RL.

ALAN: Exato, foi um treinamento consciente. Combinando com o que a Vercel e a Genspark fizeram com “resistência ao loop” e o Hex com “relata corretamente quando faltam dados ao invés de dar respostas plausíveis, mas incorretas” — você vê um projeto completo de treinamento de gosto: fazer o modelo trabalhar como um engenheiro difícil de enganar.

MARCUS: Difícil de enganar — quer dizer, sem autoengano.

ALAN: Isso mesmo. Opus 4.7 não vai mais criar uma solução só para cumprir a tarefa, só para parecer que funciona. É uma manifestação concreta de alinhamento na camada de produto.

LISTA DE ELIMINAÇÃO

→ Mercado de ferramentas de verificação formal (parte) — Coq, Lean, TLA+ — algumas aplicações de entrada, o modelo ajuda a fazer

→ Segurança de TI de alta frequência / auditoria de blockchain — a auditoria de código, que verifica invariantes, agora colaborativa com o modelo, com preços mais baixos

→ Desenvolvimento de sistemas embarcados / testes de penetração — nichos que exigem raciocínio baseado em provas, com barreiras niveladas

— LÂMINA NO. 08

Verificação cibernética — A janela para arbitragem regulatória se abriu

“Durante o treinamento, experimentamos esforços para reduzir diferencialmente essas capacidades.”

A jogada mais ousada aqui. A Anthropic admitiu que, durante o treinamento, deliberadamente diminuiu as capacidades de ataque e defesa do Opus 4.7, porque o Mythos Preview mais forte não foi liberado. E então—

Criaram um programa de Verificação Cibernética, onde pesquisadores de segurança, pentesters e red teams certificados podem desbloquear níveis mais altos de acesso.

ERIC: Isso… não é uma versão do controle de exportação para modelos?

ALAN: Mais preciso, é uma “KYC de capacidades”. O modelo tem três níveis de capacidade, e você precisa provar sua identidade para desbloquear cada um. Uma janela de arbitragem regulatória que a própria IA está colocando à venda.

ERIC: E o que isso significa para startups?

ALAN: Primeiro, qualquer startup de “IA + segurança” que queira atuar em cenários avançados precisa da certificação da Anthropic, a cadeia de suprimentos já é controlada. Segundo, uma nova categoria vai surgir: consultorias que ajudam a obter essa certificação, como as que hoje ajudam a passar no SOC2. Terceiro, é uma forma de a Anthropic treinar futuras versões de modelos de fronteira, e o Mythos só vai ficar mais restrito.

TONY: Então, empresas como Palantir, Booz Allen, com experiência em conformidade governamental…

ALAN: Criam uma camada de proteção extra. Já têm credenciais de alto nível, agora podem desbloquear os modelos mais avançados.

Cenários de aplicação

Um YC startup que quer fazer pentesting de IA, em 2026, Q2, na primeira página do plano de negócios, precisa responder: “Vocês têm a certificação de Verificação Cibernética da Anthropic?” Sem ela? Não há investimento. Com ela? O valuation dobra. Uma certificação dessas é um divisor de águas.

LISTA DE ELIMINAÇÃO & NOVOS SETORES

→ SaaS de segurança cibernética geral — sem certificação, não consegue acesso às capacidades superiores, teto bloqueado

→ Nova categoria de consultoria de conformidade de modelos de IA — nos próximos 12 meses, surgirão intermediários especializados em certificação de modelos de fronteira

→ Empresas de defesa e agências governamentais — com a certificação, ganham uma camada de proteção natural, dificultando a entrada de concorrentes

→ Código aberto / implantação local — Llama, Qwen, DeepSeek — “sem certificação” vira ponto de venda

Alan Walker empurra o copo vazio para a mesa, fecha o MacBook.

Do lado de fora, o sol na California Ave já passou pelo telhado do Palo Alto Creamery, refletindo na janela.

“Cada lâmina, em oito direções. Alguns setores morrem hoje, outros nascem hoje.”

“Cada geração de modelos de fronteira, o que é realmente importante, não aparece no headline.” Ele diz a Tony, “a apresentação é para os analistas. As notas de rodapé e os números nas citações, são para nós.”

“Não se empolgue.”

— Alan

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GatePreIPOsLaunchesWithSpaceX
170.83K Popularidade
#
Gate13thAnniversaryLive
697.04K Popularidade
#
IsraelStrikesIranBTCPlunges
29.99K Popularidade
#
AltcoinsRallyStrong
7.3M Popularidade
#
AnthropicvsOpenAIHeatsUp
1.05M Popularidade

Marcar

sitemap

O modelo mais recente da Anthropic, Opus4.7, com 8 lâminas ocultas

Tendências

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Marcar