Entenda o GPT-5.5 em um artigo: A partir de hoje, a OpenAI "não vende" mais Tokens

Autor: Helen

Horário local 23 de abril, a OpenAI lançou oficialmente o novo modelo de ponta GPT-5.5, que a empresa posiciona como “uma nova camada inteligente voltada para trabalhos reais”, sendo também um passo importante rumo a uma nova forma de trabalhar com computadores.

O foco principal deste lançamento está em dois pontos:

Primeiro, uma inovação na eficiência: na mesma latência, o modelo ficou maior, mas sem perder velocidade. O GPT-5.5 possui uma janela de contexto de 1 milhão de tokens, mas não é apenas uma atualização de capacidades do GPT-5.4, e sim uma melhoria na eficiência que proporciona maior inteligência com a mesma latência.

Segundo, durante o treinamento, o GPT-5.5 participou da otimização de sua infraestrutura de raciocínio. Em resumo, a IA aprendeu pela primeira vez a ajustar seus próprios parâmetros.

Nos testes do Terminal-Bench 2.0, que avalia fluxos de trabalho complexos de linha de comando, o GPT-5.5 obteve uma pontuação de 82,7%, superando Claude Opus 4.7, com 69,4%, em mais de 13 pontos percentuais; no teste OSWorld-Verified, que avalia a operação autônoma de computadores reais pela IA, a taxa de sucesso foi de 78,7%, superando a linha de base humana; e no GDPval, que avalia tarefas de conhecimento profissional em 44 áreas, 84,9% das tarefas atingiram ou superaram o nível de especialistas do setor.

Porém, o preço do GPT-5.5 também aumentou significativamente.

A precificação da API é de 5 dólares por milhão de tokens de entrada e 30 dólares por milhão de tokens de saída, o dobro do GPT-5.4 (2,50 dólares de entrada e 15 dólares de saída), mas a OpenAI destaca que a quantidade de tokens necessária para realizar as mesmas tarefas foi bastante reduzida, o que pode não elevar significativamente o custo total. A API GPT-5.5 Pro custa 30 dólares por milhão de tokens de entrada e 180 dólares por milhão de saída. Processamentos em lote e preços flexíveis têm desconto de 50%, com prioridade de processamento a 2,5 vezes o preço padrão.

No ChatGPT, o GPT-5.5 foi lançado na forma de “GPT-5.5 Thinking”, substituindo gradualmente as versões anteriores.

Uma novidade de design é que, antes de começar a pensar, o modelo fornece uma visão geral do raciocínio, permitindo que o usuário interaja a qualquer momento durante a execução, ajustando o direcionamento.

Se fosse resumir o significado do GPT-5.5 em uma frase: modelos anteriores eram uma coleção de capacidades, enquanto o GPT-5.5 se aproxima de um sistema de trabalho que planeja, verifica e avança continuamente.

01 84,9% das tarefas atingem nível de profissionais

Comparação do GPT-5.5 com concorrentes nos principais testes Terminal-Bench 2.0, GDPval, OSWorld-Verified

Primeiro, vamos avaliar o desempenho do modelo em cenários profissionais reais. A OpenAI utilizou um benchmark chamado “GDPval”, que exige que o modelo complete uma série de tarefas profissionais. O teste cobre 44 cenários, incluindo modelagem financeira, análise jurídica, relatórios de ciência de dados, planejamento operacional, entre outros.

Os resultados mostram que: o GPT-5.5 atingiu ou superou o nível de profissionais do setor em 84,9% das tarefas. Como comparação, o GPT-5.4 alcançou 83,0%, o Claude Opus 4.7, 80,3%, e o Gemini 3.1 Pro, apenas 67,3%.

Essa diferença não se limita às pontuações gerais. Em tarefas de modelagem de planilhas, o GPT-5.5 obteve 88,5% na avaliação interna; em tarefas de modelagem de nível de banco de investimento, também lidera em relação à geração anterior. Os feedbacks dos primeiros testadores também foram bastante consistentes: as respostas do GPT-5.5 Pro apresentaram melhorias claras em abrangência, estrutura e utilidade, especialmente nos setores de negócios, jurídico, educação e ciência de dados.

Apenas olhando os números, é fácil ficar insensível, mas a OpenAI decidiu mostrar abertamente seu ambiente de trabalho.

A OpenAI afirma que mais de 85% dos funcionários usam Codex semanalmente, em departamentos de finanças, comunicação, marketing, produto e ciência de dados. A equipe de comunicação usou o Codex para analisar dados de convites para palestras ao longo de seis meses, criando um fluxo de classificação automatizado; a equipe financeira revisou 24.771 formulários K-1, totalizando 71.637 páginas, concluindo o trabalho duas semanas antes do previsto; a equipe de expansão de mercado automatizou a geração de relatórios semanais, economizando de 5 a 10 horas por pessoa por semana.

Isso não é mais um demo de laboratório, mas uma rotina de trabalho consolidada.

02 O modelo de programação autônoma mais forte

A OpenAI afirma que o GPT-5.5 é atualmente seu modelo mais avançado de programação autônoma.

No Terminal-Bench 2.0 (que avalia fluxos de trabalho complexos de linha de comando, exigindo planejamento, iteração e coordenação de ferramentas), o GPT-5.5 obteve 82,7%, contra 75,1% do GPT-5.4, uma melhora de quase 8 pontos percentuais, além de consumir menos tokens. No SWE-Bench Pro (que avalia a capacidade de resolver problemas reais do GitHub de forma pontual), o GPT-5.5 atingiu 58,6%. Em uma avaliação interna chamada Expert-SWE (tarefas de programação de longo prazo, com tempo médio de cerca de 20 horas por tarefa), o GPT-5.5 também superou o GPT-5.4.

Gráfico de dispersão do Terminal-Bench 2.0 e do Expert-SWE

Sob o comando do Codex, o GPT-5.5 já consegue partir de uma simples sugestão de frase para realizar todo o ciclo de desenvolvimento, desde geração de código, testes de funcionalidades até depuração visual.

Um exemplo de demonstração oficial da OpenAI mostra um projeto de missão espacial baseado em dados reais de órbita da NASA, com controle interativo 3D e simulação de mecânica orbital com precisão física real; um rastreador de terremotos conectado a fontes de dados em tempo real, com visualização, demonstrando que o modelo já possui capacidade de chamar APIs externas, processar dados dinâmicos e renderizar em tempo real.

Quanto ao feedback de uso, o CEO da Every, Dan Shipper, contou uma experiência: ele enfrentou um bug após o lançamento, tentou resolvê-lo por vários dias sem sucesso, e acabou chamando o engenheiro mais experiente da equipe, que reescreveu parte do sistema. Depois do GPT-5.5, ele fez um experimento — colocou o modelo na mesma condição do bug não resolvido, para ver se ele conseguiria propor uma solução igual à do engenheiro. O GPT-5.4 não conseguiu, o GPT-5.5 sim. Ele avaliou: “Este é o primeiro modelo de programação com uma compreensão conceitual realmente clara que já usei.”

Outro engenheiro da Nvidia comentou de forma direta: “Perder o acesso ao GPT-5.5 é como uma amputação.”

O cofundador e CEO da Cursor, Michael Truell, acrescenta: o GPT-5.5 é mais inteligente e resistente que o GPT-5.4, consegue manter tarefas longas por mais tempo sem parar prematuramente — exatamente o que o trabalho de engenharia mais precisa.

03 Conhecimento profissional: a IA pela primeira vez consegue “usar” um computador

Nos testes do OSWorld-Verified, que avalia a capacidade do modelo de operar computadores reais de forma autônoma, o GPT-5.5 obteve uma taxa de sucesso de 78,7%, superior ao GPT-5.4, com 75,0%, e ao Claude Opus 4.7, com 78,0%.

Não se trata de uma análise por captura de tela, mas de controle real do ambiente: visualizando interface, clicando, digitando, trocando entre várias ferramentas até concluir a tarefa. O GPT-5.5 faz a primeira vez que a IA realmente parece usar um computador junto com o usuário.

Vídeo de demonstração de modelagem financeira

Nos testes Tau2-bench, que avaliam fluxos de trabalho de atendimento ao cliente em telecomunicações, o GPT-5.5 atingiu 98,0% de precisão sem necessidade de prompts de ajuste, enquanto o GPT-5.4 ficou em 92,8%.

Isso indica que o modelo compreende o objetivo da tarefa de forma suficientemente profunda para lidar com diálogos complexos de múltiplas etapas sem prompts elaborados.

Na capacidade de busca de ferramentas, o GPT-5.5 atingiu 84,4% no teste BrowseComp, enquanto o GPT-5.5 Pro alcançou 90,1%, demonstrando forte desempenho em tarefas de pesquisa e integração de informações de múltiplas fontes, essenciais para estudos e análises.

04 Pesquisa científica: ajudando a descobrir novas provas matemáticas

Na própria apresentação, o desempenho do GPT-5.5 na área de pesquisa foi uma das partes mais surpreendentes.

Historicamente, quando falamos de IA na pesquisa, ela era vista como uma “ferramenta auxiliar”, para buscar literatura, escrever código, organizar dados. Mas desta vez, seu papel avançou para uma etapa mais central: raciocínio complexo e até descoberta.

No GeneBench, que avalia análise de dados genéticos e biológicos em múltiplas fases, o GPT-5.5 obteve 25,0%, contra 19,0% do GPT-5.4. Essas tarefas normalmente levam dias de trabalho de especialistas, e o modelo precisa inferir dados possivelmente incorretos, lidar com fatores de confusão ocultos e aplicar métodos estatísticos modernos, quase sem supervisão.

Os gráficos mostram que, à medida que o número de tokens de saída aumenta, o GPT-5.5 mantém uma vantagem de pontuação maior que o GPT-5.4, com uma diferença clara a partir de cerca de 15.000 tokens — indicando que, em tarefas longas que exigem raciocínio profundo, a vantagem do GPT-5.5 se amplia com a complexidade.

No BixBench, que avalia bioinformática e análise de dados do mundo real, o GPT-5.5 atingiu 80,5%, liderando o GPT-5.4, com 74,0%, e figurando entre os melhores modelos já publicados.

Um caso específico chamou atenção: uma versão interna do GPT-5.5 equipada com frameworks de ferramentas personalizadas ajudou a descobrir uma nova prova matemática do número de Ramsey, validada na ferramenta formal Lean. O número de Ramsey é um objeto central na matemática combinatória, com resultados extremamente raros e de alta complexidade. Não é apenas uma geração de código ou explicação, mas uma contribuição real para uma demonstração matemática.

Na prática, também há exemplos convincentes. O professor de imunologia do Jackson Laboratory, Derya Unutmaz, usou o GPT-5.5 Pro para analisar um conjunto de dados de expressão gênica com 62 amostras e quase 28.000 genes, gerando um relatório detalhado, destacando descobertas e questões de pesquisa — trabalho que normalmente levaria meses de equipe.

O professor assistente de matemática da Universidade de Adam Mickiewicz, em Poznan, Bartosz Naskręcki, com uma única sugestão de prompt, usou o Codex com GPT-5.5 para criar em 11 minutos uma aplicação de geometria algébrica, visualizando a interseção de duas superfícies quadráticas e convertendo a curva resultante em um modelo de Weierstrass. Os coeficientes das equações exibidos em tempo real podem ser usados diretamente em pesquisas matemáticas futuras, do prompt ao código de pesquisa totalmente autônomo.

Captura de tela da aplicação de geometria algébrica criada por Naskręcki — visualização de interseção de superfícies quadráticas e interface de cálculo em tempo real do sistema de Weierstrass

O cofundador da Axiom Bio, Brandon White, foi mais direto: “Se a OpenAI continuar nesse ritmo, a descoberta de medicamentos até o final do ano será revolucionada.”

05 Eficiência de raciocínio: a IA ajudou a otimizar sua própria infraestrutura

Um detalhe que pode passar despercebido nesta publicação, mas que talvez seja a maior inovação técnica, é que o GPT-5.5, apesar de ser um modelo maior e mais potente, mantém a latência por token igual à do GPT-5.4. Para alcançar maior capacidade com a mesma velocidade, a OpenAI redesenhou toda a arquitetura de inferência — e o Codex e o GPT-5.5 participaram diretamente dessa otimização.

No gráfico de índice de inteligência Artificial Analysis, é possível ver claramente: no eixo horizontal, a quantidade de tokens de saída (em escala logarítmica), e no vertical, a pontuação de inteligência geral. A curva do GPT-5.5 não só supera o GPT-5.4, Claude Opus 4.7 e Gemini 3.1 Pro Preview em desempenho, como também atinge níveis de pontuação similares com menos tokens consumidos — maior capacidade, menor custo, uma demonstração clara de “eficiência aprimorada”.

Gráfico de índice de inteligência Artificial Analysis

Especificamente, o desafio foi equilibrar a carga: anteriormente, requests eram divididos em blocos fixos para distribuir a carga na GPU, mas essa divisão estática não era ideal para todos os tipos de tráfego. O Codex analisou semanas de dados de fluxo de produção e criou um algoritmo heurístico personalizado, aumentando a velocidade de geração de tokens em mais de 20%.

O GPT-5.5 foi projetado para trabalhar em conjunto com os sistemas NVIDIA GB200 e GB300 NVL72, em um design, treinamento e implantação colaborativos. Em outras palavras, essa geração de modelos participou da otimização da própria arquitetura de inferência — não é uma metáfora, é uma melhoria real no sistema de execução.

06 Segurança cibernética: maior capacidade, controle mais rigoroso

O GPT-5.5 apresenta melhorias claras na capacidade de segurança cibernética. Nos testes CyberGym, obteve 81,8%, contra 79,0% do GPT-5.4 e 73,1% do Claude Opus 4.7. Nos desafios internos de “captura de bandeira” (CTF), a pontuação foi de 88,1%, frente a 83,7% do GPT-5.4.

Gráfico de barras do CyberGym e gráfico de dispersão dos desafios CTF

A OpenAI classificou as capacidades de segurança cibernética e de química/biologia do GPT-5.5 como “alto” dentro do framework de preparação de emergência, ainda não no nível “crítico”, mas com melhorias evidentes em relação às versões anteriores. Ao mesmo tempo, admitiram que o novo classificador de riscos mais rigoroso “pode inicialmente causar algum incômodo a alguns usuários” e que ajustes continuarão.

Para equilibrar a defesa e o acesso, a OpenAI lançou o programa de “Acesso Confiável em Segurança Cibernética”: pesquisadores de segurança e defensores de infraestrutura crítica qualificados podem solicitar acesso mais amplo, usando as capacidades avançadas de segurança cibernética com menos obstáculos.

Por trás disso, a lógica é que capacidades como segurança cibernética e biologia, mesmo com riscos, tendem a se disseminar de forma quase irreversível. Em vez de tentar restringir totalmente o uso, é mais estratégico permitir que os profissionais de defesa tenham acesso às ferramentas mais avançadas primeiro. Em suma, a questão não é “deveria ou não deveria abrir”, mas “para quem abrir primeiro”.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar