A OpenAI lançou oficialmente na terça-feira o ChatGPT Images 2.0, não apenas melhorando bastante a precisão da geração de texto, como também aprimorando o senso estético de design em pôsteres e retratos. O modelo também introduziu pela primeira vez o “modo de pensamento”, fazendo com que a geração de imagens tenha capacidade de busca na web e de saída em lote de várias imagens, aproximando-se de forma abrangente dos cenários de aplicação comercial.
(Canva anunciou uma integração profunda com Claude, permitindo transformar rascunhos de IA em produtos de design prontos)
De inventar do zero até um cardápio perfeito: a IA finalmente aprendeu a soletrar
Relembrando dois anos atrás, as fraquezas dos modelos de geração de imagens de IA na geração de texto eram quase unanimemente conhecidas. Enquanto o prompt incluísse necessidades de texto, o resultado de saída frequentemente vinha carregado de erros absurdos de ortografia e até inventava coisas que não existiam. Em idiomas não ingleses como chinês, japonês e coreano, isso era ainda mais grave.
Ilustração do pôster em coreano do anúncio oficial
Hoje, o ChatGPT Images 2.0 já consegue gerar um pôster promocional que pode ser usado diretamente pelos fornecedores, com texto nítido e preciso. Nos últimos anos, pesquisadores vêm explorando ativamente modelos de retorno a si mesmos (Autoregressive Models) e novas arquiteturas, cujo funcionamento, compreensão do texto, capacidade de geração e de verificação melhoraram significativamente.
Modo de pensamento em funcionamento: busca na web e consistência de composição, tudo certo
O upgrade mais central do ChatGPT Images 2.0 está no “modo de pensamento (Thinking Capabilities)”. Atualmente, ele está disponível para usuários pagantes do ChatGPT Plus, Pro, versão comercial e versão corporativa. Depois de ativado, o modelo pode buscar informações na web em tempo real para auxiliar a geração de imagens, além de conseguir produzir explicações visuais correspondentes com base nos arquivos enviados pelo usuário e, antes da saída oficial, realizar autoanálise e otimização do conteúdo da imagem.
Na geração em lote, com o modo de pensamento um único prompt pode produzir até oito imagens de uma vez, e entre elas é possível manter consistência de imagem do personagem, estilo dos objetos e do estilo geral, o que é adequado para roteiros de quadrinhos em cenas, séries de imagens e textos para mídias sociais e até mesmo plantas de planejamento de espaços para design de interiores.
Ilustração do roteiro de quadrinhos do anúncio oficial
Em termos de resolução, o novo modelo suporta saída máxima de 2K e também adiciona várias opções de proporção de aspecto de 3:1 até 1:3, atendendo ainda melhor a diversos requisitos comerciais.
Linguagens asiáticas com grande aprimoramento—usuários de chinês, japonês e coreano estão com sorte!
Além do inglês, a OpenAI destacou especialmente uma grande melhoria do Images 2.0 no texto em idiomas asiáticos, com melhorias evidentes em japonês, coreano e chinês, entre outros.
Os testes divulgados e amplamente compartilhados alguns dias atrás em comunidades de tecnologia na China também confirmaram essa informação. Vários criadores no Zhihu realizaram comparações experimentais entre o GPT-Image-2 e o concorrente Google Nano Banana Pro na época, incluindo diversos cenários como design de pôster em chinês, imagens de capa de e-commerce, interfaces de mídia social e gráficos de dados.
Teste do artigo no Zhihu do GPT-Image 2.0
Os resultados dos testes mostram que o GPT-Image-2 superou claramente em beleza de fonte para caracteres chineses, níveis de diagramação e senso geral de design. O estilo dos pôsteres gerados fica mais próximo de materiais comerciais reais, em vez de uma saída do tipo modelo com um “sabor de IA” claramente perceptível. O artigo também aponta que o GPT-Image-2, ao recriar a interface (como telas de jogos ou capturas de tela de softwares de comunicação) e ao reproduzir cenas com pessoas reais, também demonstra maior precisão de detalhes.
ChatGPT Images 2.0 totalmente aberto, API também lançada
No momento, o ChatGPT Images 2.0 já está disponibilizando gratuitamente recursos básicos para todos os usuários do ChatGPT e do Codex a partir desta terça-feira. Usuários pagantes podem desbloquear efeitos de saída mais avançados. Ao mesmo tempo, a OpenAI também disponibilizou de forma同步 a API do GPT-Image-2; os preços são calculados com base na qualidade da saída e em faixas de resolução, oferecendo flexibilidade de integração para empresas e desenvolvedores.
Vale notar que a data de corte de conhecimento do novo modelo é dezembro de 2025. Para prompts de geração de imagens envolvendo acontecimentos recentes, a precisão pode sofrer algumas limitações. Além disso, a velocidade para gerar composições complexas também não consegue ser tão imediata quanto em perguntas e respostas comuns de texto, mas ainda assim leva apenas alguns minutos.
Este artigo, “ChatGPT Images 2.0 chega! Melhora grande na precisão da geração de texto, produzindo facilmente pôsteres de marketing”, apareceu pela primeira vez em 鏈新聞 ABMedia.
Related Articles
Presidente dos Emirados Árabes Discute Oportunidades de IA e Espaço com Musk e Fink
Google Cloud e CVC se unem para acelerar a transformação de agentes de IA para empresas da carteira
A Microsoft Chegou a Considerar Adquirir a Cursor, Mas a SpaceX Garantiu Opção de Acordo com Avaliação de $60B
Anker Revela Primeiro Chip de IA Compute-in-Memory Thus, CEO Promete Investimento Ilimitado em Tecnologia Avançada
Ex-executivos da Meta lançam a Sooth Labs, startup de previsão de eventos em IA; capta $50M a uma avaliação de $335M
Empresa de Dados de IA Mercor Sofre Pelo Menos 7 Ações Coletivas por Violação de Dados, Monitoramento por Computador