Autor: Huang YitingEm 2026, qual será o consumo mais "luxuoso" dos seres humanos no trabalho? A resposta não é comprar um computador de alta performance ou adquirir roupas elegantes, mas sim poder usar sem restrições e sem custo o mais avançado ferramenta de IA do mundo.Isso significa que você não precisa se preocupar em otimizar cuidadosamente as instruções para controlar os custos, com medo de aparecer uma mensagem dizendo "limite gratuito de hoje atingido"; também não precisa fazer comparações exaustivas, relutando em deixar o Claude (um grande modelo de linguagem desenvolvido pela empresa americana de IA Anthropic) de lado, e apenas delegar tarefas menos importantes a modelos mais baratos e leves.Claro que a IA é útil, mas cada uso implica um custo, e o consumo de Tokens (unidades de palavras) é tão alto que você começa a achar que não consegue mais usar. Ser meticuloso e cauteloso se tornou a condição mais real dos "bois de carga" da IA atualmente.Isso lembra a época de conexão discada, há vinte anos atrás.

金色财经_

2026-04-20 13:55:31

Pessoa: Huang Yiting

Em 2026, qual será o consumo mais “luxuoso” na vida humana no trabalho?
A resposta não é comprar um computador de alta performance, ou adquirir roupas elegantes,
mas sim poder usar sem restrições e sem se preocupar com custos as ferramentas de IA mais avançadas do mundo.

Isso significa que você não precisará se esforçar para otimizar prompts por causa do controle de custos,
com medo de aparecer uma mensagem dizendo “limite gratuito do dia esgotado”;
nem precisará fazer comparações exaustivas, relutando em usar Claude (um grande modelo de linguagem desenvolvido pela empresa americana de IA Anthropic),
deixando trabalhos menos importantes para modelos mais baratos e leves.

Claro que a IA é útil, mas cada uso implica um custo,
e o consumo de Token (unidade de processamento de palavras) é tão caro que você começa a achar que não consegue mais pagar.
Apegado a detalhes, cauteloso, esse se tornou o estado mais real dos “bois e cavalos” da IA atualmente.

Isso lembra os tempos de navegação discada, há vinte anos.
Naquela época, a largura de banda era escassa e cara,
os desenvolvedores comprimiam imagens e simplificavam códigos para economizar banda,
quase não enviavam vídeos.
Empresas de vídeo como Tudou eram raras,
pois o consumo de banda causado pelos vídeos era a maior parte do custo de operação dos sites.

Repete-se o passado.

Na cadeia da indústria de IA, o poder de processamento flui como água de cima para baixo.
Começando pelos GPUs (unidades de processamento gráfico) e centros de dados,
passando por fornecedores de nuvem e modelos,
sendo encapsulado em APIs,
e finalmente chegando aos desenvolvedores e usuários comuns,
transformando-se em chamadas específicas, tokens que podem ser cobrados.
Embora invisível, cada etapa tem custos claros: depreciação de GPUs, consumo de energia, armazenamento de alta largura de banda,
que no final se acumulam em contas.

Hoje, essa tubulação está ficando congestionada.
De um lado, a demanda explode,
cenários complexos como multimodalidade e agentes inteligentes fazem o consumo de tokens crescer mil vezes,
do outro, a oferta ainda não se soltou,
GPU, HBM (memória de alta largura de banda), energia e centros de dados atingem limites físicos,
a utilização de GPUs ainda é baixa.
Ser inteligente tem seu preço:
embora o crescimento explosivo tenha tornado os tokens mais baratos,
o dinheiro gasto para usá-los só aumenta.

O aumento de preços se transmite em cascata.
GPUs no topo do fluxo têm preços altos e escassez,
no meio, fornecedores de nuvem ajustam preços primeiro,
Amazon, Google, Baidu, Alibaba,
aumentaram as tarifas de alguns serviços de IA no último trimestre,
e os fabricantes de modelos também encerraram seus ciclos de subsídio,
Tencent, Alibaba, pararam testes gratuitos,
aumentando os preços de chamadas de API,
sendo que o maior modelo da Tencent, o Hongyuan, subiu até 463%.

O aumento de preços nos modelos e aplicações faz do poder de processamento algo que não é mais uma abstração na competição entre gigantes,
ele, na forma de tokens, ensina uma lição de pagamento a todos.
Como na época do fluxo de tráfego, que era cobrado por MB (unidade de dados móveis),
os usuários podem acabar devendo e tendo o serviço suspenso sem perceber.

Recentemente, Jensen Huang propôs o conceito de “Economia de Token”,
que considera a inferência como a carga de trabalho mais central da IA,
e o token como uma nova commodity —
padronizada, mensurável, negociável.
Assim, o token evolui de um subproduto técnico do treinamento de modelos para um elemento central na economia digital.

Para Huang, “Token” como mercadoria tem qualidades diferentes.
Desde o nível gratuito até o topo, o preço por milhão de tokens varia de 0 a 150 dólares.
Tokens de baixa latência e alta interatividade (como diálogos em tempo real e direção autônoma) requerem processamento caro e têm preços altos;
tokens de alta taxa de transferência e processamento offline (como inferência em larga escala e processamento de dados em lote) não se preocupam com latência, podem usar hardware barato e têm preços baixos.

Tokens já se tornaram uma “mercadoria” com valor estratificado,
e quem os usa?
Talvez, no futuro, a definição de “mercado de nicho” não se limite mais a quem pode comprar bens físicos.

Usuários de IA, presos pela ansiedade

“Eu não sou um membro privilegiado?”
Na noite de 11 de março, Su Yu olhou para a janela de pop-up no computador, irritada.
Ela foi informada de que, naquele semana, tinha usado 90% do limite de tokens,
e que, após o limite, o uso dos modelos seria suspenso até a próxima atualização.

Su Yu é doutoranda de uma universidade, preparando sua tese de graduação.
Nos últimos três anos, Gemini do Google e ChatGPT da OpenAI foram suas melhores companhias,
e ela era assinante fiel de ambos.
Em meados de fevereiro, Claude, da Anthropic, entrou na sua equipe,
e logo se tornou seu mais confiável.

“Claude é ótimo, tem uma forte função de ferramenta.”
Su Yu disse.
Ela usava várias aplicações de IA ao mesmo tempo para estruturar e desenhar suas ideias de pesquisa,
ChatGPT às vezes não tinha lógica suficiente,
Gemini era exagerado e bajulador,
apenas Claude, como um consultor profissional e objetivo,
lendo cuidadosamente as necessidades do cliente,
produzia uma proposta realmente útil e inspiradora.

Depois de mais de meio mês de uso gratuito,
ela pagou cerca de 180 yuans para uma assinatura mensal do Claude.
Comparado a Gemini e ChatGPT,
o diferencial do Claude é que ele também impõe limites diários e semanais de tokens para os assinantes.
Isso faz sentido,
de acordo com o ranking mundial de testes cegos de grandes modelos, LMArena,
até 20 de março,
Claude-Opus-4-6-thinking liderava globalmente.

Mas Su Yu nunca sentiu uma limitação tão direta de tokens.
A primeira vez que atingiu o limite do Claude foi numa quarta-feira,
quando ela tinha entendido metade da “teoria fundamentada” e não pôde mais usar o modelo,
uma sensação de “estagnação acadêmica”.
Acostumada à ajuda do Claude, ela tinha dificuldade de voltar ao ritmo de pesquisa inicial.
Tentou “fazer manualmente”, revisando livros teóricos antigos,
mas a eficiência era muito baixa,
algumas informações traduzidas ela também não confiava totalmente,
“no final, tenho que esperar o Claude voltar a funcionar para revisar.”
Foram quatro dias de espera angustiante.

A limitação do Claude deixou Su Yu extremamente ansiosa.
Na terça-feira, ela enviou uma captura de tela do painel do Claude,
mostrando que tinha usado 45% do limite semanal.
“Só passaram-se dois dias!
Eu já estou sendo econômica, discutindo só um tema por dia,
e já estou no limite!”
Su Yu quase entrou em pânico,
quem disse que IA não pode substituir humanos?
Essa IA está quase mais difícil de lidar que seu orientador.

● Painel do Claude de Su Yu. Fonte: entrevistada

Ela criou o hábito de verificar o painel toda vez que faz uma pergunta,
com medo de ficar sem recursos.
Lembra que, antes, até conversava com o Claude,
pedindo ajuda para fazer PPT,
e se repreendia por desperdiçar tempo.

Esse uso cauteloso de “modelos úteis”
está se tornando comum.
Um empreendedor do setor de IA para filmes me contou que, ao usar o modelo de vídeo “Jiyun” da ByteDance,
ele também acessa APIs de outros fornecedores,
“modelos melhores realmente custam mais,
então só podemos alternar entre eles para equilibrar custos.”

Recentemente, o Jiyun reduziu o limite de pontos de assinatura,
ele achou normal,
“o lado consumidor já estava subsidiando, agora só estamos recuperando parte.”
Por outro lado, ele se preocupa com sua situação,
suspira: “agora ficou mais difícil de usar,”
o aumento de custos de IA às vezes bloqueia a sobrevivência de pequenas startups.

Usuários finais se preocupam com tokens,
fabricantes de modelos também se preocupam com custos de processamento.

Sobre o motivo do aumento explosivo no uso de tokens,
o acadêmico Wang Jian, da Academia Chinesa de Engenharia, fez uma analogia com o desenvolvimento da eletricidade:
no começo, aplicações de IA eram como “acender uma lâmpada”,
consumiam pouca energia.
Já as novas aplicações, como agentes inteligentes,
são como ligar o “ar-condicionado”,
que consome cada vez mais energia.

No entanto, Wang enfatiza que esse crescimento não é só de popularização,
mas também de redução do custo unitário de tokens.
“Se a tarifa de energia não cair, o povo não poderá usar ar-condicionado.”

Mas, em comparação com as chamadas simples de perguntas e respostas do começo,
hoje tarefas cada vez mais complexas são feitas por agentes.
O modelo precisa dividir problemas, chamar ferramentas, escrever códigos, depurar, corrigir,
e uma solicitação aparentemente simples muitas vezes envolve múltiplas inferências e chamadas de API,
com consumo de tokens exponencialmente maior.
Embora o preço por token tenha caído,
o custo total de processamento é mais alto.

“Modelos maiores elevam também o custo de inferência,
e queremos trazê-los de volta ao valor comercial normal.
Competir só por preço baixo a longo prazo não é bom para o setor,
essa é uma consideração nossa.”
Zhang Peng, CEO da Zhipu, disse.
Nos últimos dois meses, a Zhipu aumentou três vezes o preço do modelo GLM,
alguns preços já se aproximam do nível dos principais modelos internacionais.

Outra preocupação de Zhang é:
“nos próximos 12 meses, o maior problema será a capacidade de processamento.
Todas as tecnologias, incluindo estruturas de agentes,
melhoraram a criatividade e eficiência de muitas pessoas em 10 vezes.
Mas, para isso, é preciso que todos possam usar,
não podemos deixar a falta de capacidade fazer um problema fazer o agente pensar meia hora e não me dar resposta.”

Fluxo de processamento, custos acumulados

Segundo Huang, 100 tokens equivalem a cerca de 75 palavras em inglês ou 50 caracteres chineses,
e o preço de saída de tokens é cinco vezes o de entrada —
uma conversão simples.
Ou seja, cada resposta de IA envolve reflexão, consulta, geração,
e tokens gastos por erros de “alucinação” do modelo também entram na conta,
no final, vira uma conta de dinheiro de verdade.

O fundador da Era Inteligente AGI, Lin Zhijia, fez uma conta.
Ele tem quatro “lagostas”,
algumas implantadas localmente, outras na nuvem.
No caso da nuvem, ele compra um plano de codificação por cerca de 30-40 yuans por mês,
e, com 9 dias restantes em março,
o consumo de tokens ainda não atingiu 10% do pacote —
como jornalista, sua demanda por tokens é relativamente baixa.

Mas cobrar por tokens não é tão vantajoso.
“Se eu só pedir para ele me mandar uma notícia às 9h da manhã,
o custo de tokens é cerca de 0,9 yuan,
em 30 dias, dá uns vinte e poucos yuans,
quase o mesmo que pagar pelo plano de codificação.
Às vezes há perdas, atualizações de modelos,
só a atualização pode consumir três ou quatro yuans em tokens.”

Ao ponderar entre diferentes formas de cobrança,
quase se torna rotina para usuários frequentes,
e cada centavo gasto em tokens aponta para uma coisa:
poder de processamento,
e os custos de depreciação de GPU e energia do data center por trás.

GPU virou o ponto de partida,
a oferta de chips de alta qualidade determina o limite do sistema.
“Além das máquinas reserva para alguns clientes,
tudo foi vendido, não sobra uma.”
Disse Liu Hua, vice-gerente do centro de arquitetura da UCloud.

Abaixo do GPU,
é preciso construir data centers, redes e sistemas de armazenamento —
conexões rápidas, transmissão de baixa latência,
não são componentes “plug and play”.
Liu Hua mencionou que, só na parte de rede e armazenamento,
o custo pode representar cerca de 20% do custo total de processamento.

Na próxima camada, estão os fornecedores de modelos e APIs.
Eles implantam grandes modelos nessas infraestruturas,
encapsulam em interfaces padronizadas,
para que desenvolvedores possam usar.
Nos últimos anos, esses papéis começaram a se sobrepor,
os fornecedores de nuvem vendem tanto poder de processamento quanto APIs de modelos,
tornando-se o centro de conexão entre GPU, modelos e desenvolvedores.

● Diagrama de fluxo de processamento de poder de processamento. Fonte: gerado por IA

Assim, o poder de processamento se infiltra camada por camada,
a mudança mais recente está na demanda do setor.
“Antes, a maior parte da IA era B2B, pagando empresas,
agora, o pagamento do consumidor final também está se popularizando.”
Disse Lin Zhijia.
Modelos encapsulados em APIs, com entrada simplificada,
baixando a barreira de uso,
qualquer desenvolvedor ou usuário comum pode usar o poder de processamento diretamente.
“Hoje, basta rolar uma rede social para entender como usar.”

O poder de processamento até está se tornando uma mercadoria de varejo.
Antes de 2024, algumas nuvens começaram a lançar “diárias” de GPU,
máquinas leves na nuvem,
e produtos de implantação com “um clique”.
Por exemplo, a UCloud lançou um pacote de experiência de 6,9 yuans,
que na prática é como um ingresso,
embalando configurações complexas e gerenciamento de recursos,
para que o usuário teste com baixo custo.
“Na verdade, muitos usam para ‘detectar problemas’ ou experimentar,”
disse Liu Hua,
“todo mundo está um pouco ansioso, com medo de ficar para trás.”

Mas reduzir a barreira de entrada não significa diminuir custos.
Na visão de Liu Hua,
“usando uma analogia com o estágio de desenvolvimento da internet,
o custo de processamento ainda está em uma fase inicial, muito caro.”
Por isso, os desenvolvedores são cautelosos,
e as plataformas não se arriscam a liberar uso indiscriminado.

Até as maiores empresas fazem escolhas.
A OpenAI, por exemplo, fechou o projeto de geração de vídeos Sora,
interpretado por muitos como uma ponderação entre capacidade de processamento e retorno,
priorizando modelos mais essenciais com recursos limitados.
Grandes empresas como Alibaba, Tencent, ByteDance,
recentemente ajustaram suas estratégias de IA,
focando em recursos de processamento.

Todos percebem uma coisa:
no futuro, não será mais a escala de processamento que importa,
mas a eficiência de uso.
A escassez de poder de processamento gera uma cadeia de efeitos,
uma longa temporada de chuvas na era da IA,
onde cada pessoa inevitavelmente ficará molhada.

O que acontece na ponta do fluxo de processamento

Su Yu tenta distribuir e gerenciar seus recursos de processamento.
Ela categoriza os modelos em níveis:
ChatGPT para redação de documentos e resumos,
Gemini para desenhos e detalhes de linguagem,
Claude para as tarefas mais críticas, como estrutura de pesquisa,
desenho de ideias e análise de textos longos.
Assim, ela maximiza sua eficiência e economia.

Por exemplo, ela está analisando uma série de entrevistas,
primeiro pede ao Claude que forneça uma estrutura de análise,
depois “entrega” essa estrutura ao Gemini para codificação inicial.
“Confio mais na orientação do Claude,
mas as tarefas detalhadas podem ficar com modelos mais baratos.”
Se Claude não tivesse limite,
ela até deixaria de usar Gemini.

Claro que isso não é uma propaganda do Claude,
apenas ela acha que esse modelo atende melhor às suas necessidades.
Modelos úteis se tornam escassos,
e recursos escassos só são usados nas partes mais críticas.

Para economizar ainda mais,
muitos usuários, como Su Yu, começam a cortar custos nos detalhes.
Nas redes sociais, uma tendência foi usar diálogos em estilo clássico chinês,
pois palavras mais curtas significam menos tokens.
Alguns também acham que dizer “Olá” ou “Obrigado” ao IA é um desperdício de recursos.
No fundo, a IA não precisa de valor emocional.

Na verdade, muito desperdício não está sob controle do usuário,
às vezes, é a forma de acesso e operação do modelo que causa isso.
Recentemente, Luo Fuli, chefe do time do grande modelo MiMo, comentou:
“Não consigo calcular exatamente as perdas causadas por integrações de terceiros,
mas, ao observar de perto a gestão de contexto do OpenClaw, é terrível.
Em uma única consulta, ele aciona múltiplas chamadas de ferramentas de baixo valor,
cada uma como uma requisição API separada,
com janelas de contexto que muitas vezes ultrapassam 100 mil tokens.
O número de requisições reais é várias vezes maior que a estrutura nativa do Claude Code.
Convertido em preço de API, o custo real é dezenas de vezes o valor da assinatura.”

Voltando ao uso,
usuários que tentam economizar tokens,
e plataformas que não querem liberar totalmente o uso,
essa “restrição por economia”
é um paradoxo:
a OpenAI, por exemplo, faturou 4,3 bilhões de dólares no primeiro semestre de 2025,
mas teve prejuízo de 13,5 bilhões,
ou seja, a cada dólar ganho, perdeu três.
O maior gasto é com processamento.

Hoje, o poder de processamento não é mais uma questão de existência,
mas de continuidade e escala de uso.
Quando a IA for realmente útil, as pessoas reorganizarão seu trabalho em torno dela;
quando tokens ficarem caros e limitados,
essa nova organização também será forçada a encolher.

Se o poder de processamento não puder se espalhar como eletricidade,
a IA certamente se dividirá,
e a lacuna de percepção entre pessoas se ampliará.
Por exemplo, Su Yu não pretende compartilhar totalmente sua forma de usar IA com colegas,
como interagir com Claude, que dados fornecer,
isso é seu segredo, sua vantagem competitiva de curto prazo.

Se um colega pedir recomendações de modelos,
ela certamente indicará Gemini e ChatGPT,
“claro, DeepSeek também é uma boa opção.”
Su Yu piscou de brincadeira.

Na era de “empresa individual” (OPC) e “superindivíduo” em ascensão,
essas “pequenas estratégias” não são raras.
Quando a utilidade da IA vira tokens que podem ser cobrados,
a verdadeira diferença está em quem sabe usá-la melhor.

(Os nomes de Su Yu são fictícios)

Fonte da capa: “Departamento de Exploração do Universo”

Referências
Emergência de inteligência: “Yang Zhilin / Zhang Peng / Xia Lixue / Luo Fuli / Huang Chao, falando de lagostas, falando de ‘token economy’”
Diário Econômico Diário: “IA gera consumo massivo de tokens, escassez de hardware de memória, auge do aluguel de poder de processamento, operadores investem em servidores de resfriamento líquido”
Zhipu Zhang Peng: “Quando o modelo for forte o suficiente, a API será o melhor modelo de negócio”
Jiemian News: “Zhipu atinge novo recorde de preço de ações, nova geração de modelos aumenta preço em 10%”
Deep潮TechFlow: “Token na exportação, vendendo energia elétrica da China para o mundo”
Silicon Star Pro: “Luo Fuli: Acordem, é hora de acabar com a festa falsa do token”

GLM3,01%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GatePreIPOsLaunchesWithSpaceX
265.15K Popularidade
#
Gate13thAnniversaryLive
968.9K Popularidade
#
IsraelStrikesIranBTCPlunges
30.49K Popularidade
#
CryptoMarketsDipSlightly
195.46K Popularidade
#
USIranTensionsShakeMarkets
730.8K Popularidade

Marcar

sitemap

Eu, que não posso pagar por tokens, me tornei parte do mercado de base na era da IA

Usuários de IA, presos pela ansiedade

Fluxo de processamento, custos acumulados

O que acontece na ponta do fluxo de processamento

Tendências

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

CryptoMarketsDipSlightly

USIranTensionsShakeMarkets

Marcar