Tokens: o custo de pensar com IA


EDIÇÃO #192 | NEWSLETTER SEMANAL DA ANÁLISE MACRO

Tokens: o custo de pensar com IA

Fala, Reader, bora pra mais uma semana?

Domingo aqui em casa, café na mão, pensando em como te explicar uma coisa que vejo gente competente errar toda semana: a conta da IA.

Não é trivial. E ficou ainda mais urgente nos últimos dias. O Google anunciou que processa hoje 3,2 quadrilhões de tokens por mês — sete vezes mais que há um ano. A Anthropic gasta US$ 1,25 bilhão por mês só alugando capacidade computacional. E o Sam Altman ofereceu US$ 2 milhões em tokens da OpenAI a cada startup da turma do YC em troca de 2% de equity.

Token virou moeda. E como toda moeda, precisa ser precificada direito.

O problema é que quase ninguém faz essa conta de cabeça. Pior: muita gente confunde dois regimes de cobrança que não se comparam — e erra por ordens de magnitude. Bora desembaraçar isso.

🧩 Primeiro, dois termos

Antes de qualquer conta, dois conceitos — rápido, porque o resto depende deles.

Token é a unidade que o modelo lê e escreve. Não é bem uma palavra: é um pedaço dela. "Casa" é 1 token; "macroeconomia" pode virar 3 ou 4. A regra de bolso: 1.000 tokens ≈ 750 palavras em inglês (~600-650 em português). E o ponto que importa pro bolso: todo modelo cobra por token — pelos que você manda (o input) e pelos que ele responde (o output). É unidade de medida e unidade de cobrança ao mesmo tempo.

FinOps (de Financial Operations) é a disciplina de tratar gasto com tecnologia — antes a nuvem, agora a IA — como decisão de engenharia, não como fatura que chega de surpresa no fim do mês. É botar quem constrói e quem paga a conta na mesma mesa, pra que cada chamada de modelo seja uma escolha consciente de custo-benefício. Nasceu no mundo cloud; com IA virou urgente, porque agora o custo escala token a token, em tempo real.

Com os dois na mão, bora à conta.

🎯 A tese em uma frase

Custo por token é a métrica errada. O que importa é custo por tarefa concluída — e antes disso, é preciso entender que o mesmo modelo tem dois regimes de cobrança radicalmente diferentes: API (paga por uso) e assinatura (paga pacote fixo). Confundir os dois é o erro #1 de FinOps de IA.

📊 Os preços de referência (família 4.5 da Anthropic, 31/05/2026)

Antes de calcular qualquer coisa, a tabela. Esses são preços por milhão de tokens (MTok). Os números exatos mudam entre versões — o que não muda é a mecânica.

Modelo Input (US$/MTok) Output (US$/MTok)
Opus 4.5 5 25
Sonnet 4.5 3 15
Haiku 4.5 1 5

Três coisas saltam aos olhos:

  • Output custa ~5x o input. Essa assimetria é a regra de ouro do FinOps de IA. Cortar resposta vale 5x mais que cortar prompt.
  • Batch API: −50% para cargas que aceitam latência (não precisa de resposta em tempo real).
  • Prompt caching: ~1/10 do input quando há contexto fixo reusado (system prompt, documentos).

Voltando à régua lá de cima: em português, conte mais ou menos 1,3-1,5 token por palavra. Serve pra estimar qualquer conta de cabeça.

⚙️ Calculando na unha — uma chamada de Opus 4.5

Vamos fazer uma chamada simples. 10.000 tokens de entrada (um documento médio mais o prompt) e 2.000 tokens de saída (uma resposta razoável).

Input: 10.000 / 1.000.000 × US$ 5 = US$ 0,05
Output: 2.000 / 1.000.000 × US$ 25 = US$ 0,05
─────────────────────────────────────
Total da chamada: US$ 0,10

Dez centavos de dólar. Parece desprezível. Mas custo de IA é sobre escala.

Multiplica por 10 mil chamadas por dia (volume modesto pra qualquer produto sério):

US$ 0,10 × 10.000 = US$ 1.000/dia ≈ US$ 30.000/mês

Agora a brincadeira: a mesma carga em Sonnet 4.5 (input 3 / output 15) sai por US$ 0,03 + US$ 0,03 = US$ 0,06/chamada. Ou seja, US$ 18.000/mês.

Escolher o modelo certo para a tarefa certa corta 40% da conta sem tocar em mais nada. Sem reescrever prompt, sem otimizar contexto, sem nada. Só escolher direito.

🔓 O erro clássico: API ≠ Claude Code

Agora a parte que vejo gente errando toda semana. Existem dois regimes de cobrança para os mesmos modelos:

  • API direta — paga por token, exatamente como na conta acima. É o regime de quem embute IA num produto, roda pipelines, integra sistemas. (É como o agente do Boletim AM funciona.)
  • Claude Code / assinatura — Pro a US$ 20/mês, Max a partir de US$ 100/mês. Mensalidade fixa, com cota renovada a cada poucas horas. O custo marginal de "mais uma sessão" é, na prática, zero até bater o limite.

O erro clássico: "rodei 40 milhões de tokens esse mês — na API isso seria US$ X mil!".

Não seria. Porque você não estava na API. Quem programa o dia inteiro com Claude Code pode consumir um volume que, na API, custaria centenas de dólares por dia — mas paga uma assinatura de US$ 100-200/mês. A comparação correta NÃO é token a token. É assinatura fixa vs. o que aquele volume custaria na API.

Cada um serve pra uma coisa. A mini-tabela:

Cenário Melhor regime
Desenvolvimento interativo, exploração diária Claude Code (assinatura)
Produto que embute IA pros seus usuários API (por token)
Pipeline automatizado / cron / batch API (com caching e/ou Batch −50%)
Prototipar e aprender Assinatura

🛢️ As três alavancas de economia

Pra quem roda API de verdade, três alavancas resolvem 80% do problema:

1. Modelo certo para a tarefa certa. Não use Opus pra classificar e-mail. Haiku faz por 1/5 do preço. O exemplo de US$ 30k → US$ 18k acima é só trocar Opus por Sonnet — sem mexer em mais nada.

2. Prompt caching. Contexto fixo (instruções, documentos de referência, exemplos) lido do cache custa ~1/10 do input normal. O agente que gera este boletim usa cache_control no system prompt justamente por isso.

3. Engenharia de contexto. Todo token enviado é pago. Mandar só o necessário é a economia mais barata de todas — e lembra da assimetria: cortar output rende 5x mais que cortar input.

🧠 Insight final

FinOps maduro não persegue o menor custo por token. Persegue o menor custo por tarefa concluída.

É o paradoxo que economista entende de imediato: às vezes o modelo mais caro é o mais barato, porque resolve em uma chamada o que o barato erra em cinco. Isso é custo marginal e custo de oportunidade aplicados a tokens — ferramental que você já domina há anos, só que com nome novo. A pergunta nunca foi "qual o modelo mais barato?". É "qual a forma mais eficiente de chegar ao resultado?".

Quem aprende a fazer essa conta — de cabeça, na unha, com lápis e papel — sai na frente. O resto vai continuar pagando Opus pra resumir e-mail.

Um abraço,
Vítor Wilher — Análise Macro

A verdade está nos dados.

Boletim AM

Receba todo domingo à noite em seu e-mail nossa newsletter com exercícios reais de análise de dados econômicos e financeiros, envolvendo muito estatística, econometria, machine learning e inteligência artificial em R e Python. Tudo o que você precisa saber para estar antenado no mundo dos dados!

Read more from Boletim AM

Edição #193 | Newsletter Semanal da Análise Macro O PIB não está vendo a IA Fala, Reader, tudo certo por aí? Domingo, fim de tarde, semana fechando — e duas notícias aparentemente desconexas ficaram batendo na minha cabeça desde quarta. Uma é um working paper do Peterson Institute mostrando que a economia de IA dos EUA cresceu mais de 2.500% ao ano em 2024 e 2025 — e é praticamente invisível no PIB oficial. A outra é o S-1 confidencial da Anthropic, protocolado na SEC dia 1º de junho, a um...

Edição #191 Newsletter Semanal da Análise Macro Um agente de IA para Reader Pensa numa semana típica do seu trabalho. Talvez você precise escrever um relatório macro em cima de três decks de apresentação do BC, dois e-mails do operador e quatro reports de research acumulados desde quarta. Talvez precise fechar um parecer contábil sobre seis balanços trimestrais e os releases de resultado que vieram junto. Talvez seja um material para o comitê de investimentos, uma nota para clientes, ou um...

Edição 190 - Boletim AM Newsletter Semanal da Análise Macro Claude Code, resfriado e o que mudou em 30 horas Fala, Reader, tudo certo por aí? Por aqui, peguei um resfriado brabo. Feriado e sábado de cama. Dormi quase 30 horas... Voltei meia boca hoje pela manhã. Enquanto minha esposa prepara o almoço, escrevo essas linhas para você. Não sem antes, abrir o VS Code e dar uma olhada nos projetos em aberto. Tenho hoje diversos projetos rodando em paralelo: Paper sobre uso de diferentes LLMs para...