EDIÇÃO #192 | NEWSLETTER SEMANAL DA ANÁLISE MACRO

Tokens: o custo de pensar com IA

Fala, Reader, bora pra mais uma semana?

Domingo aqui em casa, café na mão, pensando em como te explicar uma coisa que vejo gente competente errar toda semana: a conta da IA.

Não é trivial. E ficou ainda mais urgente nos últimos dias. O Google anunciou que processa hoje 3,2 quadrilhões de tokens por mês — sete vezes mais que há um ano. A Anthropic gasta US$ 1,25 bilhão por mês só alugando capacidade computacional. E o Sam Altman ofereceu US$ 2 milhões em tokens da OpenAI a cada startup da turma do YC em troca de 2% de equity.

Token virou moeda. E como toda moeda, precisa ser precificada direito.

O problema é que quase ninguém faz essa conta de cabeça. Pior: muita gente confunde dois regimes de cobrança que não se comparam — e erra por ordens de magnitude. Bora desembaraçar isso.

🧩 Primeiro, dois termos

Antes de qualquer conta, dois conceitos — rápido, porque o resto depende deles.

Token é a unidade que o modelo lê e escreve. Não é bem uma palavra: é um pedaço dela. "Casa" é 1 token; "macroeconomia" pode virar 3 ou 4. A regra de bolso: 1.000 tokens ≈ 750 palavras em inglês (~600-650 em português). E o ponto que importa pro bolso: todo modelo cobra por token — pelos que você manda (o input) e pelos que ele responde (o output). É unidade de medida e unidade de cobrança ao mesmo tempo.

FinOps (de Financial Operations) é a disciplina de tratar gasto com tecnologia — antes a nuvem, agora a IA — como decisão de engenharia, não como fatura que chega de surpresa no fim do mês. É botar quem constrói e quem paga a conta na mesma mesa, pra que cada chamada de modelo seja uma escolha consciente de custo-benefício. Nasceu no mundo cloud; com IA virou urgente, porque agora o custo escala token a token, em tempo real.

Com os dois na mão, bora à conta.

🎯 A tese em uma frase

Custo por token é a métrica errada. O que importa é custo por tarefa concluída — e antes disso, é preciso entender que o mesmo modelo tem dois regimes de cobrança radicalmente diferentes: API (paga por uso) e assinatura (paga pacote fixo). Confundir os dois é o erro #1 de FinOps de IA.

📊 Os preços de referência (família 4.5 da Anthropic, 31/05/2026)

Antes de calcular qualquer coisa, a tabela. Esses são preços por milhão de tokens (MTok). Os números exatos mudam entre versões — o que não muda é a mecânica.

Modelo

Input (US$/MTok)

Output (US$/MTok)

Opus 4.5

Sonnet 4.5

Haiku 4.5

Três coisas saltam aos olhos:

Output custa ~5x o input. Essa assimetria é a regra de ouro do FinOps de IA. Cortar resposta vale 5x mais que cortar prompt.
Batch API: −50% para cargas que aceitam latência (não precisa de resposta em tempo real).
Prompt caching: ~1/10 do input quando há contexto fixo reusado (system prompt, documentos).

Voltando à régua lá de cima: em português, conte mais ou menos 1,3-1,5 token por palavra. Serve pra estimar qualquer conta de cabeça.

⚙️ Calculando na unha — uma chamada de Opus 4.5

Vamos fazer uma chamada simples. 10.000 tokens de entrada (um documento médio mais o prompt) e 2.000 tokens de saída (uma resposta razoável).

Input: 10.000 / 1.000.000 × US$ 5 = US$ 0,05
Output: 2.000 / 1.000.000 × US$ 25 = US$ 0,05
─────────────────────────────────────
Total da chamada: US$ 0,10

Dez centavos de dólar. Parece desprezível. Mas custo de IA é sobre escala.

Multiplica por 10 mil chamadas por dia (volume modesto pra qualquer produto sério):

US$ 0,10 × 10.000 = US$ 1.000/dia ≈ US$ 30.000/mês

Agora a brincadeira: a mesma carga em Sonnet 4.5 (input 3 / output 15) sai por US$ 0,03 + US$ 0,03 = US$ 0,06/chamada. Ou seja, US$ 18.000/mês.

Escolher o modelo certo para a tarefa certa corta 40% da conta sem tocar em mais nada. Sem reescrever prompt, sem otimizar contexto, sem nada. Só escolher direito.

🔓 O erro clássico: API ≠ Claude Code

Agora a parte que vejo gente errando toda semana. Existem dois regimes de cobrança para os mesmos modelos:

API direta — paga por token, exatamente como na conta acima. É o regime de quem embute IA num produto, roda pipelines, integra sistemas. (É como o agente do Boletim AM funciona.)
Claude Code / assinatura — Pro a US$ 20/mês, Max a partir de US$ 100/mês. Mensalidade fixa, com cota renovada a cada poucas horas. O custo marginal de "mais uma sessão" é, na prática, zero até bater o limite.

O erro clássico: "rodei 40 milhões de tokens esse mês — na API isso seria US$ X mil!".

Não seria. Porque você não estava na API. Quem programa o dia inteiro com Claude Code pode consumir um volume que, na API, custaria centenas de dólares por dia — mas paga uma assinatura de US$ 100-200/mês. A comparação correta NÃO é token a token. É assinatura fixa vs. o que aquele volume custaria na API.

Cada um serve pra uma coisa. A mini-tabela:

Cenário

Melhor regime

Desenvolvimento interativo, exploração diária

Claude Code (assinatura)

Produto que embute IA pros seus usuários

API (por token)

Pipeline automatizado / cron / batch

API (com caching e/ou Batch −50%)

Prototipar e aprender

Assinatura

🛢️ As três alavancas de economia

Pra quem roda API de verdade, três alavancas resolvem 80% do problema:

1. Modelo certo para a tarefa certa. Não use Opus pra classificar e-mail. Haiku faz por 1/5 do preço. O exemplo de US$ 30k → US$ 18k acima é só trocar Opus por Sonnet — sem mexer em mais nada.

2. Prompt caching. Contexto fixo (instruções, documentos de referência, exemplos) lido do cache custa ~1/10 do input normal. O agente que gera este boletim usa cache_control no system prompt justamente por isso.

3. Engenharia de contexto. Todo token enviado é pago. Mandar só o necessário é a economia mais barata de todas — e lembra da assimetria: cortar output rende 5x mais que cortar input.

🧠 Insight final

FinOps maduro não persegue o menor custo por token. Persegue o menor custo por tarefa concluída.

É o paradoxo que economista entende de imediato: às vezes o modelo mais caro é o mais barato, porque resolve em uma chamada o que o barato erra em cinco. Isso é custo marginal e custo de oportunidade aplicados a tokens — ferramental que você já domina há anos, só que com nome novo. A pergunta nunca foi "qual o modelo mais barato?". É "qual a forma mais eficiente de chegar ao resultado?".

Quem aprende a fazer essa conta — de cabeça, na unha, com lápis e papel — sai na frente. O resto vai continuar pagando Opus pra resumir e-mail.

Um abraço,
Vítor Wilher — Análise Macro

A verdade está nos dados.

Boletim AM

Tokens: o custo de pensar com IA

Tokens: o custo de pensar com IA

🧩 Primeiro, dois termos

🎯 A tese em uma frase

📊 Os preços de referência (família 4.5 da Anthropic, 31/05/2026)

⚙️ Calculando na unha — uma chamada de Opus 4.5

🔓 O erro clássico: API ≠ Claude Code

🛢️ As três alavancas de economia

🧠 Insight final

O PIB não está vendo a IA

Um agente de IA para [FIRST NAME GOES HERE]

O que você pode fazer com Claude Code