Qual o melhor LLM para ler o COPOM?


Edição 189 - Boletim AM

Newsletter Semanal da Análise Macro

Qual o melhor LLM para ler o COPOM?

Fala, Reader, bora pra mais uma semana?

Aproveitei essa semana cheia de feriados para colocar um monte de coisa em dia - no pessoal e no profissional, como diria aquele famoso apresentador de TV.

No pessoal, encontrei amigos que não via há alguns meses e coloquei o papo em dia.

Sempre bom pausar a mente e estar com pessoas que a gente ama de verdade, não é mesmo?

Maravilhoso.

Já no profissional, estou trabalhando em ritmo frenético.

Uma das coisas legais dessa nova era de agentes que estamos vivendo é justamente poder literalmente fazer mil coisas ao mesmo tempo, e ainda ter tempo para curtir um pouco com a família e amigos.

É uma era maravilhosa, como tenho conversado com você ao longo dos nossos últimos e-mails.

Para dar um exemplo legal do que estou fazendo, hoje aproveitei que a minha esposa foi fazer um curso fora para subir uma versão 1.0 de um exercício sobre uso de LLMs na análise das atas do COPOM.

A ideia do paper é simples.

Como já sabemos, é possível usar IA Generativa para ler as atas do COPOM (assim como qualquer documento, na verdade).

Mas, será que todos os modelos leem esses documentos de forma igual?

Ou seja, até pouco tempo, estávamos nos perguntando se era possível ler documentos com IA...

Agora, já passamos dessa fase: todo mundo sabe que é possível.

Então, passamos para uma pergunta mais interessante: como os modelos se diferenciam em relação a esses documentos?

Pra responder, peguei três modelos de linguagem de grande porte (LLMs) — Gemini Flash Lite (Google), Claude Haiku 4.5 (Anthropic) e GPT-4.1-mini (OpenAI) — e mandei os três lerem as mesmas atas, com o mesmo prompt, sob a mesma escala de tom hawkish (-3,0) a dovish (+3,0).

Bora ao que importa.

🎯 A tese em uma frase

Os três modelos concordam sobre a direção do tom, mas divergem sobre a intensidade.

Em outras palavras: se a pergunta é "essa ata é mais hawkish ou mais dovish?", os três batem. Se a pergunta é "quanto mais hawkish?", aí cada um responde uma coisa.

Os resultados encontrados, por óbvio, ainda são (bem) preliminares, mas esse último ponto, o de que os modelos divergem em intensidade, sobrevive bem a exercícios de robustez.

Já a ideia de que os modelos concordam sobre a direção do comunicado ainda precisa de mais refinamento - os resultados encontrados são mais frágeis.

Três coisas saltam aos olhos.

Primeiro, o GPT-4.1-mini lidera em todos os testes — tanto explicando os dados passados quanto prevendo reuniões que ele nunca viu.

Consistência é difícil em modelagem; aqui, ele entrega.

Segundo, Claude e Gemini contam histórias opostas.

O Claude é o mais "sensível": cada unidade de tom hawkish dele vira muitos pontos percentuais de Selic prevista.

Bom no papel, mas na prática ele exagera — aposta em movimentos grandes que nem sempre acontecem.

Em estatística isso se chama overfit: o modelo decora padrões da amostra de treino e tropeça quando o cenário muda.

O Gemini é o oposto: comedido, parece tímido à primeira vista, mas é justamente essa cautela que o faz acertar mais quando precisa prever reuniões inéditas.

Terceiro, o baseline léxico — o método clássico de contar palavras hawkish menos dovish — fica em último no ciclo completo, mas vence pontualmente em uma janela específica de seis reuniões.

Não é vantagem real: é artefato de um período calmo da Selic, em que o cenário ficou fácil de prever pra todo mundo e o método mais conservador acabou ganhando por descarte.

É o clássico trade-off viés-variância em ação — quando a volatilidade some, modelo simples bate modelo sofisticado, mas é miragem, não competência.

⚙️ Por que isso importa na prática

A sensibilidade β̂ entre os LLMs varia de +0,36 a +0,62 p.p. por unidade de score. Diferença de mais de 70%.

Tradução para o uso real:

  • Pra classificar viradas de ciclo monetário (alta vs corte vs manutenção), qualquer um dos três serve.
  • Pra usar o índice como variável quantitativa em modelo macroeconômico — uma regra de Taylor, por exemplo — a escolha do provedor altera o resultado.

Esse é o tipo de coisa que aparece quando você roda o exercício de verdade, não quando lê thread no Twitter sobre "qual LLM é melhor".

🧠 Insight final

O paper começou com uma pergunta simples: "será que a IA lê o Copom?". Saiu um achado que reorganiza como eu penso a tarefa: concordância em direção é fácil; precisão de calibração é cara. Pra qualquer aplicação quantitativa séria, você precisa escolher seu provedor com critério — e o critério não é o R² mais alto, é o desempenho fora da amostra.

O paper da v1.0 está aqui:

📄 Mesmo Sinal, Calibrações Diferentes — Sentimento COPOM v1.0

A v2.0 deve atacar capacidade antecedente t→t+1, robustez a perturbações de prompt e o índice ensemble. Se quiser participar do projeto, só responder esse e-mail.

Nos próximos boletins, falo mais sobre esse e outros projetos que estou tocando.

Um abraço,

Vítor Wilher — Análise Macro

A verdade está nos dados

Boletim AM

Receba todo domingo à noite em seu e-mail nossa newsletter com exercícios reais de análise de dados econômicos e financeiros, envolvendo muito estatística, econometria, machine learning e inteligência artificial em R e Python. Tudo o que você precisa saber para estar antenado no mundo dos dados!

Read more from Boletim AM

Edição 188 - Boletim AM Newsletter Semanal da Análise Macro Claude Code: mitos e verdades Fala, Reader, como estão as coisas? Não te enviei o boletim AM aos domingos nas últimas semanas e hoje estou aqui para te contar por quê. Mergulhei fundo no Claude Code — a ferramenta de programação por IA da Anthropic — e quero compartilhar com vocês o que aprendi e como isso vai afetar como a Análise Macro vai te ajudar a partir do próximo mês. Não o hype, mas o que realmente importa para quem trabalha...

Edição 187 - Boletim AM Newsletter Semanal da Análise Macro Minha rotina no Doutorado Fala, Reader, como foi a semana? Por aqui, a derivada mudou de sinal. Como falei há algumas semanas por aqui, comecei o Doutorado em Economia. Falarei mais especificamente sobre isso ao longo das próximas semanas, mas por enquanto quero falar de um tema subjacente: organização. Passei a maior parte da minha vida sendo uma pessoa bem desorganizada. Em alguns momentos, inclusive, minha vida beirou ao caos....

Edição 186 - Boletim AM Newsletter Semanal da Análise Macro A Econometria da Guerra no Irã Fala, Reader, bora para mais uma semana? O mercado financeiro acorda olhando para manchetes. Irã. Conflito. Tensão geopolítica. Mas o analista/economista sério pensa além do que está escrito.Ele olha para transmissão de choques. 🛢️ O campo de batalha O efeito mais direto do conflito é a variação no preço do petróleo. Toda escalada no Oriente Médio carrega um vetor invisível: o Brent sobe… e o resto do...