Qual o melhor LLM para ler o COPOM?

Edição 189 - Boletim AM

Newsletter Semanal da Análise Macro

Qual o melhor LLM para ler o COPOM?

Fala, Reader, bora pra mais uma semana?

Aproveitei essa semana cheia de feriados para colocar um monte de coisa em dia - no pessoal e no profissional, como diria aquele famoso apresentador de TV.

No pessoal, encontrei amigos que não via há alguns meses e coloquei o papo em dia.

Sempre bom pausar a mente e estar com pessoas que a gente ama de verdade, não é mesmo?

Maravilhoso.

Já no profissional, estou trabalhando em ritmo frenético.

Uma das coisas legais dessa nova era de agentes que estamos vivendo é justamente poder literalmente fazer mil coisas ao mesmo tempo, e ainda ter tempo para curtir um pouco com a família e amigos.

É uma era maravilhosa, como tenho conversado com você ao longo dos nossos últimos e-mails.

Para dar um exemplo legal do que estou fazendo, hoje aproveitei que a minha esposa foi fazer um curso fora para subir uma versão 1.0 de um exercício sobre uso de LLMs na análise das atas do COPOM.

A ideia do paper é simples.

Como já sabemos, é possível usar IA Generativa para ler as atas do COPOM (assim como qualquer documento, na verdade).

Mas, será que todos os modelos leem esses documentos de forma igual?

Ou seja, até pouco tempo, estávamos nos perguntando se era possível ler documentos com IA...

Agora, já passamos dessa fase: todo mundo sabe que é possível.

Então, passamos para uma pergunta mais interessante: como os modelos se diferenciam em relação a esses documentos?

Pra responder, peguei três modelos de linguagem de grande porte (LLMs) — Gemini Flash Lite (Google), Claude Haiku 4.5 (Anthropic) e GPT-4.1-mini (OpenAI) — e mandei os três lerem as mesmas atas, com o mesmo prompt, sob a mesma escala de tom hawkish (-3,0) a dovish (+3,0).

Bora ao que importa.

🎯 A tese em uma frase

Os três modelos concordam sobre a direção do tom, mas divergem sobre a intensidade.

Em outras palavras: se a pergunta é "essa ata é mais hawkish ou mais dovish?", os três batem. Se a pergunta é "quanto mais hawkish?", aí cada um responde uma coisa.

Os resultados encontrados, por óbvio, ainda são (bem) preliminares, mas esse último ponto, o de que os modelos divergem em intensidade, sobrevive bem a exercícios de robustez.

Já a ideia de que os modelos concordam sobre a direção do comunicado ainda precisa de mais refinamento - os resultados encontrados são mais frágeis.

Três coisas saltam aos olhos.

Primeiro, o GPT-4.1-mini lidera em todos os testes — tanto explicando os dados passados quanto prevendo reuniões que ele nunca viu.

Consistência é difícil em modelagem; aqui, ele entrega.

Segundo, Claude e Gemini contam histórias opostas.

O Claude é o mais "sensível": cada unidade de tom hawkish dele vira muitos pontos percentuais de Selic prevista.

Bom no papel, mas na prática ele exagera — aposta em movimentos grandes que nem sempre acontecem.

Em estatística isso se chama overfit: o modelo decora padrões da amostra de treino e tropeça quando o cenário muda.

O Gemini é o oposto: comedido, parece tímido à primeira vista, mas é justamente essa cautela que o faz acertar mais quando precisa prever reuniões inéditas.

Terceiro, o baseline léxico — o método clássico de contar palavras hawkish menos dovish — fica em último no ciclo completo, mas vence pontualmente em uma janela específica de seis reuniões.

Não é vantagem real: é artefato de um período calmo da Selic, em que o cenário ficou fácil de prever pra todo mundo e o método mais conservador acabou ganhando por descarte.

É o clássico trade-off viés-variância em ação — quando a volatilidade some, modelo simples bate modelo sofisticado, mas é miragem, não competência.

⚙️ Por que isso importa na prática

A sensibilidade β̂ entre os LLMs varia de +0,36 a +0,62 p.p. por unidade de score. Diferença de mais de 70%.

Tradução para o uso real:

Pra classificar viradas de ciclo monetário (alta vs corte vs manutenção), qualquer um dos três serve.
Pra usar o índice como variável quantitativa em modelo macroeconômico — uma regra de Taylor, por exemplo — a escolha do provedor altera o resultado.

Esse é o tipo de coisa que aparece quando você roda o exercício de verdade, não quando lê thread no Twitter sobre "qual LLM é melhor".

🧠 Insight final

O paper começou com uma pergunta simples: "será que a IA lê o Copom?". Saiu um achado que reorganiza como eu penso a tarefa: concordância em direção é fácil; precisão de calibração é cara. Pra qualquer aplicação quantitativa séria, você precisa escolher seu provedor com critério — e o critério não é o R² mais alto, é o desempenho fora da amostra.

O paper da v1.0 está aqui:

📄 Mesmo Sinal, Calibrações Diferentes — Sentimento COPOM v1.0

A v2.0 deve atacar capacidade antecedente t→t+1, robustez a perturbações de prompt e o índice ensemble. Se quiser participar do projeto, só responder esse e-mail.

Nos próximos boletins, falo mais sobre esse e outros projetos que estou tocando.

Um abraço,

Vítor Wilher — Análise Macro

A verdade está nos dados

Boletim AM

Qual o melhor LLM para ler o COPOM?

Edição 189 - Boletim AM