Edição 189 - Boletim AMNewsletter Semanal da Análise Macro Qual o melhor LLM para ler o COPOM?Fala, Reader, bora pra mais uma semana? Aproveitei essa semana cheia de feriados para colocar um monte de coisa em dia - no pessoal e no profissional, como diria aquele famoso apresentador de TV. No pessoal, encontrei amigos que não via há alguns meses e coloquei o papo em dia. Sempre bom pausar a mente e estar com pessoas que a gente ama de verdade, não é mesmo? Maravilhoso. Já no profissional, estou trabalhando em ritmo frenético. Uma das coisas legais dessa nova era de agentes que estamos vivendo é justamente poder literalmente fazer mil coisas ao mesmo tempo, e ainda ter tempo para curtir um pouco com a família e amigos. É uma era maravilhosa, como tenho conversado com você ao longo dos nossos últimos e-mails. Para dar um exemplo legal do que estou fazendo, hoje aproveitei que a minha esposa foi fazer um curso fora para subir uma versão 1.0 de um exercício sobre uso de LLMs na análise das atas do COPOM. A ideia do paper é simples. Como já sabemos, é possível usar IA Generativa para ler as atas do COPOM (assim como qualquer documento, na verdade). Mas, será que todos os modelos leem esses documentos de forma igual? Ou seja, até pouco tempo, estávamos nos perguntando se era possível ler documentos com IA... Agora, já passamos dessa fase: todo mundo sabe que é possível. Então, passamos para uma pergunta mais interessante: como os modelos se diferenciam em relação a esses documentos? Pra responder, peguei três modelos de linguagem de grande porte (LLMs) — Gemini Flash Lite (Google), Claude Haiku 4.5 (Anthropic) e GPT-4.1-mini (OpenAI) — e mandei os três lerem as mesmas atas, com o mesmo prompt, sob a mesma escala de tom hawkish (-3,0) a dovish (+3,0). Bora ao que importa. 🎯 A tese em uma fraseOs três modelos concordam sobre a direção do tom, mas divergem sobre a intensidade. Em outras palavras: se a pergunta é "essa ata é mais hawkish ou mais dovish?", os três batem. Se a pergunta é "quanto mais hawkish?", aí cada um responde uma coisa. Os resultados encontrados, por óbvio, ainda são (bem) preliminares, mas esse último ponto, o de que os modelos divergem em intensidade, sobrevive bem a exercícios de robustez. Já a ideia de que os modelos concordam sobre a direção do comunicado ainda precisa de mais refinamento - os resultados encontrados são mais frágeis. Três coisas saltam aos olhos. Primeiro, o GPT-4.1-mini lidera em todos os testes — tanto explicando os dados passados quanto prevendo reuniões que ele nunca viu. Consistência é difícil em modelagem; aqui, ele entrega. Segundo, Claude e Gemini contam histórias opostas. O Claude é o mais "sensível": cada unidade de tom hawkish dele vira muitos pontos percentuais de Selic prevista. Bom no papel, mas na prática ele exagera — aposta em movimentos grandes que nem sempre acontecem. Em estatística isso se chama overfit: o modelo decora padrões da amostra de treino e tropeça quando o cenário muda. O Gemini é o oposto: comedido, parece tímido à primeira vista, mas é justamente essa cautela que o faz acertar mais quando precisa prever reuniões inéditas. Terceiro, o baseline léxico — o método clássico de contar palavras hawkish menos dovish — fica em último no ciclo completo, mas vence pontualmente em uma janela específica de seis reuniões. Não é vantagem real: é artefato de um período calmo da Selic, em que o cenário ficou fácil de prever pra todo mundo e o método mais conservador acabou ganhando por descarte. É o clássico trade-off viés-variância em ação — quando a volatilidade some, modelo simples bate modelo sofisticado, mas é miragem, não competência. ⚙️ Por que isso importa na práticaA sensibilidade β̂ entre os LLMs varia de +0,36 a +0,62 p.p. por unidade de score. Diferença de mais de 70%. Tradução para o uso real:
Esse é o tipo de coisa que aparece quando você roda o exercício de verdade, não quando lê thread no Twitter sobre "qual LLM é melhor". 🧠 Insight finalO paper começou com uma pergunta simples: "será que a IA lê o Copom?". Saiu um achado que reorganiza como eu penso a tarefa: concordância em direção é fácil; precisão de calibração é cara. Pra qualquer aplicação quantitativa séria, você precisa escolher seu provedor com critério — e o critério não é o R² mais alto, é o desempenho fora da amostra. O paper da v1.0 está aqui: 📄 Mesmo Sinal, Calibrações Diferentes — Sentimento COPOM v1.0 A v2.0 deve atacar capacidade antecedente t→t+1, robustez a perturbações de prompt e o índice ensemble. Se quiser participar do projeto, só responder esse e-mail. Nos próximos boletins, falo mais sobre esse e outros projetos que estou tocando. Um abraço, Vítor Wilher — Análise Macro A verdade está nos dados |
Receba todo domingo à noite em seu e-mail nossa newsletter com exercícios reais de análise de dados econômicos e financeiros, envolvendo muito estatística, econometria, machine learning e inteligência artificial em R e Python. Tudo o que você precisa saber para estar antenado no mundo dos dados!
EDIÇÃO #192 | NEWSLETTER SEMANAL DA ANÁLISE MACRO Tokens: o custo de pensar com IA Fala, Reader, bora pra mais uma semana? Domingo aqui em casa, café na mão, pensando em como te explicar uma coisa que vejo gente competente errar toda semana: a conta da IA. Não é trivial. E ficou ainda mais urgente nos últimos dias. O Google anunciou que processa hoje 3,2 quadrilhões de tokens por mês — sete vezes mais que há um ano. A Anthropic gasta US$ 1,25 bilhão por mês só alugando capacidade...
Edição #191 Newsletter Semanal da Análise Macro Um agente de IA para Reader Pensa numa semana típica do seu trabalho. Talvez você precise escrever um relatório macro em cima de três decks de apresentação do BC, dois e-mails do operador e quatro reports de research acumulados desde quarta. Talvez precise fechar um parecer contábil sobre seis balanços trimestrais e os releases de resultado que vieram junto. Talvez seja um material para o comitê de investimentos, uma nota para clientes, ou um...
Edição 190 - Boletim AM Newsletter Semanal da Análise Macro Claude Code, resfriado e o que mudou em 30 horas Fala, Reader, tudo certo por aí? Por aqui, peguei um resfriado brabo. Feriado e sábado de cama. Dormi quase 30 horas... Voltei meia boca hoje pela manhã. Enquanto minha esposa prepara o almoço, escrevo essas linhas para você. Não sem antes, abrir o VS Code e dar uma olhada nos projetos em aberto. Tenho hoje diversos projetos rodando em paralelo: Paper sobre uso de diferentes LLMs para...