LLMadness – Avaliação de Modelos para March Madness

Eu queria experimentar as capacidades agentivas não-codificadoras dos principais LLMs, então construí uma avaliação de modelo para prever o bracket do March Madness. Depois de testar um pouco o formato, optei pela seguinte configuração: - 63 previsões de jogo único versus bracket completo de uma única vez - Limite máximo de 10 chamadas de ferramenta por jogo - Instrução específica para upset no prompt do sistema - Pontuação exponencial por rodada (1, 2, 4, 8, 16, 32) Houve algumas aprendizagens interessantes: - Como esperado, a maioria dos brackets segue o favorito. Poucos upset significativos foram previstos. - Houve uma GRANDE disparidade de custo e tokens com a mesma configuração e restrições. Os dois modelos Claude gastaram mais de $40 para completar o bracket, enquanto MiMo-V2-Flash gastou $0.39. Gastou um total de $138.69 em todas as 15 execuções de modelo. - Também houve uma grande disparidade de velocidade. Claude Opus 4.6 levou quase 2 dias completos para terminar os 2 play-ins e 63 jogos do bracket. Qwen 3.5 Flash levou menos de 10 minutos. - Mesmo quando informado o ano do torneio (2026), vários modelos trouxeram informações de anos anteriores. Claude parece ser o maior culpado, insistindo que Cooper Flagg estaria no time Duke deste ano. Esta foi uma forma muito divertida de combinar dois dos meus interesses e estou animado para ver como os modelos performam nas próximas semanas. Você pode clicar em cada nó do bracket para ver o trace completo do modelo e a razão das escolhas. A stack é Typescript, Next.js, React e CSS raw. Sem DB, tudo armazenado em arquivos JSON estáticos. Após cada jogo, atualizo os resultados reais e re-deploy via GitHub Pages. Queria trabalhar o mais rápido possível pois os brackets são bloqueados hoje, então quase todo o código foi gerado por IA (surpresa). Espero que você goste de conferir!

  • Agente de IA
  • Análise de Dados
  • Aplicação Web
Mar 19, 2026Visitar site

Resumo de IA

LLMadness é um projeto que avalia as capacidades agentivas não-codificadoras de diversos LLMs, fazendo-os prever um bracket do March Madness, comparando seu desempenho, custo, velocidade e precisão.

Melhor para

Investigadores e avaliadores de LLM, Entusiastas de IA interessados em comparações de modelos, Hobbyistas de análise esportiva

Por que importa

Oferece uma comparação prática e realista das habilidades de previsão, eficiência de custos e velocidade dos LLMs em um formato de torneio estruturado.

Principais recursos

  • Avalia capacidades de agentes LLM através de previsões de chaves do March Madness
  • Compara desempenho de modelos em custo, velocidade e precisão de previsões
  • Fornece rastreamentos detalhados e racionais para cada escolha de jogo
  • Utiliza um site estático sem banco de dados, atualizando resultados via GitHub Pages

Casos de uso

  • Um instrutor de ciência de dados cria exercícios interativos para aulas onde os alunos comparam metodologias de predição de LLMs, usando as previsões de brackets para demonstrar tradeoffs custo-performance na seleção de modelos.
  • Um consultor de análise esportiva usa a plataforma para avaliar a capacidade de diferentes modelos de IA em prever upset de torneios, oferecendo aos clientes insights sobre quais modelos lidam melhor com casos extremos para seus algoritmos de apostas.
  • Um gerente de produto em uma startup de IA consulta as comparações de velocidade e custo ao decidir quais modelos fundamentais integrar para funcionalidades de previsão em tempo real em seu aplicativo esportivo.