LLMadness – Avaliação de Modelos para March Madness

Eu queria experimentar as capacidades agentivas não-codificadoras dos principais LLMs, então construí uma avaliação de modelo para prever o bracket do March Madness. Depois de testar um pouco o formato, optei pela seguinte configuração: - 63 previsões de jogo único versus bracket completo de uma única vez - Limite máximo de 10 chamadas de ferramenta por jogo - Instrução específica para upset no prompt do sistema - Pontuação exponencial por rodada (1, 2, 4, 8, 16, 32) Houve algumas aprendizagens interessantes: - Como esperado, a maioria dos brackets segue o favorito. Poucos upset significativos foram previstos. - Houve uma GRANDE disparidade de custo e tokens com a mesma configuração e restrições. Os dois modelos Claude gastaram mais de $40 para completar o bracket, enquanto MiMo-V2-Flash gastou $0.39. Gastou um total de $138.69 em todas as 15 execuções de modelo. - Também houve uma grande disparidade de velocidade. Claude Opus 4.6 levou quase 2 dias completos para terminar os 2 play-ins e 63 jogos do bracket. Qwen 3.5 Flash levou menos de 10 minutos. - Mesmo quando informado o ano do torneio (2026), vários modelos trouxeram informações de anos anteriores. Claude parece ser o maior culpado, insistindo que Cooper Flagg estaria no time Duke deste ano. Esta foi uma forma muito divertida de combinar dois dos meus interesses e estou animado para ver como os modelos performam nas próximas semanas. Você pode clicar em cada nó do bracket para ver o trace completo do modelo e a razão das escolhas. A stack é Typescript, Next.js, React e CSS raw. Sem DB, tudo armazenado em arquivos JSON estáticos. Após cada jogo, atualizo os resultados reais e re-deploy via GitHub Pages. Queria trabalhar o mais rápido possível pois os brackets são bloqueados hoje, então quase todo o código foi gerado por IA (surpresa). Espero que você goste de conferir!

Agente de IA
Análise de Dados
Aplicação Web

Mar 19, 2026Visitar site

✨ Resumo de IA

LLMadness é um projeto que avalia as capacidades agentivas não-codificadoras de diversos LLMs, fazendo-os prever um bracket do March Madness, comparando seu desempenho, custo, velocidade e precisão.

Melhor para

Investigadores e avaliadores de LLM, Entusiastas de IA interessados em comparações de modelos, Hobbyistas de análise esportiva

Por que importa

Oferece uma comparação prática e realista das habilidades de previsão, eficiência de custos e velocidade dos LLMs em um formato de torneio estruturado.

Principais recursos

Avalia capacidades de agentes LLM através de previsões de chaves do March Madness
Compara desempenho de modelos em custo, velocidade e precisão de previsões
Fornece rastreamentos detalhados e racionais para cada escolha de jogo
Utiliza um site estático sem banco de dados, atualizando resultados via GitHub Pages

Casos de uso

Um instrutor de ciência de dados cria exercícios interativos para aulas onde os alunos comparam metodologias de predição de LLMs, usando as previsões de brackets para demonstrar tradeoffs custo-performance na seleção de modelos.
Um consultor de análise esportiva usa a plataforma para avaliar a capacidade de diferentes modelos de IA em prever upset de torneios, oferecendo aos clientes insights sobre quais modelos lidam melhor com casos extremos para seus algoritmos de apostas.
Um gerente de produto em uma startup de IA consulta as comparações de velocidade e custo ao decidir quais modelos fundamentais integrar para funcionalidades de previsão em tempo real em seu aplicativo esportivo.

Fontes originais

Discussão no Hacker News→