LLMadness – Évaluations de modèles pour le March Madness

Je voulais explorer les capacités agentiques non-codantes des meilleurs LLM, alors j'ai créé une évaluation de modèle pour prédire le tableau du March Madness. Après avoir testé différents formats, j'ai opté pour cette configuration : - 63 prédictions par match vs. tableau complet en une seule tentative - Maximum de 10 appels d'outils par match - Instructions spécifiques pour les surprises dans l'invite système - Notation exponentielle par tour (1, 2, 4, 8, 16, 32) Quelques découvertes intéressantes : - Sans surprise, la plupart des tableaux suivent les favoris. Très peu de surprises majeures ont été prédites. - Énorme disparité de coût et de tokens avec exactement la même configuration. Les deux modèles Claude ont dépensé plus de 40$ pour remplir le tableau, tandis que MiMo-V2-Flash n'a coûté que 0,39$. J'ai dépensé 138,69$ au total pour les 15 exécutions de modèles. - Grande différence de vitesse aussi. Claude Opus 4.6 a pris presque 2 jours complets pour les 2 matchs de qualification et les 63 matchs du tableau. Qwen 3.5 Flash a mis moins de 10 minutes. - Même en spécifiant l'année du tournoi (2026), plusieurs modèles ont utilisé des informations des années précédentes. Claude semblait le plus fautif, voulant absolument que Cooper Flagg soit dans l'équipe de Duke cette année. C'était une façon vraiment amusante de combiner deux de mes passions, et j'ai hâte de voir comment les modèles se comporteront dans les semaines à venir. Vous pouvez cliquer sur chaque nœud du tableau pour voir la trace complète du modèle et le raisonnement derrière les choix. La stack utilise Typescript, Next.js, React et du CSS pur. Pas de base de données, tout est stocké dans des fichiers JSON statiques. Après chaque match, je mets à jour les résultats réels et je redéploie via GitHub Pages. Je voulais travailler le plus vite possible puisque les tableaux se verrouillent aujourd'hui, donc presque tout le code a été généré par IA (sans surprise). J'espère que vous apprécierez explorer tout ça !

  • Agent IA
  • Analyse de données
  • Application Web

Résumé IA

LLMadness est un projet qui évalue les capacités agentiques non codées de divers LLM en leur faisant prédire un tableau de March Madness, comparant leur performance, coût, vitesse et précision.

Idéal pour

Chercheurs et évaluateurs de LLM, Enthousiastes de l'IA intéressés par les comparaisons de modèles, Amateurs d'analyses sportives

Pourquoi c'est important

Il offre une comparaison pratique et réaliste des capacités de prédiction, de l'efficacité économique et de la vitesse des LLM dans un format de tournoi structuré.

Fonctionnalités clés

  • Évalue les capacités agentiques des LLM via les prédictions de brackets March Madness
  • Compare la performance des modèles en termes de coût, vitesse et précision des prédictions
  • Fournit des traces détaillées des modèles et les raisonnements pour chaque choix de match
  • Utilise un site statique sans base de données, actualisant les résultats via GitHub Pages

Cas d'usage

  • Un formateur en science des données crée des exercices interactifs en classe où les étudiants comparent les méthodologies de prédiction des LLM, utilisant les prédictions de brackets pour démontrer les compromis coût-performance dans la sélection des modèles.
  • Un consultant en analytique sportive utilise la plateforme pour évaluer la capacité des différents modèles d'IA à prévoir les surprises de tournoi, fournissant aux clients des insights sur les modèles qui gèrent le mieux les cas limites pour leurs algorithmes de paris.
  • Un chef de produit dans une startup d'IA consulte les comparaisons de vitesse et de coût pour décider quels modèles de base intégrer aux fonctionnalités de prédiction en temps réel de leur application sportive.

Sources originales