LLMadness – March Madness Model Evals

Ich wollte mit den nicht-programmierenden agentischen Fähigkeiten der Top-LLMs experimentieren, also habe ich eine Modellevaluation zur Vorhersage des March-Madness-Brackets erstellt. Nach etwas Herumprobieren mit dem Format habe ich mich für folgenden Aufbau entschieden: - 63 Einzelspielvorhersagen vs. vollständiges One-Shot-Bracket - Maximal 10 Tool-Aufrufe pro Spiel - Spezifische Anweisungen für Überraschungssiege im System-Prompt - Exponentielle Punktvergabe pro Runde (1, 2, 4, 8, 16, 32) Es gab einige interessante Erkenntnisse: - Wenig überraschend sind die meisten Brackets sehr vorhersehbar. Nur wenige große Überraschungssiege wurden vorhergesagt. - Bei exakt gleichem Setup gab es enorme Kosten- und Token-Unterschiede. Beide Claude-Modelle kosteten über 40 $ für das Ausfüllen des Brackets, während MiMo-V2-Flash nur 0,39 $ kostete. Insgesamt gab ich 138,69 $ für alle 15 Modellläufe aus. - Auch bei der Geschwindigkeit gab es große Unterschiede. Claude Opus 4.6 brauchte fast 2 volle Tage für die 2 Play-in-Spiele und 63 Bracket-Spiele. Qwen 3.5 Flash war in unter 10 Minuten fertig. - Selbst bei Angabe des Turnierjahres (2026) griffen mehrere Modelle auf Informationen aus früheren Jahren zurück. Claude schien der größte Übeltäter zu sein und bestand darauf, dass Cooper Flagg im diesjährigen Duke-Team spielt. Das war eine wirklich unterhaltsame Möglichkeit, zwei meiner Interessen zu verbinden, und ich bin gespannt, wie sich die Modelle in den kommenden Wochen schlagen. Ihr könnt auf jeden Bracket-Knoten klicken, um den vollständigen Modellverlauf und die Begründungen für die Auswahlen zu sehen. Der Tech-Stack besteht aus TypeScript, Next.js, React und reinem CSS. Keine Datenbank – alles wird in statischen JSON-Dateien gespeichert. Nach jedem Spiel aktualisiere ich die tatsächlichen Ergebnisse und deploye neu über GitHub Pages. Da die Brackets heute gesperrt werden, wollte ich so schnell wie möglich arbeiten – daher wurde fast der gesamte Code KI-generiert (Überraschung!). Ich hoffe, es macht Spaß, sich das anzuschauen!

  • Datenanalyse
  • Forschungshilfe
  • KI-Agent

KI-Zusammenfassung

LLMadness ist ein Projekt, das die nicht-programmierenden agentischen Fähigkeiten verschiedener LLMs bewertet, indem sie einen March Madness-Bracket vorhersagen und ihre Leistung, Kosten, Geschwindigkeit und Genauigkeit vergleichen.

Am besten geeignet für

LLM-Forscher und Evaluatoren, KI-Enthusiasten, die an Modellvergleichen interessiert sind, Hobbyisten in der Sportanalytik

Warum es wichtig ist

Es bietet einen praktischen, realitätsnahen Vergleich der Vorhersagefähigkeiten, Kosteneffizienz und Geschwindigkeit von LLMs in einem strukturierten Turnierformat.

Hauptfunktionen

  • Bewertet agentische Fähigkeiten von LLMs durch March-Madness-Bracket-Vorhersagen
  • Vergleicht Modellleistung hinsichtlich Kosten, Geschwindigkeit und Vorhersagegenauigkeit
  • Bietet detaillierte Modell-Traces und Begründungen für jede Spielauswahl
  • Nutzt eine statische Website ohne Datenbank, aktualisiert Ergebnisse über GitHub Pages

Anwendungsfälle

  • Ein Data-Science-Dozent erstellt interaktive Unterrichtsübungen, bei denen Studierende verschiedene LLM-Vorhersagemethodologien vergleichen und die Klammer-Vorhersagen nutzen, um Kosten-Leistungs-Kompromisse bei der Modellauswahl zu demonstrieren.
  • Ein Sportanalytik-Berater nutzt die Plattform, um die Fähigkeit verschiedener KI-Modelle zur Vorhersage von Turnier-Überraschungen zu bewerten und liefert Kunden Erkenntnisse darüber, welche Modelle Randfälle für ihre Wettalgorithmen am besten handhaben.
  • Eine Produktmanagerin bei einem KI-Startup zieht die Geschwindigkeits- und Kostenvergleiche heran, wenn sie entscheidet, welche Basismodelle für Echtzeit-Vorhersagefunktionen in ihrer Sport-App integriert werden sollen.