LLMadness – Evaluaciones de Modelos para March Madness
Quería experimentar con las capacidades agentivas no-codificadas de los principales LLMs, así que construí una evaluación de modelos que predice el cuadro de March Madness. Después de probar un poco con el formato, opté por la siguiente configuración: - 63 predicciones de partidos individuales vs. cuadro completo de una sola vez - Máximo de 10 llamadas a herramientas por partido - Instrucción específica para sorpresas en el prompt del sistema - Puntuación exponencial por ronda (1, 2, 4, 8, 16, 32) Hubo algunos aprendizajes interesantes: - Como era de esperar, la mayoría de los cuadros se apegan mucho a lo predecible. Se pronosticaron muy pocas sorpresas significativas. - Hubo una ENORME disparidad en costo y tokens con la misma configuración y restricciones. Ambos modelos Claude gastaron más de $40 para completar el cuadro, mientras que MiMo-V2-Flash gastó $0.39. Gasté un total de $138.69 en las 15 ejecuciones de modelos. - También hubo una gran diferencia en velocidad. Claude Opus 4.6 tardó casi 2 días completos en terminar los 2 play-ins y los 63 partidos del cuadro. Qwen 3.5 Flash tardó menos de 10 minutos. - Incluso cuando se les dio el año del torneo (2026), varios modelos incorporaron información de años anteriores. Claude pareció ser el mayor infractor, realmente quería que Cooper Flagg estuviera en el equipo de Duke de este año. Esta fue una forma muy divertida de combinar dos de mis intereses y estoy emocionado de ver cómo se desempeñan los modelos en las próximas semanas. Puedes hacer clic en cada nodo del cuadro para ver el rastro completo del modelo y la lógica detrás de las selecciones. El stack es Typescript, Next.js, React y CSS puro. Sin base de datos, todo almacenado en archivos JSON estáticos. Después de cada partido, actualizo los resultados reales y vuelvo a desplegar vía GitHub Pages. Quería trabajar lo más rápido posible ya que los cuadros se cierran hoy, así que casi todo el código fue generado por IA (sorpresa). ¡Espero que disfrutes revisándolo!
- Agente de IA
- Analítica de Datos
- Aplicación Web
✨ Resumen de IA
LLMadness es un proyecto que evalúa las capacidades no codificadas de agentes de varios LLM al hacerles predecir un cuadro de March Madness, comparando su rendimiento, costo, velocidad y precisión.
Ideal para
Investigadores y evaluadores de LLM, Entusiastas de la IA interesados en comparaciones de modelos, Aficionados a la analítica deportiva
Por qué importa
Ofrece una comparación práctica y realista de las capacidades de predicción, eficiencia de costos y velocidad de los LLM en un formato de torneo estructurado.
Funciones clave
- Evalúa las capacidades de agentes LLM mediante predicciones de cuadros de March Madness
- Compara el rendimiento de modelos en costo, velocidad y precisión de predicciones
- Proporciona trazas detalladas de modelos y razonamientos para cada selección de partido
- Utiliza un sitio estático sin base de datos, actualizando resultados mediante GitHub Pages
Casos de uso
- Un instructor de ciencia de datos crea ejercicios interactivos para el aula donde los estudiantes comparan metodologías de predicción de LLM, utilizando las predicciones de brackets para demostrar las compensaciones entre costo y rendimiento en la selección de modelos.
- Un consultor de análisis deportivo utiliza la plataforma para evaluar la capacidad de diferentes modelos de IA para predecir sorpresas en torneos, proporcionando a los clientes insights sobre qué modelos manejan mejor los casos límite para sus algoritmos de apuestas.
- Un gerente de producto en una startup de IA consulta las comparaciones de velocidad y costo cuando decide qué modelos base integrar para funciones de predicción en tiempo real en su aplicación deportiva.