搜索

LLMadness – 疯狂三月模型评估

我想测试一下顶级大语言模型在非编程代理能力方面的表现,于是构建了一个预测疯狂三月赛程表的模型评估项目。经过对格式的一些尝试,我最终采用了以下设置:- 63场单场比赛预测 vs 一次性完整赛程表预测 - 每场比赛最多允许10次工具调用 - 系统提示中包含针对爆冷门的特定指令 - 按轮次指数级计分(1, 2, 4, 8, 16, 32) 过程中有一些有趣的发现:- 不出所料,大多数预测结果都接近常规排名。很少有模型预测出重大冷门。- 在完全相同的设置和限制条件下,成本和token消耗量存在巨大差异。两个Claude模型填写赛程表都花费了超过40美元,而MiMo-V2-Flash只用了0.39美元。全部15次模型运行总共花费了138.69美元。- 速度方面也存在巨大差距。Claude Opus 4.6花了将近2天时间才完成2场附加赛和63场正赛预测,而Qwen 3.5 Flash只用了不到10分钟。- 即使明确给出了锦标赛年份(2026年),多个模型仍然调用了往年的信息。Claude似乎是这个问题最严重的,它坚持认为Cooper Flagg应该在今年杜克大学的队伍中。 这是个很有趣的方式,把我两个兴趣点结合了起来,我很期待在未来几周观察这些模型的表现。你可以点击每个赛程节点查看完整的模型推理过程和选择依据。 技术栈采用Typescript、Next.js、React和原生CSS。没有数据库,所有数据都存储在静态JSON文件中。每场比赛结束后,我会更新实际结果并通过GitHub Pages重新部署。因为今天就是赛程锁定截止日,我想尽快完成工作,所以几乎全部代码都是AI生成的(没想到吧)。希望你喜欢这个项目!

  • AI智能体
  • Web应用
  • 大语言模型
Mar 19, 2026访问官网

AI 摘要

LLMadness是一个评估各类LLM非编码智能体能力的项目,通过让它们预测NCAA疯狂三月赛程表,比较它们的表现、成本、速度和准确性。

适合谁

LLM研究人员和评估者, 对模型比较感兴趣的AI爱好者, 体育分析爱好者

为什么值得关注

该项目通过结构化锦标赛形式,对LLM的预测能力、成本效益和速度进行了实用且贴近实际的比较。

核心特性

  • 通过March Madness赛事预测评估LLM代理能力
  • 在成本、速度和预测准确性方面比较模型表现
  • 为每场比赛选择提供详细的模型轨迹和推理过程
  • 使用静态站点无数据库,通过GitHub Pages更新结果

使用场景

  • 一位数据科学讲师创建互动课堂练习,让学生比较大语言模型的预测方法,利用括号预测结果展示模型选择中的成本与性能权衡。
  • 一位体育数据分析顾问利用该平台评估不同AI模型预测锦标赛冷门的能力,为客户提供关于哪些模型最适合其投注算法处理边缘案例的见解。
  • 一家AI初创公司的产品经理在决定为体育应用的实时预测功能集成哪些基础模型时,参考了速度与成本的对比数据。