搜尋

LLMadness – 瘋狂三月模型評估

我想測試頂級大型語言模型的非編碼代理能力,所以建立了一個預測瘋狂三月對戰表的模型評估。稍微嘗試了不同格式後,我採用了以下設定:- 63場單場預測 vs. 完整一次性對戰表 - 每場比賽最多10次工具調用 - 系統提示中包含針對爆冷門的特定指令 - 按輪次指數計分(1、2、4、8、16、32) 有一些有趣的發現:- 不出所料,大多數對戰表都接近預期排名。預測到的重大爆冷門非常少。- 在完全相同的設定和限制下,成本和代幣使用量存在巨大差異。兩個Claude模型填寫對戰表都花費超過40美元,而MiMo-V2-Flash只花了0.39美元。所有15次模型運行總共花費138.69美元。- 速度也有很大差異。Claude Opus 4.6花了將近2整天完成2場附加賽和63場對戰表比賽。Qwen 3.5 Flash只用了不到10分鐘。- 即使給定了錦標賽年份(2026),多個模型還是引用了前幾年的資訊。Claude似乎是最大的問題製造者,非常堅持認為Cooper Flagg會在今年杜克大學的隊伍中。這真是結合我兩項興趣的有趣方式,我很期待在接下來幾週觀察模型的表現。你可以點擊每個對戰表節點查看完整的模型追蹤和選擇理由。技術堆疊是Typescript、Next.js、React和原生CSS。沒有資料庫,所有內容都儲存在靜態JSON檔案中。每場比賽後,我會更新實際結果並透過GitHub Pages重新部署。由於對戰表今天就要鎖定,我想盡可能快速完成,所以幾乎所有程式碼都是AI生成的(驚人吧)。希望你喜歡這個作品!

  • AI 助理
  • 大型語言模型
  • 數據分析
Mar 19, 2026造訪官網

AI 摘要

LLMadness是一個項目,透過讓各種LLM預測三月瘋狂籃球賽的賽程表,評估它們的非編碼代理能力,比較其表現、成本、速度和準確性。

適合誰

LLM研究人員與評估者, 對模型比較感興趣的AI愛好者, 運動分析愛好者

為何值得關注

它以結構化的競賽形式,提供LLM在預測能力、成本效益和速度上的實際、真實世界比較。

核心功能

  • 透過March Madness賽程預測評估LLM代理能力
  • 比較模型在成本、速度和預測準確度上的表現
  • 提供每場比賽選擇的詳細模型追蹤和理由
  • 使用無資料庫的靜態網站,透過GitHub Pages更新結果

使用場景

  • 一位數據科學教師創建互動式課堂練習,讓學生比較LLM預測方法,利用賽程預測來展示模型選擇中的成本與效能平衡考量。
  • 一位體育分析顧問使用平台來評估不同AI模型預測賽事意外結果的能力,為客戶提供洞察,了解哪些模型最能處理其投注算法中的邊緣案例。
  • 一家AI新創公司的產品經理在決定為其體育應用整合哪些基礎模型以實現即時預測功能時,參考了速度與成本的比較數據。