検索

LLMadness – March Madness モデル評価

トップLLMの非コーディング的な自律能力を試してみたいと思い、March Madnessのブラケット予測を行うモデル評価を構築しました。形式を少し試した後、以下の設定を採用しました:- 63試合の単発予測 vs フルワンショットブラケット - 各試合最大10ツールコール - システムプロンプトに逆転特化指示 - ラウンドごとの指数スコアリング(1, 2, 4, 8, 16, 32) いくつかの興味深い知見がありました:- 予想通り、ほとんどのブラケットは予測通りに近い結果でした。大きな逆転はほとんど予測されませんでした。- 同じ設定と制約でも、コストとトークンの使用量に巨大な差がありました。Claudeモデルは両方ともブラケット作成に40ドル以上を費やした一方、MiMo-V2-Flashは0.39ドルでした。全15モデル実行で合計138.69ドルを費やしました。- 速度にも大きな差がありました。Claude Opus 4.6はプレーイン2試合とブラケット63試合を完了するのにほぼ2日間を要しました。Qwen 3.5 Flashは10分未満でした。- 大会年度(2026年)を指定しても、複数モデルが過去年度の情報を参照しました。Claudeが最も顕著で、Cooper Flaggが今年のDukeチームに所属していると強く主張しました。これは私の2つの興味を組み合わせる非常に楽しい方法で、今後数週間のモデル性能を見ることに興奮しています。各ブラケットノードをクリックすると、モデルの完全なトレースと選択理由を確認できます。使用技術はTypescript、Next.js、React、および生CSSです。DBなし、全て静的JSONファイルに保存しています。各試合後、実際の結果を更新しGitHub Pagesで再デプロイします。ブラケットが今日締め切られるため可能な限り迅速に作業したいと思い、コードのほとんどはAI生成でした(驚き)。ぜひご覧ください!

  • AIエージェント
  • LLM
  • Webアプリ

AI サマリー

LLMadnessは、様々なLLMの非コーディングエージェント能力を評価するプロジェクトで、マーチマッドネスのブラケット予測を行い、パフォーマンス、コスト、速度、精度を比較します。

おすすめ対象

LLM研究者および評価者, モデル比較に興味のあるAI愛好家, スポーツ分析の趣味を持つ人

重要な理由

構造化されたトーナメント形式で、LLMの予測能力、コスト効率、速度を実践的かつ現実的に比較します。

主な機能

  • March Madnessの予想を通じてLLMの自律的な能力を評価
  • コスト、速度、予測精度をモデル間で比較
  • 各ゲームの選択に対して詳細なモデルトレースと理由を提供
  • データベースなしの静的サイトを使用し、GitHub Pagesで結果を更新

ユースケース

  • データサイエンス講師がインタラクティブな教室演習を作成し、学生がLLM予測手法を比較できるようにし、ブラケット予測を使用してモデル選択におけるコストとパフォーマンスのトレードオフを実演します。
  • スポーツ分析コンサルタントがプラットフォームを使用して、トーナメントの番狂わせを予測するさまざまなAIモデルの能力をベンチマークし、クライアントにベッティングアルゴリズムのエッジケースをどのモデルが最も適切に処理するかについての洞察を提供します。
  • AIスタートアップのプロダクトマネージャーが、スポーツアプリのリアルタイム予測機能に統合する基盤モデルを決定する際に、速度とコストの比較を参照します。