OpenCastor Agent Harness Evaluator Leaderboard

私はOpenCastorを構築しています。これはロボットのハードウェアとAIエージェントの間に位置するランタイムレイヤーです。驚いたことに、スキルパイプラインの構成順序（コンテキストビルダー→モデルルーター→エラーハンドラーなど）やthinking_budget、context_budgetといったパラメータは、モデル選択と同程度にタスクの成功率に影響します。そこで分散評価システムを構築しました。ロボットはアイドル状態の計算リソースを提供し、Ollama経由のローカルLLM呼び出しを使用した30の実世界ロボットタスク（把持、ナビゲート、応答など）からなる小規模ベンチマークOHB-1に対して、ハーネス構成を評価します。探索空間は263,424構成（8次元：モデルルーティング、コンテキスト予算、リトライロジック、ドリフト検出など）。デモのリーダーボードにはこれまでの結果がハードウェア階層別（Pi5+Hailo、Jetson、サーバー、低予算ボード）に表示されています。現在の最適構成はYAML形式で無料ダウンロード可能で、あらゆるロボットに適用できます。適用時にはP66安全パラメータは除去され、ハーネス構成がモーター制限やESTOPロジックに触れることはありません。以下のフィードバックを求めています：(1)ベンチマークタスクが代表的かどうか、(2)ハードウェア階層別の分類が有用かどうか、(3)ロボティクスまたはその他の分野でエージェント構成のフリート規模分散評価を実施した経験がある方。

AIエージェント
LLM
オープンソース

Mar 23, 2026ウェブサイトを見る

✨ AI サマリー

OpenCastor Agent Harness Evaluator Leaderboardは、アイドル状態のコンピュートリソースを活用してロボット向けAIエージェント構成をベンチマークする分散システムです。30種類の現実世界ロボットタスクに対して、8つの次元で263,000以上の構成を評価します。

おすすめ対象

ロボット工学エンジニア, AI研究者, MLOpsエンジニア

重要な理由

現実世界のタスクと多様なハードウェアに対してハーネス構成を体系的に評価することで、ロボット上のAIエージェントのパフォーマンスを最適化します。

主な機能

ロボットAIエージェント構成の分散評価システム。
実世界のロボットタスク（OHB-1ベンチマーク）に対するハーネス構成のベンチマーク。
8次元にわたる263,000以上の構成を評価。
Ollamaを介したローカルLLM呼び出しをサポート。

ユースケース

ロボット工学エンジニアが倉庫用ロボットの新しい自律ナビゲーションシステムを開発しています。OpenCastor Evaluatorを使用して、さまざまなパイプライン構成やパラメータ設定（コンテキスト予算やリトライロジックなど）をテストし、Jetsonのような限られたオンボード処理能力でも信頼性の高い経路探索に最適なセットアップを見つけることができます。
ロボット工学向けAIの研究者が、異なるハードウェアプラットフォームでのエージェントの把持スキルの有効性を検証したいと考えています。分散評価機能を活用することで、予算ボードから高性能なサーバーグレードシステムまでのハードウェア階層に最適化された構成を使用して、物体のピックアップなどのタスクにおけるエージェントのパフォーマンスをベンチマークできます。
ホームオートメーション用のカスタムロボットを構築しているホビイストが、自然言語インタラクションのためにLLMを統合する必要があります。OpenCastor Leaderboardを使用して、選択したハードウェア向けにパフォーマンスとリソース使用量のバランスを取った事前最適化済みYAML構成を発見・ダウンロードでき、音声コマンドへの応答などのタスクをスムーズに動作させることができます。

元ソース

Hacker News ディスカッション→