OpenCastor 代理框架評估排行榜

我一直在開發 OpenCastor，這是一個位於機器人硬體與其 AI 代理之間的運行時層。讓我驚訝的是：技能管線的排列順序（情境建構器 → 模型路由器 → 錯誤處理器等）以及 thinking_budget 和 context_budget 等參數，對任務成功率的影響程度竟與模型選擇相當。因此我建立了一個分散式評估器。機器人貢獻閒置算力，透過 Ollama 使用本地 LLM 呼叫，針對 OHB-1（一個包含 30 項真實世界機器人任務的小型基準測試，如抓取、導航、回應等）來評測框架配置。搜尋空間包含 263,424 種配置（8 個維度：模型路由、情境預算、重試邏輯、漂移檢測等）。演示排行榜顯示至今的結果，並按硬體等級細分（Pi5+Hailo、Jetson、伺服器、平價開發板）。當前冠軍配置可免費下載為 YAML 檔案並應用於任何機器人。應用時會移除 P66 安全參數——沒有任何框架配置能觸及馬達限制或緊急停止邏輯。誠徵以下回饋：(1) 基準測試任務是否具代表性，(2) 硬體等級細分是否有用，以及 (3) 是否有任何人曾為機器人或其他領域執行過全艦隊規模的分散式代理配置評估。

AI 助理
大型語言模型
工作流程自動化

Mar 23, 2026造訪官網

✨ AI 摘要

OpenCastor Agent Harness Evaluator Leaderboard是一個分散式系統，利用閒置計算資源為機器人AI代理配置進行基準測試。它針對30項現實世界機器人任務，在8個維度上評估超過263,000種配置方案。

適合誰

機器人工程師, AI研究人員, MLOps工程師

為何值得關注

透過系統性地評估針對現實世界任務與多元硬體的配置，優化AI代理在機器人上的效能表現。

核心功能

針對機器人AI代理配置的分散式評估器。
以真實世界機器人任務（OHB-1基準）測試配置效能。
在8個維度上評估超過263,000種配置。
支援透過Ollama進行本地LLM呼叫。

使用場景

一位機器人工程師正在開發一款倉庫機器人的新型自主導航系統。他們可以使用 OpenCastor Evaluator 來測試各種管道配置和參數設定（如上下文預算和重試邏輯），以找到即使在像 Jetson 這樣有限的板載處理能力下也能實現可靠路徑規劃的最佳設置。
一位從事機器人 AI 的研究人員希望驗證其代理在不同硬體平台上的抓取技能有效性。透過利用分散式評估功能，他們可以在從經濟型板卡到更強大的伺服器級系統等不同硬體等級上，針對如拾取物件等任務，對其代理的性能進行基準測試，並使用針對這些硬體等級優化的配置。
一位正在打造家用自動化自製機器人的愛好者需要整合一個 LLM 以實現自然語言互動。他們可以使用 OpenCastor Leaderboard 來發現並下載一個預先優化的 YAML 配置，該配置能在他們選擇的硬體上平衡性能和資源使用，確保像回應語音指令等任務的順利運行。

原始來源

Hacker News 討論頁→