OpenCastor 에이전트 하네스 평가기 리더보드
로봇의 하드웨어와 AI 에이전트 사이에 위치하는 런타임 레이어인 OpenCastor를 개발하고 있습니다. 놀랍게도, 스킬 파이프라인(컨텍스트 빌더 → 모델 라우터 → 에러 핸들러 등)의 구성 순서와 thinking_budget, context_budget 같은 파라미터가 모델 선택만큼이나 작업 성공률에 큰 영향을 미친다는 사실을 발견했습니다. 그래서 분산 평가기를 만들었습니다. 로봇들이 유휴 컴퓨팅 자원을 제공하여 OHB-1(30가지 실제 로봇 작업 - 잡기, 이동, 응답 등을 Ollama를 통한 로컬 LLM 호출로 평가하는 소규모 벤치마크)에 대해 하네스 구성을 벤치마킹합니다. 탐색 공간은 263,424개 구성(8차원: 모델 라우팅, 컨텍스트 예산, 재시도 로직, 드리프트 감지 등)입니다. 데모 리더보드는 현재까지의 결과를 하드웨어 등급(Pi5+Hailo, Jetson, 서버, 예산 보드)별로 보여줍니다. 현재 최고 구성은 YAML 파일로 무료 다운로드하여 어떤 로봇에나 적용할 수 있습니다. 적용 시 P66 안전 파라미터는 제거됩니다 — 어떤 하네스 구성도 모터 제한이나 ESTOP 로직에 영향을 줄 수 없습니다. 피드백을 구합니다: (1) 벤치마크 작업이 대표적인지, (2) 하드웨어 등급 구분이 유용한지, (3) 로봇 분야나 기타 분야에서 에이전트 구성에 대해 함대 전체 분산 평가를 실행해본 경험이 있는 분.
- AI 에이전트
- 대형 언어 모델
- 데이터 분석
✨ AI 요약
OpenCastor Agent Harness Evaluator Leaderboard는 유휴 컴퓨팅 자원을 활용하여 로봇용 AI 에이전트 구성을 벤치마킹하는 분산 시스템입니다. 30가지 실제 로봇 작업 세트에 대해 8가지 차원에서 263,000개 이상의 구성을 평가합니다.
추천 대상
로봇 공학 엔지니어, AI 연구자, MLOps 엔지니어
중요한 이유
실제 작업과 다양한 하드웨어에 대해 하네스 구성을 체계적으로 평가함으로써 로봇의 AI 에이전트 성능을 최적화합니다.
주요 기능
- 로봇 AI 에이전트 구성을 위한 분산 평가 시스템.
- 실제 로봇 작업(OHB-1 벤치마크)에 대한 하네스 구성을 벤치마킹합니다.
- 8가지 차원에 걸쳐 263,000개 이상의 구성을 평가합니다.
- Ollama를 통한 로컬 LLM 호출을 지원합니다.
사용 사례
- 로봇 공학자는 창고 로봇을 위한 새로운 자율 주행 시스템을 개발 중입니다. OpenCastor Evaluator를 사용하여 다양한 파이프라인 구성과 매개변수 설정(컨텍스트 예산 및 재시도 로직 등)을 테스트하여 제트슨과 같은 제한된 온보드 처리 성능에서도 신뢰할 수 있는 경로 탐색을 위한 최적의 설정을 찾을 수 있습니다.
- 로봇 공학을 위한 AI 연구원은 다양한 하드웨어 플랫폼에서 자신의 에이전트 파지 기술의 효과성을 검증하고자 합니다. 분산 평가 기능을 활용하여 예산 보드부터 고성능 서버급 시스템까지 하드웨어 등급에 최적화된 구성으로 물체 집기와 같은 작업에서 에이전트 성능을 벤치마킹할 수 있습니다.
- 홈 오토메이션을 위한 맞춤형 로봇을 제작하는 취미 개발자는 자연어 상호작용을 위해 LLM을 통합해야 합니다. OpenCastor 리더보드를 사용하여 선택한 하드웨어에 대해 성능과 자원 사용을 균형 있게 조정한 사전 최적화 YAML 구성을 발견하고 다운로드하여 음성 명령 응답과 같은 작업의 원활한 운영을 보장할 수 있습니다.