OpenCastor Agent Harness Evaluator Leaderboard

Je développe OpenCastor, une couche d'exécution qui s'intercale entre le matériel d'un robot et son agent IA. Une chose qui m'a surpris : l'ordre dans lequel on organise le pipeline de compétences (constructeur de contexte → routeur de modèle → gestionnaire d'erreurs, etc.) et les paramètres comme thinking_budget et context_budget influencent autant les taux de réussite des tâches que le choix du modèle. J'ai donc construit un évaluateur distribué. Les robots contribuent avec leur puissance de calcul inutilisée pour évaluer les configurations de harnais par rapport à OHB-1, un petit benchmark de 30 tâches robotiques réelles (saisir, naviguer, répondre, etc.) utilisant des appels LLM locaux via Ollama. L'espace de recherche compte 263 424 configurations (8 dimensions : routage de modèle, budget de contexte, logique de réessai, détection de dérive, etc.). Le tableau de démonstration affiche les résultats actuels, ventilés par niveau de matériel (Pi5+Hailo, Jetson, serveur, cartes économiques). La configuration champion actuelle est téléchargeable gratuitement en YAML et applicable à n'importe quel robot. Les paramètres de sécurité P66 sont retirés à l'application — aucune configuration de harnais ne peut toucher aux limites moteur ou à la logique ESTOP. Je cherche des retours sur : (1) si les tâches du benchmark sont représentatives, (2) si la ventilation par niveau matériel est utile, et (3) toute personne ayant réalisé des évaluations distribuées à l'échelle d'une flotte pour des configurations d'agents robotiques ou autres.

Agent IA
Analyse de données
Automatisation des Flux de Travail

Mar 23, 2026Visiter le site

✨ Résumé IA

OpenCastor Agent Harness Evaluator Leaderboard est un système distribué qui évalue les configurations d'agents IA pour robots en utilisant des ressources de calcul inactives. Il évalue plus de 263 000 configurations selon 8 dimensions par rapport à un ensemble de 30 tâches robotiques réelles.

Idéal pour

Ingénieurs en robotique, Chercheurs en IA, Ingénieurs MLOps

Pourquoi c'est important

Optimise les performances des agents IA sur les robots en évaluant systématiquement les configurations de harnais par rapport à des tâches réelles et du matériel diversifié.

Fonctionnalités clés

Évaluateur distribué pour les configurations d'agents IA robotiques.
Évalue les configurations de harnais de référence par rapport à des tâches robotiques du monde réel (benchmark OHB-1).
Évalue plus de 263 000 configurations sur 8 dimensions.
Prend en charge les appels LLM locaux via Ollama.

Cas d'usage

Un ingénieur en robotique développe un nouveau système de navigation autonome pour un robot d'entrepôt. Il peut utiliser l'Évaluateur OpenCastor pour tester diverses configurations de pipeline et paramètres (comme le budget de contexte et la logique de réessai) afin de trouver la configuration optimale pour une localisation fiable, même avec une puissance de traitement embarquée limitée comme un Jetson.
Un chercheur en IA pour la robotique souhaite valider l'efficacité des capacités de préhension de son agent sur différentes plateformes matérielles. En exploitant les capacités d'évaluation distribuée, il peut évaluer les performances de son agent sur des tâches comme saisir des objets en utilisant des configurations optimisées pour des niveaux matériels allant des cartes économiques aux systèmes serveurs plus puissants.
Un amateur construisant un robot personnalisé pour la domotique doit intégrer un LLM pour l'interaction en langage naturel. Il peut utiliser le Classement OpenCastor pour découvrir et télécharger une configuration YAML pré-optimisée qui équilibre performance et utilisation des ressources pour son matériel choisi, garantissant un fonctionnement fluide des tâches comme répondre aux commandes vocales.

Sources originales

Discussion Hacker News→