Xiaomi Robotics a récemment dévoilé Xiaomi-Robotics-0, un modèle d’intelligence artificielle Vision-Langage-Action (VLA) de nouvelle génération conçu pour doter les robots d’une véritable intelligence physique en combinant perception visuelle, compréhension du langage et exécution d’actions en temps réel.
Ce modèle open source de 4,7 milliards de paramètres utilise une architecture Mixture-of-Transformers qui combine un modèle vision-langage (VLM) – chargé d’analyser l’environnement et d’interpréter les instructions – et un module de génération d’actions garantissant des mouvements fluides et précis. En outre, Xiaomi-Robotics-0 repose sur des techniques d’exécution asynchrones, ce qui réduit la latence d’inférence (il anticipe l’étape suivante pendant qu’il effectue son mouvement).
Le modèle chinois s’est illustré sur plusieurs bancs d’essai (Libero, Calvin, SimplerEnv) et a montré de solides capacités dans des tâches réelles sur lesquelles il a été entraîné, telles que le pliage de serviettes ou le désassemblage de structures en Lego.
Le code, les poids du modèle et la documentation sont disponibles sur GitHub et Hugging Face, afin de favoriser la recherche collaborative en robotique, réduire les coûts de développement et accélérer l’intégration de l’IA incarnée dans des applications industrielles et domestiques.