La filiale de Google spécialisée en intelligence artificielle a présenté deux nouveaux modèles dotés de capacités de réflexion avancée. Le premier, Gemini Robotics 1.5, est un modèle vision-langage-action (VLA) qui « réfléchit avant d’agir ». À partir des informations visuelles qu’il reçoit, il évalue la tâche et présente le processus moteur le mieux adapté pour l’exécuter. Il démontre également des capacités d’apprentissage à travers différentes incarnations ; il peut ainsi transférer le comportement appris d’un robot à un autre.
Le second, Gemini Robotics-ER 1.5, est un modèle de langage visuel (MLV) particulièrement performant en compréhension spatiale ; il analyse le monde physique et conçoit des plans en plusieurs étapes pour accomplir une mission. Si nécessaire, il peut nativement faire appel à des outils numériques comme Google Search pour rechercher des informations.
Ces deux modèles complémentaires seront utilisés pour développer des robots plus polyvalents, capables de comprendre leur environnement et d’accomplir des tâches complexes.