Open AI: des robots qui apprennent grâce à la VR

Category: 
Open AI: des robots qui apprennent grâce à la VR
17 Mai, 2017
OpenAI, l'association à but non lucratif cofondée par Elon Musk et Sam Altman pour "éviter que les technologies d'intelligence artificielle ne soient utilisées à mauvais escient", ne fait pas qu'étudier des scénarios hypothétiques.
Elle y va aussi de ses propres efforts pour faire avancer ces technologies.
L'organisation a révélé dans un communiqué de presse que ses chercheurs ont mis au point un système d'entraînement d'IA en réalité virtuelle.
 
Un apprentissage amélioré par la VR
L'algorithme est baptisé "one-shot imitation learning", c'est à dire "apprentissage par imitation en une seule fois".
Pour faire simple, il permet à une machine d'apprendre à accomplir une tâche à partir d'un seul exemple fourni par un humain, même s'il n'utilise pas exactement la même solution pour y parvenir.
La clé de cette approche est le fait que la démonstration est effectuée en réalité virtuelle.
 
Deux réseaux de neurones soigneusement entraînés
Evidemment, il y a un peu (beaucoup) de travail en amont pour parvenir à ce résultat. Le système utilise deux réseaux de neurones : un qui se charge de la vision et l'autre de l'imitation.
Le réseau de vision capture une image par la caméra du robot et calcule un état qui représente la position des objets dans la scène.
Le réseau de vision est entraîné par des centaines de milliers d'images simulées dans lesquelles les conditions de luminosité, les textures et même les objets changent.
Le réseau n'est entrainé que sur des images virtuelles.
Le réseau d'imitation, de son côté, observe une démonstration faite par un humain, en déduit l'objectif, et accomplit cet objectif même avec une autre configuration de départ.
Le réseau d'imitation doit de cette manière généraliser la démonstration.
Pour pouvoir le faire, il est entrainé sur des dizaines de tâches différentes qui comportent chacune des milliers de démonstrations.
Chaque exemple servant à l'entrainement est composé de deux démonstrations de la même tâche.
Le réseau d'imtation reçoit l'intégralité de la première démonstration mais n'a qu'une seule observation de la seconde démonstration.
Les chercheurs utilisent ensuite de l'apprentissage supervisé pour prédire quelle a été l'action du démonstrateur lors de cette seconde observation.
Le robot doit ensuite apprendre à déduire quelle portion de la démonstration est pertinente pour la tâche qu'il cherche à accomplir.
En l'occurrence, pour l'exemple donné, il s'agit de l'ordre des blocs, de la façon dont ils sont empilés et de leur trajectoire.
Comprendre que ces éléments sont ceux qui comptent permet au réseau d'imitation de ne pas se focaliser sur la position exacte des blocs sur la table.

A voir aussi

VRrOOm Wechat