Un algorithme capable de générer une vidéo à partir d'une simple photo

Au prestigieux Massachusetts Institute of Technology (MIT), le deep learning fait de véritables prouesses. En effet, un groupe de chercheurs d’un des laboratoires de l’Institut est parvenu à créer un algorithme capable de générer ses propres vidéos ou encore d’en générer à partir de simples photographies.

Au MIT, des chercheurs du laboratoire CSAIL (Computer Science and Artificial Intelligence Lab) présenteront leurs avancées et prouesses en matière de deep learning au cours de la semaine prochaine à Barcelone durant la conférence NIPS (Neural Information Processing Systems). Ceux-ci ont mis au point un algorithme auquel ils ont fait regarder plus de 2 millions de vidéos de moments banals du quotidien afin que celui-ci s’habitue aux interactions humaines.

À partir de ces vidéos, l’algorithme devait en générer de nouvelles à partir de rien, uniquement ce qu’il avait pu observer des interactions humaines. Il a ensuite été confronté à un autre algorithme chargé de tenter de distinguer les vidéos générées par la machine des vidéos bien réelles, une méthode baptisée adversarial learning. « Ce que nous avons découvert sur les premières versions de ce modèle, c’est que l’algorithme générateur tentait de tromper l’autre en déformant l’arrière-plan ou en créant des mouvements bizarres en arrière-plan. Nous devions apprendre aux algorithmes que le monde est surtout statique », explique Carl Vondrick, doctorant au CSAIL et auteur principal de l’article, au magazine Motherboard qui l’a contacté.

Il a alors fallu que les chercheurs créent une « architecture à deux courants » pour que l’algorithme comprenne qu’il existe un arrière-plan statique et des sujets mobiles au premier plan. Une fois ce problème corrigé, l’algorithme est parvenu à créer des vidéos plus cohérentes même si elles étaient en très basse résolution (64×64) et très courtes (32 images). Il s’agit là d’une grande première et même si les sujets mobiles des vidéos prenaient la forme de « blobs », le modèle était bien « capable de produire des mouvements crédibles ». En effet, lorsqu’il a été demandé à des personnes extérieures de regarder des vraies vidéos ainsi que les vidéos générées par cet algorithme, 20 % ont trouvé les dernières citées plus réalistes que les autres.

La prouesse ne s’arrête pas là, les chercheurs ayant réussi à appliquer l’algorithme à des vidéos et des photos qui existent déjà. Pour une simple photographie par exemple, il est parvenu à distinguer les objets présents sur la photo pour les animer sur 32 images en produisant « des mouvements assez réalistes » pour chacun d’entre eux. Comme le déclare Carl Vondrick, c’est la première fois qu’une machine est capable de générer une vidéo à partir d’une image fixe.

« Je rêve qu’une machine puisse créer un court-métrage ou une série. Pour l’heure, nous ne créons qu’une seconde de vidéo, mais peut-être que bientôt nous pourrons produire quelques minutes, avec une histoire cohérente. Nous en sommes encore loin, mais je pense que c’est un premier pas important », a-t-il confié à Motherboard.