Une avancée significative dans le domaine de l’intelligence artificielle (IA) pourrait transformer la manière dont les générateurs d’images fonctionnent. Cela ouvrirait la voie à une génération d’images jusqu’à trente fois plus rapide tout en conservant une qualité d’image élevée. Cette percée, rendue possible par une technique novatrice appelée « distillation par correspondance de distribution » (DMD), a été récemment présentée par des chercheurs.
Comment fonctionnent les générateurs d’images
Les générateurs d’images alimentés par l’intelligence artificielle (IA), tels que DALL·E 3, Midjourney et Stable Diffusion, ont révolutionné la manière dont les images sont créées à partir de descriptions textuelles. Ces modèles sont capables de comprendre les instructions données par l’utilisateur et de générer des images correspondantes en utilisant des techniques d’apprentissage profond.
Cependant, malgré leur sophistication, ces générateurs d’images fonctionnent selon un processus en plusieurs étapes qui implique des opérations complexes. Traditionnellement, ces modèles prennent une image aléatoire et la modifient en ajoutant ce qu’on appelle un bruit aléatoire. Ce dernier se présente généralement sous la forme d’une distribution de probabilité qui est ajoutée à l’image, ce qui la perturbe de manière contrôlée.
L’objectif de cette étape est de créer une version altérée de l’image de départ où les pixels sont légèrement modifiés en fonction du bruit ajouté. Cette image altérée est souvent dégradée ou déformée, ce qui la rend difficile à interpréter ou à reconnaître pour un observateur humain. Ensuite, l’IA travaille sur cette version altérée pour la « nettoyer » progressivement en éliminant le bruit ajouté, jusqu’à obtenir une version finale de haute qualité avec l’effet souhaité, mais sans le bruit initial.
Quelques limitations
Cette approche en plusieurs étapes (une centaine environ) présente des limitations importantes en termes de vitesse et d’efficacité. Chaque itération nécessite en effet des calculs intensifs, ce qui ralentit le processus de génération d’images et limite sa capacité à produire rapidement des résultats satisfaisants. En conséquence, bien que ces technologies soient saluées pour leur capacité à produire des résultats impressionnants, leur utilisation pratique reste parfois entravée par la lenteur du processus. Cette contrainte limite alors leur applicabilité dans des domaines où une génération d’images rapide est essentielle, tels que la conception assistée par ordinateur, la création de contenu numérique et la réalité virtuelle.
C’est dans ce contexte que la technique de distillation par correspondance de distribution (DMD) est entrée en jeu, offrant une solution innovante face à ces défis persistants. La DMD simplifie en effet tout ce processus en condensant l’ensemble des étapes en une seule, tout en préservant la qualité de l’image finale.

Comment cela fonctionne-t-il
?
La technique DMD repose sur deux composants principaux : la perte de régression, qui organise les images en fonction de leur similarité pour accélérer l’apprentissage, et la perte de correspondance de distribution qui assure que les images générées correspondent à la réalité de manière cohérente.
Pour y voir plus clair, imaginez que nous ayons une grande collection d’images. Certaines de ces images sont très similaires les unes aux autres, tandis que d’autres sont très différentes. Maintenant, au lieu de traiter chaque image individuellement, nous pouvons les regrouper en fonction de leur ressemblance. Cela simplifie le processus d’apprentissage pour notre modèle d’intelligence artificielle, car il n’a pas besoin d’apprendre à reconnaître chaque image individuellement, mais plutôt à reconnaître les motifs généraux qui se trouvent dans des groupes d’images similaires.
Ensuite, une fois que notre modèle a appris à reconnaître ces motifs, nous voulons nous assurer que les images qu’il génère ressemblent à ce que nous attendons dans le monde réel grâce à la perte de correspondance de distribution. Par exemple, si notre modèle génère une image d’un chien, nous voulons nous assurer qu’il ressemble à un vrai chien et non à quelque chose de bizarre ou de fantaisiste. Et si notre modèle génère une image d’un arbre, nous voulons qu’il ait l’air d’un vrai arbre, avec des branches, des feuilles et une texture semblable à celles des arbres que nous voyons dans la nature.
Un modèle beaucoup plus rapide
En combinant ces deux techniques, ce nouveau modèle peut alors produire des images qui sont à la fois réalistes et de haute qualité, mais surtout, il peut le faire plus rapidement. Avec cette approche, les chercheurs ont en effet réduit le temps de génération d’image avec Stable Diffusion v1.5 de 2,59 secondes à seulement 90 millisecondes, ce qui est 28,8 fois plus rapide.
Selon Fredo Durand, coauteur de l’étude et professeur au MIT, cette avancée représente un tournant majeur dans la génération d’images par l’IA. La possibilité de générer des images en une seule étape réduit considérablement les coûts de calcul et accélère le processus, ce qui ouvre la voie à une création de contenu beaucoup plus rapide.
Les détails de l’étude sont rapportés sur le serveur de préimpression arXiv.
