Des chercheurs du MIT développent une nouvelle méthode de génération d’images IA en un seul passage

MIT researchers develop new method for single-pass AI image generation

Étrangement rapide : Les services d’IA générative peuvent produire un patchwork visuel de haute qualité, mais sont généralement assez lents. Des chercheurs du MIT et d’Adobe ont développé une solution potentielle à ce problème chronophage, avec une nouvelle méthode de génération d’images ultra-rapide avec un impact minimal sur la qualité. La technique crache environ 20 images par seconde.

L’IA de génération d’images utilise généralement un processus connu sous le nom de diffusion, qui affine la sortie visuelle à travers plusieurs étapes d’échantillonnage pour atteindre le résultat final, espérons-le « réaliste ». Les chercheurs affirment que les modèles de diffusion peuvent générer des images de haute qualité, mais qu’ils nécessitent des dizaines de passes avant.

Adobe Research et les experts du MIT introduisent désormais une technique appelée « distribution matching distillation » (DMD). Cette procédure réduit un modèle de diffusion en plusieurs étapes à une solution de génération d’images en une seule étape. Le modèle résultant peut générer des images comparables aux modèles de diffusion « traditionnels » comme Stable Diffusion 1.5, mais des ordres de grandeur plus rapides.

« Notre idée principale est de former deux modèles de diffusion pour estimer non seulement la fonction de score de la distribution réelle cible, mais également celle de la fausse distribution », indique l’étude de l’équipe.

Les chercheurs affirment que leur modèle peut générer 20 images par seconde sur du hardware GPU moderne.

Youtube video

La courte vidéo ci-dessus met en évidence la génération d’images de DMD par rapport à Stable Diffusion 1.5. Alors que SD nécessite 1,4 seconde par image, DMD peut restituer une image similaire en une fraction de seconde. Il y a un compromis entre qualité et performance, mais les résultats finaux se situent dans des limites acceptables pour l’utilisateur moyen.

La publication par l’équipe de la nouvelle méthode de rendu montre des exemples supplémentaires de résultats d’images produits avec DMD. Il compare Stable Diffusion et DMD tout en fournissant l’invite textuelle très importante qui a généré les images. Les sujets incluent un chien cadré à travers des objectifs DSLR virtuels, la chaîne de montagnes des Dolomites, un cerf magique dans une forêt, un rendu 3D d’un bébé perroquet, des licornes, des barbes, des voitures, des chats et encore plus de chiens.

La distillation par correspondance de distribution n’est pas la première méthode en une seule étape jamais proposée pour la génération étrange d’images d’IA. Stability AI a développé une technique connue sous le nom de distillation par diffusion contradictoire (ADD) pour générer des images de 1 mégapixels en temps réel. La société a formé son modèle SDXL Turbo via ADD, atteignant des vitesses de génération d’images de seulement 207 ms sur un seul accélérateur GPU NVIDIA A100 AI. L’ADD de Stability utilise une approche similaire au DMD du MIT.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

Youtube video