Apple a publié un nouveau modèle d’intelligence artificielle (IA) open source appelé « MGIE ». Cet outil peut éditer des images en fonction d’instructions en langage naturel. MGIE, qui signifie MLLM Guided Image Editing, utilise de grands modèles de langage multimodal (MLLM) pour interpréter les commandes utilisateur et effectuer des manipulations au niveau des pixels.

En bref, ce modèle peut gérer divers aspects de l’édition, tels que la modification à la manière de Photoshop, l’optimisation globale des photos et l’édition locale.

Alors, qu’est-ce que MGIE ?

MGIE est le résultat d’une collaboration entre Apple et des chercheurs de l’Université de Californie à Santa Barbara. Le modèle a été présenté dans un article accepté lors de la Conférence internationale sur les représentations d’apprentissage (ICLR) 2024, l’un des principaux lieux de recherche sur l’IA.

L’article démontre l’efficacité de MGIE pour améliorer les métriques automatiques et l’évaluation humaine tout en maintenant une efficacité d’inférence compétitive.

Comment fonctionne MGIE ?

MGIE est basé sur l’idée d’utiliser des MLLM, qui sont de puissants modèles d’IA capables de traiter du texte et des images, pour améliorer l’édition d’images basée sur des instructions. Les MLLM ont démontré des capacités remarquables en matière de compréhension multimodale et de génération de réponses visuellement conscientes, mais n’ont pas été largement appliqués aux tâches d’édition d’images.

Ce modèle intègre les MLLM dans le processus d’édition d’images de deux manières : premièrement, il utilise les MLLM pour obtenir des instructions expressives à partir des entrées de l’utilisateur. Ces instructions sont concises et claires et fournissent des conseils explicites pour le processus d’édition.

Par exemple, si on lui donne l’instruction « rendre le ciel plus bleu », MGIE pourrait produire l’instruction « augmenter la saturation de la région du ciel de 20 % ».

Deuxièmement, il utilise des MLLM pour générer des images visuelles, une représentation latente du montage souhaité. Cette représentation capture l’essence de l’édition et peut être utilisée pour guider la manipulation au niveau des pixels. Comme mentionné, cette nouvelle technologie Apple utilise un nouveau schéma de formation de bout en bout qui optimise conjointement les modules de dérivation d’instructions, d’imagination visuelle et d’édition d’images.

Que peut faire MGIE ?

MGIE peut gérer un large éventail de scénarios d’édition, depuis les simples ajustements de couleurs jusqu’aux manipulations d’objets complexes. Le modèle peut également effectuer des modifications globales et locales, selon les préférences de l’utilisateur.

Certaines des fonctionnalités et capacités de MGIE sont :

Édition expressive basée sur des instructions : MGIE peut produire des instructions concises et claires qui guident efficacement le processus d’édition. Cela améliore non seulement la qualité des modifications, mais améliore également l’expérience utilisateur globale.

Modification de style Photoshop : le modèle peut effectuer des modifications courantes de style Photoshop, telles que le recadrage, le redimensionnement, la rotation, le retournement et l’ajout de filtres. MGIE peut également appliquer des modifications plus avancées, telles que la modification de l’arrière-plan, l’ajout ou la suppression d’objets et le mélange d’images.

Optimisation globale des photos : MGIE peut optimiser la qualité globale d’une photo, telle que la luminosité, le contraste, la netteté et la balance des couleurs. Le modèle peut également appliquer des effets artistiques tels que des croquis, des peintures et des dessins animés.

Édition locale : la technologie peut modifier des régions ou des objets spécifiques d’une image, tels que des visages, des yeux, des cheveux, des vêtements et des accessoires. Le modèle peut également modifier les attributs de ces régions ou objets, tels que la forme, la taille, la couleur, la texture et le style.

Comment utiliser MGIE ?

MGIE est disponible en tant que projet open source sur GitHub, où les utilisateurs peuvent trouver le code, les données et les modèles pré-entraînés. Le projet fournit également un cahier de démonstration qui montre comment utiliser MGIE pour diverses tâches d’édition. Les utilisateurs peuvent également essayer MGIE en ligne via une démo Web hébergée sur Hugging Face Spaces, une plateforme de partage et de collaboration sur des projets d’apprentissage automatique (ML).

MGIE est conçu pour être facile à utiliser et flexible à personnaliser. Les utilisateurs peuvent fournir des instructions en langage naturel pour l’édition des images, et MGIE générera les images éditées ainsi que les instructions dérivées. Les utilisateurs peuvent également fournir des commentaires à MGIE pour améliorer les modifications ou demander des modifications différentes. MGIE peut également être intégré à d’autres applications ou plates-formes nécessitant une fonctionnalité d’édition d’images.

Pourquoi MGIE est-il si important ?

MGIE constitue une percée dans le domaine de l’édition d’images basée sur des instructions, qui constitue une tâche importante et exigeante à la fois pour l’IA et la créativité humaine. MGIE démontre le potentiel de l’utilisation des MLLM pour améliorer l’édition d’images et ouvre de nouvelles possibilités d’interaction et de communication multimodales.

MGIE n’est pas seulement une réussite de recherche, mais aussi un outil pratique et utile pour divers scénarios. La technologie peut aider les utilisateurs à créer, modifier et optimiser des images à des fins personnelles ou professionnelles, telles que les médias sociaux, le commerce électronique, l’éducation, le divertissement et l’art.

Avec cet outil, les utilisateurs ont la possibilité d’exprimer leurs idées et leurs émotions à travers des images et de les inciter à explorer leur créativité.