Le nouveau modèle d'IA d'Apple permet d'éditer des photos comme un professionnel sans avoir la moindre idée

C’est l’un des paris les plus intéressants qui se soit présenté ces derniers mois

Apple a présenté quelque chose que nous n’avions pas vu venir. Il s’agit d’un modèle d’IA, quelque chose sur quoi il semblait que la société ne pariait pas trop, mais qui a radicalement changé ces derniers temps. On parle déjà de l’intelligence artificielle comme étant la protagoniste d’iOS 18, mais il semble que la question ne s’arrête pas là. Apparemment, ils mènent également des projets intéressants en parallèle, dont un axé sur l’édition d’images qui nous permettra de les retoucher sans avoir de connaissances préalables sur le sujet.

En plus d’utiliser du code ouvert, Apple a publié un article en collaboration avec l’Université de Californie, Santa Barbara, dans lequel nous pouvons comprendre de manière plus équilibrée la procédure qui a été suivie.

Un projet très intéressant

Apple a réussi un coup de maître avec l’IA en lançant son modèle de code ouvert, MGIE, conçu pour changer le paradigme de l’édition de photos et d’images en utilisant des instructions en langage naturel, quelque chose de similaire à ce qu’Adobe Firefly fait dans Photoshop. Ce modèle de langue permet à des utilisateurs sans aucune expérience en édition d’images de réaliser des modifications complexes au niveau du pixel simplement en écrivant dans un cadre de texte les modifications qu’ils souhaitent apporter.

Il a été conçu comme un Modèle de Langage Large Multimodal (MLLM), ce qui lui confère la capacité d’interpréter des instructions textuelles et de les appliquer directement aux images, dépassant largement les attentes en matière d’efficacité de l’inférence. Cela peut ne pas sembler important à priori, mais l’inférence est en réalité très importante. C’est en grande partie la capacité de l’IA à interpréter notre langage et à l’appliquer exactement à ce que nous voulons. Plus l’inférence est importante, mieux nos demandes seront représentées dans l’image finale. C’est extrêmement essentiel dans un domaine aussi délicat que l’édition d’une photographie préexistante.

Contrairement à d’autres IA qui génèrent des images à partir de descriptions, MGIE est basé sur l’édition de photographies déjà existantes. Cela signifie que les utilisateurs vont oublier les outils d’édition et vont simplement faire des demandes par texte à l’IA, rendant le processus beaucoup plus simple et universaliste.

En résumé:

Apple a lancé un modèle d’IA en code ouvert appelé MGIE pour éditer des photos et des images en utilisant le langage naturel et sans avoir de connaissances en édition photographique.
Il utilise un modèle de langue large multimodal (MLLM) pour effectuer l’édition de la photographie au niveau du pixel, obtenant un grand succès.
Il est très efficace dans l’inférence.
Contrairement à d’autres IA qui imaginent les photos que nous leur demandons, il s’agit plutôt d’une capacité à éditer les photos existantes.
C’est un projet en code ouvert et on peut le voir et l’utiliser sur GitHub. De plus, il dispose d’une démo.
C’est quelque chose de très important car cela ouvre une nouvelle voie aux modèles multimodaux pour être réellement utiles dans certains domaines de la connaissance technologique.

Nous pouvons essayer MGIE via Github en suivant le lien suivant: https://huggingface.co/spaces/tsujuifu/ml-mgie

Le nouveau modèle d’IA d’Apple permet d’éditer des photos comme un professionnel sans avoir la moindre idée

C’est l’un des paris les plus intéressants qui se soit présenté ces derniers mois

Un projet très intéressant

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

La version Sève de Pin du Google Pixel 11 Pro Fold fuite avant même son lancement

7 câbles USB-C à charge rapide qui préserveront votre téléphone portable

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?