Le nouveau modèle d’IA d’Apple permet d’éditer des photos comme un professionnel sans avoir la moindre idée

El nuevo modelo de IA de Apple permite editar fotos como un profesional sin tener ni idea

C’est l’un des paris les plus intéressants qui se soit présenté ces derniers mois

Le nouveau modèle d'IA d'Apple permet d'éditer des photos comme un professionnel sans avoir la moindre idée
L’IA est venue briser toutes les barrières

Apple a présenté quelque chose que nous n’avions pas vu venir. Il s’agit d’un modèle d’IA, quelque chose sur quoi il semblait que la société ne pariait pas trop, mais qui a radicalement changé ces derniers temps. On parle déjà de l’intelligence artificielle comme étant la protagoniste d’iOS 18, mais il semble que la question ne s’arrête pas là. Apparemment, ils mènent également des projets intéressants en parallèle, dont un axé sur l’édition d’images qui nous permettra de les retoucher sans avoir de connaissances préalables sur le sujet.

En plus d’utiliser du code ouvert, Apple a publié un article en collaboration avec l’Université de Californie, Santa Barbara, dans lequel nous pouvons comprendre de manière plus équilibrée la procédure qui a été suivie.

Un projet très intéressant

Apple a réussi un coup de maître avec l’IA en lançant son modèle de code ouvert, MGIE, conçu pour changer le paradigme de l’édition de photos et d’images en utilisant des instructions en langage naturel, quelque chose de similaire à ce qu’Adobe Firefly fait dans Photoshop. Ce modèle de langue permet à des utilisateurs sans aucune expérience en édition d’images de réaliser des modifications complexes au niveau du pixel simplement en écrivant dans un cadre de texte les modifications qu’ils souhaitent apporter.

Il a été conçu comme un Modèle de Langage Large Multimodal (MLLM), ce qui lui confère la capacité d’interpréter des instructions textuelles et de les appliquer directement aux images, dépassant largement les attentes en matière d’efficacité de l’inférence. Cela peut ne pas sembler important à priori, mais l’inférence est en réalité très importante. C’est en grande partie la capacité de l’IA à interpréter notre langage et à l’appliquer exactement à ce que nous voulons. Plus l’inférence est importante, mieux nos demandes seront représentées dans l’image finale. C’est extrêmement essentiel dans un domaine aussi délicat que l’édition d’une photographie préexistante.

Contrairement à d’autres IA qui génèrent des images à partir de descriptions, MGIE est basé sur l’édition de photographies déjà existantes. Cela signifie que les utilisateurs vont oublier les outils d’édition et vont simplement faire des demandes par texte à l’IA, rendant le processus beaucoup plus simple et universaliste.

En résumé:

  • Apple a lancé un modèle d’IA en code ouvert appelé MGIE pour éditer des photos et des images en utilisant le langage naturel et sans avoir de connaissances en édition photographique.
  • Il utilise un modèle de langue large multimodal (MLLM) pour effectuer l’édition de la photographie au niveau du pixel, obtenant un grand succès.
  • Il est très efficace dans l’inférence.
  • Contrairement à d’autres IA qui imaginent les photos que nous leur demandons, il s’agit plutôt d’une capacité à éditer les photos existantes.
  • C’est un projet en code ouvert et on peut le voir et l’utiliser sur GitHub. De plus, il dispose d’une démo.
  • C’est quelque chose de très important car cela ouvre une nouvelle voie aux modèles multimodaux pour être réellement utiles dans certains domaines de la connaissance technologique.

Nous pouvons essayer MGIE via Github en suivant le lien suivant: https://huggingface.co/spaces/tsujuifu/ml-mgie