En bref : que vous les aimiez ou que vous les détestiez, les outils d’IA générative comme ChatGPT et Stable Diffusion sont là pour rester et évoluer à un rythme rapide. Les chercheurs ont travaillé sur de nouvelles implémentations qui se concentrent lentement, comme un nouvel outil appelé DragGAN qui ressemble à l’outil Warp de Photoshop sur les stéroïdes.
Désormais, même les adeptes les plus occasionnels de l’actualité technologique connaissent les outils d’IA génératifs tels que ChatGPT, Stable Diffusion, Midjourney et DALL-E. Big Tech s’efforce de développer les meilleurs grands modèles de langage et de les intégrer à chaque logiciel ou service Web que nous utilisons, et une multitude de startups travaillent sur des outils d’IA spécialisés pour une grande variété de cas d’utilisation de niche.
Beaucoup de ces outils peuvent générer des images ou du texte utiles à l’aide d’invites simples qui décrivent ce que l’utilisateur veut découvrir ou le type de travail qu’il essaie de réaliser. Quand cela fonctionne, cela donne l’impression que des services comme ChatGPT et DALL-E sont magiques. Quand ce n’est pas le cas, on nous rappelle à quel point nous sommes loin de l’IA remplaçant la créativité humaine, si jamais. En fait, bon nombre de ces outils sont « formés » sur des œuvres rédigées par des personnes et nécessitent une supervision humaine pour améliorer leur sortie à un niveau significatif.
Cela dit, de nouvelles recherches sur l’IA (repérées par un utilisateur de Twitter @_akhaliq) montre que des progrès continuent d’être réalisés à un rythme rapide, notamment dans le domaine de la manipulation d’images. Un groupe de scientifiques de Google, du MIT, de l’Université de Pennsylvanie et de l’Institut Max Planck d’informatique en Allemagne ont publié un article site de ventes un outil expérimental qui pourrait rendre l’édition d’images plus facile et plus accessible pour les personnes ordinaires.
Avez-vous pensé à « glisser » interactivement des objets dans l’image ? Notre #SIGGRAPH2023 travail #DragGAN fait que cela devient réalité ! ðÂ¥³
Papier : https://t.co/B3qC0kl1IT
Page du projet : https://t.co/ZqAEPHNMNF https://t.co/UQXarwl481 pic.twitter.com/LrWjEsIVHs– Xingang Pan (@XingangP) 19 mai 2023
Pour avoir une idée de ce qui est possible avec le nouvel outil, vous pouvez modifier considérablement l’apparence d’une personne ou d’un objet en cliquant simplement et en faisant glisser sur une caractéristique particulière. Vous pouvez également modifier l’expression du visage de quelqu’un, modifier les vêtements d’un mannequin ou faire pivoter le sujet sur une photo comme s’il s’agissait d’un modèle 3D. Les démos vidéo sont certainement impressionnantes, bien que l’outil ne soit pas disponible au public au moment d’écrire ces lignes.
Cela peut ressembler à Photoshop sous stéroïdes, mais il a suscité suffisamment d’intérêt pour faire planter le site Web de l’équipe de recherche. Après tout, les invites de texte peuvent sembler simples en théorie, mais elles nécessitent beaucoup de réglages lorsque vous avez besoin de quelque chose de très spécifique ou nécessitent plusieurs étapes pour générer la sortie souhaitée. Ce problème a donné naissance à un nouveau métier, celui d’« ingénieur prompt à l’IA ». Selon l’entreprise et les spécificités du projet en question, ce type d’emploi peut rapporter jusqu’à 335 000 $ par an et ne nécessite aucun diplôme.
En revanche, l’interface utilisateur présentée dans les vidéos de démonstration suggère qu’il sera bientôt possible pour la personne moyenne de faire une partie de ce qu’un ingénieur d’IA peut faire en cliquant et en faisant glisser la première sortie de n’importe quel outil de génération d’image. Les chercheurs expliquent que DragGAN « hallucinera » du contenu occulté, déformera un objet ou modifiera un paysage.
Les chercheurs notent que DragGAN peut transformer le contenu d’une image en quelques secondes seulement lors de l’utilisation de la carte graphique GeForce RTX 3090 de NVIDIA, car leur mise en œuvre n’a pas besoin d’utiliser plusieurs réseaux de neurones pour obtenir les résultats souhaités. La prochaine étape consistera à développer un modèle similaire pour l’édition basée sur des points de modèles 3D. Ceux d’entre vous qui veulent en savoir plus sur DragGAN peuvent lire le document ici. La recherche sera également présentée au SIGGRAPH en août.
Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :