Intelligence artificielle (IA)

10 avril 2024



10:24



Les générateurs d’images IA sont nombreux et présentent des caractéristiques différentes : gratuits comme Copilot ou payants comme Dall-E, sur un site comme Leonardo ou sur un logiciel séparé comme Midjourney. Dans cet article, nous montrerons quels sont les principaux sites pour créer des images avec l’IA et comment les utiliser.

Les générateurs d’images IA sont des modèles d’intelligence artificielle (IA) capables de traduire une commande textuelle en une composition visuelle. Ils reposent sur les réseaux neuronaux, c’est-à-dire la structure qui simule le fonctionnement du cerveau humain. Un peu comme lorsque nous essayons de dessiner le visage d’une personne à partir de notre mémoire, l’intelligence artificielle se base sur des milliards d’images sur lesquelles elle s’est entraînée pour en restituer une fidèle à la réalité.

Pour nous aider dans cette tâche, il existe des plateformes, des sites et des logiciels sur lesquels l’utilisateur peut saisir des instructions textuelles pour décrire le contenu et la forme de l’image, ainsi que définir des options spécifiques qui aideront à obtenir une image conforme à nos attentes.

Depuis l’avènement des intelligences artificielles génératives, le nombre d’outils pour créer des images s’est multiplié de jour en jour. Les occasions où une image a été prise pour vraie dans un premier temps, puis où il a fallu révéler qu’il s’agissait d’une fausse image, en sont la preuve. C’est le cas de la photographie qui a remporté un concours malgré le fait qu’elle ait été générée par une IA, mais aussi des célèbres images du pape François avec la doudoune Balenciaga ou celle de l’arrestation présumée de Trump. Ainsi, même les plus célèbres ont dû s’adapter aux nouveautés des autres. Certains ont même décidé d’opter pour un service entièrement gratuit, tandis que d’autres générateurs proposent un système d’abonnement ou l’utilisation de « crédits ».

Parmi la pléthore de générateurs d’images, les plus remarquables sont les « petits frères » des chatbots les plus célèbres : ChatGPT avec son frère jumeau Dall-E font partie de la famille d’OpenAI, Gemini fait à la fois office de chatbot et de générateur d’images dans l’univers de Google, tout comme l’intelligence de Microsoft appelée Copilot fonctionne pour générer du texte et des images.

Comment fonctionnent les générateurs d’images IA

Le fonctionnement d’un générateur d’images IA est similaire à celui des chatbots, bien que le résultat final soit différent. On part toujours d’un « prompt », c’est-à-dire d’une instruction ou d’une description de ce que le modèle doit générer. Contrairement aux chatbots, le texte ne donne pas naissance à un autre texte, mais à une image : c’est pourquoi on parle de « text-to-image ». Lorsqu’on part d’une image que l’IA doit utiliser comme inspiration, on parle plutôt de « image-to-image ».

Pour fonctionner, les modèles sont entraînés sur des millions (voire des milliards) de paires image-texte qui permettent à l’IA de comprendre que le mot « chien » correspond à une longue série d’images qu’elle a déjà vues. Pour reconstruire l’image, les générateurs utilisent deux technologies différentes. D’une part, le Generative Adversarial Network (GAN), une méthode d’apprentissage qui implique deux réseaux neuronaux, un générateur et un discriminateur, qui se défient mutuellement pour générer et valider des images dans un « jeu à somme nulle ». La méthode qui gagne du terrain est celle du modèle de diffusion. Grâce à cela, l’IA apprend à déconstruire l’image originale pour ensuite la reconstruire pas à pas en supprimant les éléments parasites qu’elle avait ajoutés pour la « détruire ».

Les meilleurs générateurs IA pour créer des images avec l’intelligence artificielle

De la théorie à la pratique. Dans les lignes suivantes, nous vous présenterons les générateurs IA les plus performants sur le marché. Entre les outils gratuits et ceux nécessitant un abonnement, entre ceux qui peuvent être utilisés simplement grâce à un moteur de recherche et ceux qui nécessitent l’utilisation d’autres plateformes, il existe une offre très variée de générateurs pour les utilisateurs ayant une fibre artistique. Pour tester les générateurs d’images IA, nous avons choisi un prompt qui évoque une série télévisée américaine, The Office. Voici la version en italien des instructions :

Canva

Le générateur d’images de Canva est un outil simple à utiliser pour ceux qui utilisent déjà l’outil polyvalent de conception graphique. La première étape consiste à sélectionner la taille de la toile sur laquelle l’image sera collée. À gauche de l’écran, il y a un espace pour saisir le prompt (qui ne peut pas dépasser 280 caractères). Et dans le cas où vous manquez d’idées, vous pouvez cliquer sur le bouton « Inspire me » pour obtenir quelques suggestions créatives.

Il n’y a que deux options supplémentaires : le style (aquarelle, rêveur, anime, cinématographique et photo) et les proportions (carré, horizontal et vertical). Le générateur se charge du reste, en fournissant une image qui sera collée sur la toile et pourra donc être intégrée à votre création graphique. Comparé à d’autres générateurs d’images comme Leonardo AI ou Adobe Firefly, il manque de réglages prédéfinis.

Il comprend l’italien et fonctionne avec des crédits (les 50 premières générations sont gratuites). En vous inscrivant à Canva Pro, le programme premium de la plateforme, vous pouvez générer jusqu’à 500 images par mois.

Copilot

Copilot est la création de Microsoft. Ce générateur est accessible gratuitement via le site : il fonctionne à la fois comme un chatbot et comme un générateur d’images. Sa double nature le pousse naturellement vers une modalité basée sur les prompts, tout comme Midjourney et Dall-E3. Ainsi, dans l’espace prévu pour écrire les indications, vous commencez par un classique « Générer une image de », suivi des instructions pour créer la figure souhaitée.

Il restitue quatre images de bonne qualité, fidèles à la scène que nous voulions reproduire. Après les avoir générées, Copilot offre également la possibilité d’apporter des ajustements (à partir d’un texte) en fonction de l’image produite. Il ne parvient pas toujours à comprendre la nature de l’instruction supplémentaire.

En théorie, il comprend l’italien. En pratique, il semble traduire le prompt en une chaîne beaucoup plus courte et plus simple, compromettant ainsi le résultat final. En somme, il donne le meilleur de lui-même en anglais, mais ceux qui ont des problèmes avec cette langue peuvent quand même s’y aventurer.

La technologie est « empruntée » à Dall-E3, le générateur d’images d’OpenAI avec lequel Microsoft entretient une relation étroite. Le chatbot Microsoft lui-même est un jumeau de ChatGPT. Et comme Dall-E (mais aussi Midjourney), l’utilisateur doit décrire précisément le prompt et ne peut pas utiliser d’options prédéfinies comme le font d’autres générateurs comme Adobe Firefly et Leonardo AI.

Midjourney

Pour accéder à l’un des modèles les plus célèbres pour générer des images IA, il est nécessaire d’être inscrit sur Discord, la plateforme de messagerie pour les joueurs qui se divise en de nombreux serveurs. Juste l’un de ces serveurs héberge Midjourney, l’intelligence artificielle responsable de la création d’images hyperréalistes comme celle du pape en Balenciaga. Au début, il était gratuit, mais avec sa notoriété, il est devenu obligatoire d’utiliser l’un des quatre plans tarifaires : de 9 à 110 euros pour améliorer également la vitesse de génération et le nombre de prompts qui peuvent être lancés simultanément.

Contrairement à d’autres générateurs d’images (mais tout comme Dall-E3), Midjourney fonctionne comme les chatbots : toutes les indications doivent être écrites dans le prompt, y compris les informations sur le style, les proportions et les filtres à appliquer. Par communiqué à d’autres IA, il peut être plus difficile à utiliser. En revanche, le niveau de personnalisation de l’image est surprenant : avec des prompts très longs, on peut obtenir des figures qui semblent réelles (surtout si l’on connaît les bases de la photographie). Pour ceux qui ne savent pas s’orienter, le site officiel propose une longue série de conseils, mais on peut aussi s’inspirer des prompts lancés par les autres utilisateurs sur le serveur.

Et si vous voulez modifier une image à partir d’une déjà générée, il est possible de demander des variations sur l’une des quatre images proposées.

Midjourney est le seul qui ne peut pas être utilisé directement en ligne, en accédant à un site. D’autres générateurs comme Canva, Craiyon, Copilot et Dall-E3 (dont nous parlerons maintenant) sont disponibles via un navigateur.

Dall-E3

Frère de ChatGPT, fils d’OpenAI et l’un des principaux acteurs dans le domaine des générateurs d’images IA. Nous parlons de Dall-E3, un modèle développé par la société de Sam Altman qui a ouvert la voie aux intelligences artificielles chargées de créer des images.

La seule façon d’accéder directement à Dall-E3 est d’acheter l’abonnement premium d’OpenAI, qui coûte environ 18 euros par mois. Sinon, vous pouvez utiliser le générateur de Copilot, qui utilise la même technologie.

Pour utiliser Dall-E3, vous accédez à partir de ChatGPT, en sélectionnant dans le menu déroulant l’option pour passer à la quatrième version du modèle de chatbot populaire. Puis de là, vous choisissez d’accéder à la version bêta de Dall-E3. Le mode d’utilisation ne change pas beaucoup par communiqué au chatbot jumeau : il faut écrire un prompt textuel pour donner des indications à l’IA. La règle est toujours la même : plus les instructions sont détaillées, meilleur sera le résultat final.

Dall-E3 fournit quatre versions du même prompt. Si vous n’êtes pas satisfait, vous devez modifier les instructions initiales. Le problème est qu’ainsi de nouvelles images seront générées (contrairement à ce que fait Midjourney, par exemple). Si le résultat vous convient tel quel, il suffit de le télécharger en cliquant sur l’icône en haut à gauche de l’image.

Fotor

Prompt de 3000 caractères, 16 styles et 5 proportions. Le générateur d’images IA de Fotor partage les mêmes bases que ses concurrents (y compris la génération image-to-image) sans ajouter d’options particulièrement compliquées. Les tokens disponibles après l’inscription ne sont pas nombreux : 8 crédits pour commencer et chaque image générée en consomme un. Comparé à d’autres générateurs d’images qui utilisent des tokens comme Runaway (qui en donne 500) ou Leonardo AI (il y en a 150 au départ), c’est peu. Le reste est payant, comme nous l’avons déjà vu sur d’autres plateformes.

Pendant que le modèle génère l’image, des conseils défilent à l’écran pour améliorer les prompts (qui peuvent être écrits en italien, mais génèrent des résultats plus imprécis). Une fois l’image créée, elle peut être modifiée avec l’aide de l’IA.

Adobe Firefly

Firefly est l’outil d’Adobe et peut être utilisé en version d’essai gratuite. Sur la page principale, on voit immédiatement l’espace pour saisir le prompt (avec un exemple utile pour ceux qui sont à court d’idées). Après avoir cliqué une première fois sur « Generate », on accède à une longue liste d’options qui permet de personnaliser sa création : des effets à appliquer à la couleur prédominante dans l’image, de l’éclairage à la position du cadrage, mais aussi les proportions et le style, qui peut être artistique ou photographique seulement. Seulement deux styles prédéfinis (Stable Diffusion en a 24), mais néanmoins de nombreuses possibilités de personnalisation de l’image.

À la fin, il génère quatre images qui peuvent être évaluées, enregistrées dans les favoris et même modifiées. Par exemple, en décidant d’ajouter toujours grâce à l’IA un nouvel élément à un endroit précis, ou en supprimant l’arrière-plan d’un clic.

L’IA d’Adobe comprend l’italien aussi bien que l’anglais, même si dans les deux langues, elle n’a pas parfaitement suivi notre prompt (il manque toujours le robot que nous avons demandé dans les instructions).

Les générations, cependant, ne sont pas infinies, comme nous l’avons déjà vu avec d’autres générateurs. Pour débloquer toutes les fonctionnalités de l’outil, il est nécessaire d’acheter un plan tarifaire premium d’un peu plus de cinq euros par mois.

Craiyon

Avec seulement trois paramètres de style, un espace pour les prompts et un pour les éléments « négatifs » (c’est-à-dire les éléments à exclure), comme Canva, Craiyon n’a pas beaucoup d’options prédéfinies, ce qui limite la créativité. Pour générer neuf images, il faut une minute, qui deviennent 45 secondes ou 15 secondes avec l’inscription aux plans premium (qui garantissent un nombre illimité de créations).

Les images générées ne sont pas à la hauteur de ses semblables les plus performants : figures déformées, visages inquiétants, mains encore imparfaites qui ne laissent pas une bonne impression. Et même s’il n’y a rien pour empêcher d’utiliser un prompt en italien, l’interprétation de toutes les langues autres que l’anglais laisse à désirer. En tant qu’outil, il convient donc mieux à ceux qui préfèrent la quantité plutôt que la qualité.

Stable Diffusion Web

Stable Diffusion est accessible via un site web et est l’un des plus riches en termes de styles prédéfinis : il en compte 24, du rococo aux graffitis, de l’art pixel à un style cinématographique, des bandes dessinées aux caricatures. Vous pouvez générer jusqu’à deux images gratuitement, quatre seulement avec l’inscription au programme premium. Il existe deux plans tarifaires : environ 7 euros par mois pour générer jusqu’à 2000 images par mois, 14 euros pour en générer jusqu’à 4000. Dans les deux cas, le plan d’abonnement premium supprime le filigrane qui « marque » l’image. Pour ceux qui ne veulent pas payer, il y a une période d’essai gratuite : Stable Diffusion offre 10 crédits qui se régénèrent après une journée.

Contrairement à d’autres générateurs d’images d’intelligence artificielle comme Dall-E ou Canva, il n’accepte cependant pas les prompts en italien. En revanche, on peut également charger des images qui, avec la possibilité de charger un prompt pour modifier l’entrée visuelle et les autres options déjà présentes sur la plateforme, donneront une version modifiée de l’image originale.

Leonardo AI

Contrairement à d’autres plateformes, Leonardo AI se distingue par la possibilité de choisir le modèle d’intelligence artificielle à utiliser pour générer les images. Non seulement ceux développés par Leonardo lui-même (qui correspondent souvent à différents réglages ou styles graphiques), mais aussi une longue liste de modèles entraînés par la communauté.

En plus de la possibilité de charger à la fois un prompt (en anglais mais aussi en italien) et une image comme référence, Leonardo AI se distingue des générateurs comme Craiyon ou Canva par les multiples options de personnalisation en plus de celles que nous avons déjà vues sur d’autres sites : une plus grande personnalisation de la taille et des proportions de la toile, la possibilité de générer des images avec un fond transparent et jusqu’à huit images créées avec un seul prompt. Après la création, l’image peut être modifiée, utilisée comme point de départ pour une nouvelle création ou pour créer une animation. Chaque action a bien sûr un coût en tokens. Les crédits sont déduits des 150 gratuits initiaux. Pour ceux qui veulent exploiter les potentialités du modèle IA, il existe trois plans tarifaires qui garantissent des milliers de générations d’images, mais aussi la possibilité de former toujours plus de modèles en fonction de ses besoins.

Runaway

Comme Leonardo, Runaway offre aux utilisateurs la possibilité de former leur propre modèle d’intelligence artificielle. Pour ceux qui ne veulent pas trop se tracasser, en revanche, il y a un générateur avec peu d’options simples : proportions, résolution, style à utiliser et nombre d’images à générer avec les plus de 500 tokens gratuits. On peut également utiliser un espace pour le prompt (et un pour les éléments à exclure), en plus de pouvoir charger une image comme référence. Une fois les crédits gratuits épuisés, avec trois plans tarifaires allant de 13 euros à 87 euros par mois, le nombre de générations d’images peut être augmenté, mais aussi les réglages améliorés pour les vidéos générées par l’IA.

Runaway regorge de conseils : sur la page principale du générateur, il y a de nombreuses images à utiliser comme source d’inspiration, mais une fois sa propre création réalisée, on peut également profiter de tutoriels pour améliorer ses compétences dans la rédaction de prompts efficaces.

Unstable Diffusion

Unstable Diffusion peut être utilisé grâce à un logiciel à télécharger sur son ordinateur ou via un site web. Ce générateur d’images IA garantit également un nombre limité de crédits qui se régénèrent après 24 heures. Les plans payants (un à 13 euros, un à 26 et un à 55) garantissent un nombre croissant de crédits mensuels et l’utilisation commerciale des images.

La structure pour générer sa propre création est similaire aux autres IA, comme par exemple Stable Diffusion ou Adobe Firefly : un prompt et une série d’options pour personnaliser la génération. Une fois la création réalisée, l’image peut être utilisée comme point de départ pour un remix du même prompt ou pour utiliser les mêmes réglages pour une création différente.

De nombreuses options, mais peu d’espace pour les utilisateurs qui ne parlent qu’en italien : il n’y a rien pour bloquer les prompts dans notre langue, mais l’IA a du mal à comprendre les instructions lorsqu’elles ne sont pas écrites en anglais.