Le nouveau modèle d’OpenAI est capable de générer une vidéo à partir d’un texte. La société n’a pas annoncé quand Sora sera lancé, il faudra d’abord évaluer les risques du produit.

D’abord les générateurs de texte, ensuite les générateurs d’images, maintenant les vidéos. L’intelligence artificielle nous a habitués au pouvoir des mots, maintenant il suffit d’une instruction pour générer des mondes, et les grandes entreprises de la tech promettent des technologies de plus en plus performantes. Parmi elles, il y a Sora, le produit d’OpenAI. Après le lancement de ChatGPT, l’entreprise se lance dans la course à l’or et souhaite garder son avance, même dans le domaine des vidéos. « Notre nouveau modèle est capable de générer des vidéos d’une durée maximale d’une minute à partir d’un texte, en préservant la qualité visuelle et en satisfaisant la demande de l’utilisateur ». Selon OpenAI, Sora intègre les instructions fournies par l’utilisateur avec les lois de la physique, créant ainsi des vidéos cohérentes et réalistes.
Nous avons regardé les premières expériences générées par le logiciel. Il y a un dalmatien qui marche sur les balcons de Burano, un homme qui court à l’envers sur un tapis roulant, une fille qui se promène dans les rues de Tokyo. Cela fonctionne bien, il y a des détails qui peuvent trahir le caractère artificiel de la vidéo, comme les visages déformés des personnes en arrière-plan, mais cela disparaîtra, c’est juste une question de temps. Sora n’est pas seule. D’un côté, il existe une pléthore de logiciels qui ne sont pas particulièrement brillants pour créer des vidéos, de l’autre il y a les produits de nouvelle génération, comme Lumiere, la nouvelle IA de Google.
Comment fonctionne Sora
Sora est un modèle stable de diffusion qui génère une vidéo à partir d’un texte. « Nous apprenons à l’intelligence artificielle à comprendre et simuler le monde physique en mouvement », peut-on lire sur le site d’OpenAI. « L’intelligence artificielle est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques ainsi que des détails précis du sujet et de l’arrière-plan. Le modèle a une profonde compréhension du langage, ce qui lui permet d’interpréter avec précision les instructions ». OpenAI n’a pas annoncé quand son nouveau modèle sera disponible, il faudra d’abord évaluer les risques du produit.
Il existe déjà en réalité des « modèles multimodaux » de texte à vidéo, mais Sora promet de générer des vidéos plus précises et plus longues. Selon Reece Hayden, analyste sénior de la société de recherche ABI Research, ces modèles d’intelligence artificielle pourraient avoir un grand impact sur les marchés du divertissement numérique en créant de nouveaux contenus personnalisés diffusés en streaming.
Every single one of these videos is AI-generated, and if this doesn't concern you at least a little bit, nothing will
The newest model: https://t.co/zkDWU8Be9S
(Remember Will Smith eating spaghetti? I have so many questions) pic.twitter.com/TQ44wvNlQw
— Marques Brownlee (@MKBHD) February 15, 2024
Les points faibles du nouveau logiciel d’OpenAI
Sora est encore un « work in progress », comme indiqué sur le site. Il a par exemple du mal à distinguer la droite de la gauche, « il peut avoir du mal avec des descriptions précises d’événements se déroulant dans le temps, comme suivre une trajectoire spécifique de la caméra ». La société a expliqué qu’elle travaille avec une équipe d’experts pour tester le dernier modèle. Le groupe, appelé « red teamer », évaluera les risques du produit, auxquels seront également consultés des designers, des réalisateurs et des artistes visuels pour améliorer l’esthétique du logiciel.
« Le modèle actuel présente des points faibles. Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et peut ne pas comprendre des instances spécifiques de cause et d’effet. Par exemple, une personne pourrait mordre un biscuit, mais ensuite il pourrait ne pas y avoir de trace de la morsure sur le biscuit ». OpenAI a également ajouté : « Nous sommes en train de créer des outils pour détecter les contenus trompeurs », parmi lesquels des étiquettes pour signaler du contenu généré par Sora, ainsi qu’un « classificateur de texte qui vérifiera et refusera les demandes de saisie de texte qui enfreignent nos politiques d’utilisation, telles que la violence extrême, les contenus sexuels, les images incitant à la haine, ou la ressemblance avec des célébrités ou des droits de propriété intellectuelle d’autres personnes ».
