Naissance de Sora, l'intelligence artificielle qui transforme les textes en vidéo : maintenant, c'est impressionnant

Le nouveau modèle d’OpenAI est capable de générer une vidéo à partir d’un texte. La société n’a pas annoncé quand Sora sera lancé, il faudra d’abord évaluer les risques du produit.

D’abord les générateurs de texte, ensuite les générateurs d’images, maintenant les vidéos. L’intelligence artificielle nous a habitués au pouvoir des mots, maintenant il suffit d’une instruction pour générer des mondes, et les grandes entreprises de la tech promettent des technologies de plus en plus performantes. Parmi elles, il y a Sora, le produit d’OpenAI. Après le lancement de ChatGPT, l’entreprise se lance dans la course à l’or et souhaite garder son avance, même dans le domaine des vidéos. « Notre nouveau modèle est capable de générer des vidéos d’une durée maximale d’une minute à partir d’un texte, en préservant la qualité visuelle et en satisfaisant la demande de l’utilisateur ». Selon OpenAI, Sora intègre les instructions fournies par l’utilisateur avec les lois de la physique, créant ainsi des vidéos cohérentes et réalistes.

Nous avons regardé les premières expériences générées par le logiciel. Il y a un dalmatien qui marche sur les balcons de Burano, un homme qui court à l’envers sur un tapis roulant, une fille qui se promène dans les rues de Tokyo. Cela fonctionne bien, il y a des détails qui peuvent trahir le caractère artificiel de la vidéo, comme les visages déformés des personnes en arrière-plan, mais cela disparaîtra, c’est juste une question de temps. Sora n’est pas seule. D’un côté, il existe une pléthore de logiciels qui ne sont pas particulièrement brillants pour créer des vidéos, de l’autre il y a les produits de nouvelle génération, comme Lumiere, la nouvelle IA de Google.

Comment fonctionne Sora

Sora est un modèle stable de diffusion qui génère une vidéo à partir d’un texte. « Nous apprenons à l’intelligence artificielle à comprendre et simuler le monde physique en mouvement », peut-on lire sur le site d’OpenAI. « L’intelligence artificielle est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques ainsi que des détails précis du sujet et de l’arrière-plan. Le modèle a une profonde compréhension du langage, ce qui lui permet d’interpréter avec précision les instructions ». OpenAI n’a pas annoncé quand son nouveau modèle sera disponible, il faudra d’abord évaluer les risques du produit.

Il existe déjà en réalité des « modèles multimodaux » de texte à vidéo, mais Sora promet de générer des vidéos plus précises et plus longues. Selon Reece Hayden, analyste sénior de la société de recherche ABI Research, ces modèles d’intelligence artificielle pourraient avoir un grand impact sur les marchés du divertissement numérique en créant de nouveaux contenus personnalisés diffusés en streaming.

Every single one of these videos is AI-generated, and if this doesn't concern you at least a little bit, nothing will

The newest model: https://t.co/zkDWU8Be9S

(Remember Will Smith eating spaghetti? I have so many questions) pic.twitter.com/TQ44wvNlQw

— Marques Brownlee (@MKBHD) February 15, 2024

Les points faibles du nouveau logiciel d’OpenAI

Sora est encore un « work in progress », comme indiqué sur le site. Il a par exemple du mal à distinguer la droite de la gauche, « il peut avoir du mal avec des descriptions précises d’événements se déroulant dans le temps, comme suivre une trajectoire spécifique de la caméra ». La société a expliqué qu’elle travaille avec une équipe d’experts pour tester le dernier modèle. Le groupe, appelé « red teamer », évaluera les risques du produit, auxquels seront également consultés des designers, des réalisateurs et des artistes visuels pour améliorer l’esthétique du logiciel.

« Le modèle actuel présente des points faibles. Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et peut ne pas comprendre des instances spécifiques de cause et d’effet. Par exemple, une personne pourrait mordre un biscuit, mais ensuite il pourrait ne pas y avoir de trace de la morsure sur le biscuit ». OpenAI a également ajouté : « Nous sommes en train de créer des outils pour détecter les contenus trompeurs », parmi lesquels des étiquettes pour signaler du contenu généré par Sora, ainsi qu’un « classificateur de texte qui vérifiera et refusera les demandes de saisie de texte qui enfreignent nos politiques d’utilisation, telles que la violence extrême, les contenus sexuels, les images incitant à la haine, ou la ressemblance avec des célébrités ou des droits de propriété intellectuelle d’autres personnes ».

Naissance de Sora, l’intelligence artificielle qui transforme les textes en vidéo : maintenant, c’est impressionnant

Comment fonctionne Sora

Les points faibles du nouveau logiciel d’OpenAI

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?