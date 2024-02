Le nouveau modèle d’OpenAI est capable de générer une vidéo à partir d’un texte. La société n’a pas annoncé quand Sora sera lancé, il faudra d’abord évaluer les risques du produit.

D’abord les générateurs de texte, ensuite les générateurs d’images, maintenant les vidéos. L’intelligence artificielle nous a habitués au pouvoir des mots, maintenant il suffit d’une instruction pour générer des mondes, et les grandes entreprises de la tech promettent des technologies de plus en plus performantes. Parmi elles, il y a Sora, le produit d’OpenAI. Après le lancement de ChatGPT, l’entreprise se lance dans la course à l’or et souhaite garder son avance, même dans le domaine des vidéos. « Notre nouveau modèle est capable de générer des vidéos d’une durée maximale d’une minute à partir d’un texte, en préservant la qualité visuelle et en satisfaisant la demande de l’utilisateur ». Selon OpenAI, Sora intègre les instructions fournies par l’utilisateur avec les lois de la physique, créant ainsi des vidéos cohérentes et réalistes.

Nous avons regardé les premières expériences générées par le logiciel. Il y a un dalmatien qui marche sur les balcons de Burano, un homme qui court à l’envers sur un tapis roulant, une fille qui se promène dans les rues de Tokyo. Cela fonctionne bien, il y a des détails qui peuvent trahir le caractère artificiel de la vidéo, comme les visages déformés des personnes en arrière-plan, mais cela disparaîtra, c’est juste une question de temps. Sora n’est pas seule. D’un côté, il existe une pléthore de logiciels qui ne sont pas particulièrement brillants pour créer des vidéos, de l’autre il y a les produits de nouvelle génération, comme Lumiere, la nouvelle IA de Google.

Sora est un modèle stable de diffusion qui génère une vidéo à partir d’un texte. « Nous apprenons à l’intelligence artificielle à comprendre et simuler le monde physique en mouvement », peut-on lire sur le site d’OpenAI. « L’intelligence artificielle est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques ainsi que des détails précis du sujet et de l’arrière-plan. Le modèle a une profonde compréhension du langage, ce qui lui permet d’interpréter avec précision les instructions ». OpenAI n’a pas annoncé quand son nouveau modèle sera disponible, il faudra d’abord évaluer les risques du produit.

Il existe déjà en réalité des « modèles multimodaux » de texte à vidéo, mais Sora promet de générer des vidéos plus précises et plus longues. Selon Reece Hayden, analyste sénior de la société de recherche ABI Research, ces modèles d’intelligence artificielle pourraient avoir un grand impact sur les marchés du divertissement numérique en créant de nouveaux contenus personnalisés diffusés en streaming.

Every single one of these videos is AI-generated, and if this doesn't concern you at least a little bit, nothing will

The newest model: https://t.co/zkDWU8Be9S

(Remember Will Smith eating spaghetti? I have so many questions) pic.twitter.com/TQ44wvNlQw

— Marques Brownlee (@MKBHD) February 15, 2024