Sora de OpenAI : qu’est-ce que c’est, comment ça fonctionne et que peut-on faire avec la nouvelle IA de création de vidéos

Sora d'OpenAI : qu'est-ce que c'est, comment ça marche et que pouvez-vous faire avec la nouvelle IA de création vidéo

Nous découvrons les secrets sur la nouvelle IA de création vidéo d’OpenAI

Sora d'OpenAI : qu'est-ce que c'est, comment ça marche et que pouvez-vous faire avec la nouvelle IA de création vidéo
L’IA a franchi un nouveau cap de qualité

L’IA est la grande avancée de ces dernières années, des dizaines de types différents ont rapidement proliféré pour répondre aux besoins des utilisateurs habituels : des IA capables de créer des audios entiers et d’autres qui nous servent de substitut à l’assistant Google. Dans ce contexte, il est clair que le chemin à parcourir est encore long, mais OpenAI a lancé Sora, une IA capable de créer des vidéos à partir de zéro, uniquement avec les demandes des utilisateurs. Bien qu’elles existaient déjà, elles n’étaient jusqu’à présent pas très efficaces, mais il semble qu’OpenAI ait frappé fort et ait démontré qu’ils restent l’entreprise la plus en pointe dans ces domaines.

Qu’est-ce que Sora, le nouvel atout d’OpenAI ?

Sora, l’outil d’intelligence artificielle d’OpenAI, a la capacité de générer des vidéos à partir de descriptions textuelles. Tout comme GPT-4 ou DALL-E 3, elle utilise le système d’apprentissage profond de réseaux de neurones artificiels et de structures computationnelles pour apprendre à partir de grandes quantités de données et les appliquer pour créer des choses totalement nouvelles. Sora, quant à elle, a été entraînée avec une énorme quantité de vidéos et de descriptions afin de comprendre et d’apprendre le fonctionnement de ce type d’environnement multimédia et de l’appliquer à ses propres créations.

Ce n’est rien d’autre qu’un modèle de langage. Ainsi, Sora crée des vidéos en fonction des requêtes que nous lui demandons. Si nous écrivons « Un chien qui fait du scooter », l’IA va créer une vidéo basée sur ces informations. C’est quelque chose de vraiment avancé et jusqu’à présent, cela existait, mais cela donnait des résultats étranges et problématiques que semble avoir résolus OpenAI. Par exemple, il y a quelque temps, une bande-annonce de Heidi créée entièrement par une IA a été diffusée et le résultat était assez effrayant.

Comment fonctionne Sora ?

Sora est un modèle de langage texte-vidéo. Tout comme il existe des modèles de texte à image ou de texte à texte, comme Gemini Pro, ces IA fonctionnent de manière assez claire : nous demandons quelque chose via le chat, ce qu’on appelle une requête, et à partir de ce moment-là, l’IA commence à imaginer le processus créatif de la meilleure façon possible pour répondre à nos attentes, en se basant sur son inférence, comme nous le verrons ci-dessous.

Dans ce sens, deux détails spécifiques entrent en jeu pour évaluer la capacité d’une IA comme celle-ci. Il s’agit de deux termes qui passent souvent inaperçus, mais qui mesurent dans une large mesure la capacité de ces systèmes à fonctionner pleinement : l’entraînement et l’inférence.

Le premier d’entre eux semble beaucoup plus facile à comprendre a priori. Il consiste en le volume de données avec lesquelles il a été formé pour pouvoir créer des choses à partir de là. L’IA ne génère rien à partir de zéro, mais elle crée des choses en se basant sur ce qu’elle a appris, ce qui, en réalité, nous arrive aussi à nous, les humains. De cette façon, nous apprenons à l’IA à pratiquer la créativité comme nous le faisons. Plus le volume de données avec lequel elle a appris est grand, plus il sera facile pour elle de faire des variations remarquables de la vidéo qu’elle est en train de créer.

D’autre part, il y a l’inférence. Celle-ci est fondamentale, car sans elle, il serait très difficile pour l’IA de nous comprendre et de réussir à exécuter avec succès les demandes qui sont formulées. Il ne s’agit rien d’autre que de sa capacité à nous comprendre et à se conformer à nos demandes pour les réaliser avec succès. Plus elle a la capacité de nous comprendre, plus elle sera précise. Ayant une intention universelle, les ingénieurs derrière l’IA ont une approche très claire : ces modèles de langage doivent nous comprendre, même si nous nous expliquons très mal.

Que peut-on faire avec cette IA : OpenAI annonce un brillant avenir

Sora est une IA vraiment complexe et elle sert à montrer clairement que nous sommes loin de cet hiver de l’IA que certains prévoient. En réalité, elle a été présentée précisément pour cela, pour marquer un coup et expliquer l’excitant chemin qui nous attend dans le développement de l’IA. Ainsi, Sora est capable de créer des scènes complexes avec des personnages interagissant les uns avec les autres et interagissant de manière réaliste. De plus, elle peut également créer des interactions avec le monde réel et assure même qu’elle peut créer de nouveaux mondes.