OpenAI lance Sora : son modèle d’IA pour générer des vidéos à partir de texte

OpenAI lance Sora : son modèle d'IA pour générer des vidéos à partir de texte

C’est presque magique : vous écrivez ce que vous voulez et Sora peut générer des vidéos d’une minute incluant des scènes complexes et plusieurs personnages, animaux ou objets

OpenAI lance Sora : son modèle d'IA pour générer des vidéos à partir de texte
Image extraite d’une vidéo créée par l’outil Sora d’OpenAI

Tandis qu’OpenAI s’affaire à tester ChatGPT-4 pour en vérifier la sécurité et annonce les principales fonctionnalités de sa future IA multimodale GPT-5 pour rivaliser directement avec Gemini, il semble vraiment que la société à nouveau dirigée par Sam Altman veuille continuer à diriger une industrie qu’ils ont presque commencée eux-mêmes et dont l’évolution est un peu effrayante, car jusqu’à 60 % des emplois dans le monde pourraient être menacés par l’IA.

Quoi qu’il en soit, et tandis qu’OpenAI donne forme à ce moteur de recherche dont les rumeurs vont bon train pour jouer également chez Google, la société basée à San Francisco, en Californie, vient de nous présenter sa première IA pour créer des vidéos synthétiques directement à partir de texte. Presque magique, en somme…

OpenAI la présente sur son site web sous le nom de Sora, en parlant très bien d’un modèle qui devra encore grandir :

Sora est un modèle d’IA qui peut créer des scènes réalistes et imaginatives à partir d’instructions textuelles. […] Il peut générer des vidéos d’une durée allant jusqu’à une minute tout en maintenant la qualité visuelle et en respectant les instructions de l’utilisateur.

Sora d’OpenAI, toutes les informations et les vidéos de démonstration

La société d’Altman déclare qu’elle est actuellement en phase d’« enseignement à l’IA de la compréhension et de la simulation de l’environnement physique en mouvement », bien que en réalité, il semble que Sora fonctionne déjà très bien, compte tenu des vidéos qu’ils présentent comme exemples, toutes générées par IA à partir d’instructions textuelles simples, sans plus de fantaisie.

Pour le moment, Sora est un outil en développement et n’est pas accessible, mais OpenAI a voulu partager ses avancées avec nous afin que les premiers testeurs bêta puissent le tester et donner leurs commentaires pour compléter son développement et l’améliorer autant que possible avant son lancement commercial.

En ce qui concerne ses capacités, il peut générer des vidéos d’une minute en respectant les instructions que nous donnons par le biais du texte, tout en maintenant la qualité visuelle et l’environnement généré avec un certain critère. En réalité, Sora peut générer des scènes complexes avec plusieurs personnages, y compris des animaux ou des objets, ainsi que créer des mouvements et maintenir les détails précis de l’arrière-plan de la scène.

La société américaine déclare que « le modèle comprend non seulement ce que l’utilisateur a demandé, mais aussi comment ces choses existent et fonctionnent dans le monde réel », ce qui nous semble assez impressionnant.

Évidemment, en tant que produit non fini, il présente encore quelques lacunes pour le moment. Parfois, lors de la simulation des lois physiques dans les scènes les plus complexes, il peut y avoir des problèmes, et il peut également se confondre quant aux causes et aux effets de certains mouvements ou actions. Certains exemples que nous avons vus dans les vidéos sont des mouvements physiquement impossibles, la duplication ou la disparition de sujets, voire des bougies qui ne s’éteignent pas lorsque l’on souffle dessus…

Il devra s’améliorer, et avec la vitesse à laquelle cela se produit, cela se fera très rapidement, mais je ne peux pas vraiment définir le futur que OpenAI veut nous dévoiler. Pour l’instant, je suis partagé entre trois adjectifs : impressionnant, intéressant ou effrayant… Comment le définiriez-vous ?

Sora d’OpenAI, toutes les informations et les vidéos de démonstration