Tout ce que vous devez savoir sur l’agent basé sur navigateur d’OpenAI, Operator

Tout Ce Que Vous Devez Savoir Sur Lagent Base Sur.jpg

OpenAI a franchi une étape majeure avec le lancement de son AI agentif, l’Operator. Cette technologie autonome promet de rivaliser avec des concurrents établis en effectuant des tâches complexes en temps réel. Découvrez les fonctionnalités et la disponibilité de cette innovation fascinante.

OpenAI a enfin rejoint la course à l’AI agentif avec le lancement de son Operator AI en janvier 2025. Ce système agentif est conçu pour fonctionner de manière autonome au nom de l’utilisateur et est prêt à rivaliser avec des concurrents déjà établis tels que l’API d’utilisation de l’ordinateur de Claude et les agents Copilot de Microsoft — du moins, une fois qu’il aura abandonné son statut de « aperçu de recherche ». Voici tout ce que vous devez savoir sur le nouvel agent d’OpenAI et sur le moment où vous pourrez peut-être l’essayer vous-même.

Qu’est-ce que l’Operator ?

L’Operator d’OpenAI est un agent AI, ce qui signifie qu’il est conçu pour prendre des actions autonomes basées sur les informations dont il dispose. Cependant, contrairement aux programmes conventionnels, les agents AI sont capables d’examiner les conditions changeantes en temps réel et de réagir en conséquence, plutôt que de simplement exécuter des commandes prédéterminées. De ce fait, les agents AI peuvent réaliser une variété de tâches complexes et en plusieurs étapes, allant de la transcription et du résumé de réunions d’affaires à la réservation de vols, d’hôtels et de voitures de location pour des vacances à venir, en fonction des différents emplois du temps de la famille, ou encore à la recherche autonome de sujets et à l’assemblage d’études de plusieurs pages sur ces sujets.

Operator fonctionne légèrement différemment des autres agents actuellement disponibles. Alors que l’utilisation de l’ordinateur de Claude est une API et que les agents AI de Microsoft fonctionnent dans l’interface de chat Copilot elle-même, l’Operator est conçu pour fonctionner, eh bien, dans une fenêtre de navigateur web dédiée qui fonctionne sur les serveurs d’OpenAI et exécute ses tâches à distance. Votre navigateur web local n’est en rien impliqué dans le processus et peut être utilisé normalement même lorsque l’Operator est en cours d’exécution.

L’application Operator est propulsée par un nouveau modèle « Agent Utilisateur d’Ordinateur » (CUA) qui, à son tour, est construit sur la technologie GPT-4o, offrant ainsi des capacités multimodales. OpenAI affirme que le CUA a été entraîné de manière similaire à ses modèles de raisonnement o1 et o3. Ainsi, le modèle CUA décompose les tâches complexes en problèmes composant avant d’essayer de les résoudre séquentiellement, revenant en arrière en cas de blocages logiques.

Introduction à l’Operator & Agents

Quand l’Operator a-t-il été lancé ?

OpenAI a lancé l’Operator le 23 janvier 2025. Il est actuellement disponible uniquement pour les utilisateurs Pro à 200€/mois aux États-Unis via le site operator.chatgpt.com. « Notre plan est d’élargir l’accès aux utilisateurs Plus, Équipe et Entreprise et d’intégrer ces capacités dans ChatGPT à l’avenir », a écrit l’entreprise dans son annonce.

Comment fonctionne l’Operator ?

Les utilisateurs peuvent activer l’agent depuis l’écran d’accueil de ChatGPT, ce qui fait apparaître une page de navigateur web dédiée dans une fenêtre latérale pour que l’Operator puisse exécuter ses tâches. L’AI fournit un récit en temps réel de ce qu’il est en train de faire et l’utilisateur peut reprendre le processus à tout moment. L’Operator demandera l’aide de l’utilisateur pour certaines tâches, comme se connecter à des sites sécurisés spécifiques, ainsi que la confirmation de l’utilisateur avant d’exécuter des tâches importantes. Il peut interagir avec les sites web de manière visuelle (c’est-à-dire par des captures d’écran) et de manière tactique, en imitant les frappes clavier et les clics de souris de l’utilisateur.

Que peut faire l’Operator et à quel point le fait-il bien ?

Puisqu’il est limité au navigateur, l’Operator ne peut actuellement effectuer que des tâches simples basées sur Internet, telles que réserver des billets de concert, commander via DoorDash ou remplir des commandes Instacart. L’entreprise affirme également que l’agent sera capable d’automatiser des tâches comme la réservation d’hôtels et de vols, la réservation de tables dans des restaurants, et même de faire vos courses en ligne.

OpenAI a mis l’Operator en compétition avec l’Utilisation de l’Ordinateur de Claude, ainsi que l’agent Mariner de Google DeepMind, dans plusieurs benchmarks industriels et affirme que l’Operator les a battus sur tous ces critères. Sur le benchmark OSWorld, qui mesure l’efficacité d’un agent à accomplir des tâches telles que fusionner des fichiers PDF, le CUA a devancé l’Utilisation de l’Ordinateur avec un score de 38,1% contre 22,0% — pour référence, les humains obtiennent en général environ 72% de succès dans ces tâches. Sur le benchmark WebVoyager, le CUA a obtenu 87% contre 83,5% pour le Mariner. L’Utilisation de l’Ordinateur a réalisé un piètre 56%.

Cependant, les premières réactions des utilisateurs à l’AI agent ont été mitigées. Par exemple, le chroniqueur du New York Times, Kevin Roost, a écrit : « En tout, j’ai trouvé que l’utilisation de l’Operator était souvent plus problématique que cela en valait la peine. La plupart de ce qu’il a fait pour moi, j’aurais pu le faire plus rapidement moi-même, avec moins de tracas. »

« Même quand cela fonctionnait, a-t-il continué, cela demandait tant de confirmations et de réassurances avant d’agir que j’avais l’impression d’avoir moins un assistant virtuel qu’un stagiaire excessivement inquiet. »

Comment puis-je essayer l’Operator moi-même ?

Pour accéder à l’agent Operator d’OpenAI, vous devrez vous inscrire à l’abonnement Pro d’OpenAI, puis y accéder via le site operator.chatgpt.com.