Prochainement, ChatGPT pourrait signifier une évolution majeure de son mode de conversation avec l’intégration de capacités visuelles, comme le suggère un code découvert. Ce nouvel ajout promet d’enrichir l’interaction en direct, rendant les échanges encore plus captivants et immersifs.

Le mode vocal avancé de ChatGPT, qui permet aux utilisateurs d’échanger avec le chatbot en temps réel, pourrait bientôt acquérir la vue, selon un code découvert dans la dernière version bêta de la plateforme. Bien qu’OpenAI n’ait pas encore confirmé la sortie spécifique de cette nouvelle fonctionnalité, le code de la version bêta ChatGPT v1.2024.317 repéré par Android Authority suggère qu’une « caméra en direct » pourrait bientôt être disponible.
OpenAI avait d’abord présenté les capacités visuelles du mode vocal avancé pour ChatGPT en mai, lors du lancement initial en version alpha. Lors d’une démonstration à l’époque, le système avait su identifier qu’il regardait un chien à travers le flux vidéo de l’appareil, reconnaître le chien en se basant sur des interactions antérieures, identifier la balle du chien et associer la relation entre le chien et la balle (c’est-à-dire jouer à aller chercher).
La fonctionnalité a immédiatement séduit les testeurs alpha. L’utilisateur X, Manuel Sainsily, a tiré un grand profit de cette capacité en répondant à des questions orales sur son nouveau chat, basé sur le flux vidéo de la caméra.
J’essaie #ChatGPT avec le nouveau mode vocal avancé qui vient d’être lancé en alpha. On dirait que je fais face à un ami super informé, ce qui était très utile — il nous a rassurés avec notre nouveau chat. Il peut répondre aux questions en temps réel et utiliser la caméra comme entrée ! pic.twitter.com/Xx0HCAc4To
— Manuel Sainsily (@ManuVision) 30 juillet 2024
Le mode vocal avancé a ensuite été lancé en version bêta pour les abonnés Plus et Enterprise en septembre, bien qu’il n’ait pas inclus ses capacités visuelles supplémentaires. Pourtant, cela n’a pas empêché les utilisateurs de tester les limites vocales de cette fonctionnalité. Selon l’entreprise, le mode vocal avancé « offre des conversations plus naturelles et en temps réel, permet d’interrompre à tout moment, et perçoit et répond à vos émotions ».
Ajouter des « yeux numériques » différencierait certainly le mode vocal avancé des principaux concurrents d’OpenAI, Google et Meta, qui ont tous deux introduit récemment des fonctionnalités de conversation.
Gemini Live peut parler plus de 40 langues, mais ne peut pas voir autour de lui (du moins jusqu’à ce que le projet Astra prenne son envol) — ni l’interface vocale naturelle de Meta, qui a été présentée lors de l’événement Connect 2024 en septembre, ne peut utiliser les entrées de la caméra.
OpenAI a également annoncé aujourd’hui que le mode vocal avancé était désormais également disponible pour les comptes ChatGPT Plus payants sur ordinateur de bureau. Il était auparavant exclusivement disponible sur mobile, mais peut maintenant être utilisé directement sur votre ordinateur portable ou PC également.
