Quoi de neuf: Google apporte son modèle Gemini AI à plusieurs de ses services. Google Photos reçoit un coup de pouce appelé « Demander à Photos ». Cette fonctionnalité permet aux utilisateurs d’utiliser des requêtes en langage naturel pour effectuer des recherches complexes et contextuelles dans leur photothèque.
L’intelligence artificielle était sans aucun doute la star du salon Google I/O aujourd’hui. La société a annoncé une multitude de fonctionnalités d’IA, dont une pour Google Photos appelée « Ask Photos ». Ask Photos permet aux utilisateurs de rechercher parmi leurs photos et de poser des questions à leur sujet en utilisant une simple saisie en langage naturel.
La fonctionnalité alimentée par Gemini va bien au-delà de la simple demande de photos de votre chien. Ask Photos comprend le contexte et répond à des questions plus complexes. Par exemple, demandez-lui une photo de votre enfant marchant sur l’eau, et il pourrait en renvoyer une ou plusieurs images. Cependant, lui demander de montrer à votre enfant qu’il apprend à nager reviendra sur l’ensemble du processus, depuis l’apprentissage du surplace jusqu’à l’obtention d’un certificat de natation. Les Gémeaux comprennent le contexte de l’apprentissage de la natation et prennent des photos associées.
Ask Photos, une nouvelle fonctionnalité à venir @GooglePhotos, facilite la recherche dans vos photos et vidéos à l’aide des modèles Gemini. Cela va au-delà de la simple recherche pour comprendre le contexte et répondre à des questions plus complexes. #GoogleIO pic.twitter.com/OsYXZLo5S1
-Google (@Google) 14 mai 2024
Un autre exemple démontré consistait à trouver des photos de différents lieux de vacances. Les utilisateurs peuvent demander à l’IA de rechercher tous les monuments d’une ville particulière ou des photos du Washington Monument, du Lincoln Memorial et de la Maison Blanche lors d’un voyage à Washington DC obtiendront des résultats appropriés. Il peut même trouver des photos avec votre numéro de plaque d’immatriculation (à condition d’avoir une photo). Le PDG de Google, Sundar Pichai, a demandé à l’IA : « Quel est déjà mon numéro de plaque d’immatriculation ? » L’application Photos a renvoyé avec succès son numéro de plaque d’immatriculation. Il l’a fait sur la base des données de localisation et d’autres facteurs, comme la fréquence à laquelle il a trouvé des instances du numéro de plaque.
Même si certaines personnes trouveront probablement cette fonctionnalité un peu effrayante, elle souligne à quel point le modèle Gemini AI de Google est sophistiqué. Cela pourrait aider de nombreuses personnes à trouver des éléments parmi les centaines (ou milliers) d’images qu’elles ont stockées sur Google Photos. L’accent mis sur la saisie en langage naturel est également vital à mesure que les modèles d’IA s’accélèrent vers une saisie « multi-modalité » comme le traitement du texte, de l’audio et de la vidéo. OpenAI l’a démontré avec un effet époustouflant plus tôt cette semaine avec son modèle GPT-4o (Omni).
Compte tenu de l’essor des modèles d’IA générative, l’accent continu de Google sur l’IA n’est pas surprenant. Le géant de la recherche a apparemment ajouté l’IA à tout. Le dévoilement par OpenAI de son nouveau modèle Omni montre que les guerres contre l’IA ne font que s’intensifier. Apple a l’intention de se joindre à la bataille en dévoilant ses efforts en matière d’IA générative lors de sa conférence mondiale des développeurs le mois prochain.
Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

