Des chercheurs d’Apple développent une IA capable de « voir » et de comprendre le contexte de l’écran

Des chercheurs d'Apple développent une IA capable de « voir » et de comprendre le contexte de l'écran

Apple va préparer quelque chose de révolutionnaire en matière d’outils d’intelligence artificielle. Les chercheurs de l’entreprise ont développé un nouveau système d’IA capable de comprendre ce qui se passe sur l’écran de l’appareil. De plus, il comprend le contexte de la conversation et permet des interactions plus naturelles avec les assistants vocaux.

Des chercheurs dApple developpent une IA capable de voir

ReALM meilleur que ChatGPT

Le système, appelé ReALM (Résolution de référence en tant que modélisation du langage), utilise de grands modèles linguistiques pour convertir la tâche complexe de résolution de références – y compris la compréhension des références à des éléments visuels sur un écran – en un problème de modélisation linguistique pure. Cela permet à ReALM d’obtenir des gains de performances substantiels par rapport aux méthodes existantes.

Être capable de comprendre le contexte, y compris les références, est essentiel pour un assistant conversationnel. Permettre à l’utilisateur de poser des questions sur ce qu’il voit sur son écran est une étape cruciale pour garantir une véritable expérience mains libres avec les assistants vocaux.

L’équipe de recherche d’Apple a écrit.

Améliorer les assistants conversationnels

Pour gérer les références basées sur l’écran, une innovation clé de ReALM est la reconstruction d’écran à l’aide d’entités analysées à l’écran et de leurs emplacements pour générer une représentation textuelle qui capture la disposition visuelle.

Les chercheurs ont démontré que cette approche, combiné avec des modèles de réglage linguistique spécifiques pour la résolution des référencespourrait surpasser GPT-4 dans cette tâche.

Nous avons démontré des améliorations majeures par rapport à un système existant avec des fonctionnalités similaires sur différents types de références, notre plus petit modèle réalisant des gains absolus de plus de 5 % pour les références à l’écran. Nos modèles plus grands surpassent considérablement le GPT-4.

Les chercheurs ont écrit.

1712173406 961 Des chercheurs dApple developpent une IA capable de voir

Applications pratiques et limites

Les travaux mettent en évidence le potentiel de modèles linguistiques spécifiques pour gérer des tâches telles que la résolution de références dans les systèmes de production où l’utilisation de modèles massifs de bout en bout est irréalisable en raison de la latence ou de contraintes informatiques.

En publiant l’enquête, Apple signale la poursuite de ses investissements dans rendre Siri et d’autres produits plus conversationnels et plus sensibles au contexte.

Pourtant, les chercheurs préviennent que l’analyse automatique des écrans a ses limites. La gestion de références visuelles plus complexes, telles que la distinction entre plusieurs images, nécessiterait probablement l’incorporation de techniques de vision par ordinateur et multimodales.

Apple s’efforce de combler l’écart en matière d’IA alors que ses rivaux montent en flèche

Apple fait discrètement des progrès significatifs dans la recherche sur l’intelligence artificielle, même s’il est à la traîne de ses rivaux technologiques dans la course à la domination du paysage de l’IA en évolution rapide.

Des grands modèles de langage multimodal (MLLM) qui mélangent vision et langage, aux outils d’animation basés sur l’IA, en via les techniques permettant de créer une IA spécialisée haute performance avec un budget limité, suggèrent qu’Apple augmente fortement ses investissements dans ce segment.

Mais ce géant de la technologie fait face à une concurrence féroce de la part d’entreprises comme Google, Microsoft, Amazon et OpenAI, qui ont produit de manière agressive une IA générative dans les domaines de la recherche, des logiciels de bureautique, des services cloud et bien plus encore.

En réalité, Apple a été un spectateur de ce marché et non un pionnier. En tant que tel, vous risquez de manquer l’opportunité d’offrir à l’utilisateur les outils les plus avancés. Lors de sa conférence mondiale des développeurs WWDC en juin, la société devrait dévoiler un nouveau cadre de modèle de langage à grande échelle, un chatbot « Apple GPT » et d’autres capacités d’IA dans son écosystème.

La question qui se pose est de savoir s’il est encore temps d’apporter de l’innovation à ce segment d’options de plus en plus populaire. Et si ce sera sur iOS 18.