La reconnaissance visuelle de Microsoft surpasse l’œil humain

La reconnaissance visuelle de Microsoft surpasse l'œil humain

Ces dernières années, Microsoft a développé ses systèmes de reconnaissance d’image et audio. S’il est vrai que cela ne nous affecte pas puisqu’il n’est pas utilisé dans les produits de consommation, le travail est incroyable. L’autre jour, nous parlions de leur reconnaissance audio et de la façon dont elle avait dépassé l’oreille humaine et maintenant ils ont dépassé l’œil humain.

Les systèmes de langage visuel (VL) vous permet de rechercher les images pertinentes pour une requête de texte (ou vice versa) et décrire le contenu d’une image en utilisant un langage naturel. En général, un système VL utilise un module de codage d’image et un module de fusion de langage de vision. Microsoft Research a récemment développé un nouveau modèle de détection d’attributs d’objet pour l’encodage d’images appelé VinVL (Visual Features in Vision-Language).

La reconnaissance d’objets de Microsoft surpasse l’œil humain

Le moyen d’obtenir ce nouveau record est via VinVL. Ceci est combiné avec des modules de fusion VL comme OSCAR et VIVO. Grâce à quoi le nouveau système VL de Microsoft a pu atteindre la première place dans les classements VL les plus compétitifs. D’autres enregistrements incluent Réponse visuelle aux questions (VQA), Sous-titrage d’image Microsoft COCO et Sous-titrage d’objets novateurs (KO). L’équipe Microsoft Research a également souligné que ce nouveau système VL surpasse considérablement les performances humaines dans le classement KO en termes de CIDEr (92,5 contre 85,3).

Microsoft-Vision-Language-System surpasse l'œil humain

VinVL a montré un grand potentiel dans l’amélioration du codage d’images pour la compréhension de la LV. Le modèle de codage d’image peut bénéficier d’un large éventail de tâches de VL. Malgré les résultats prometteurs qu’ils ont obtenus, le modèle n’atteint en aucun cas l’intelligence humaine de compréhension de la LV.

Chez Microsoft, ils recherchent étendre davantage la pré-formation à la détection des attributs d’objets. En exploitant des données massives de classification / étiquetage d’images. D’autre part, élargir les méthodes de rendu VL intermodale. En apprenant et en construisant des modèles de langage basés sur la perception qui peuvent ancrer les concepts visuels dans le langage naturel et vice versa comme le font les humains.

Microsoft VinVL est en cours d’intégration dans Services cognitifs Azure, qui alimente divers services Microsoft. L’équipe Microsoft Research publiera également le modèle VinVL et le code source au public.