Actualités

La reconnaissance visuelle de Microsoft surpasse l’œil humain

Par Adrien, le 18 janvier 2021 — microsoft — 3 minutes de lecture
La reconnaissance visuelle de Microsoft surpasse l'œil humain

Ces dernières années, Microsoft a développé ses systèmes de reconnaissance d’image et audio. S’il est vrai que cela ne nous affecte pas puisqu’il n’est pas utilisé dans les produits de consommation, le travail est incroyable. L’autre jour, nous parlions de leur reconnaissance audio et de la façon dont elle avait dépassé l’oreille humaine et maintenant ils ont dépassé l’œil humain.

Les systèmes de langage visuel (VL) vous permet de rechercher les images pertinentes pour une requête de texte (ou vice versa) et décrire le contenu d’une image en utilisant un langage naturel. En général, un système VL utilise un module de codage d’image et un module de fusion de langage de vision. Microsoft Research a récemment développé un nouveau modèle de détection d’attributs d’objet pour l’encodage d’images appelé VinVL (Visual Features in Vision-Language).

La reconnaissance d’objets de Microsoft surpasse l’œil humain

Le moyen d’obtenir ce nouveau record est via VinVL. Ceci est combiné avec des modules de fusion VL comme OSCAR et VIVO. Grâce à quoi le nouveau système VL de Microsoft a pu atteindre la première place dans les classements VL les plus compétitifs. D’autres enregistrements incluent Réponse visuelle aux questions (VQA), Sous-titrage d’image Microsoft COCO et Sous-titrage d’objets novateurs (KO). L’équipe Microsoft Research a également souligné que ce nouveau système VL surpasse considérablement les performances humaines dans le classement KO en termes de CIDEr (92,5 contre 85,3).

Microsoft-Vision-Language-System surpasse l'œil humain

VinVL a montré un grand potentiel dans l’amélioration du codage d’images pour la compréhension de la LV. Le modèle de codage d’image peut bénéficier d’un large éventail de tâches de VL. Malgré les résultats prometteurs qu’ils ont obtenus, le modèle n’atteint en aucun cas l’intelligence humaine de compréhension de la LV.

Chez Microsoft, ils recherchent étendre davantage la pré-formation à la détection des attributs d’objets. En exploitant des données massives de classification / étiquetage d’images. D’autre part, élargir les méthodes de rendu VL intermodale. En apprenant et en construisant des modèles de langage basés sur la perception qui peuvent ancrer les concepts visuels dans le langage naturel et vice versa comme le font les humains.

Microsoft VinVL est en cours d’intégration dans Services cognitifs Azure, qui alimente divers services Microsoft. L’équipe Microsoft Research publiera également le modèle VinVL et le code source au public.

Adrien

Adrien

Passionné de high-tech depuis mon 1er PC en Pentium MMX 166Mhz, j'écris aujourd'hui sur les derniers processeurs AMD & Intel, ainsi que les futures cartes graphique NVDIA & AMD. Vous me croiserez aussi sur des sujets Windows 10 & Mac afin de tirer le meilleur parti de ces systèmes.

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.