L’Instant NeRF AI de NVIDIA rend des scènes 3D à partir de photos 2D en quelques secondes

L'instant Nerf Ai De Nvidia Rend Des Scènes 3d à

Dans le contexte : Nvidia a joué avec les NeRF. Non, ils ne se sont pas tiré dessus avec des fléchettes en mousse. Le terme NeRF est l’abréviation de Neural Radiance Field. C’est une technique qui utilise l’IA pour créer une scène en trois dimensions à partir d’une poignée d’images fixes (rendu inverse). Selon la profondeur souhaitée, il faut généralement des heures ou des jours pour obtenir des résultats.

La branche de recherche AI ​​de Nvidia a travaillé sur le rendu inverse et a développé un champ de rayonnement neuronal qu’il appelle Instant NeRF car il peut rendre la scène 3D jusqu’à 1 000 fois plus rapidement que les autres techniques NeRF. Le modèle AI n’a besoin que de quelques secondes pour s’entraîner sur quelques dizaines d’images fixes prises sous plusieurs angles, puis quelques dizaines de millisecondes de plus pour restituer une vue 3D de la scène.

Étant donné que le processus est le contraire de la prise d’un Polaroid – c’est-à-dire la transformation instantanée d’une scène 3D en une image 2D – Nvidia a recréé une photo d’Andy Warhol à l’aide d’un Polaroid. Cette semaine, l’équipe de recherche a présenté une démo des résultats d’Instant NeRF à Nvidia GTC (ci-dessous).

« Instant NeRF pourrait être utilisé pour créer des avatars ou des scènes pour des mondes virtuels, pour capturer les participants à une vidéoconférence et leurs environnements en 3D, ou pour reconstruire des scènes pour des cartes numériques 3D », a déclaré Nvidia. « Collecter des données pour alimenter un NeRF, c’est un peu comme être un photographe de tapis rouge essayant de capturer la tenue d’une célébrité sous tous les angles – le réseau de neurones nécessite quelques dizaines d’images prises à partir de plusieurs positions autour de la scène, ainsi que la position de la caméra de chacun de ces coups. »

Le NeRF génère l’image 3D à partir de ces dizaines d’angles, remplissant les blancs si nécessaire. Il peut même compenser les occlusions. Par exemple, si un objet bloque la vue du sujet dans l’une des images, l’IA peut toujours remplir cet angle même si elle ne voit pas bien ou pas du tout le sujet.

Le seul point faible de la technologie concerne les objets en mouvement.

« Dans une scène qui comprend des personnes ou d’autres éléments en mouvement, plus ces prises de vue sont rapides, mieux c’est », a déclaré Nvidia. « S’il y a trop de mouvement pendant le processus de capture d’image 2D, la scène 3D générée par l’IA sera floue. »

Pour plus de détails techniques, consultez le blog de Nvidia. Vous pouvez également visionner le reste du discours d’ouverture de Jensen Huang sur GTC sur YouTube.