19 May 2025

10 mins de lecture

MoSAR – Génération d'avatars de personnage fiables à partir d'un simple portrait photo

La création d'avatars virtuels réalistes est cruciale pour les expériences de jeu immersives, mais ce processus est d'ordinaire très consommateur de ressources. Chez Ubisoft La Forge, nous repoussons en permanence les limites du possible en termes de création et d'animation de personnages. MoSAR (Monocular Semi-Supervised Model for Avatar Reconstruction) propose une approche inédite de la génération d'avatars 3D détaillés à partir d'une simple image 2D. Cette méthode vise à améliorer sensiblement l'efficacité et l'accessibilité de la création d'avatars haut de gamme, en ouvrant potentiellement de nouvelles possibilités de personnalisation dans nos jeux.

Processus classique de création d'avatars dans les jeux vidéo

La création d'avatars réalistes pour les personnages de jeux vidéo a toujours été un processus complexe et laborieux. En général, les graphistes doivent d'abord sculpter un modèle 3D détaillé à l'aide d'un logiciel spécialisé. Ce modèle de base est ensuite affiné et on lui applique des maps de textures qui définissent la couleur de peau, les rides et autres détails de surface.

Une autre approche consiste à utiliser un système appelé light stage pour capturer la tête d'un acteur. Ce processus commence par un scan haute définition, suivi d'un traitement de données informatique très lourd qui peut nécessiter des heures voire des jours. Les scans doivent souvent être nettoyés et affinés manuellement par des graphistes qualifiés. Il faut ensuite convertir le maillage de scan haute densité en une topologie de plus faible densité, optimisée pour le rendu en temps réel. Une fois en possession du scan traité pour correspondre au modèle de personnage et à la direction artistique du jeu, les animateurs créent un facial rig pour donner vie au personnage.

Ces deux méthodes donnent certes des résultats de qualité, mais elles sont fastidieuses et peuvent être difficiles à mettre en œuvre pour un grand nombre de personnages uniques dans un monde de jeu de grande taille. De ce fait, les recherches sur la création d'avatars haut de gamme à partir d'une simple image génèrent de plus en plus d'intérêt, car elles pourraient donner lieu à une solution plus évolutive.

[Studio LaForge]MoSAR - Generating relightable character avatars from a single portrait image - P01

Capture en light stage

D'une photo du quotidien à un personnage réaliste

La création d'un avatar à partir d'une simple image représente un véritable défi en raison des limites inhérentes aux représentations 2D. Une photo unique ne fournit en effet qu'une seule perspective, insuffisante pour déterminer la structure 3D complète du sujet. En outre, les photos du quotidien comportent d'importantes variations d'éclairage, de pose et d'expression du visage. Le manque de contrôle des conditions d'éclairage fait qu'il est difficile de séparer les propriétés faciales intrinsèques (comme la couleur et la texture de la peau) des facteurs environnementaux tels que les conditions d'éclairage.

Pour répondre à ces défis, nous proposons un entraînement de modèles novateur qui associe données de light stage haut de gamme (capturées dans des conditions studio contrôlées) et images ordinaires du quotidien (ou « sur le vif »). Cette méthode d'apprentissage semi-supervisée permet au modèle de produire des résultats ultradétaillés tout en s'appliquant correctement aux photos du quotidien.

Voici un aperçu de notre pipeline :

[Studio LaForge]MoSAR - Generating relightable character avatars from a single portrait image - P02

Aperçu du pipeline MoSAR

Estimation de la géométrie

La première étape du pipeline consiste à estimer la géométrie 3D du visage du sujet. MoSAR utilise une représentation paramétrique de la scène :

[Studio LaForge]MoSAR - Generating relightable character avatars from a single portrait image - P03

Estimation de la géométrie

Nous entraînons un réseau de neurones qui estime les paramètres de forme du visage (l'identité), d'expression, de pigmentation, d'éclairage et de caméra. À l'inverse des méthodes linéaires traditionnelles, MoSAR emploie un modèle déformable non linéaire, dont nous démontrons qu'il constitue un gain de précision dans la capture des structures faciales.

Les paramètres de scène estimés sont transmis à un moteur de rendu différentiable (differentiable renderer, DR). Ce moteur permet d'entraîner MoSAR de façon semi-supervisée : le modèle apprend à la fois des images « sur le vif » (sans vérité terrain 3D) et des données de light stage haute définition (qui fournissent les informations de vérité terrain). Cette double approche d'entraînement - associer l'entraînement autosupervisé des images sur le vif à l'entraînement supervisé des données de light stage - est la clé de l'efficacité de MoSAR. Elle contribue à la bonne généralisation du modèle à un large panel de cas réels, tout en maintenant une forte précision dans ses reconstructions 3D.

Estimation de la réflectance cutanée

L'étape suivante consiste à mapper de façon estimative la réflectance cutanée intrinsèque. Ces calques de maps sont cruciaux pour permettre aux moteurs de rendu modernes d'obtenir des résultats réalistes.

Le processus commence en utilisant la géométrie estimée pour projeter l'image d'entrée dans l'espace ultraviolet. Un réseau de neurones est alors entraîné à effectuer un inpainting, qui comble les vides correspondant aux zones occultées du visage dans l'image d'origine.

MoSAR normalise ensuite les informations d'éclairage de ces textures. Cette étape est nécessaire afin de retirer de l'image les ombres et les effets d'éclairage trop prononcés. On évite au passage d'intégrer les informations d'éclairage dans les maps intrinsèques, ce qui aboutirait à des résultats peu réalistes avec des conditions d'éclairage du visage différentes.

La dernière étape consiste à entraîner des réseaux séparés afin d'estimer des maps d'attributs faciaux intrinsèques : normale, diffuse, spéculaire, occlusion ambiante, translucidité, le tout en résolution 4K.

L'une des principales innovations de MoSAR est sa formulation différentiable des ombrages, qui reprend le modèle BRDF de Cook-Torrance utilisé pour les harmoniques sphériques et ajoute une nouvelle formulation différentiable incorporant l'occlusion ambiante et la translucidité. Cette formulation est cruciale, car elle permet d'entraîner le modèle afin de prédire avec précision ces maps complexes.

Ce modèle est lui aussi entraîné de façon semi-supervisée. En associant les données de light stage étiquetées à des images sur le vif non étiquetées, le modèle apprend à bien généraliser à des cas de figure réels tout en fournissant des maps de textures haut de gamme.

[Studio LaForge]MoSAR - Generating relightable character avatars from a single portrait image - P04

Estimation de la réflectance cutanée

Résultat : un nouveau cap dans la génération d'avatars à partir d'une image

MoSAR peut estimer la géométrie détaillée et les calques de maps de textures à partir d'une simple image du quotidien. Le visage du sujet est ainsi reconstruit avec beaucoup de réalisme, et peut être rendu sous différentes conditions d'éclairage.



Avatars obtenus pour 3 sujets

L'une des fonctions remarquables de MoSAR est sa capacité à produire des textures haut de gamme, dont le détail des pores, en résolution 4K. Il est ainsi possible de créer des avatars ultradétaillés qui paraissent réalistes même en gros plan dans les jeux modernes visuellement exigeants.



Gros plan des avatars

Dans l'estimation de la géométrie, MoSAR démontre des améliorations notables par rapport aux méthodes existantes, notamment celles qui se basent sur des modèles déformables linéaires. L'approche non linéaire qu'utilise MoSAR lui permet de capturer la géométrie faciale plus en détail, d'où une représentation plus précise des spécificités du sujet.

[Studio LaForge]MoSAR - Generating relightable character avatars from a single portrait image - P07

Comparaison de la géométrie

Les modèles 3D reconstruits affichent des détails supplémentaires dans des zones telles que le nez, les yeux, les joues et la morphologie globale du visage. MoSAR se distingue particulièrement par sa capacité à capturer des détails plus fins comme les rides et les plis, d'où un niveau de réalisme qui surpasse bon nombre de méthodes de pointe actuelles.

D'un point de vue quantitatif, les performances de MoSAR ont été validées à l'aide du benchmark public REALY, dans lequel il a atteint la deuxième place. C'est la preuve que l'approche par modèle déformable non linéaire, en plus d'être visuellement impressionnante, est aussi compétitive dans les évaluations normalisées de précision des reconstructions faciales 3D.

[Studio LaForge]MoSAR - Generating relightable character avatars from a single portrait image - T01

Résultats du benchmark REALY

En ce qui concerne l'estimation de la réflectance, l'approche de MoSAR donne des résultats supérieurs dans les cas de recalcul d'éclairage. Ces performances améliorées peuvent être attribuées aux capacités d'isolation des attributs faciaux intrinsèques dont dispose le modèle. En séparant et en estimant avec précision les maps normale, spéculaire, d'occlusion ambiante et de translucidité, MoSAR crée une représentation plus fidèle des propriétés de réflectance du visage.

Cette isolation améliorée donne lieu à un rendu plus réaliste sous diverses conditions d'éclairage. Contrairement à certaines autres méthodes susceptibles d'intégrer les informations d'éclairage aux maps de textures, l'approche de MoSAR veille à ce que les maps de réflectance représentent réellement les propriétés intrinsèques du visage, indépendamment des conditions d'éclairage d'origine.

De ce fait, les avatars créés par les reconstructions de MoSAR sont plus naturels et convaincants quand les conditions d'éclairage changent, avec des résultats supérieurs aux autres méthodes de pointe :

Comparaison par rapport aux méthodes de reconstruction d'avatar de pointe

Conclusion

MoSAR représente un important pas en avant dans la génération d'avatars 3D à partir de simples images. Il peut créer des avatars détaillés et ouverts aux changements d'éclairage à partir de photos du quotidien. La possibilité de parvenir à ce niveau de détail et de séparation des attributs faciaux à partir d'une simple image représente une avancée importante dans le secteur de la reconstruction faciale 3D.

Nos recherches démontrent des résultats prometteurs dans la génération de géométries et de maps de textures haut de gamme avec détails poussés en résolution 4K. En générant des maps séparées pour différents attributs faciaux, nous fournissons aux animateurs et aux designers de puissants outils pour enrichir la personnalisation et l'animation. Cette technologie a le potentiel d'améliorer la création de personnages dans les jeux vidéo, pour la rendre plus accessible et efficace.

Même si le développement n'est pas terminé, les résultats obtenus avec MoSAR sont encourageants. Chez Ubisoft La Forge, nous restons déterminés à explorer des solutions novatrices capables d'améliorer les expériences de jeu. Nous allons continuer à affiner cette technologie en attendant impatiemment de découvrir sa contribution à l'avenir de la création de personnages dans les jeux vidéo.