Avis de soutenance de thèse de M. Goluck KONUKO

Date : 29/01/2025

Avis de Soutenance

Monsieur Goluck KONUKO

Sciences et Technologies de l’information et de la
Communication (STIC)

Soutiendra publiquement ses travaux de thèse intitulés

Compression vidéo faciale à faible débit avec des modèles d’animation génératifs

dirigés par Monsieur Giuseppe VALENZISE et Stephane LATHUILIERE

Soutenance prévue le mercredi 29 janvier 2025 à 14h00
Lieu : 9 Rue Joliot Curie, 91190 Gif-sur-Yvette
Salle : e.070 (théâtre), Bouygues

Visio-conférence: https://cnrs.zoom.us/j/97492170209?pwd=4WnHXlLaq9CNPR5JWvBxR3k2gdVEqs.1

Composition du jury proposé
M. Chaker LARABI Université de Poitier Examinateur
M. Thomas MAUGEY Inria – Rennes Examinateur
Mme. Anissa MOKRAOUI Universite Sorbonne Paris-Nord Rapportrice
M. Mathias WIEN RWTH-Aachen University Rapporteur

Encadrement:
M. Giuseppe VALENZISE, CNRS – L2S
M. Stephane LATHUILIERE, Inria – Grenoble

Mots-clés : compression vidéo, vidéoconférence, apprentissage profond, animation des visages

Résumé :
Cette thèse aborde le défi de la compression vidéo à très bas débit pour la visioconférence. Les codecs conventionnels tels que HEVC et VVC présentent des déficiences notables dans le fonctionnement à très faibles débits, notamment pour capturer avec précision les expressions faciales dynamiques, les mouvements de tête et les occlusions—des aspects clés pour le réalisme et une communication efficace en tête-à-tête. Pour surmonter ces défis, cette thèse introduit un ensemble de techniques de compression basées sur l’apprentissage, exploitant des modèles d’animation basés sur des autoencodeurs, complétées par des améliorations grâce à la transmission d’informations auxiliaires et des mécanismes de codage prédictif. Le Deep Animation Codec (DAC) sert de fondation à ce travail, utilisant un autoencodeur génératif pour synthétiser des séquences vidéo réalistes à partir de représentations compactes du mouvement facial et d’une image de référence. En nécessitant un minimum de données en entrée, le DAC surperforme en terme d’efficacité de codage dans le régime des très bas débits par rapport aux codecs traditionnels. Les limitations observées par DAC proviennent essentiellement de la gestion de poses de tête complexes et des occlusions et nous apporterons ensuite des solutions à ces problèmes. Le Multi-Reference DAC (MRDAC) améliore la précision prédictive, surtout dans les scénarios difficiles, en incorporant plusieurs images de référence. Une nouvelle formulation d’apprentissage contrastif est introduite au sein du cadre d’animation pour affiner davantage la fidélité de reconstruction. Pour permettre un gain de qualité, le Hybrid Deep Animation Codec (HDAC) combine le DAC avec les codecs traditionnels de vidéos. L’HDAC utilise une couche de base comme information auxiliaire de conditionnement, obtenant une meilleure fidélité sémantique et un contenu plus détaillé. Des contributions clés telles que l’apprentissage à débit binaire variable et un mécanisme de transfert de hautes fréquences sont proposés pour récupérer efficacement les détails à fine échelle. Enfin, cette thèse explore le codage prédictif ciblant les scénarios à très bas débit. Dans le cas du codage prédictif, RDAC exploite les dépendances temporelles et l’apprentissage résiduel conditionnel. Nous proposons les méthodes d’optimiser les représentations résiduelles compactes, équilibrant la perte d’information et le gain de qualité sous des contraintes de débit strictes.
Grâce à ces contributions, cette thèse fournit de nouvelles perspectives sur la conception et l’optimisation des cadres d’animation basés sur l’apprentissage, mettant en évidence leur potentiel d’application à la compression à très bas débit pour les applications de visioconférence.

Key words: video compression, video conferencing, deep learning, face animation

Abstract:
This thesis addresses the challenge of ultra-low bitrate video compression for video conferencing. Conventional codecs such as HEVC and VVC show significant limitations at very low bitrates, particularly in accurately capturing dynamic facial expressions, head movements, and occlusions—key aspects critical for realism and effective face-to-face communication. To overcome these challenges, this thesis introduces a suite of learning-based compression techniques leveraging autoencoder-based animation models, complemented by enhancements through side information transmission and predictive coding mechanisms.
The Deep Animation Codec (DAC) serves as the foundation of this work, using a generative autoencoder to synthesize realistic video sequences from compact representations of facial motion and a reference image. By requiring minimal input data, DAC achieves exceptional coding efficiency in the ultra low-bitrate regime compared to traditional codecs. To address its limitations in handling complex head poses and occlusions, subsequent contributions investigate three critical advancements. The Multi-Reference DAC (MRDAC) enhances predictive accuracy, especially in challenging scenarios, by incorporating multiple reference frames. A novel contrastive learning formulation is introduced within the animation framework to further refine reconstruction fidelity.
To enable quality scalability, the Hybrid Deep Animation Codec (HDAC) combines traditional video codecs with the animation framework. HDAC utilizes a base layer as conditioning side information, achieving improved semantic fidelity and content detail. Key innovations such as variable bitrate learning and a high-frequency shuttling mechanism are proposed to recover fine-scale details effectively. Finally, this thesis explores predictive coding targeting ultra-low bitrate scenarios. The predictive coding framework, RDAC, exploits temporal dependencies and conditional residual learning, which mitigates information loss through highly constrained entropy bottlenecks, to optimize compact residual representations, balancing information loss and quality scalability under stringent bitrate constraints. Through these contributions, this thesis provides new insights into the design and optimization of learning-based animation frameworks, highlighting their potential application to ultra-low bitrate coding for video conferencing applications.