Soutenance de thèse de M. Abhishek GOSWAMI

Date : 21/03/2022

AVIS DE SOUTENANCE de Monsieur Abhishek GOSWAMI
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Université Paris-Saclay, préparé à l’Université Paris-Saclay GS Informatique et sciences du numérique en :

Traitement du signal et des images

« Algorithmes de mappage de tonalités HDR dépendant du content »

le LUNDI 21 MARS 2022 à 10h00

à

Amphi sc.071, Bouygues
CentraleSupélec, 3, rue Joliot Curie 91190 Gif-sur-Yvette

Membres du jury :

M. Frédéric DUFAUX, Directeur de recherche, CNRS/Université Paris-Saclay, FRANCE – Directeur de thèse
Mme Céline LOSCOS, Professeure des universités, Université de Reims Champagne-Ardenne, FRANCE – Rapporteur
M. Alan CHALMERS, Professor, University of Warwick, ROYAUME-UNI – Rapporteur
Mme Sabine SÜSSTRUNK, Professeure, EPFL, SUISSE – Examinateur
Mme Sylvie LE HÉGARAT-MASCLE, Professeure des universités, Université Paris-Saclay, FRANCE – Examinateur
M. Patrick LE CALLET, Professeur des universités, Université de Nantes, FRANCE – Examinateur

Résumé :

L’intensité de la luminance constitue l’un des paramètres objectifs les plus importants pour une image numérique. Souvent, les images du monde réel affichent une plage dynamique entre l’ombre la plus sombre et la surbrillance la plus lumineuse qui est supérieure à la capacité de rendu des écrans traditionnels et des supports de rendu. Le mappage des tonalités correspond au processus de compression de l’image à plage dynamique élevée (High Dynamic Range – HDR) en une capacité tonale réduite avec préservation des indices perceptuels pertinents pour le système visuel humain (Human Visual System – HVS). Non seulement la luminance de l’image est modifiée mais la qualité esthétique également, rendant ainsi une évaluation de l’image finale très subjective. Les techniques dans le domaine de la peinture ainsi que les techniques d’esquive et de gravure en photographie, c’est-à-dire la correction manuelle de l’exposition des images, ont inspiré de nombreuses recherches qui ont permis de développer des opérateurs de mappage de tonalités (Tone Mapping Operators – TMO) modernes. Cependant, contrairement au processus manuel de retouche qui prend en compte le contenu sémantique et les informations contextuelles de l’image, les TMO dans la littérature se sont principalement appuyés sur les règles photographiques ou les principes d’adaptation du HVS pour ‘ prétendre’ à la meilleure qualité esthétique d’image. Notre travail reformule les enjeux du mappage des tonalités en se mettant dans la peau d’un photographe. Nous suivons non seulement les principes photographiques ou les statistiques d’image, mais également les recettes de retouche suivies par les experts pour réaliser les ajustements de tonalités. Nous partons de l’hypothèse selon laquelle les TMO doivent prendre en compte la sémantique et créer une compréhension de la scène pour appliquer des ajustements locaux de tonalités similaires à la manière dont les photographes experts utilisent des outils locaux tels que des pinceaux et des filtres. Dans cette thèse, nous présentons deux TMO sémantiques : un SemanticTMO traditionnel et un G-SemTMO basé sur l’apprentissage profond. Il convient de constater que le développement des TMO dans le but de produire la ‘meilleure’ qualité est un problème mal posé. Nous visons donc la fidélité et produisons le résultat le plus proche d’un style esthétique de référence. Nos nouveaux TMO présentent le premier exemple d’utilisation explicite d’informations sémantiques dans le pipeline de mappage de tonalités. En outre, nous présentons une nouvelle application des réseaux convolutifs sur les graphes (Graph Convolutional Network – GCN) dans notre G-SemTMO, qui est le premier exemple de GCN utilisé pour l’amélioration d’images esthétiques. Inspirés par les méthodes des photographes experts, nous montrons que l’apprentissage basé sur des graphes peut tirer parti de l’agencement spatial des segments sémantiques. Il peut générer une compréhension de la scène basée sur les statistiques d’image spécifiques à la sémantique qui régissent le mappage local des tonalités. En comparant les résultats d’inférence avec les TMO traditionnels et modernes basés sur l’apprentissage en profondeur, nous pouvons montrer que G-SemTMO peut produire une bonne qualité esthétique et mieux se rapprocher des styles esthétiques de référence lorsque comparé aux méthodes de pointe. Nous pensons que notre travail contribuera au développement d’une nouvelle gamme de TMO qui intègre l’information sémantique avec un focus explicite sur la façon dont les experts abordent l’amélioration locale de l’image.

Abstract :

One of the most important objective parameters for a digital image is its luminance intensity. Often real-world images pose the condition where the dynamic range between the darkest shadow and brightest highlight is larger than the rendering capability of normal displays and rendering media. Tone mapping is the process of compressing the High Dynamic Range (HDR) image to a tonal capacity while preserving the perceptual cues relevant for the human visual system (HVS). It not only modifies the luminance of the image but also the aesthetic quality which makes evaluating the final image highly subjective. Age old painting and photography techniques of dodging and burning, i.e. manually correcting exposure for images has inspired a lot of research that has gone into developing modern tone mapping operators (TMO). However, unlike the manual process of retouching which considers the semantic content and contextual information of the image, TMOs in literature have mostly relied upon photographic rules or adaptation principles of the HVS to ‘claim’ the best aesthetic image quality. Our work reformulates the challenges of tone mapping by stepping into the shoes of a photographer. We follow not just the photographic principles or image statistics, but also the retouching recipe which experts follow to achieve the tonal adjustments. Our hypothesis is that TMOs need to be semantic aware and create a scene understanding to apply local tonal adjustments similar to how expert photographers use local tools such as brushes and filters. In this thesis, we present two semantic aware TMOs — a traditional SemanticTMO and a deep learning-based G-SemTMO. We acknowledge that developing TMOs with the aim of producing ‘best’ quality is ill-posed. Hence, we aim for fidelity and produce the result closest to a reference aesthetic style. Our novel TMOs present the first instance of explicitly using semantic information in the tone mapping pipeline. Furthermore, we present a novel application of graph convolutional networks (GCN) in our G-SemTMO which is the first instance of GCNs being used for aesthetic image enhancement. Inspired by the expert photographer recipes, we show that graph-based learning can leverage the spatial arrangement of semantic segments. It can create a scene understanding based on the semantic specific image statistics which governs the local tone mapping. Comparing inference results with traditional and modern deep learning based TMOs, we can show that G-SemTMO can produce good aesthetic quality and reach closer to the reference aesthetic styles than the state-of-the-art methods. We believe that our work will help the development of a new range of semantic aware TMOs with explicit focus on how experts approach local image enhancement.