AVIS DE SOUTENANCE
Monsieur Fabien GIRKA
Informatique mathématique
Soutiendra publiquement ses travaux de thèse intitulés
« Développement de méthodes statistiques/ML pour l’identification de biomarqueurs longitudinaux multimodaux. Application à la compréhension des mécanismes d’évolution de la sclérose en plaques »
le LUNDI 20 NOVEMBRE 2023 à 17h00
Amphi 1
8 Rue Joliot Curie, 91190 Gif-sur-Yvette CentraleSupélec, Bâtiment Eiffel
Membres du jury :
M. Mohamed NADIF, Professeur des universités, Université Paris Citén FRANCE – Examinateur
Mme Véronique CARIOU, Professeure, ONIRIS Nantes-Atlantique, FRANCE – Examinateur
M. Eric C. Chi, Associate Professor, Rice University, ETATS-UNIS – Rapporteur
M. Gen LI, Associate Professor, University of Michigan, ETATS-UNIS – Rapporteur
Résumé :
L’étude d’un phénomène à travers plusieurs modalités peut permettre de mieux en comprendre les mécanismes sous-jacents par rapport à l’étude indépendante des différentes modalités. Dans l’optique d’une telle étude, les données sont souvent acquises par différentes sources, donnant lieu à des jeux de données multimodaux/multisources/multiblocs. Un cadre statistique explicitement adapté pour l’analyse jointe de données multi-sources est l’Analyse Canonique des Corrélations Généralisée Régularisée (RGCCA). RGCCA extrait des vecteurs et composantes canoniques qui résument les différentes modalités et leurs interactions. Les contributions de cette thèse sont de quatre ordres. (i) Améliorer et enrichier le package R pour RGCCA afin de démocratiser son usage. (ii) Etendre le cadre de RGCCA pour mieux prendre en compte les données tensorielles en imposant une décomposition tensorielle de rang faible aux vecteurs canoniques extraits par la méthode. (iii) Proposer et étudier des approches simultanées de RGCCA pour obtenir toutes les composantes canoniques d’un seul coup. Les méthodes proposées ouvrent la voie à de nouveaux développements de RGCCA. Utiliser les outils et l’expertise développés pour analyser des données sur la sclérose en plaques et la leucodystrophie. L’accent est mis sur l’identification de biomarqueurs permettant de différencier les patients des témoins sains ou de trouver des différences entre groupes de patients.
« Development of new statistical/ML methods for identifying multimodal factors related to the evolution of Multiple Sclerosis. »
Abstract :
Studying a given phenomenon under multiple views can reveal a more significant part of the mechanisms at stake rather than considering each view separately. In order to design a study under such a paradigm, measurements are usually acquired through different modalities resulting in multimodal/multiblock/multi-source data. One statistical framework suited explicitly for the joint analysis of such multi-source data is Regularized Generalized Canonical Correlation Analysis (RGCCA). RGCCA extracts canonical vectors and components that summarize the different views and their interactions. The contributions of this thesis are fourfold. (i) Improve and enrich the RGCCA R package to democratize its use. (ii) Extend the RGCCA framework to better handle tensor data by imposing a low-rank tensor factorization to the extracted canonical vectors. (iii) Propose and investigate simultaneous versions of RGCCA to get all canonical components at once. The proposed methods pave the way for new extensions of RGCCA. (iv) Use the developed tools and expertise to analyze multiple sclerosis and leukodystrophy data. A focus is made on identifying biomarkers differentiating between patients and healthy controls or between groups of patients.