Avis de soutenance de thèse
Monsieur Lucas SORT
Soutiendra publiquement ses travaux de thèse intitulés
“Développement de nouvelles méthodes statistiques pour l’analyse de données longitudinales multiblocs et tensorielles”
Soutenance prévue le jeudi 16 janvier 2025 à 14h00
Lieu : salle E.070 (Théâtre Rousseau), Bâtiment Bouygues, 9 rue Joliot Curie 91190 Gif-sur-Yvette
Composition du jury :
Luo XIAO, Associate Professor, North Carolina State University, Rapporteur
David DEGRAS-VALABREGUE, Associate Professor, University of Massachusetts Boston, Rapporteur
Agathe GUILLOUX, Directrice de recherche, INRIA, Examinateur
Heungsun HWANG, Professor, McGill University, Examinateur Résumé de la thèse en français :
En recherche médicale, les données sont devenues de plus en plus complexes au cours des dernières décennies. En effet, les données sont désormais souvent observées à différentes occasions au cours du temps pour permettre un meilleur suivi de l’évolution des processus biologiques ayant un intérêt d’ordre médical. Dans ce contexte, ces données, souvent nommées données longitudinales, possèdent fréquemment une structure complexe de dimension élevée. Par exemple, dans un nombre croissant de situations, les données peuvent être structurées en un tableau multidimensionnel, également appelé tenseur. De la même façon, il arrive que les données puissent être organisées en plusieurs blocs, particulièrement dans le contexte multimodal. L’analyse statistique de telles structures de données pose divers problèmes méthodologiques. L’intégration de la structure tensorielle ou multibloc des données ou la considération des propriétés liées a l’aspect longitudinale apparaissent comme essentielles pour produire une analyse précise et significative des données. Dans ce contexte, nous suggérons d’utiliser le cadre méthodologique de l’analyse de données fonctionnelles afin étendre plusieurs approches issues du domaine de la statistique multivariée au cadre longitudinal. Premièrement, nous proposons d’étendre le cadre de travail de l’analyse multibloc fourni par l’Analyse Canonique des Corrélations Généralisée et Régularisée pour permettre aux chercheurs d’établir et d’étudier les associations entre plusieurs marqueurs longitudinaux. Ensuite, dans le cadre tensoriel, nous introduisons un nouveau modèle de décomposition tensorielle permettant d’extraire les informations les plus pertinentes de tenseurs de dimension élevée observés de façon longitudinale. Finalement, nous proposons un nouveau modèle pour la régression d’une réponse scalaire à partir de tenseurs longitudinaux. Diverses applications sont considérées afin d’illustrer les différents scénarios selon lesquels ces développements méthodologiques peuvent être utilisés pour assister la recherche médicale.
Résumé de la thèse en anglais:
Medical researchers have been confronted with increasingly complex data over the past decades. Indeed, data is now often observed on different occasions over time to help track the evolution of biological processes that can provide medical information. In this context, this data, which can be referred to as longitudinal data, often comes with a complex and high-dimensional structure. For example, in an increasing number of cases, it may be structured as a multidimensional array, also known as a tensor. Similarly, it may be organized into several blocks, especially in the multimodal setting. The statistical analysis of such structured data poses several methodological challenges. Integrating the tensor or multiblock structure or considering the properties associated with longitudinal sampling seems essential to provide a relevant and more accurate study of the data. In this context, we suggest using the functional data analysis framework to adapt and extend several multivariate statistical approaches to the longitudinal setting. First, we propose to extend the multiblock analysis framework of Regularized Generalized Canonical Correlation Analysis to allow researchers to explore associations between multiple longitudinal markers. Then, in the tensor setting, we introduce a new tensor decomposition model to extract the most relevant information from high-dimensional longitudinally sampled tensors. Finally, we propose a new model for regressing a scalar response from longitudinally sampled tensor-structured covariates. Several applications are considered to illustrate the numerous settings in which these methodological developments could be used to assist medical researchers.
Mots clés en français : Apprentissage statistique,Optimisation,Données longitudinales,Données fonctionnelles,Décomposition tensorielle,Analyse multibloc
Mots clés en anglais : Statistical learning,Optimization,Longitudinal data,Functional data,Tensor decomposition,Multiblock analysis