Avis de Soutenance Monsieur Théo GIGANT

Date : 10/10/2025

Avis de Soutenance

Monsieur Théo GIGANT

Sciences du traitement du signal et des images

Soutiendra publiquement ses travaux de thèse intitulés

Résumé de présentations multimodales avec des modèles de langue

dirigés par Monsieur Frédéric DUFAUX

Soutenance prévue aujourd’hui le vendredi 10 octobre 2025 à 14h00
Lieu : Bâtiment Eiffel, CentraleSupélec, 3 Rue Joliot Curie, 91190 Gif-sur-Yvette
Salle : Amphi VI

Composition du jury proposé

M. Benoît MACQ	Ecole Polytechnique de Louvain	Examinateur
Mme Ewa KIJAK	Université de Rennes	Examinatrice
M. Benoit FAVRE	Aix-Marseille Université	Rapporteur
M. Philippe MULLER	Université Paul Sabatier	Rapporteur

Mots-clés :

apprentissage profond,multimodal,résumé,

Résumé :

Le résumé abstractif de présentations longues et multimodales pose des défis uniques en raison de la complexité émergeant de l’intégration de modalités variées (e.g. audio, vidéo, transcription, diapositives) et la création de résumés concis et informatifs sur de longs contextes. Les avancées récentes dans les modèles de langue suggèrent qu’ils sont désormais capables de relever ces défis, mais une évaluation complète pour cette tâche reste encore insuffisamment explorée. Dans cette thèse, nous étudions les capacités des modèles de langue multimodaux à produire des résumés abstractifs à partir des différentes modalités de présentations multimodales, brutes et extraites, en tirant parti de la complémentarité et de l’alignement temporel entre ces modalités. Tout d’abord, nous introduisons TIB-dataset un jeu de données pour le résumé abstractif de présentations multimodales, ainsi que son sous-ensemble TIB-benchmark, pensé pour l’évaluation. Ils sont constitués de plus de 9100 présentations multimodales issues de conférences académiques, avec des transcriptions et des images clés extraites, accompagnées de leurs résumés de référence. Ensuite, nous proposons le score Importance-based Relevance (IbR), une métrique d’évaluation sans référence conçue pour évaluer la pertinence des résumés sans dépendre de résumés de référence, dans le cadre d’un ensemble de métriques qui a pour but de permettre une évaluation fine du résumé abstractif multimodal. Troisièmement, nous menons une analyse approfondie des modèles de langue multimodaux, comparant leurs performances sous différents formats d’entrée unimodaux et multimodaux utilisant l’audio, la vidéo, ou des modalités dérivées comme les transcriptions ou les diapositives. Nos expériences conduisent à une comparaison du rapport coût-efficacité de ces formats, contrastant les scores d’évaluation avec les longueurs des séquences de tokens. Ces contributions fournissent une base solide pour les recherches futures sur les systèmes de résumé multimodal. TIB-dataset, TIB-benchmark, la métrique IbR ainsi que notre ensemble d’outils pour la représentation multimodale sont publiés librement afin de favoriser la reproductibilité et l’innovation dans ce domaine émergent.