Soutiendra publiquement ses travaux de thèse intitulés
Résumé de présentations multimodales avec des modèles de langue
dirigés par Monsieur Frédéric DUFAUX
Soutenance prévue aujourd’hui le vendredi 10 octobre 2025 à 14h00 Lieu : Bâtiment Eiffel, CentraleSupélec, 3 Rue Joliot Curie, 91190 Gif-sur-Yvette Salle : Amphi VI
Composition du jury proposé
M. Benoît MACQ
Ecole Polytechnique de Louvain
Examinateur
Mme Ewa KIJAK
Université de Rennes
Examinatrice
M. Benoit FAVRE
Aix-Marseille Université
Rapporteur
M. Philippe MULLER
Université Paul Sabatier
Rapporteur
Mots-clés :
apprentissage profond,multimodal,résumé,
Résumé :
Le résumé abstractif de présentations longues et multimodales pose des défis uniques en raison de la complexité émergeant de l’intégration de modalités variées (e.g. audio, vidéo, transcription, diapositives) et la création de résumés concis et informatifs sur de longs contextes. Les avancées récentes dans les modèles de langue suggèrent qu’ils sont désormais capables de relever ces défis, mais une évaluation complète pour cette tâche reste encore insuffisamment explorée. Dans cette thèse, nous étudions les capacités des modèles de langue multimodaux à produire des résumés abstractifs à partir des différentes modalités de présentations multimodales, brutes et extraites, en tirant parti de la complémentarité et de l’alignement temporel entre ces modalités. Tout d’abord, nous introduisons TIB-dataset un jeu de données pour le résumé abstractif de présentations multimodales, ainsi que son sous-ensemble TIB-benchmark, pensé pour l’évaluation. Ils sont constitués de plus de 9100 présentations multimodales issues de conférences académiques, avec des transcriptions et des images clés extraites, accompagnées de leurs résumés de référence. Ensuite, nous proposons le score Importance-based Relevance (IbR), une métrique d’évaluation sans référence conçue pour évaluer la pertinence des résumés sans dépendre de résumés de référence, dans le cadre d’un ensemble de métriques qui a pour but de permettre une évaluation fine du résumé abstractif multimodal. Troisièmement, nous menons une analyse approfondie des modèles de langue multimodaux, comparant leurs performances sous différents formats d’entrée unimodaux et multimodaux utilisant l’audio, la vidéo, ou des modalités dérivées comme les transcriptions ou les diapositives. Nos expériences conduisent à une comparaison du rapport coût-efficacité de ces formats, contrastant les scores d’évaluation avec les longueurs des séquences de tokens. Ces contributions fournissent une base solide pour les recherches futures sur les systèmes de résumé multimodal. TIB-dataset, TIB-benchmark, la métrique IbR ainsi que notre ensemble d’outils pour la représentation multimodale sont publiés librement afin de favoriser la reproductibilité et l’innovation dans ce domaine émergent.