Avis de soutenance
Monsieur Emilien Boizard
Laboratoire des signaux et systèmes (L2S)
CentraleSupélec, Université Paris-Saclay, CNRS
Soutiendra publiquement ses travaux de thèse intitulés :
« Enhancing the Explainability of Gradient Boosting algorithms through similar samples selection. Application to real estate. »
dirigés par M. Frédéric PASCAL et M. Gilles CHARDON.
Soutenance prévue le lundi 16 décembre 2024 à 10h
Lieu : amphi sd.206, bâtiment Bouygues, CentraleSupélec, 9 rue Joliot Curie, 91190, Gif-sur-Yvette.
Composition du jury :
Cédric RICHARD Professeur, Université Côte d’Azur (Rapporteur)
Sébastien DA VEIGA, Maître de conférence HDR, ENSAI (Rapporteur)
Gérard BIAU Professeur, Sorbonne Université (Examinateur)
Céline HUDELOT, Professeur, CentraleSupélec (Examinatrice)
Frédéric PASCAL, Professeur, CentraleSupélec – Université Paris-Saclay (Directeur de thèse)
Gilles CHARDON, Maître de conférences, CentraleSupélec – Université Paris-Saclay (Co-encadrant de thèse)
Pierre Vidal, Directeur Scientifique, Aviv Group (Encadrant industriel)
Keywords: machine learning, gradient boosting, explainability, real estate
Abstract: Real estate accounts for a significant proportion of French household wealth. Naturally, this generates a strong demand from individuals for reliable tools to estimate the price of their property. One way of meeting this need is to use machine learning algorithms, such as gradient-boosted decision trees. Unfortunately, these methods are still difficult to explain, as they use many decision trees. Given the stakes involved, it is vital to use algorithms that can be explained, especially as users of this type of tool generally have very little knowledge of the real estate market and statistical methods. In this thesis, using the Frank-Wolfe algorithm, we propose to improve the explainability of gradient boosted decision trees methods by exhibiting the observations in the training dataset on which the model relies the most to make a given estimate. To this end, the prediction of such a model can be written as convex combinations of the responses of the training data. Thus, the higher the weight of a training observation in the decomposition of a prediction, the more this observation will be similar to the tested data. We show that the observations most comparable to a tested observation are also very close in terms of response and characteristics. This way of reasoning by similarity between observations to improve the explainability of models is very natural, particularly in real estate, since it corresponds to how real estate agents justify their estimates.
Mots-clés : Mots clés : machine learning, gradient boosting, explicabilité, immobilier
Résumé : L’immobilier représente une part significative de la richesse des ménages français. Naturellement, cela engendre une forte demande des particuliers de disposer d’outils fiables pour estimer le prix de leur bien immobilier. Une manière de répondre à ce besoin est d’utiliser des algorithmes de machine learning, par exemple des modèles de gradient boosting d’arbre. Malheureusement, ce type de méthodes restent très difficilement explicables, du fait qu’elles utilisent un grand nombre d’arbre de décision. Au vu de l’enjeu, il est primordial d’utiliser des algorithmes explicables, d’autant plus que les utilisateurs de ce type d’outil n’ont généralement que très peu de connaissances du marché immobilier et des méthodes statistiques. Dans cette thèse, en utilisant l’algorithme de Frank-Wolfe, nous proposons d’améliorer l’explicabilité des méthodes de gradient boosting d’arbre en exhibant les observations du jeu d’entraînement sur lesquelles le modèle s’appuie le plus pour faire une estimation donnée. Pour ce faire, les estimations d’un tel modèle s’écrivent comme combinaison convexe des réponses des données d’entraînement. Ainsi, plus une donnée d’entraînement apparait avec un poids élevé dans la décomposition d’une estimation, plus cette donnée sera comparable à la donnée de test. On montre que les observations les plus comparables à la donnée testée sont aussi très proche en termes de réponse et de caractéristiques. Cette façon de raisonner par comparable pour améliorer l’explicabilité des modèles est très naturelle, et en particulier en immobilier puisqu’elle correspond à la façon dont les agents immobiliers justifient leurs estimations.