Avis de Soutenance Monsieur Mickaël SEZNEC

Date : 25/10/2021

Catégorie(s) : Generals

Traitement du signal et des images

Soutiendra publiquement ses travaux de thèse intitulés

From the algorithm to the targets, optimization flow for high performance computing on embedded GPUs
(De l’algorithme à l’implémentation, flot d’optimisations pour le calcul haute performance sur GPU embarqués)

dirigés par Monsieur Nicolas GAC

Soutenance prévue le lundi 25 octobre 2021 à 10h00
Lieu : En présentiel Amphi sc.046 (Peugeot), Bâtiment Bouygues, Campus CentraleSupélec, 3 Rue Joliot Curie, 91190 Gif-sur-Yvette

En visio :https://webtv.centralesupelec.fr/lives/live-easycast-n195/

Composition du jury proposé

M. Nicolas GAC	CentraleSupélec – Université Paris-Saclay	Directeur de thèse
M. François ORIEUX	Université Paris-Saclay	Co-encadrant de thèse
M. Frédéric CHAMPAGNAT	ONERA Saclay	Examinateur
M. Julien DEMOUTH	NVIDIA	Examinateur
Mme Cristina SILVANO	Politecnico di Milano	Rapporteure
M. Michaël KRAJECKI	Université de Reims Champagne-Ardenne	Rapporteur
M. Jean-François NEZAN	INSA Rennes	Examinateur
M. Alvin SASHALA NAIK	Thales Research & Technology	Invité

Keywords: Hardware-Aware Algorithm design, Implementation and Optimization, GPU, Image Processing, Embedded Systems, Convolutional Neural Networks

Abstract:

Current digital processing algorithms require more computing power to achieve more accurate results and process larger data. In the meantime, hardware architectures are becoming more specialized, with highly efficient accelerators designed for specific tasks. In this context, the path of deployment from the algorithm to the implementation becomes increasingly complex. It is, therefore, crucial to determine how algorithms can be modified to take advantage of new hardware capabilities. Our study focused on graphics processing units (GPUs), a massively parallel processor. Our algorithmic work was done in the context of radio-astronomy or optical flow estimation and consisted of finding the best adaptation of the software to the hardware. At the level of a mathematical operator, we modified the traditional image convolution algorithm to use the matrix units and showed that its performance doubles for large convolution kernels. At a broader method level, we evaluated linear solvers for the combined local-global optical flow to find the most suitable one on GPU. With additional optimizations, such as iteration fusion or memory buffer re-utilization, the method is twice as fast as the initial implementation, running at 60 frames per second on an embedded platform (30~W). Finally, we also pointed out the interest of this hardware-aware algorithm design method in the context of deep neural networks. For that, we showed the hybridization of a convolutional neural network for optical flow estimation with a pre-trained image classification network, MobileNet, that was initially designed for efficient image classification on low-power platforms.

Mots-clés :Adéquation algorithme architecture,Implémentation et optimisation,GPU,Traitement d’images,Systèmes embarqués,Réseaux de Neurones Convolutifs

Résumé :

Les algorithmes de traitement numérique actuels nécessitent une puissance de calcul accrue pour obtenir des résultats plus précis et traiter des données plus volumineuses. Dans le même temps, les architectures matérielles se spécialisent, avec des accélérateurs très efficaces pour des tâches spécifiques. Dans ce contexte, le chemin du déploiement de l’algorithme à l’implémentation est de plus en plus complexe. Il est donc crucial de déterminer comment les algorithmes peuvent être modifiés pour tirer parti des capacités du matériel. Dans notre étude, nous nous sommes intéressé aux unités graphiques (GPU). Ce type de processeur est massivement parallèle et dispose d’unités arithmétiques à précision réduite pour le calcul flottant ainsi que d’accélérateurs de multiplication matricielle. Notre travail algorithmique s’est fait dans le contexte de la radio-astronomie ansi que l’estimation de flux optique et a opéré sur deux niveaux. À l’échelle d’un opérateur, nous avons modifié un algorithme de convolution d’images pour utiliser les tensor cores et montré qu’on peut en doubler les performances pour de grands noyaux de convolution. Au niveau méthode, nous avons évalué des solveurs de systèmes linéaires pour l’estimation de flux optique afin de trouver le plus adéquat sur GPU. Grâce à ce choix et après de nouvelles optimisations spécifiques, comme la fusion d’itérations ou la réutilisation de zones mémoire, la méthode est deux fois plus rapide que l’implémentation initiale, fonctionnant à 60 images par seconde sur plateforme embarquée (30W). Enfin, nous avons également montré l’intérêt, dans le cadre des réseaux de neurones profonds, de cette méthode de conception d’algorithmes adaptée au matériel. Avec pour exemple l’hybridation entre un réseau conçu pour le flux optique avec MobileNet, autre architecture préentrainée et conçue pour être efficace sur des cibles à faible puissance de calcul.

Vous êtes invités au pot qui suivra en salle des séminaires (bâtiment Bréguet). Attention, la présentation du passe sanitaire est obligatoire.