Simulations sobres en énergie d’ écoulements sur grille à raffinement de
maillage adaptatif
Thèse GS ISN de l’université Paris Saclay (financement CEA)
automne 2023/automne 2026
Keywords: FPGA, GPU, HPC, simulation, Raffinement de Maillage Adaptatif (RMA)
CEA Paris-Saclay
Maison de la simulation
Encadrant CEA: pascal.tremblin[at]cea.fr
Laboratoire des Signaux et Systèmes (L2S)
Groupe Problèmes Inverses (GPI)
directeur de thèse: nicolas.gac[at]l2s.centralesupelec.fr https://l2s.centralesupelec.fr/u/gac-nicolas/
1 Enjeux et objectifs de la thèse
1.1 Accélération du Raffinement de Maillage Adaptatif
Les écoulements multi- échelles modélisés sur des grilles à Raffinement de Maillage Adaptatif (AMR) est une problé–
matique d’intérêt majeur pour les différentes directions du CEA : la DRF (code dyablo), la DES (code canoP/TECNA,
Fig.1) et la DAM (code Hera) et la DRT (AMR pour la reconstruction d’image tomographique). Les algorithmes de
calcul sur grille AMR sont par nature très hétérogènes et rendent difficile une exploitation optimale des GPUs pour ce
type de problème. L’objectif de cette thèse est d’étendre les résultats prometteurs de la maison de la simulation sur
FPGA lors du projet EXA2PRO [Mdls-1] à une étude des algorithmes AMR afin d’évaluer d’une part la faisabilité de
leur implémentation par flux de données sur FPGA, et d’autre part les performances en comparaison à l’ état de l’art
sur CPU et GPU.
Figure 1: Simulation avec rafinement de maillage adaptatif (RMA) avec le code canoP, [Mdls-2]
1.2 Les FPGAs comme alternative frugale aux GPUs
Un des défis majeurs de la conception des machines exascale reste la puissance électrique à mettre en œuvre pour leur
opération, même avec des processeurs graphiques (GPUs). L’augmentation de l’efficacité énergétique des architectures
de calcul est donc un enjeu majeur dans le contexte du numérique frugal. Les Field Programmable Gate Arrays
(FPGA) utilisés massivement dans les systèmes embarqués et pour le traitement de données (e.g. à la Direction de la
recherche technologique du CEA, DRT) représentent une voie très intéressante à explorer. Les FPGAs sont des puces
électroniques qui se situent entre des ASICs, des puces dédiées à certains traitements, et des processeurs conventionnels
(CPU). Cette notion provient de l’aspect reconfigurable de ces dispositifs, les rendant plus flexibles que des ASICs (au
prix d’une surface utile de silicium plus petite et d’un besoin en énergie plus important) mais beaucoup plus efficaces
en termes d’ énergie que les CPU ou même les GPUs.
Ils sont principalement utilisés dans le domaine de l’ électronique embarquée avec des applications à faibles besoins
énergétiques. Une productivité de développement faible, un manque de portabilité entre dispositifs et des temps de
compilation très longs sont les contraintes fortes qui ont vraisemblablement empêché leur utilisation dans le domaine
du HPC jusqu’ici. Mais l’apparition de modèles récents ayant de très grandes capacités, conjuguée avec des modèles
de programmation de plus hauts niveaux, pourraient rendre leur utilisation possible dans les très grands calculateurs,
aujourd’hui limités par le besoin en énergie électrique. Ce nouveau type d’architecture semble donc très prometteur
pour une utilisation toujours plus énergétiquement efficace des ressources de calcul pour le HPC, le HPDA et l’IA.
Figure 2: Outils de synthèse de haut niveau sur FPGA
1.3 Organisation de la thèse
La thèse pourra se décomposer en trois temps :
• une exploration de la parallélisation sur FPGA des boucles de calcul sur un maillage raffiné statique.
• Une exploration de la parallélisation sur FPGA des algorithmes AMR pour adapter dynamiquement le maillage
(raffinement, d é-raffinement, ≪ 2 :1 balance ≫)
• Parallélisation multi-FPGA et équilibrage de charge Le modèle de programmation pour les FPGAs est au-
jourd’hui une question centrale et nous prévoyons de porter ces expérimentations d’abord avec Sycl/oneAPI
puis potentiellement sur XilinX Vitis, afin d’ évaluer leur performance en termes de temps de prise en main,
pérennité et performance par watt atteignable.
Côté matériel, il sera également intéressant d’ évaluer les puces proposées par les deux principaux constructeurs.
D’une part, le rachat d’Altera en 2015 par Intel pour 16.7 milliards de dollars montre ses premiers impacts avec des
FPGAs qui commencent à intégrer des coeurs (AGILEX) et où le FPGA n’est donc plus un accélérateur avec tous
les inconvénients que cela comporte (coût des communications host/device). La MdlS aura deux cartes AGILEX
disponibles pour mener les expérimentations dans le cadre de la thèse (serveur d’expérimentation mutualisé avec le
CEA/DRT/LIST pour la plateforme SACHEMS). D’autre part, AMD a annoncé le rachat de XilinX pour 35 milliards
de dollars qui propose actuellement des FPGAs (Virtex UltraScale) interconnectés à de la High Bandwidth Memory
(HBM) comme les GPUs actuels (disponible e.g. à PC2, Paderborn center for parallel computing).
2 Expertises partagées par deux laboratoires
La thèse se déroulera dans deux laboratoires de l’université de Paris-Saclay, à la maison de la simulation située au
CEA Saclay et au L2S situé à proximité à CentraleSupelec (Gif sur Yvette). L’ étudiant.e sera inscrit.e à la Graduate
School computer science (GS ISN) de l’université Paris-Saclay.
2.1 Maison de la simulation
La Maison de la Simulation est un laboratoire commun au CEA, au CNRS, `a l’Université Paris-Saclay et à l’Université
Versailles Saint-Quentin. Elle est spécialisée dans le calcul haute performance et les simulations numériques en lien
étroit avec les applications physiques, le génie logiciel parallèle, les modèles de programmation, les techniques de
visualisation, l’intelligence artificielle et l’informatique quantique. La Maison de la Simulation concentre ses activités
sur trois axes principaux pour remplir sa mission : une recherche pluridisciplinaire autour de la simulation numérique
et du calcul haute performance; un appui et une expertise ouverte aux communautés utilisatrices du calcul intensif;
et un centre d’enseignement et d’animation scientifique autour du calcul intensif.
Dans le cadre du projet EXA2PRO, une première comparaison entre CPU, GPU et FPGA utilisant une technolo-
gie silicium comparable (16 nm) a déjà été réalisée à la MdlS[Mdls-3]. L’efficacité énergétique du FPGA combine sa
performance avec son faible besoin en énergie et surpasse le GPU d’un facteur x3 et le CPU d’un facteur 15x sur des
noyaux de calcul issus d’un code de dynamique moléculaire.
Figure 3: Performances CPU/FPGA/GPU pour une application de dynamique moléculaire [Mdls-3]
2.2 L2S
Le laboratoire des Signaux et Systèmes (L2S) situé en île de France à Gif sur Yvette (91) est une Unité mixte de
Recherche (UMR) de CentraleSupélec, du CNRS et de l’Université Paris Saclay. Au sein du pôle signaux et statistiques,
le Groupe Problèmes Inverses (GPI) positionne ses travaux de recherche à l’interface de la physique, des statistiques et
du traitement du signal et des images. Il développe des méthodes s’appuyant sur des modèles stochastiques markoviens
ou séparables, des variables cachées et du calcul bayésien, ainsi que pour l’optimisation convexe et les décompositions
parcimonieuses. Les applications concernent l’imagerie au sens large : la reconstruction tomographique 3D pour le
CND (Contrôle Non Destructif) [L2S-1], la reconnaissance radar, la super-résolution d’image, l’astronomie [L2S-2], la
microscopie ou la séparation de sources.
Conjointement à ses axes de recherche algorithmiques, le GPI développe un axe de recherche sur l’Adéquation
Algorithme Architecture (thème C du GDR ISIS) afin de relever le défi du traitement des données de grande taille
provenant de divers instruments (tomographe à rayons X, très grand réseau d’antennes en radioastronomie). Ces
travaux s’attachent notamment à dépasser les limites architecturales dues aux goulots d’étranglement constitués par
l’accès aux mémoires des accélérateurs de type GPU ou FPGA. Ces travaux sur GPU portent à la fois sur la par-
allélisation à grain fin des milliers de cœurs CUDA [L2S-3] ou des unités de calcul matricielles (tensors cores) [L2S-4]
mais aussi sur la parallélisation à grain épais sur les serveurs multi-GPU [L2S-5]. La cible FPGA avec l’utilisation
des outils de synthèse de haut niveau (HLS) permet d’effectuer de plus larges explorations architecturales [L2S-6]
[L2S-7]. Cette thématique de recherche en adéquation algorithme architecture est notamment au centre du projet
ANR Dark-era [L2S-8] coordonné par le GPI ayant pour objectif le dimensionnement d’un supercalculateur pour le
traitement temps réel du radiotélescope SKA [L2S-9, L2S-10].
3 Profil du candidat.e
Compétences requises :
• Master ou équivalent en informatique ou HPC.
• Connaissance opérationnelle des techniques et du langage de programmation (C ou C ++) pour le développement
d’applications et des paradigmes de calcul parallèle.
• Travail en équipe
Références
[Mdls-1] L. Papadopoulos et al., “EXA2PRO: A Framework for High Development Productivity on Heterogeneous Computing
Systems,” IEEE Transactions on Parallel and Distributed Systems, Aug. 2021. https://inria.hal.science/hal-03318644
[Mdls-2] F. Drui, “Modélisation et simulation eulériennes des écoulements diphasiques à phases séparées et dispersées :
développement d’une modélisation unifiée et de méthodes numériques adaptées au calcul massivement parallèle,” Ph.D.
dissertation, 2017, thèse de doctorat dirigée par Massot, Marc et Kokh, Samuel Mathématiques aux interfaces Université
Paris-Saclay (ComUE) 2017. http://www.theses.fr/2017SACLC033
[Mdls-3] C. Prouveur et al., “CPU and FPGA performance comparison of a conjugate gradient solver extracted from a
molecular dynamics code,” Jul. 2021. https://doi.org/10.5281/zenodo.5363017
[L2S-1] C. Chapdelaine et al., “Error-Splitting Forward Model for Iterative Reconstruction in X-ray Computed
Tomography and application with Gauss-Markov-Potts prior,” IEEE Transactions on Computational Imaging,
vol. 5, no. 2, pp. 317 – 332, Jun. 2019. https://hal.archives-ouvertes.fr/hal-01948680
[L2S-2] A. Marchal et al., “ROHSA: Regularized Optimization for Hyper-Spectral Analysis,” Astronomy and
Astrophysics – A&A, vol. 626, p. A101, 2019, 20 pages, 21 figures; Accepted for publication in A&A.
https://hal.archives-ouvertes.fr/hal-02147300
[L2S-3] M. Seznec et al., “Computing Large 2D Convolutions on GPU Efficiently with the im2tensor
Algorithm,” Journal of Real-Time Image Processing, vol. 19, pp. 1035–1047, Dec. 2022. https:
//hal.archives-ouvertes.fr/hal-03742005
[L2S-4] M. Seznec et al., “Real-Time Optical Flow Processing on Embedded GPU: a Hardware-Aware Algorithm
to Implementation Strategy,” Journal of Real-Time Image Processing, vol. 19, no. 2, pp. 317–329, Apr. 2022.
https://hal.science/hal-03457011
[L2S-5] M. Chghaf et al., “Data distribution on a multi-GPU node for TomoBayes CT reconstruction,” in The
26th IEEE International Conference on Embedded and Real-Time Computing Systems and Applications, Inconnu,
South Korea, Aug. 2020, virtual conference (Covid). https://hal.archives-ouvertes.fr/hal-02586239
[L2S-6] M. Martelli et al., “3D Tomography back-projection parallelization on Intel FPGAs using OpenCL,” Journal
of Signal Processing Systems, vol. 91, no. 7, pp. 1939–8115, Jul. 2019. https://hal.archives-ouvertes.fr/hal-01831884
[L2S-7] D. Diakite et al., “X-ray tomography reconstruction accelerated on FPGA through High-Level Synthesis tools,”
IEEE Transactions on Biomedical Circuits and Systems, pp. 1–14, Mar. 2023. https://hal.science/hal-04021970
[L2S-8] N. Gac et al., “Prototypage rapide d’un supercalculateur d ́edi ́e `a la radioastronomie,” in L’Interdisciplinarit ́e.
Voyages au-del`a des disciplines. CNRS Edition, Jan. 2023. https://hal.archives-ouvertes.fr/hal-03704333
[L2S-9] N. Monnier et al., “Multi-core multi-node parallelization of the radio interferometric imaging pipeline
DDFacet,” in IEEE Workshop on Signal Processing Systems (SiPS), Rennes, France, Nov. 2022.
https://hal.science/hal-03729202
[L2S-10] N. Monnier et al., “Fast Sky to Sky Interpolation for Radio Interferometric Imaging,” in
IEEE International Conference on Image Processing (ICIP), Bordeaux, France, Oct. 2022. https:
//hal.archives-ouvertes.fr/hal-03725824