Philippe.gregoire@cea - IIEnsskutnik.iiens.net/cours/2A/LC/Architecture Cluster/Cours...L'objet...
Transcript of Philippe.gregoire@cea - IIEnsskutnik.iiens.net/cours/2A/LC/Architecture Cluster/Cours...L'objet...
Architecture d’un cluster
ENSIIE – HPC - février 2019
11 février 2019 | PAGE 1CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 2/77
Architecture d’un super-calculateurAgenda
Introduction au calcul haute performance
Présentation d’un centre de calcul
Utilisation d’un super-calculateur
Composantes principales d'un super-calculateur
Administration / maintenance
Les challenges à venir
| PAGE 3
Introduction au
Calcul Haute Performance (HPC)
| PAGE 3
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 4/77
Introduction au Calcul Haute Performance
Le calcul haute performance (HPC)
Résolution de problèmes scientifiques complexes nécessitant une très grande quantité de calculs informatiques
Manipulant généralement de gros volumes de données
Utilisation des technologies informatiques les plus avancéesLogicielles et matériellesAfin de maximiser les performances et de réduire les délais de résolution
Notion de super-calculateur fournissant les ressources nécessairesLe terme HPC fait généralement référence au terme supercomputer
Mise en œuvre d'algorithmes de calcul complexes et adaptés aux architectures des super-calculateurs
Permettant d'optimiser les applications pour maximiser les rendements de calcul
ENSIIE – Composants d’un super-calculateur Février 2019 | 5/77
Introduction au Calcul Haute Performance
Les super-calculateurs
Machines conçues afin de maximiser les performances de calculClassification des performances via la notion de quantité d'opérations en virgule flottante par seconde (Flops/s)
Les premiers super-calculateurs datent des années 60Machines CDC (Control Data Corporation), conçues par Seymour Cray
Spécifiquement définies pour les besoins du calcul scientifiqueAlors 10x plus puissantes que les machines concurrentes pour ces tâches
1959 - CDC 1604 1964 - CDC 6400 1969 - CDC 7600
IBM 7030
1963…
CDC 6400
1970…
Voir : www.cea-hpc.fr
CRAY 1S
1982…
CRAY YMP
1990…CRAY T90
1996…
TERA 1
2001…
MAINFRAME MAINFRAME VECTORIEL
VECTORIEL VECTORIEL MASSIVEMENT PARALLELE
Introduction au Calcul Haute Performance
ENSIIE – Composants d’un super-calculateur Février 2019 | 7/77
Introduction au Calcul Haute Performance
Les super-calculateurs
Très dépendants des technologies matérielles qui leur sont contemporainesL'objet désigné par le terme évolue donc au cours du temps
Aujourd'hui, un super-calculateur est dans la majorité des casUne grappe de machines de calcul (cluster) et d'espaces de stockage fédérés au travers d'un ou plusieurs réseaux à haut débit et faible latenceUne machine fortement parallèle nécessitant des algorithmes de calcul adaptés
1997 – ASCI Red (Intel) 2008 – RoadRunner (IBM) 2012 – K (Fujitsu)
ENSIIE – Composants d’un super-calculateur Février 2019 | 8/77
Introduction au Calcul Haute Performance
Les métriques associées
Puissance de calcul
La puissance de calcul s'exprime généralement en Flop/s (ou Flops)nombre d'opérations en virgule flottante par secondeGF = 10 : domaine de puissance des processeurs actuels (qq 100)⁹TF = 10¹² : puissance atteinte par un supercalculateur en 1997 (ASCI Red)PF = 10¹⁵ : puissance atteinte par un supercalculateur en 2008 (RoadRunner)EF = 10¹⁸ : prochaine étape « attendue » dans l'évolution des systèmes
La précision des flottants variant entre single (32 bits) et double (64 bits), il est important de comparer des puissances exprimées pour des précisions similaires
Aujourd'hui, la machine la plus performante atteint plus de 93 PFlopsSunway TaihuLight du National SuperComputing Center in Wuxi, ChineUtilisation conjointe de plus de 10 millions de cœurs de calcul
ENSIIE – Composants d’un super-calculateur Février 2019 | 9/77
HPC Top 500
Le classement des supercalculateurs
Deux classements , juin et novembreUn classement mouvant Basé sur un code de benchmark Linpack
Peak perf = (nb op /cycle ) * (cycle / sec)
Nov 2017 : Chine NSC Wuxi Nov 2018 : USA ORNL
ENSIIE – Composants d’un super-calculateur Février 2019 | 10/77
HPC Top 500 : Top 5 Nov 2018
ENSIIE – Composants d’un super-calculateur Février 2019 | 11/77
HPC Green 500 : Top 5 Nov 2018
ENSIIE – Composants d’un super-calculateur Février 2019 | 12/77129 décembre 2011Présentation TGCC / CCRT
Introduction au Calcul Haute PerformanceLe centre de calcul TERA
ENSIIE – Composants d’un super-calculateur Février 2019 | 13/77
Introduction au Calcul Haute PerformanceLa machine T1000
11 février 2019
ENSIIE – Composants d’un super-calculateur Février 2019 | 14/77
TERA 1000 (16)
11 PFlops/s > 8000 nœuds Mem 1600 TB FS 500 GB/s
TGCC/Joliot-Curie (40)
6+3 PFlops/s > 1600 +666 nœuds Mem 320 + 128 TB FS 300 GB/s
Les super-calculateurs installés au CEA
Introduction au Calcul Haute PerformanceExemples de centres de calcul
Introduction au Calcul Haute PerformanceLa méthode de la simulation numérique
Le phénomène ou système
Le modèle
La discrétisation
Le calcul
La comparaison avec l’expérience…
ENSIIE – Composants d’un super-calculateur Février 2019 | 16/77
Le calcul parallèle
Majoritairement dominé par le standard MPI (Message Passing Interface)chaque tâche dispose de son propre espace mémoirechaque tâche dialogue avec les autres tâches par transfert de messages
Différents type de messages (barrières, scatter/gather, broadcast, ...)Souvent une tâche par cœur de calcul
Ou plusieurs si la tâche dispose de plusieurs threads de calculDonc plusieurs tâches sur un même nœud
Mode Hybride MPI/OpenMPOpenMP simplifie l'utilisation de plusieurs threads partâche pour répartir les calculs des boucles detraitement type for / while (via pragma dans le code)
Types de calcul parallèleSPMD : Single Program Multiple Data
Chaque tâche exécute le même programmeMPMD : Multiple Program Multiple Data
Chaque tâche peut exécuter un programme différent
Introduction au Calcul Haute PerformanceLe calcul parallèle
| PAGE 17
Présentation d’un centre de calcul
- Architecture
- Fonctionnement
| PAGE 17
CEA | 10 AVRIL 2012
Climatisation, refroidissement
…
Réseau haut débit
Supercalculateur
Stockage de données
Ligne électrique
Des équipes d’experts pluridisciplinairespour piloter ces moyens exceptionnels et accompagner les utilisateurs
Le centre de calcul
ENSIIE – Composants d’un super-calculateur Février 2019 | 19/77
services internes
services externesinfrastructure de
sécurité
réseau des
administrateurs
Calculateurs & Stockage local
ST Global-Disques
ST-Bandes
Réseau haut débit
Réseau dorsale du centre de calcul
Architecture logique d’un centre de calcul
ENSIIE – Composants d’un super-calculateur Février 2019 | 20/77
Le centre de calcul (les éléments)
Les différents éléments
Super-calculateurs
StockageHome utilisateurStockage de résultats intermédiaires (intégré aux super-calculateurs)Stockage des résultats définitifsArchivage
Clusters de pré/post traitement
AutresClusters de statistiques
ENSIIE – Composants d’un super-calculateur Février 2019 | 21/77
Le centre de calcul (les éléments)
ServicesServices « internes »
Authentification (LDAP, Kerberos, ...)Identification (LDAP, ...)DNSTempsSauvegardeMonitoringLicences...
Services « externes »Serveur webServeur de transfertServeur de soumission, de visualisation distante...
Services « administrateurs »Outils de diffusion d’information (wiki)
ENSIIE – Composants d’un super-calculateur Février 2019 | 22/77
Le centre de calcul (la sécurité)
La sécurité
Sécurité périmétriqueSécurisation des points d’entrée/sorties du centre de calcul
Sécurité en profondeurIsolation / BullesSéparation entre les administrateurs et les utilisateursProtection des services administrateurs
Rem :La sécurité de l’ensemble du centre de calcul dépend de la sécurité du plus faible élément
Capacité d’analyse / forensicsCentralisation / analyses des logsStockage des logs « hors centre de calcul »...
ENSIIE – Composants d’un super-calculateur Février 2019 | 23/77
Le centre de calcul
Les différents types d’architecture
StandardLes super-calculateurs possèdent leur propre stockage
Data-centriqueLes ressources de stockage sont centralisés
Hybride
Rem :Cela dépend de l’utilisation du centre de calcul
ENSIIE – Composants d’un super-calculateur Février 2019 | 24/77
Exemple d’architecture hybride
Principe
| PAGE 25
Le fonctionnement d’un centre de calcul
| PAGE 25
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 26/77
Le fonctionnement d’un centre de calcul
11 février 2019
11 février 201911 février 2019
Serveurs
Cluster destatistiques
surveillance
Demandes utilisateurs
Refroidissement
Électricité
Ordonnanceur
Stockage
Calculateurs
Réseau
ENSIIE – Composants d’un super-calculateur Février 2019 | 27/77
Le fonctionnement d’un centre de calcul
....
| PAGE 28
Composantes principales d'un super-calculateur
| PAGE 28
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 29/77
Infrastructures
Interconnexion
Composantes principales d'un super-calculateur
Stockage
Nœuds de calcul
Logiciel
Nœuds de login
Nœuds de services
Nœuds d’administration
| PAGE 30
Les nœuds d’un super-calculateur
| PAGE 30
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 31/77
Composantes principales d'un super-calculateurLes nœuds
Différents types de nœuds
Les nœuds de calcul
Les nœuds de login(Nécessaire à la connexion, à la compilation, ...)
Les autres nœudsLes nœuds de visualisation
(solution de visualisation des résultats)Les nœuds « grosse mémoire »
(solution parfois nécessaire pour le pré/post traitement)
Les nœuds de services(utile pour faire tourner des process de soumission, ...)
Les nœuds d’administration
ENSIIE – Composants d’un super-calculateur Février 2019 | 32/77
Composantes principales d'un super-calculateurLes nœuds de calcul
Nœuds de calculNœuds de calcul
Objectifs
Fournir la puissance de calcul unitaire du systèmeArchitecture multi-processeurs, multi-cœurs
Majoritairement NUMA(Non-Uniform Memory Access)
Fournir le volume mémoire nécessaire à la résolution des problèmes
Ainsi que des débits mémoires optimums
Fournir les accès aux réseaux de communication du calculateurs
Réseaux d'administration et de gestionRéseaux rapides de calcul/stockage
Minimiser l'espace/volume nécessairePour maximiser le nombre de serveurs sur une même empreinte au sol
Garantir un fonctionnement constant et optimal
ENSIIE – Composants d’un super-calculateur Février 2019 | 33/77
Composantes principales d'un super-calculateurLes nœuds de calcul
Nœuds de calculNœuds de calcul
Processeurs
Majoritairement scalaire de type x86 64 bit (SISD)Multi-cœursUtilisation d'instructions vectorielles(AVX, type SIMD)
Intéressant pour certains types de calculIntel relativement bien implanté sur le marché
Haswell, Broadwell, Skylake, KNLAMD : Naples et RomeNvidia
Taxonomie de Flynn
ENSIIE – Composants d’un super-calculateur Février 2019 | 34/77
Composantes principales d'un super-calculateurLes nœuds de calcul
ENSIIE – Composants d’un super-calculateur Février 2019 | 35/77
Composantes principales d'un super-calculateurLes nœuds de calcul
Nœuds de calculNœuds de calcul
Accélérateurs HW
Utilisation croissante d'accélérateurs additionnelsGPU type NVIDIA Kepler/PascalMany-core type Intel MIC (KNL)
Nécessite une adaptation/modification des codesTravail potentiellement conséquent
Gains relatifs aux types d'applicationBus de communication PCI limite les débits mémoire centrale <-> mémoire accélérateurNécessite une grande autonomie des calculs une fois chargés sur accélérateur
| PAGE 36
Composantes principales d'un super-calculateurLes nœuds de calcul : un processeur KNL
ENSIIE – Composants d’un super-calculateur Février 2019 | 37/77
Composantes principales d'un super-calculateurLame de calcul SEQUANA des machines T1000
11 février 2019
ENSIIE – Composants d’un super-calculateur Février 2019 | 38/77
Composantes principales d'un super-calculateurRack Sequana des machines T1000
11 février 2019 | PAGE 38
| PAGE 39
Le réseau d’interconnexion
| PAGE 39
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 40/77
Interconnexion
Composantes principales d'un super-calculateurLe réseau d’interconnexion
Objectifs
Fédérer l'ensemble des entités de calcul et de stockageFournir l'ensemble des connexions point à point entre tous cescomposants
Fournir une très bonne qualité de service aux applications et auxsystèmes de fichiers distribués
En terme de bande passante (débit)En terme de latence
Assurer la tolérance aux pannes des équipements d'interconnexionDans la limite de la conservation de la connectivitéEn dégradant le service par une diminution des débits (congestion plus forte)
ENSIIE – Composants d’un super-calculateur Février 2019 | 41/77
Réseau d'interconnexion
Différents typesPropriétaires
IBM : --Cray : Gemini, AriesFujitsu : Tofu
StandardisésInfiniband1/10Gb Ethernet
Différentes caractéristiquesLatences : de l'ordre de la us à quelques msDébits : 1Gb/s, 10 Gb/S, 40 Gb/s, 54 Gb/s, 100 Gb/s ...Packet-switched / Circuit-Switched (transfert de paquets ou établissement d'un circuit)Bloquant / Non-bloquant (il existe toujours un chemin possible entre 2 nœuds)Capacités : RDMA (Remote Direct Memory Access), Routage adaptatif, ...
Composantes principales d'un super-calculateurLe réseau d’interconnexion
ENSIIE – Composants d’un super-calculateur Février 2019 | 42/77
Interconnexion
Topologie d'interconnexion
Détermine la manière dont les nœuds sont fédérésLes différents niveaux de regroupementLes connexions entre regroupements
Détermine les caractéristiques du réseauNombre de nœuds maximumNombre de sauts maximum entre deux nœuds (diamètre)Différents niveaux de localité (voisinages réseaux)...
Topologies courantes
Tore 2D (3D, ...)
Hypercube
Arbre (Fat Tree)
Composantes principales d'un super-calculateurLe réseau d’interconnexion
ENSIIE – Composants d’un super-calculateur Février 2019 | 43/77
Interconnexion
Topologie d'interconnexion
Fat Tree~4000 nœuds
3D Torus~8000 Nœuds
Composantes principales d'un super-calculateurLe réseau d’interconnexion
ENSIIE – Composants d’un super-calculateur Février 2019 | 44/77
Composantes principales d'un super-calculateurLe réseau d’interconnexion
Gestion du réseau d’interconnexion
Nécessité de gérer le réseau pour :Définir des routes pour aller d’un nœud à un autreIdentifier les liens et nœuds en panne
Monitoring / alerteTrouver des routes alternatives
=> Introduction d’un « fabric manager »
2 types de gestion :In band :
les trames de gestion du réseau se font sur le réseau lui-mêmeOut of band :
les trames de gestion du réseau se font hors du réseau d’interconnexion (via en générale le réseau d’administration)
| PAGE 45
Le stockage
| PAGE 45
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 46/77
Composantes principales d'un super-calculateurLe stockage
Objectifs
Fournir un service de systèmes de fichiers distribuésEx : NFS, GPFS, Lustre, ...
Fournir les capacités de stockage nécessaires au bon déroulementdes applications
Fonction du type d'applications exécutées et de leurs volumesproduits
Fournir les débits d'accès globaux attendus en lecture/écriture pour l'ensemble du calculateur
Plusieurs applications s'exécutent simultanément en production sur un calculateur
Assurer la cohérence et la robustesse du service de stockageTolérance aux pannes matérielles courantes
Assurer la conservation des données critiques sur de longues périodes de tempsDonnées coûteuses à générer nécessitant un archivage à long terme
Stockage
ENSIIE – Composants d’un super-calculateur Février 2019 | 47/77
Principe
Utilisation de baies de disques à hautes performance & disponibilité
Exportant un ensemble de cibles disques SANDonc une certaine capacité à un certain débit
En assurant la robustesse du serviceContrôleurs SAN redondants et remplaçables à chaudDisques remplaçables à chaudCibles configurées en RAID 5/6
- Redundant Array of Independant Disk mode 5 ou 6 :Répartition des données sur plusieurs disques autorisant de 1 à plusieurs pannes de disque simultanées
Exp : baie DDN SFA10K300 disques 1TB -> 300 TB RAW30 LUN de 10 disques en RAID 6 (8+2)Débit 10GB/s
Agrégation de plusieurs baiesEn fonction des capacités et débits globaux souhaités
Stockage
Composantes principales d'un super-calculateurLe stockage
ENSIIE – Composants d’un super-calculateur Février 2019 | 48/77
Principe
Utilisation de nœuds de services intermédiaires
Accédant aux données des baies
Exportant les données aux nœuds de calculNœuds « agents » des systèmes de fichiers distribuésVia le réseau d'interconnexion rapide
Agrégés par « cellule »Ensemble de nœuds de service connectésaux même baiesPermettant une tolérance aux pannes à l'intérieur de la cellule
- Perte d'un nœud toléréePermettant de fournir le débit des baiesassociées sur le réseau haute performance
Stockage
Composantes principales d'un super-calculateurLe stockage
ENSIIE – Composants d’un super-calculateur Février 2019 | 49/77
Principe
Système de fichiers distribués parallèle
Différents typesLustre (Intel), GPFS (IBM), GFS (RedHat), pNFS (EMC, NetApp, IBM)Avec différentes caractéristiques (cohérence entre clients, gestion des locks,...)
Agrège l'ensemble des « cellules IO »Ou une sous-partie
Propose un système de fichiers classique (POSIX)« Montable » sur les nœuds de calcul
Stockage
ClientsClients
ClientsClients
ClientsClients
ClientsClients
Network
DisksCtler
MD ServerDisksCtler
MD Server
DisksCtler
Data ServerDisksCtler
Data ServerDisksCtler
Data ServerDisksCtler
Data Server
Composantes principales d'un super-calculateurLe stockage
| PAGE 50
En résumé
| PAGE 50
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 51/77
Architecture simple
11 février 2019 | PAGE 51
Réseau centre de calcul
net
netLogin
ServicesLogin
GWRS GWRS
CC C C
C
TOMA
services
netC
C C CC
netC
C C CC
netC
C C CC
net L3
calcul
ENSIIE – Composants d’un super-calculateur Février 2019 | 52/77
Architecture îlotée
11 février 2019 | PAGE 52
RéseauCentre de calcul
net
netLogin
ServicesLogin
Login
GWRS GWRS
R R
CC C C
C
ISMAISMA
TOMA
Îlot de services
netR R
CC C C
C
ISMA
netR R
CC C C
C
ISMA
netR R
CC C C
C
ISMA
net L3
Îlots de calcul
| PAGE 53
Le logiciel système
| PAGE 53
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 54/77
Logiciel
Composantes principales d'un super-calculateurLe logiciel système
Objectifs
Permettre l'administration et la gestion des milliers de composantsfédérés
Nommage / adressage des entitésConfiguration et mises à jour des composants (firmware)Installation / déploiement / configuration des systèmes d'exploitation associés aux serveursSupervisionOrchestration des arrêts / démarragesDéfinition des utilisateurs et des groupes...
Proposer un ensemble de services aux utilisateursDéveloppement, Exécution, Debug, Optimisation des codes de calcul séquentiels et parallèlesStockage des diverses données (entrées, sorties, codes, listings, ...)...
ENSIIE – Composants d’un super-calculateur Février 2019 | 55/77
Logiciel
Logiciels
Système d'exploitationMajoritairement de type UNIX / LINUX
RedHat, CentOS, ...Kernel souvent patché pour le support performant des FS parallèles
Composantes principales d'un super-calculateurLe logiciel système
ENSIIE – Composants d’un super-calculateur Février 2019 | 56/77
Logiciel
Logiciels
Pile logicielle « système »Librairies de communication adaptées au réseau d'interconnexion
Ex : drivers et libs RDMA OpenFabrics pour InfinibandFS parallèle
Ex : LustreGestionnaire de ressources (batch)
Ex : Slurm
Pile logicielle « produits » (utilisation à la discrétion des utilisateurs)Compilateurs
Ex : Intel C/C++, Fortran compilersEnvironnements d'exécution parallèle
Ex : MPI, OpenMP, CUDA, OpenACC, UPC, ...Librairies de mathématiques scientifiques
Ex : LAPACK, BLAS (algèbre linéaire), FFTW3 (Signal), ...Librairies d'entrées/sorties avancées
Ex : NetCDF, HDF5, ...
Composantes principales d'un super-calculateurLe logiciel système
ENSIIE – Composants d’un super-calculateur Février 2019 | 57/77
Logiciel
Logiciels
Pile logicielle d'administrationSouvent propriétaire et dépendante du constructeur
IBM, Cray, Bull, ...Enrobant bien souvent des logiciels libres
- DNS Bind, LDAP OpenLDAP, DHCP ISC, OpenSSH, Apache HTTPDDes alternatives Open-source existent
Mais ne sont pas toujours bien adaptées aux particularités des machines propriétaires ou à leurs taillesEx : Cobbler
Gestion de configuration + notion de traçabilité des évolutions (Puppet + git)
Rem :Réseau spécifique d’administration afin de différentier les flux d’administration différents des flux utilisateurs.Administration centralisée
Composantes principales d'un super-calculateurLe logiciel système
ENSIIE – Composants d’un super-calculateur Février 2019 | 58/77
Logiciel
Le gestionnaire de ressources
Intermédiaire entre l'utilisateur et le super-calculateur
Reçoit et traite les demandes d'exécution de calculAllocation des ressources et démarrage des applications parallèles
Chef d'orchestre de l'utilisation du super-calculateur
Connaissance précise de la configuration et de l'état du systèmeDescription de l'ensemble des nœuds et de leurs caractéristiques
- Nombre de cœurs, quantité de mémoire, ...
Connaissance précise des demandes d'exécution des utilisateursNombre de tâches, de coeurs/mémoire par tâche, ...
Connaissance précise des paramètres de répartition des ressources entre utilisateursQuotas par groupe d'utilisateur, qualités de service, ...
Composantes principales d'un super-calculateurLe logiciel système
ENSIIE – Composants d’un super-calculateur Février 2019 | 59/77
Logiciel
Le gestionnaire de ressources
Point central de l'optimisation de l'usage du système
Placement des jobs en fonction des hiérarchies matériellesEx : NUMA intra-nœuds, topologies réseaux, ...
Remplissage au mieux des nœuds pour minimiser les ressources inutiliséesEx : Backfill
Optimisation de la consommation énergétiqueEx : arrêt électrique des nœuds non utiles à un instant donné
Exécution
Cores
Priorities
Composantes principales d'un super-calculateurLe logiciel système
ENSIIE – Composants d’un super-calculateur Février 2019 | 60/77
Logiciel
Le gestionnaire de ressources
Différents produits disponiblesPropriétaires : LSF (IBM), Moab (Adaptive Computing), ...Open-source : SLURM (SchedMD), Torque (Adaptive Computing), ...
Gestionnaire de ressources utilisé au CEA : SLURM (Open-source)En production sur les dernières générations de super-calculateurs déployées
TERA100, Curie, ...Participation à la communauté depuis 2007
Patchs, features, meetings, ...Participation à l'évolution du produit
Travaux communs Bull / CEA / SchedMD
Composantes principales d'un super-calculateurLe logiciel système
| PAGE 61
Maintenance
| PAGE 61
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 62/77
Les principes
Maintient en condition des différents éléments suivant un contrat de disponibilité (SLA : Service Level Agreement)
Différents types :Maintenance préventive
Sur taux d’erreur d’un composant (disques, mémoire, ...)Maintenance corrective
Suite à une panne d’un élémentRem :
Les notions de HA (high availibility) ou de nospof (No single point of failure) sont alors importantes
Maintenance évolutiveMise en place de patch de sécurité, évolution système, ...
Rem :Des notions de rolling upgrade (mise à jour progressive) sont en train d’apparaître
Maintenance
| PAGE 63
Les infrastructures
| PAGE 63
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 64/77
Infrastructures
Les infrastructures
Objectifs
Accueillir l'ensemble des composants matériels
Fournir la puissance électrique nécessaireDe l'ordre de plusieurs Mégawatt (MW)
Équivalent d'une ville de plusieurs milliers d'habitantsPour alimenter le matériel informatiquePour alimenter les servitudes
Fournir la puissance de refroidissement nécessaireMême ordre de grandeur que la puissance électrique
La plus grande partie de l'énergie électrique étant transformée en chaleur par effet Joules
Optimiser la consommation énergétique globaleNotion de PUE (Power Usage Effectiveness)
ENSIIE – Composants d’un super-calculateur Février 2019 | 65/77
Infrastructures
Crawl space
Raised floor : Cold air + power and data cables
Machine room
Dropped ceiling : Air return
Crawl space
Groupes froid
Trans. ÉlectriquesUPS
Salles machines
Salles stockage
Unités de traitementDe l'air
Les infrastructures
ENSIIE – Composants d’un super-calculateur Février 2019 | 66/77
Infrastructures
Optimisation du PUE
Co-design infrastructures - matérielRéduction des pertes électriquesAmélioration des rendements de refroidissement
Alimentationeau glacéePorte froide
Les infrastructures
ENSIIE – Composants d’un super-calculateur Février 2019 | 67/77
Infrastructures
Optimisation du PUE
Refroidissement à eau chaudeUne eau à 35°C permet de refroidir un processeur à 60°C=> permet de supprimer la production d’eau glacée
Récupération de la chaleurUtilisation pour le chauffage des bâtiments (pompe à caleur)=> conception du couplage dès l’origine
Les infrastructures
ENSIIE – Composants d’un super-calculateur Février 2019 | 68/77
Rack Sequana des machines T1K 2.X
11 février 2019
ENSIIE – Composants d’un super-calculateur Février 2019 | 69/77
Simulation thermique d’une salle machine
11 février 2019
| PAGE 70
Calcul Haute Performance
Les challenges à venir
| PAGE 70
CEA | 10 AVRIL 2012
ENSIIE – Composants d’un super-calculateur Février 2019 | 71/77
Introduction au Calcul Haute PerformanceLes challenges à venir
Exascale computing
CiblesEn 2020 (Exa = 2¹⁸)
Contraintes majeuresÉnergie
Estimations actuelles à 100 MégaWatt pour 1 système Exaflopique~la consommation d'une ville de 100 000 habitants...Budgets réalistes limités à une consommation de 20MW-> c'est à dire à peu près la consommation actuelle du système #1 à 93 Pflops/s (16MW)-> nécessité d'un x10 des performances sans consommer un Watt de plus
Taille des systèmesLimite des performances unitaires des unités de calculAugmentation très importante du nombre de cœurs et de nœuds-> conséquences importantes sur toutes les piles logicielles et les codes de calcul eux-mêmes
ENSIIE – Composants d’un super-calculateur Février 2019 | 72/77
Introduction au Calcul Haute PerformanceLes challenges à venir
ENSIIE – Composants d’un super-calculateur Février 2019 | 73/77
Introduction au Calcul Haute PerformanceLes nouveaux concepts
Introduction de nouveaux concepts
Machine learningRécupération d’un maximum de données du centre de calcul
=> mise en place d’un cluster de « statistiques » (80 nœuds, 7 milliards d’événements par jour)
Analyse de ces données
Intelligence artificielle (deep learning)Analyse de l’état du centre de calculDécision et actions de corrections automatiques, de mises à jour, ...
ENSIIE – Composants d’un super-calculateur Février 2019 | 74/77
Organisation en différentes thématiques
Applications
Exploitation
Fiabilité
Adaptabilité I/O
Utilisabilité
Sécurité
| PAGE 74
ENSIIE – Composants d’un super-calculateur Février 2019 | 75/77
Introduction au Calcul Haute PerformanceNotre moteur d’innovations
2 approches
Évolution en continu du centre de calcul
R&D long terme
Centre de calcul Centre de calcul futur
| PAGE 75
ENSIIE – Composants d’un super-calculateur Février 2019 | 76/77769 décembre 2011Présentation TGCC / CCRT
Questions
| PAGE 77 DAM/DIFCommissariat à l’énergie atomique et aux énergies alternatives
Centre DAM Ile-de-France | Bruyères-le-Châtel 91297 Arpajon Cedex
T. +33 (0)1 69 26 40 00 |Etablissement public à caractère industriel et commercial | RCS Paris B 775 685 019
| PAGE 77CEA | 10 AVRIL 2012