Intel lance officiellement Sapphire Rapids et HPC

Par Tiffany Trader

10 janvier 2023

Après un certain nombre de retards, Intel a lancé son processeur Intel Xeon Scalable de quatrième génération, nommé Sapphire Rapids, le successeur d'Ice Lake. Fabriquée sur le nœud Intel 7 (anciennement connu sous le nom de 10 nm) et arborant jusqu'à 60 cœurs Golden Cove par processeur ainsi que de nouveaux cœurs d'accélérateur dédiés, la plate-forme offre un gain de performances moyen de 1,53 fois par rapport à la génération précédente et une performance moyenne de 2,9 fois par watt d'efficacité amélioration pour les charges de travail ciblées utilisant les nouveaux accélérateurs, selon Intel.

Le lancement, qui s'est tenu aujourd'hui en tant que soirée mondiale de surveillance en direct, comprenait également le CPU et le GPU de la série Max récemment renommés, qui s'appelaient auparavant "Sapphire Rapids HBM" et "Ponte Vecchio", respectivement.

La famille Sapphire Rapids comprend 52 SKU (voir tableau) regroupés en 10 segments, y compris la série Max : 11 sont optimisés pour les performances à 2 sockets (8 à 56 cœurs, 150-350 watts), 7 pour les performances de la ligne principale à 2 sockets ( 12 à 36 cœurs, 150-300 watts), 10 cibles à quatre et huit prises (8 à 60 cœurs, 195-350 watts), et il y a 3 parties optimisées à une seule prise (8 à 32 cœurs, 125-250 watts ). Il existe également des références SKU optimisées pour le cloud, la mise en réseau, le stockage, les médias et d'autres charges de travail.

La gamme des références de la série Xeon Max "HPC Optimized" comprend des versions à 32, 40, 48, 52 et 56 cœurs. Ces cinq pièces à 2 sockets atteignent 350 watts, et le prix de la liste va de 7 995 $ pour le 9462 à 32 cœurs à 12 980 $ pour le 9480 à 56 cœurs. Il y a deux références plus chères que la série 9480 Max : la 60- core 8490H, qui coûte 17 000 $, et le 8460H à 48 cœurs à 13 923 $.

Lors d'une conférence de presse à Hillsboro, dans l'Oregon, le mois dernier, Ronak Singhal, membre senior d'Intel, a fait référence au large éventail de SKU, en disant : "Les clients diront que vous avez trop de SKU, pouvez-vous réduire le nombre de SKU, mais pouvez-vous ajouter ces trois références qui sont vraiment, vraiment importantes ? Nous avons donc ce push and pull avec nos clients."

Les nouvelles fonctionnalités des processeurs Intel Xeon Scalable de quatrième génération incluent PCIe 5.0, la mémoire DDR5 et la prise en charge de CXL 1.1.

La partie 56 cœurs 8480+ à deux sockets haut de gamme (non HBM) - avec 40% de cœurs en plus que son homologue Ice Lake - a atteint des améliorations de performances de génération en génération sur un certain nombre de références, offrant un 1.5x amélioration sur Stream Triad, une amélioration de 1,4x pour HPL et une amélioration de 1,6x sur HPCG. Les tests Intel sur plus d'une douzaine d'applications du monde réel (dont WRF, Black Scholes, Monte Carlo et OpenFoam) ont montré des accélérations similaires, avec le gain le plus important pour une charge de travail physique, CosmoFlow (2,6x).

Le processeur de la série Max est le premier processeur x86 avec une mémoire à large bande passante intégrée. Il offre un gain de performances de 3,7 fois pour les charges de travail liées à la mémoire, selon Intel, et nécessite 68 % d'énergie en moins que les « systèmes concurrents déployés ». Sur l'application AlphaFold2, le processeur Xeon Max a montré une accélération 3x par rapport au processeur Ice Lake lors des tests Intel. Remarquable pour les observateurs de référence HPC, le processeur de la série Max atteint une accélération de près de 2,4x sur HPCG et une accélération de 3,5x pour Stream Triad, par rapport à l'équivalent Sapphire Rapids DDR uniquement. Le HBM du processeur de la série Max n'offrait aucune amélioration des performances pour le benchmark High Performance Linpack.

Le GPU "Ponte Vecchio" de la série Max, également lancé aujourd'hui, contient plus de 100 milliards de transistors dans un boîtier de 47 tuiles avec jusqu'à 128 cœurs Xe HPC. Selon le facteur de forme, il prend en charge jusqu'à 128 Go de mémoire HBM2e et fournit jusqu'à 52 téraflops FP64 de pointe. La combinaison du GPU de la série Max avec la plate-forme CPU de la série Max (dans un rapport GPU:CPU de trois pour un) offre une augmentation des performances de 12,9x pour les charges de travail de dynamique moléculaire LAMMPS, par rapport à une plate-forme Ice Lake sans GPU, selon une analyse comparative menée par Intel. L'ajout de GPU Max (six GPU ajoutés à un serveur à 2 processeurs) s'est traduit par une augmentation de 9,9 fois par rapport à une plate-forme uniquement CPU de la série Max pour la même charge de travail. La mémoire à bande passante élevée sur les processeurs hôtes a permis une amélioration des performances de 1,55x par rapport à l'utilisation de DDR5 uniquement. (Photo d'une démonstration donnée à Hillsboro, Oregon, le mois dernier.)

Les deux composants de la série Max devaient initialement faire leurs débuts dans le supercalculateur Aurora, mais en raison de retards, le déploiement initial utilise les non-HBM Sapphire Rapids en plus des GPU "Ponte Vecchio" de la série Max. Le processeur de la série Max équipé de HBM fera désormais ses débuts dans le supercalculateur Crossroads construit par HPE, qui est en construction au Los Alamos National Lab. Les chercheurs signalent des améliorations de performances jusqu'à 8,6 fois pour le matériel Intel Max de pré-production par rapport aux systèmes HPC de génération Intel Broadwell au LANL sans modification du code. L'amélioration moyenne constatée est de 4x, selon Jim Lujan, directeur du programme HPC Platforms/Projects, LANL.

Les produits CPU de la série Max ont également été sélectionnés pour les systèmes CTS-2 du Lawrence Livermore National Laboratory et du Sandia National Laboratory, et pour le supercalculateur Camphor 3 de l'Université de Kyoto avec Dell comme partenaire serveur pour les deux projets. L'Argentine s'apprête à déployer ce printemps un système Max+Max de Lenovo pour le Service météorologique national du pays.

Les processeurs de la série Max font désormais partie d'un chemin de mise à niveau pour Aurora au Laboratoire national d'Argonne. Le système Intel/HPE actuellement installé dispose de 20 000 processeurs Sapphire Rapids et de 60 000 GPU de la série Max dans un facteur de forme qu'Intel appelle la plate-forme de calcul exascale, ou ECP (un clin d'œil clair au projet de calcul exascale). Le laboratoire prévoit d'échanger les pièces Max CPU HBM cette année. Le collage des nouveaux processeurs pourrait prendre de l'ordre de 5 000 heures, selon une personne d'Intel familière avec le projet qui a estimé que cela prendrait environ 30 minutes par lame (x10 000 lames).

Un banc d'essai pour évaluer et déboguer les technologies du système Aurora à pic de 2 plus exaflops est situé sur le site de Jones Farm à Hillsboro, dans l'Oregon. Appelé Borealis, il s'agit d'un système à deux racks et 128 lames, avec un autre système à un rack et 64 lames offrant des possibilités de test supplémentaires. Borealis dispose d'un système jumeau appelé Sunspot qui est installé et opérationnel à Argonne. Sunspot est le système de test et de développement du supercalculateur Aurora, dont le lancement est prévu cette année à Argonne. Intel met actuellement à jour Borealis avec les processeurs de la série Max.

Accélération intégrée et nouvelles options de licence

Sapphire Rapids présente quatre nouveaux accélérateurs dédiés (en plus de l'AVX-512, qui a fait ses débuts avec le produit Xeon Phi "Knights Landing" en 2016) :

Intel Advanced Matrix Extensions (Intel AMX) accélère les charges de travail d'inférence et de formation d'apprentissage en profondeur (DL), telles que le traitement du langage naturel (NLP), les systèmes de recommandation et la reconnaissance d'images.

Intel Data Streaming Accelerator (Intel DSA) offre des performances élevées pour le stockage, la mise en réseau et les charges de travail gourmandes en données en améliorant les opérations de mouvement et de transformation des données en continu.

Intel In-Memory Analytics Accelerator (Intel IAA) améliore les performances d'analyse tout en déchargeant les tâches des cœurs de processeur pour accélérer le débit des requêtes de base de données et d'autres charges de travail.

Intel Dynamic Load Balancer (Intel DLB) fournit un équilibrage de charge matériel efficace en distribuant dynamiquement les données du réseau sur plusieurs cœurs de processeur lorsque la charge du système varie.

Avec un nouveau service appelé Intel On Demand (anciennement appelé silicium défini par logiciel, SDSi), les clients auront la possibilité d'activer ou de mettre à niveau certains de ces accélérateurs après l'achat. "On Demand donnera aux clients finaux la possibilité de choisir des SKU premium complets ou la possibilité d'ajouter des fonctionnalités à tout moment tout au long du cycle de vie du processeur Xeon", a déclaré Intel. Le prix varie en fonction du modèle de licence. On Demand s'applique actuellement aux fonctionnalités suivantes : Intel Dynamic Load Balancer, Intel Data Streaming Accelerator, Intel In-Memory Analytics Accelerator, Intel Quick Assist Technology et Intel Software Guard Extensions. Notez que les processeurs de la série Max et les SKU évolutives par socket (balisé -H) n'ont pas de capacité à la demande ; pas plus que la partie monosocket à 8 cœurs (3408U).

Les partenaires de l'écosystème Sapphire Rapids incluent AWS, Cisco, Dell Technologies, Fujitsu, Google Cloud, HPE, IBM Cloud, Inspur, Lenovo, Microsoft Azure, Nvidia, Oracle, Supermicro, VMware et autres. Intel rapporte que plus de 30 conceptions de systèmes CPU de la série Max arrivent sur le marché et 15 conceptions de systèmes basées sur le GPU de la série Max sont également en cours de développement.

Accélération intégrée et nouvelles options de licence

Nouvelles