banner

Blog

Sep 12, 2023

Il tessuto NVSwitch che è l'hub del SuperPOD DGX H100

Normalmente, quando osserviamo un sistema, pensiamo dai motori di calcolo ai minimi dettagli e poi ci facciamo strada attraverso le complessità dei nodi e poi l'interconnessione e lo stack software che lo scala attraverso i nodi in una piattaforma informatica distribuita. .

Ma questa volta, quando esamineremo i numerosi annunci che Nvidia sta facendo all'evento online GPU Technical Conference 2022, vogliamo iniziare dallo strato intermedio in cui i nodi incontrano la rete e procedere verso l'alto perché questo è ciò che rende Nvidia un vero contendente come produttore di sistemi informatici ad alte prestazioni, ovvero macchine progettate per eseguire carichi di lavoro di intelligenza artificiale, HPC e analisi dei dati e non solo la tradizionale simulazione e modellazione HPC.

In effetti, riteniamo che le innovazioni lanciate quest’anno al GTC 2022 renderanno Nvidia uno dei principali appaltatori principali per tali sistemi che operano su scala exa e oltre.

Per giocare a quel gioco, devi avere architettura e tasche profonde, e Nvidia chiaramente le ha entrambe. Con IBM praticamente fuori dai giochi, i supercomputer di classe capacità stanno arrivando a Hewlett Packard Enterprise, Nvidia, Fujitsu (quest'ultimo è praticamente concentrato sul RIKEN Lab in Giappone e su alcuni altri centri che acquistano chip da "K" e " Fugaku”) e Atos (che sta facendo molti affari con i suoi sistemi BullSequana in Europa). Dell, Lenovo e Inspur si concentrano principalmente sulle macchine di classe di capacità necessarie in base a parti di base e sono progettate principalmente per eseguire molti piccoli lavori contemporaneamente piuttosto che ridimensionare alcuni grandi lavori uno alla volta; Ovviamente anche HPE gioca qui. E dopo una corsa di sette anni e il suo impegno come appaltatore principale sul tanto ritardato supercomputer “Aurora” presso l’Argonne National Laboratory, Intel non è più interessata a essere un appaltatore principale nel mercato HPC, e la società ce lo ha ammesso di recente. Anche AMD non ha mostrato tale interesse.

Riteniamo che ci sia un valore intrinseco nell'essere un fornitore full-stack e un costruttore di sistemi, come lo è Nvidia, ma anche nel consentire ai clienti di costruire sistemi utilizzando componenti di prima qualità (o oggigiorno disponibili) o facendolo fare da OEM o ODM. è per loro.

Nvidia è unica in quanto fornisce componenti come AMD e Intel, ma fornisce anche sistemi completi se i clienti desiderano acquistarli. (Intel ha utilizzato Cray e poi HPE come produttore del sistema, anche quando era appaltatore principale per la macchina Aurora.) Nvidia è cresciuta dalla fornitura di sole GPU alla creazione delle proprie schede di sistema HGX, complete di interconnessione di memoria GPU NVSwitch e motori GPU, che può essere accoppiato tramite PCI-Express alle schede madri host X86. A questo scopo, Nvidia può portare la rete Quantum InfiniBand per collegare i nodi e la rete Spectrum Ethernet per la gestione del sistema e l'accesso al sistema distribuito, il tutto utilizzando le schede di interfaccia di rete ConnectX sui server. Per coloro che desiderano eseguire l'offload e il multitenancy, ci sono le DPU BlueField, dotate di processori Arm con un'opzione di acceleratore GPU.

Nvidia potrebbe essersi fatta strada nel business dei supercomputer dai giochi, come ha ammesso il co-fondatore e amministratore delegato dell'azienda Jensen Huang alla conferenza sui supercomputer SC11, ma è andata avanti a tutto vapore da quando Nvidia aveva bisogno di costruire i propri supercomputer per farlo. la progettazione e la verifica dei chip, oltre a spingere oltre i limiti della formazione sull'intelligenza artificiale per i suoi numerosi modelli di reti neurali e casi d'uso.

Da qui le diverse generazioni di supercomputer “Saturn V” e “Selene”, che hanno messo in mostra tutte le tecnologie di Nvidia e la sua brillante produzione di sistemi DXG. Con l'aggiunta di Mellanox Technologies due anni fa, Nvidia è riuscita a coprire tutto l'hardware tranne le CPU, la memoria principale e la flash. Con il chip server Arm "Grace" personalizzato a 72 core, rivelato all'evento GTC dello scorso anno e spedito nella prima metà del prossimo anno, Nvidia sarà in grado di fornirlo, e presenta alcune interessanti modifiche all'architettura che gli daranno un po' di seri vantaggi. Se Nvidia acquistasse Micron Technology – e non stiamo suggerendo che Nvidia dovrebbe farlo – potrebbe realizzare tutto l’hardware del sistema.

CONDIVIDERE