Toate aceste GPU-uri au nevoie de o tehnologie de comutare adecvată pentru halucinații AI fără lag
Pe scurt: Incursiunea sălbatică a lui Elon Musk în domeniul AI a dus la construirea unui supercomputer masiv în timp record. În mod curios, Nvidia observă că acest supersistem nu utilizează standardul tradițional de rețea InfiniBand pentru a transfera date așa cum s-ar putea aștepta.
Sistemul de calcul de înaltă performanță construit de xAI, cu 100.000 de GPU Hopper, poartă numele de Colossus. Sistemul utilizează platforma de rețea Spectrum-X a companiei în loc de InfiniBand, pe care Nvidia l-a achiziționat în 2019 împreună cu ultimul furnizor independent al tehnologiei, Mellanox.
Nvidia a declarat că designerii lui Colossus au atins scara masivă a sistemului în mare parte datorită Spectrum-X. Această tehnologie îmbunătățește semnificativ performanța rețelei de acces direct la memorie, utilizând în același timp dispozitive de comunicare Ethernet „bazate pe standarde”. Colossus a fost construit în timp record, iar echipa xAI este acum în proces de a-și dubla performanța prin instalarea a 100.000 de GPU Hopper suplimentare în sistem.
Dispozitivele Ethernet standard sunt insuficiente pentru Colossus, deoarece pot provoca mii de coliziuni ale fluxului și pot oferi un flux de date slab de 60%. În schimb, Spectrum-X garantează „degradarea latenței aplicației zero” și elimină pierderea de pachete din cauza coliziunilor fluxului, menținând un flux de date semnificativ mai mare de 95% prin sistemul său de „control al congestiei”. Colossus antrenează modele lingvistice mari care aparțin familiei Grok și necesită performanțe de rețea „fără precedent” pentru a face acest lucru.
Spectrum-X nu este tehnologia dumneavoastră Ethernet comună. Nucleul platformei este comutatorul Spectrum SN5600 Ethernet, despre care Nvidia susține că poate suporta până la 800 Gbps per singur port. Acest comutator este construit pe un ASIC personalizat Spectrum-4, iar xAI l-a asociat cu Nvidia BlueField-3 SuperNIC pentru a accelera eficient comunicarea GPU-la-GPU.
Colossus din Memphis de la .@xAI, cel mai mare supercomputer AI din lume cu 100.000 de GPU-uri NVIDIA Hopper, atinge noi culmi cu NVIDIA Spectrum-X Ethernet. O dovadă a devotamentului NVIDIA față de progresul #AI.
Citiți mai multe: https://t.co/NDSMpQKbGl pic.twitter.com/KpLpWg3Ao1
– NVIDIA (@nvidia) 28 octombrie 2024
InfiniBand a fost conceput special pentru a satisface nevoile de comunicare ale sistemelor HPC, menținând pierderea de pachete la un nivel minim absolut. În timp ce Ethernetul are o rată semnificativ mai mare de pierdere de date, rămâne extrem de popular – chiar și pe piața HPC sensibilă la viteză – datorită unor factori precum compatibilitatea ridicată, alegerea furnizorului și posibilități mai mari de lățime de bandă pentru un singur port.
Nvidia a declarat că platforma sa de rețea Spectrum-X Ethernet poate accelera dezvoltarea unor sisteme AI puternice precum Colossus, reducând timpul necesar pentru a pune online mașinile HPC masive. Tehnologia Spectrum-X este scalabilă și poate oferi caracteristici de rețea care erau disponibile anterior doar prin soluțiile InfiniBand.