Cum să construiți un server în „100 de pași simpli”: durerile în creștere ale centrelor de date moderne

Configurarea centrelor de date GPU se dovedește a fi o durere de cap

Imaginea de ansamblu: Se dovedește că, dacă dezrădăcinați complet modul în care centrele de date au fost construite în ultimii 10 ani, probabil că vor exista unele dureri de creștere. În timp ce titlurile sunt toate despre creșterea AI, realitatea de pe teren implică o mulțime de dureri de cap.

Când vorbim cu integratorii de sisteme și cu alții care extind sistemele de calcul mari, auzim un flux constant de plângeri cu privire la dificultățile de a pune în funcțiune clustere mari de GPU.

Problema principală este răcirea cu lichid. Sistemele GPU funcționează fierbinte, cu rafturi consumând zeci de mii de wați. Răcirea tradițională cu aer este insuficientă, ceea ce a condus la adoptarea pe scară largă a sistemelor de răcire cu lichid. Această schimbare a dus la creșterea prețurilor acțiunilor unor companii precum Vertiv, care implementează aceste sisteme.

Nota editorului:

Autorul invitat Jonathan Goldberg este fondatorul D2D Advisory, o firmă de consultanță multifuncțională. Jonathan a dezvoltat strategii de creștere și alianțe pentru companii din industria mobilă, rețele, jocuri și software.

Cu toate acestea, răcirea cu lichid este încă relativ nouă pentru centrele de date și nu există destui oameni familiarizați cu instalarea acestora. Ca urmare, răcirea cu lichid a devenit principala cauză a defecțiunilor în centrele de date. Există tot felul de motive pentru aceasta, dar toate se rezumă în esență la faptul că apa și electronicele nu se amestecă bine. Industria va rezolva acest lucru în cele din urmă, dar este un prim exemplu al durerilor în creștere pe care le întâmpină centrele de date.

Există, de asemenea, multe provocări în configurarea GPU-urilor. Acest lucru nu este surprinzător – majoritatea profesioniștilor centrelor de date au o experiență bogată în configurarea procesoarelor, dar pentru mulți dintre ei, GPU-urile sunt un teritoriu necunoscut.

În plus, Nvidia tinde să vândă modele complete, ceea ce introduce un set complet nou de complicații. De exemplu, firmware-ul și sistemele BIOS ale Nvidia nu sunt complet noi, dar sunt doar diferite și suficient de subdezvoltate pentru a provoca întârzieri și un număr neobișnuit de mare de erori. Adăugați stratul de rețea Nvidia în amestec și este ușor de observat cât de frustrant a devenit procesul. Pur și simplu, există o mulțime de tehnologii noi pe care profesioniștii le pot stăpâni într-un interval de timp foarte scurt.

În marea schemă a lucrurilor, acestea sunt doar scăderi de viteză. Niciuna dintre aceste probleme nu este suficient de serioasă pentru a opri dezvoltarea AI, dar pe termen scurt, ele vor deveni probabil mai pronunțate și mai importante. Ne așteptăm ca hiperscalerii să întârzie sau să încetinească lansarea GPU-ului pentru a aborda aceste provocări. Pentru a fi mai precis, este posibil să auzim mai multe despre aceste întârzieri, deoarece au început deja.

Miza recentă de 5 miliarde de dolari a AMD pe centrul de date

Recent, am fost întrebați despre logica din spatele achiziției de către AMD a ZT Systems, deoarece aceasta și complexitatea tot mai mare a instalării clusterelor AI sunt strâns legate, putem folosi ZT ca obiectiv pentru a vedea problemele mai ample din industrie.

Să presupunem că Acme Semiconductor vrea să intre pe piața centrelor de date. Cheltuiesc câteva sute de milioane de dolari pentru a proiecta un procesor. Apoi încearcă să-l vândă clientului lor hyperscaler, dar hyperscaler-ul nu vrea doar un cip – ei doresc un sistem funcțional pentru a-și testa software-ul.

Deci, Acme merge la un ODM (Original Design Manufacturer) și plătește câteva sute de mii de dolari pentru a proiecta un server funcțional, complet cu stocare, alimentare, răcire, rețea și orice altceva. Acme construiește câteva zeci dintre aceste servere și le înmânează potențialilor lor de vânzări de top. În acest moment, Acme este în jur de 1 milion de dolari și observă că cipul lor reprezintă doar 20% din costul sistemului.

Hyperscalerii petrec apoi câteva luni testând sistemul. Unui dintre ei îi place suficient de mult performanța lui Acme pentru a-l supune unui test mai riguros, dar nu își doresc un server standard; doresc unul conceput special pentru operațiunile lor din centrul de date. Aceasta înseamnă un nou design de server cu o configurație complet diferită de stocare, rețea, răcire și multe altele. Hyperscaler-ul dorește, de asemenea, ca Acme să construiască aceste sisteme de testare cu ODM-ul lor preferat.

Dornic să încheie afacerea, Acme plătește factura pentru acest nou design, deși cel puțin hyperscaler-ul plătește pentru sistemele de testare – Acme are în sfârșit niște venituri, poate 100.000 USD. În timp ce primul hyperscaler își execută evaluarea pe mai multe luni, un al doilea client își exprimă interesul. Desigur, își doresc propria configurație de server cu propriul lor ODM preferat. Acme, având nevoie de afacere, acoperă și costul acestui design.

Acme se adresează tuturor OEM-urilor pentru a vedea dacă vreunul va proiecta un sistem de catalog pentru a eficientiza procesul. Producătorii OEM sunt toți foarte prietenoși și interesați de ceea ce face Acme. O treabă grozavă băieți, dar se vor angaja să proiecteze doar odată ce Acme va asigura mai multe afaceri.

În cele din urmă, un client dorește să cumpere în volum – un mare câștig pentru Acme. De data aceasta, pentru că există un volum real implicat, ODM este de acord să facă proiectarea. Cu toate acestea, noul server va folosi cipurile de rețea și de securitate proiectate intern ale hyperscaler-ului, care au fost ținute secrete. Acme nu i-a văzut niciodată și știe puține despre noul server, care a fost proiectat direct între client și ODM. ODM construiește o grămadă de servere, apoi le conectează în interiorul centrului de date al hiperscalerului, pornește comutatorul de alimentare și lucrurile încep imediat să se defecteze.

Acest lucru este de așteptat; bug-urile sunt peste tot. Dar repede, toată lumea începe să dea vina pe Acme pentru probleme, ignorând faptul că Acme a fost în mare parte exclus din procesul de proiectare. Cipul lor este componenta cel mai puțin familiară pentru ODM și client. Acme a lucrat cu clientul pentru a elimina erorile în timpul ciclului de evaluare, dar acest lucru este diferit.

O mare parte din sistem este nou, iar mizele sunt mult mai mari, așa că toată lumea funcționează sub stres. Acme își trimite inginerii de teren la centrul de date super-la distanță pentru a pune în practică sistemul. Cele trei echipe trec peste erori, găsind mai multe pe parcurs. În cele din urmă, se dovedește că procesorul lui Acme intră într-un mod de eroare obscur atunci când interacționează cu cipul de securitate al hyperscaler-ului, componentele de rețea sunt fragile și funcționează cu mult sub specificații și, desigur, fiecare cip rulează un firmware diferit, care este incompatibil cu celelalte.

În plus, răcirea cu lichid – ceva cu care nimeni din echipa de depanare nu a mai lucrat până acum – cauzează probabil 50% dintre probleme. Implementarea durează pe măsură ce echipele rezolvă problemele. La un moment dat, ceva semnificativ trebuie să fie înlocuit în întregime, adăugând mai multe întârzieri și costuri. Dar după luni de muncă, sistemul intră în sfârșit în producție. Apoi, al doilea client al Acme decide că vrea să facă o evaluare mai profundă și întregul proces începe de la capăt.

Și dacă asta nu sună suficient de dureros, nici măcar nu am menționat avocații.

Tocmai pentru a începe proiectul, Acme a trebuit să petreacă nouă luni negociând condiții obositoare cu hyperscaler dintr-o poziție foarte slabă. Când a venit vorba de proiectarea serverului personalizat, cele trei companii (Acme, ODM și clientul) au petrecut probabil șase săptămâni negociind NDA.

Așa au fost construite serverele de ani de zile. Apoi Nvidia a intrat pe piață, aducând propriile modele de servere. Nu numai asta, dar au adus modele pentru rafturi întregi. Nvidia proiectează sisteme de 25 de ani, datând din munca lor pe plăcile grafice. Echipa lor își construiește și propriile centre de date, astfel încât au o echipă internă cu experiență în gestionarea tuturor acestor probleme.

Pentru a concura cu Nvidia, AMD poate fie să petreacă cinci ani replicând echipa Nvidia, fie să cumpere ZT. În teorie, ZT poate ajuta AMD să elimine aproape toată frecarea prezentată mai sus. Este prea devreme pentru a spune cât de bine va funcționa acest lucru în practică, dar AMD a devenit destul de bun la integrarea fuziunilor. Și sincer, am plăti cu plăcere 5 miliarde de dolari pentru a evita negocierea unui NDA tripartit și a unui acord principal de servicii vreodată.

Cum să construiți un server în „100 de pași simpli”: durerile în creștere ale centrelor de date moderne

Configurarea centrelor de date GPU se dovedește a fi o durere de cap

Miza recentă de 5 miliarde de dolari a AMD pe centrul de date

LĂSAȚI UN MESAJ Renunțați la răspuns