Costul total de proprietate mai mic nu poate depăși deficiențele software-ului
Este software-ul, prost Anul se apropie de sfârșit, iar AMD a sperat că noile sale cipuri puternice MI300X AI îl vor ajuta în sfârșit să câștige teren pe Nvidia. Dar o investigație extinsă a SemiAnalysis sugerează că provocările software ale companiei lasă Nvidia să-și mențină conducerea confortabilă.
SemiAnalysis a pus în comparație Instinct MI300X de la AMD cu H100 și H200 de la Nvidia, observând mai multe diferențe între cipuri. Pentru cei neinițiați, MI300X este un accelerator GPU bazat pe arhitectura AMD CDNA 3 și este proiectat pentru calcul de înaltă performanță, în special pentru sarcini de lucru AI.
Pe hârtie, cifrele de performanță par excelente pentru AMD: cipul oferă 1.307 TeraFLOPS de putere de calcul FP16 și o memorie masivă de 192 GB HBM3, depășind ambele oferte rivale ale Nvidia. Soluțiile AMD promit, de asemenea, costuri de proprietate mai mici în comparație cu cipurile costisitoare ale Nvidia și cu rețelele InfiniBand.
Cu toate acestea, după cum echipa SemiAnalysis a descoperit peste cinci luni de teste riguroase, specificațiile brute nu reprezintă întreaga poveste. În ciuda siliciului impresionant al MI300X, ecosistemul software al AMD a necesitat un efort semnificativ pentru a fi utilizat în mod eficient. SemiAnalysis a trebuit să se bazeze foarte mult pe inginerii AMD pentru a remedia erorile și problemele în mod continuu în timpul analizei comparative și al testării.
Acest lucru este departe de hardware-ul și software-ul Nvidia, despre care au remarcat că tinde să funcționeze fără probleme din cutie, fără a fi nevoie de mâna personalului Nvidia.
Mai mult, problemele legate de software nu s-au limitat doar la testarea SemiAnalysis – și clienții AMD simțeau durerea. De exemplu, cel mai mare furnizor de cloud al AMD, Tensorwave, a trebuit să ofere inginerilor AMD acces la aceleași cipuri MI300X pe care le achiziționase Tensorwave, doar pentru ca AMD să poată depana software-ul.
Citește și: Nu doar hardware-ul: cât de adânc este șanțul software al Nvidia?
Necazurile nu se opresc aici. De la probleme de integrare cu PyTorch până la scalarea subpar pe mai multe cipuri, software-ul AMD nu a ajuns în mod constant la ecosistemul CUDA dovedit al Nvidia. SemiAnalysis a remarcat, de asemenea, că multe biblioteci AI AMD sunt, în esență, furcaturi ale bibliotecilor AI Nvidia, ceea ce duce la rezultate suboptime și probleme de compatibilitate.
„Șanțul CUDA nu a fost încă traversat de AMD din cauza culturii de asigurare a calității software (QA) a software-ului AMD mai slabă decât se aștepta și a experienței sale provocatoare, din nou. Oricât de repede AMD încearcă să umple șanțul CUDA, Inginerii Nvidia lucrează ore suplimentare pentru a aprofunda respectivul șanț cu noi funcții, biblioteci și actualizări de performanță”, se arată într-un fragment din analiză.
Analiștii au găsit o licărire de speranță în ramurile de dezvoltare BF16 pre-lansare pentru software-ul MI300X, care au arătat performanțe mult mai bune. Dar până când codul va ajunge în producție, Nvidia va avea probabil cipurile Blackwell de nouă generație disponibile (deși Nvidia se pare că are unele probleme de creștere cu această lansare).
Luând în considerare aceste probleme, SemiAnalysis a enumerat o mulțime de recomandări pentru AMD, începând cu a oferi inginerilor Team Red mai multe resurse de calcul și inginerie pentru a repara și îmbunătăți ecosistemul.
Ne-am întâlnit astăzi cu @LisaSu timp de 1,5 ore, când am trecut prin toate
Ea a recunoscut lacunele din stiva de software AMD
Ea a luat în serios recomandările noastre specifice
Ea a adresat echipei sale și nouă o mulțime de întrebări
Multe schimbări sunt deja în zbor!
Sunt încântat să văd îmbunătățirile care vin https://t.co/38aAwwIdEI– Dylan Patel (@dylan522p) 23 decembrie 2024
Fondatorul SemiAnalysis, Dylan Patel, sa întâlnit chiar și cu CEO-ul AMD, Lisa Su. El a postat pe X că ea înțelege munca necesară pentru a îmbunătăți stiva de software AMD. El a mai adăugat că multe schimbări sunt deja în curs de dezvoltare.
Cu toate acestea, este o urcare în urcare după ani în care aparent a neglijat această componentă critică. Oricât de mult analiștii doresc ca AMD să concureze în mod legitim cu Nvidia, „CUDA moat” încearcă să mențină Nvidia ferm în frunte pentru moment.