GPU-urile pentru centrele de date Nvidia Blackwell s-ar putea confrunta cu noi întârzieri din cauza problemelor de supraîncălzire

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

Blackwell provoacă o mulțime de dureri de cap pentru Nvidia

Pe scurt: Succesul vertiginos al Nvidia în ultimii câțiva ani s-a datorat hardware-ului companiei care domină piața profitabilă AI. Cu toate acestea, cu cipurile Blackwell AI de nouă generație, Team Green se confruntă cu unele derapaje rare. Fiind deja amânate, noi rapoarte spun că GPU-urile se confruntă cu probleme de supraîncălzire atunci când sunt instalate în rafturi de servere de mare capacitate.

Afirmațiile conform cărora GPU-urile Blackwell concepute pentru sarcini AI și HPC se supraîncălzi vin din surse care au vorbit cu The Information.

Problema apare atunci când cipurile sunt integrate în rack-urile de server personalizate ale Nvidia care găzduiesc 72 de procesoare, care consumă până la 120 kW per rack. Nvidia le-a spus furnizorilor să reproiecteze rafturile de mai multe ori pentru a încerca să rezolve problema prin îmbunătățirea răcirii. Din păcate, acest lucru întârzie și mai mult lansarea lui Blackwell.

Supraîncălzirea nu numai că poate afecta grav performanța cipurilor, dar are și potențialul de a deteriora hardware-ul foarte scump.

Nvidia minimizează raportul. Vorbind cu Reuters, un purtător de cuvânt a spus că compania lucrează cu furnizori de top de cloud și că reproiectările de inginerie sunt normale și de așteptat.

S-a raportat în august că cipurile Blackwell AI se confruntau cu întârzieri semnificative din cauza unor defecte de design descoperite târziu în producție. Producătorul TSMC a identificat o problemă în matrița procesorului care conectează două GPU-uri Blackwell pe cipurile GB100 și GB200, care a cauzat deformarea și defecțiunile sistemului. Aceste cipuri folosesc ambalajul CoWoS-L de la TSMC, care utilizează un interpozitor RDL cu punți de interconectare locale din siliciu pentru a obține rate de transfer de date de aproximativ 10 TB/s. Problema a apărut din nepotrivirea proprietăților de dilatare termică între diferite componente, provocând deformarea și defecțiunea sistemului.

Nvidia a trebuit să modifice straturile metalice superioare ale cipurilor și structurile de denivelări pentru a remedia problema anterioară Blackwell, amânând data producției în masă a cipurilor până la sfârșitul lunii octombrie și timpul de livrare până la sfârșitul lunii ianuarie – inițial erau programate să fie livrate în al doilea trimestru al 2024.

Încă nu știm dacă cea mai recentă problemă cu Blackwell va cauza întârzieri suplimentare în livrare. CEO-ul Nvidia, Jensen Huang, a descris cererea pentru Blackwell ca fiind „nebună”, așa că un alt eșec ar veni ca o lovitură uriașă pentru clienți precum Microsoft, Google și Meta.

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.