Vina a fost în întregime a Nvidiei, a recunoscut CEO-ul Jensen Huang
Ce tocmai sa întâmplat? Potrivit CEO-ului Jensen Huang, Nvidia a remediat cu succes un defect de design al celor mai recente cipuri Blackwell AI. Problema, care a cauzat întârzieri de producție, a fost rezolvată cu asistența TSMC, partenerul de producție de lungă durată al Nvidia. De fapt, TSMC a fost cel care a descoperit inițial problema.
Depășirea acestei probleme a fost crucială pentru Nvidia, deoarece își propune să-și mențină poziția dominantă pe piața chipurilor AI. Pe măsură ce cererea pentru soluții de calcul AI de înaltă performanță continuă să crească, lansarea cu succes a Blackwell va juca un rol esențial în furnizarea hardware-ului necesar.
Huang a recunoscut sincer responsabilitatea companiei pentru eșecul. „Am avut un defect de design în Blackwell”, a spus el. „A fost funcțional, dar defectul de design a făcut ca randamentul să fie scăzut. A fost vina 100% a Nvidia”.
Cipurile Blackwell, dezvăluite în martie, au fost inițial programate pentru livrare în al doilea trimestru. Cu toate acestea, defectul de design a dus la întârzieri, care pot afecta clienții majori precum Meta, Google și Microsoft.
Proiectul Blackwell a fost neobișnuit de complex, a spus Huang, ceea ce ar fi putut fi un factor al defecțiunii. „Pentru ca un computer Blackwell să funcționeze, șapte tipuri diferite de cipuri au fost proiectate de la zero și au trebuit să fie introduse în producție în același timp”.
Problema tehnică a provenit din tehnologia complexă de ambalare utilizată în GPU-urile Blackwell B100 și B200. Aceste cipuri folosesc ambalajul CoWoS-L de la TSMC, care utilizează un interpozitor RDL cu punți de interconectare locale din siliciu pentru a obține rate de transfer de date de aproximativ 10 TB/s. Problema a apărut din nepotrivirea proprietăților de dilatare termică între diferite componente, provocând deformarea și defecțiunea sistemului.
Pentru a rezolva acest lucru, Nvidia a modificat straturile metalice superioare și denivelările din siliciul GPU, sporind randamentele de producție. Deși detaliile specifice ale remedierii rămân nedezvăluite, compania a confirmat că sunt necesare măști noi.
Viteza rezoluției este de remarcat. De obicei, abordarea unor astfel de probleme în industria semiconductoarelor implică modificarea straturilor metalice și crearea de noi trepte, un proces care poate dura aproximativ trei luni. „Ce a făcut TSMC a fost să ne ajute să ne redresăm din această dificultate de producție și să reluăm producția Blackwell într-un ritm incredibil”, a spus Huang.
Odată cu soluționarea defectului de design, producția în masă a GPU-urilor fixe Blackwell va începe la sfârșitul lunii octombrie. Livrările sunt de așteptat să înceapă la începutul anului 2025, în conformitate cu anul fiscal al Nvidia.
În ciuda eșecului, cererea de cipuri Blackwell rămâne ridicată. Huang a descris anterior cererea ca fiind „nebună”, clienții dornici să fie primii în rândul pentru noua tehnologie.
Google a comandat peste 400.000 de cipuri GB200 într-o afacere de peste 10 miliarde de dolari. În mod similar, Meta a plasat o comandă de 10 miliarde de dolari, în timp ce Microsoft urmează să primească 55.000 până la 65.000 de GPU-uri GB200 gata pentru OpenAI până în primul trimestru al anului 2025.