Companiile tehnologice se întrec pentru a construi superclustere AI cu peste 100.000 de GPU-uri în competiție cu mize mari

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

Lăsând la o parte provocările de inginerie, nu este clar dacă aceste investiții vor da roade

Imaginea de ansamblu: Industria AI intră pe un teritoriu neexplorat, chiar dacă rămân întrebări cu privire la limitele practice ale scalabilității și rentabilitatea acestor investiții masive. Cu toate acestea, companii precum Meta, OpenAI, Microsoft, xAI și Google continuă să depășească limitele a ceea ce este posibil în calculul AI.

A apărut un nou punct de referință pentru priceperea AI: capacitatea de a acumula cele mai multe cipuri Nvidia într-o singură locație. Această competiție între giganții tehnologici remodelează industria AI, generând investiții fără precedent în infrastructura de calcul și împingând granițele învățării automate.

În fruntea acestei curse a înarmărilor tehnologice se află companii precum xAI a lui Elon Musk și Meta a lui Mark Zuckerberg. Aceste firme construiesc super clustere masive de servere de computere, fiecare adăpostind un număr uimitor de procesoare AI specializate de la Nvidia. Amploarea acestor proiecte este uluitoare, costurile ajungând la miliarde de dolari și numărul de cipuri ajungând la sute de mii.

Intrarea xAI în acest joc cu mize mari este deosebit de remarcabilă. Într-un interval de timp remarcabil de scurt, compania a construit un supercomputer numit „Colossus” în Memphis. Se mândrește cu 100.000 de cipuri Nvidia Hopper AI, un număr care era considerat extraordinar cu doar un an în urmă, când grupurile de zeci de mii de cipuri erau considerate foarte mari.

Între timp, Zuckerberg a anunțat recent că Meta își antrenează deja cele mai avansate modele AI pe un conglomerat de cipuri despre care, susține, depășește orice raportat de concurenți.

Motivația din spatele acestor investiții masive este clară: grupuri mai mari de cipuri interconectate s-au tradus până acum în modele AI mai capabile dezvoltate la ritmuri mai rapide, unii lideri din industrie prevăzând deja clustere care conțin milioane de GPU.

Nvidia, compania aflată în centrul acestei curse tehnologice, va beneficia enorm de pe urma acestei tendințe, iar CEO-ul Jensen Huang nu vede niciun sfârșit în această traiectorie de creștere. El își imaginează viitoarele clustere care încep de la aproximativ 100.000 de cipuri Blackwell.

Cu toate acestea, această cursă către clustere de cipuri din ce în ce mai mari nu este lipsită de provocări și incertitudini. Pe măsură ce dimensiunea acestor super clustere crește, la fel cresc și obstacolele de inginerie. Menținerea la rece a zeci de mii de cipuri consumatoare de energie este o preocupare majoră, ceea ce duce la inovații în tehnologia de răcire. Răcirea cu lichid, în care agentul frigorific este condus direct la cipuri, devine din ce în ce mai comună în aceste setări masive.

Fiabilitatea este o altă provocare semnificativă. Cercetătorii meta au descoperit că un cluster de peste 16.000 de GPU-uri Nvidia a suferit defecțiuni de rutină ale cipurilor și altor componente în timpul unei perioade de antrenament de 54 de zile pentru o versiune avansată a modelului lor Llama.

În ciuda acestor provocări, impulsul către clustere AI mai mari și mai puternice nu arată semne de încetinire. Elon Musk a anunțat deja planuri de a extinde xAI Colossus de la 100.000 de cipuri la 200.000 într-o singură clădire, cu ambiția de a ajunge la 300.000 dintre cele mai noi cipuri Nvidia până în vara viitoare.

Cursa pentru supremația AI stimulează și cererea pentru echipamentele de rețea ale Nvidia, care devine rapid o afacere semnificativă în sine. Veniturile companiei din rețele au ajuns la 3,13 miliarde de dolari în 2024, o creștere cu 51,8% față de anul precedent. Ofertele de rețea ale Nvidia, inclusiv Accelerated Ethernet Switching pentru AI și Cloud, Quantum InfiniBand pentru AI și Scientific Computing și Bluefield Network Accelerators, sunt cruciale în conectarea și gestionarea acestor clustere masive de cipuri.

În ciuda acestor cheltuieli uriașe, problema scalabilității rămâne nerezolvată. Dylan Patel, analist-șef la SemiAnalysis, a declarat pentru Wall Street Journal că, deși nu există dovezi că aceste sisteme se vor scala eficient la un milion de cipuri sau un sistem de 100 de miliarde de dolari, ele au demonstrat o scalabilitate impresionantă de la zeci de cipuri la 100.000.

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.