Cum se deplasează AI de la cloud la dispozitivele dvs.
Imaginea de ansamblu: În timp ce tot ceea ce este legat de AI generativ (Genai) pare să evolueze cu viteză de breakneck, o zonă avansează chiar mai repede decât restul: rularea modelelor de fundație bazate pe AI direct pe dispozitive precum PC-uri și smartphone-uri. Chiar și în urmă cu doar un an, gândirea generală a fost că cele mai avansate aplicații AI ar trebui să funcționeze în cloud pentru o perioadă următoare.
Recent, însă, mai multe evoluții majore sugerează cu tărie că AI-ul pe dispozitiv, în special pentru aplicațiile avansate bazate pe inferență, devine o realitate începând din acest an.
Implicațiile acestei schimbări sunt uriașe și probabil vor avea un impact enorm asupra tuturor, de la tipurile de modele AI implementate până la tipurile de aplicații create, modul în care sunt arhivate acele aplicații, tipurile de siliciu utilizate, cerințele pentru conectivitate, cum și unde sunt stocate datele și multe altele.
Primele semne ale acestei schimbări au început, probabil, să apară în urmă cu aproximativ 18 luni odată cu apariția unor modele de limbă mică (SLM), cum ar fi PHI -ul Microsoft, Meta’s Llama 8B și altele. Aceste SLM -uri au fost concepute intenționat pentru a se încadra în amprenta de memorie mai mică și puterea de procesare mai limitată a dispozitivelor client, oferind în același timp capacități impresionante.
În timp ce nu aveau menite să reproducă capacitățile de baze de date masive bazate pe cloud care rulează modele precum GPT-4 de la OpenAI, aceste mici modele au fost remarcabil de bine, în special pentru aplicații focalizate.
Drept urmare, aceștia au deja un impact real. Microsoft, de exemplu, va aduce modelele PHI la PILOT+ PC -uri la sfârșitul acestui an – o versiune care cred că se va dovedi în cele din urmă mai importantă și de impact decât caracteristica de rechemare pe care compania a prezentat -o inițial pentru aceste dispozitive. Copilot+ PC-uri cu modelele PHI nu numai că vor genera text și imagini de înaltă calitate fără conexiune la internet, dar vor face acest lucru și într-o manieră unic personalizată.
Motivul? Pentru că vor rula local pe dispozitiv și vor avea acces (cu permisiuni adecvate, desigur) la fișierele deja pe mașină. Aceasta înseamnă că capacitățile de reglare fină și personalizare ar trebui să fie semnificativ mai ușoare decât în cazul metodelor actuale. Mai important, acest acces local le va permite să creeze conținut în vocea și stilul utilizatorului. În plus, agenții AI pe baza acestor modele ar trebui să aibă un acces mai ușor la calendare, corespondență, preferințe și alte date locale, permițându -le să devină asistenți digitali mai eficienți.
Dincolo de SLM -uri, explozia recentă de interes în jurul Deepseek a declanșat o recunoaștere mai largă a potențialului de a aduce modele și mai mari pe dispozitive printr -un proces cunoscut sub numele de distilare model.
Conceptul de bază din spatele distilărilor este faptul că dezvoltatorii AI pot crea un nou model care extrage și condensează cele mai critice învățări dintr -un model de limbaj mare semnificativ mai mare (LLM) într -o versiune mai mică. Rezultatul este modele suficient de mici pentru a se potrivi pe dispozitive, păstrând în același timp cunoștințele largi cu scop general al omologilor lor mai mari.
Dispozitivele noastre și ceea ce putem face cu ele urmează să se schimbe pentru totdeauna
În termeni din lumea reală, aceasta înseamnă o mare parte din puterea celor mai mari și mai avansate modele bazate pe cloud-inclusiv cele care folosesc lanț de gândire (COT) și alte tehnologii axate pe raționament-vor putea în curând să funcționeze la nivel local PC -uri și smartphone -uri.
Combinarea acestor modele cu scop general cu modele de limbaj mic mai specializate extinde brusc gama de posibilități pentru AI-ul pe device în moduri uimitoare (punct pe care Qualcomm a explorat-o recent într-o carte albă recent lansată).
Desigur, la fel de promițătoare precum această schimbare, trebuie luate în considerare mai multe provocări și realități practice. În primul rând, evoluțiile se întâmplă atât de repede încât este dificil pentru oricine să țină pasul și să înțeleagă pe deplin ceea ce este posibil. Pentru a fi clar, nu am nicio îndoială că mii de minți strălucitoare lucrează chiar acum pentru a aduce aceste capacități la viață, dar va dura timp înainte să se traducă în instrumente intuitive și utile. În plus, multe dintre aceste instrumente vor solicita probabil utilizatorilor să regândească modul în care interacționează cu dispozitivele lor. Și după cum știm cu toții, obiceiurile sunt greu de rupt și lent pentru a se schimba.
Chiar și acum, de exemplu, mulți oameni continuă să se bazeze pe motoarele de căutare tradiționale, mai degrabă decât pe rezultatele tipic mai intuitive, cuprinzătoare și mai bine organizate pe care le pot oferi aplicații precum Chatgpt, Gemini, perplexitate. Schimbarea modului în care folosim tehnologia necesită timp.
În plus, în timp ce dispozitivele noastre devin mai puternice, asta nu înseamnă că capacitățile celor mai avansate LLM-uri bazate pe cloud vor deveni învechite oricând în curând. Cele mai semnificative progrese în instrumentele bazate pe AI vor continua să apară mai întâi în cloud, asigurând cererea continuă de modele și aplicații bazate pe cloud. Cu toate acestea, ceea ce rămâne incert este exact modul în care aceste două seturi de capabilități-AI avansate bazate pe cloud și AI puternic pe dispozitiv-vor coexista.
Vezi și: NPU vs. GPU: Care este diferența?
După cum am scris toamna trecută într -o coloană intitulată Cât de hibrid AI va schimba totulrezultatul cel mai logic este o formă de mediu AI hibrid care folosește tot ce este mai bun din ambele lumi. Totuși, realizarea acestui lucru va necesita o muncă serioasă în crearea de arhitecturi hibridizate, distribuite de calcul și, mai important, dezvoltarea de aplicații care pot folosi în mod inteligent aceste resurse de calcul distribuite. În teorie, calculul distribuit a sunat întotdeauna ca o idee excelentă, dar în practică, făcând -o să funcționeze s -a dovedit mult mai dificilă decât se aștepta.
Pe lângă aceste provocări, există câteva preocupări mai practice. De exemplu, de exemplu, echilibrarea resurselor de calcul pe mai multe modele AI care rulează simultan nu va fi ușoară. Din perspectiva memoriei, soluția simplă ar fi dublarea capacității RAM a tuturor dispozitivelor, dar acest lucru nu se va întâmpla în mod real în curând. În schimb, mecanismele inteligente și arhitecturile de memorie noi pentru mișcarea eficientă a modelelor în și în afara memoriei vor fi esențiale.
În cazul aplicațiilor distribuite care utilizează atât Cloud cât și Calcul de pe dispozitiv, cererea pentru conectivitate mereu pe On va fi mai mare decât oricând. Fără conexiuni fiabile, aplicațiile AI hibride nu vor funcționa eficient. Cu alte cuvinte, nu a existat niciodată un argument mai puternic pentru PC-urile echipate cu 5G decât într-o lume hibridă bazată pe AI.
Chiar și în arhitecturile de calcul pe dispozitiv, noi dezvoltări critice sunt la orizont. Da, integrarea NPU -urilor în ultima generație de dispozitive a fost destinată să sporească capacitățile AI. Cu toate acestea, având în vedere diversitatea enormă a arhitecturilor NPU curente și nevoia de a rescrie sau refacta pentru fiecare dintre ele, este posibil să vedem mai mult accentul pe rularea aplicațiilor AI pe GPU -uri și procesoare locale pe termen scurt. De -a lungul timpului, pe măsură ce se dezvoltă metode mai eficiente pentru scrierea codului care rezumă diferențele în arhitecturile NPU, această provocare va fi rezolvată – dar poate dura mai mult decât se așteptau inițial.
Nu există nici o îndoială că capacitatea de a rula modele și aplicații AI impresionant de impresionant de direct pe dispozitivele noastre este o schimbare interesantă și transformatoare. Cu toate acestea, vine cu implicații importante care trebuie luate în considerare și adaptate cu atenție. Un lucru este sigur: Cum ne gândim la dispozitivele noastre și la ce putem face cu ele este pe cale să ne schimbăm pentru totdeauna.
Bob O’Donnell este fondatorul și analistul șef al Technisy Research, LLC O firmă de consultanță tehnologică care oferă servicii de consultanță strategică și cercetare de piață industriei tehnologice și comunității financiare profesionale. Îl poți urmări pe Twitter @BoBodTech
Credit de mască: Solen Feyissa