Modelul vine cu un truc „așteptați” care îl ajută să verificați și să rafinați răspunsurile
De ce contează: Toată lumea vine cu modalități noi și inovatoare de a lucra în jurul costurilor masive implicate în formarea și crearea de noi modele AI. După debutul impresionant al lui Deepseek, care a zguduit Silicon Valley, un grup de cercetători a dezvoltat un rival deschis care se potrivește cu abilitățile de raționament ale ODAI O1.
Cercetătorii Stanford și Universitatea din Washington au conceput o tehnică pentru a crea un nou model AI numit „S1”. Aceștia l-au deschis deja pe GitHub, împreună cu codul și datele utilizate pentru a-l construi. O lucrare publicată vineri trecută a explicat modul în care echipa a obținut aceste rezultate prin trucuri tehnice inteligente.
În loc să instruiască un model de raționament de la zero, un efort scump care costă milioane, au luat un model de limbaj existent în afara raftului și l-au „reglat” folosind distilarea. Au extras capacitățile de raționament de la unul dintre modelele AI Google – în special, Gemini 2.0 Flash Thinking Experimental. Apoi au antrenat modelul de bază pentru a imita procesul său pas cu pas de rezolvare a problemelor pe un set de date mic.
Alții au folosit această abordare înainte. De fapt, distilarea este ceea ce Openai acuza Deepseek că a făcut. Cu toate acestea, echipa Stanford/UW a găsit o modalitate ultra-scăzută de costuri de implementare prin „reglare fină supravegheată”.
Acest proces implică predarea explicit a modelului cum să motivezi utilizarea unor exemple curate. Setul lor de date complet a constat în doar 1.000 de întrebări și soluții selectate cu atenție, scoase din modelul Google.
TechCrunch observă că procesul de instruire a durat 30 de minute, folosind 16 GPU -uri NVIDIA H100. Desigur, aceste GPU -uri au costat o avere mică – în jur de 25.000 USD pe unitate – dar închirierea se ridică la 50 USD în credite de calcul cloud.
Cercetătorii au descoperit, de asemenea, un truc îngrijit pentru a stimula și mai mult capacitățile S1. Aceștia au instruit modelul să „aștepte” înainte de a -și oferi răspunsul final. Această comandă i -a permis mai mult timp să -și verifice raționamentul pentru a ajunge la soluții ușor îmbunătățite.
Modelul nu este lipsit de avertismentele sale. Întrucât echipa a folosit modelul Google ca profesor, există întrebarea că abilitățile S1, în timp ce este impresionant pentru costul său minuscul, poate să nu poată fi în măsură să se potrivească cu cele mai bune AI trebuie să ofere încă. Există, de asemenea, potențialul pentru Google să protesteze. Ar putea aștepta să vedem cum merge cazul lui Openai.