Demo tehnologie are potențial, dar lupte cu rata de cadru și alte provocări tehnice
Pe scurt: Microsoft a demonstrat Quake II care rulează pe un model AI generativ pentru jocuri în timp real numit WHAMM. În timp ce jocul are un suport complet al controlerului, acesta se predomină în mod previzibil la rate de cadru foarte mici. Microsoft spune că demo -ul prezintă potențialul modelului, mai degrabă decât să prezinte un produs de jocuri finite.
Modelul Maskgit World and Human Action World and Human, sau WHAMM, se bazează pe versiunea sa anterioară WHAM-1.6B lansată în februarie. Spre deosebire de predecesorul său, această iterație introduce o ieșire vizuală mai rapidă folosind o arhitectură în stil Maskgit care generează jetoane de imagine în paralel. Deplasându-se de metoda autoregresivă, care a prezis jetoane secvențial, WHAMM reduce latența și permite generarea de imagini în timp real-un pas esențial către interacțiunile de joc mai ușoare.
Procesul de instruire al modelului reflectă, de asemenea, progrese substanțiale. În timp ce WHAM-1.6B a necesitat șapte ani de date despre joc pentru instruire, dezvoltatorii au predat Whamm doar într-o săptămână de joc curat curat II. Aceștia au obținut această eficiență folosind date de la testerii de jocuri profesionale, concentrându -se pe un singur nivel. Rezoluția de ieșire vizuală a Genai a obținut, de asemenea, un impuls, trecând de la 300 x 180 pixeli la 640 x 360 pixeli, rezultând o calitate îmbunătățită a imaginii, fără modificări semnificative ale arhitecturii de decodare a codificatorului de bază.

În ciuda acestor pași tehnologici, WHAMM este departe de a fi perfect și rămâne mai mult un experiment de cercetare decât o soluție de joc pe deplin realizată. Modelul demonstrează o capacitate impresionantă de adaptare la intrarea utilizatorului. Din păcate, modelul se luptă cu lag și cu anomalii grafice.
Jucătorii pot efectua acțiuni de bază, cum ar fi împușcarea, săriturile, ghemuirea și interacțiunea cu dușmanii. Cu toate acestea, interacțiunea inamică este în special defectuoasă. Personajele apar adesea fuzzy, iar mecanica de luptă sunt inconsistente, cu erori de urmărire a sănătății și de daune.

Limitările se extind dincolo de mecanica de luptă. Modelul are o lungime de context limitată. Modelul uită obiecte care lasă viziunea jucătorului mai mult de nouă zecimi de secundă. Acest dezavantaj creează aspecte neobișnuite de joc, cum ar fi teleportația sau dușmanii care reproduc aleatoriu atunci când se schimbă unghiurile camerei.
În plus, domeniul de aplicare al simulării lui Whamm se limitează la un singur nivel de cutremur II. Încercarea de a progresa dincolo de acest punct îngheață generarea de imagini din cauza lipsei de date înregistrate. Problemele de latență scad în continuare de la experiență atunci când sunt scalate pentru uz public.
Deși angajarea cu WHAMM poate fi plăcută ca o noutate, Microsoft nu a intenționat să reproducă experiența originală Quake II. Dezvoltatorii săi de AI au explorat doar tehnici de învățare a mașinilor pe care le-ar putea folosi pentru a crea suporturi interactive.
Echipa Microsoft a explorat posibilitățile lui Whamm pe fondul discuțiilor mai largi despre rolul AI în industriile creative. Openai s-a confruntat recent cu reacțiile asupra creațiilor sale AI inspirate de Ghibb, subliniind scepticismul dacă AI poate reproduce arta umană.
Redmond a poziționat WHAMM ca un exemplu de AI măriind, mai degrabă decât înlocuirea creativității umane – o filozofie răsunătoare de tehnologia ACE a NVIDIA, care îmbunătățește NPC -urile de viață în jocuri precum Inzoi. În timp ce jocurile și filmele generate pe deplin AI rămân evazive, inovațiile precum WHAMM semnalizează că ar putea fi chiar după colț.
Privind în viitor, Microsoft are în vedere noi forme de media interactivă activate de modele generative precum WHAMM. Compania speră că viitoarele iterații vor aborda deficiențele, în timp ce va împuternici dezvoltatorii de jocuri să creeze narațiuni imersive îmbogățite de instrumentele bazate pe AI.
