Treceți peste matematică și raționament, este timpul să referim AI folosind Super Mario Bros.

O provocare unică

Imaginea de ansamblu: Benchmarking AI rămâne o problemă spinoasă, companiile adesea acuzate de culegerea rezultatelor măgulitoare în timp ce le îngroapă pe cele mai puțin favorabile. În loc să se fixeze pe încercări de matematică și logică, poate că a venit timpul pentru un test mai neconvențional – unul care contestă AI într -un mod în care oamenii înțeleg instinctiv: Super Mario Bros. La urma urmei, dacă un asistent AI nu poate naviga strategic în trecut Goombas și trupele Koopa, putem avea încredere cu adevărat în acesta pentru a opera în lumea noastră complexă?

Cercetătorii de la Laboratorul Hao AI de la UC San Diego au pus mai multe modele de limbă de frunte la testul în Super Mario Bros., oferind o perspectivă nouă asupra capacităților AI.

Experimentul a folosit o versiune emulată a jocului clasic Nintendo, integrat cu un cadru personalizat numit GamingAgent, dezvoltat de Hao Lab. Acest sistem a permis modelelor AI să -l controleze pe Mario prin generarea codului Python. Pentru a -și ghida acțiunile, modelele au primit instrucțiuni de bază, cum ar fi „sări peste acel inamic”, împreună cu vizualizările de ecran ale statului jocului.

În timp ce Super Mario Bros. poate părea un simplu sidescroller 2D, cercetătorii au descoperit că contestă AI să planifice secvențe de mișcare complexe și să adapteze strategiile de joc în timp real în zbor.

Claude-3.7 a fost testat pe Pokémon Red, dar ce se întâmplă cu mai multe jocuri în timp real precum Super Mario 🍄🌟?

Am aruncat agenți de jocuri AI în jocuri Live Super Mario și am găsit că Claude-3.7 a depășit alte modele cu euristică simplă. 🤯

Claude-3.5 este, de asemenea, puternic, dar mai puțin capabil de … pic.twitter.com/bqzvblwqx3

– Hao AI Lab (@haoailab) 28 februarie 2025

Când a fost vorba de Mastering Super Mario Bros., cel mai înalt interpret a fost Claude 3.7 a Anthropic, care a prezentat reflexe impresionante, înlănțuind împreună salturi precise și evitând cu pricepere dușmani. Chiar și predecesorul său, Claude 3.5, s -a comportat bine.

În mod surprinzător, modelele de raționament grele precum GPT-4O de la OpenAI și Google Gemini 1.5 Pro au rămas în urmă. În ciuda reputației lor pentru abilități puternice de raționament, s -au luptat cu cerințele jocului.

După cum se dovedește, raționamentul logic nu este cheia pentru a excela la Super Mario Bros. – sincronizarea este. Chiar și o ușoară întârziere poate trimite Mario căzând într -o groapă. Cercetătorii HAO sugerează că mai multe modele deliberative au durat prea mult timp pentru a -și calcula următoarele mișcări, ceea ce duce la decese frecvente, premature.

Desigur, utilizarea jocurilor video retro pentru a face referință AI este în mare parte un experiment jucăuș, mai degrabă decât o evaluare serioasă. Indiferent dacă un AI poate învinge Super Mario Bros. are puține influențe asupra utilității sale din lumea reală, dar vizionarea modelelor sofisticate se luptă cu ceea ce pare a fi jocul copilului este incontestabil distractiv.

Pentru cei curioși să experimenteze, laboratorul Hao AI și-a pronunțat în mod deschis cadrul de joc pe Github.

Treceți peste matematică și raționament, este timpul să referim AI folosind Super Mario Bros.

O provocare unică

LĂSAȚI UN MESAJ Renunțați la răspuns