Test logică AI Flunks: Studii multiple dezvăluie iluzia raționamentului

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

Pe măsură ce sarcinile logice devin mai complexe, precizia scade până la 4-24 la sută

Linia de jos: Din ce în ce mai multe companii AI spun că modelele lor pot fi motivate. Două studii recente spun altfel. Când li se cere să -și arate logica, majoritatea modelelor înclină sarcina – dovedind că nu ar fi motivat atât de mult ca și modelele de reîncărcare. Rezultatul: Răspunsuri încrezătoare, dar nu și inteligente.

Cercetătorii Apple au descoperit o slăbiciune esențială în cele mai exagerate sisteme AI de astăzi-se aprind la rezolvarea puzzle-urilor care necesită raționament pas cu pas. Într-o nouă lucrare, echipa a testat mai multe modele de frunte pe Turnul Hanoiului, un puzzle logic vechi și a constatat că performanța s-a prăbușit ca complexitate a crescut.

Puzzle -ul turnului Hanoi este simplu: mutați o grămadă de discuri de la o pilă la alta, în timp ce urmați reguli despre mărimea ordinii și discului. Pentru oameni, este un test clasic de planificare și logică recursivă. Pentru modelele de limbă instruite pentru a prezice următorul jeton, provocarea constă în aplicarea constrângerilor fixe pe mai mulți pași, fără a pierde evidența obiectivului.

Cercetătorii Apple nu au cerut doar modelelor să rezolve puzzle -ul – le -au cerut să le explice pașii. În timp ce majoritatea s -au ocupat de două sau trei discuri, logica lor s -a dezvăluit pe măsură ce numărul discului a crescut. Modelele regulate greșite, contrazisem etapele anterioare sau au făcut cu încredere mișcări nevalide-chiar și cu prompturi de lanț de gândire. Pe scurt, nu au motivat – ghiceau.

Aceste descoperiri răsună un studiu din aprilie, când cercetătorii de la ETH Zurich și Insait au testat modele AI de top cu probleme de la Olimpiada Matematică din SUA din 2025 – o competiție care necesită dovezi scrise complete. Din aproape 200 de încercări, niciuna nu a produs o soluție perfectă. Unul dintre cei mai puternici performanți, Google Gemini 2.5 Pro, a obținut 24 % din totalul punctelor – nu prin rezolvarea a 24 la sută din probleme, ci prin credite parțiale la fiecare încercare. O3-MINI de la Openai abia a curățat 2 %.

Modelele nu au ratat doar răspunsuri – au făcut erori de bază, au omis pași și s -au contrazis în timp ce sună încrezător. Într -o problemă, un model a început cazuri puternice, dar excluse, fără explicații. Alții au inventat constrângeri bazate pe probleme de antrenament, cum ar fi întotdeauna răspunsurile finale de box – chiar și atunci când nu s -a potrivit contextului.

Gary Marcus, un critic de multă vreme al AI Hype, a numit concluziile lui Apple „destul de devastatoare pentru modelele de limbaj mare”.

„Este cu adevărat jenant faptul că LLM -urile nu pot rezolva în mod fiabil Hanoi”, a scris el. „Dacă nu puteți folosi un sistem AI de miliard de dolari pentru a rezolva o problemă pe care Herb Simon, unul dintre„ nașii ”AI”, rezolvați cu AI în 1957, iar acel prim semestru AI studenți se rezolvă în mod obișnuit, șansele ca modelele precum Claude sau O3 să ajungă la AGI par cu adevărat îndepărtate. „

Chiar și atunci când li se oferă algoritmi expliciți, performanța modelului nu s -a îmbunătățit. Co-conducătorul studiului Iman Mirzadeh a pus-o răspândit:

„Procesul lor nu este logic și inteligent”.

Rezultatele sugerează că ceea ce pare că raționamentul este adesea doar o potrivire a modelului – fluent statistic, dar nu întemeiat în logică.

Nu toți experții au fost respingători. Sean Goedecke, un inginer software specializat în sisteme AI, a văzut eșecul ca revelator.

„Modelul decide imediat că generarea tuturor acestor mișcări este imposibilă”, pentru că ar necesita urmărirea peste o mie de mișcări. Așadar, se învârte în jurul încercării de a găsi o scurtătură și eșuează „, a scris el în analiza studiului Apple. „Insight -ul cheie aici este că trecutul unui anumit prag de complexitate, modelul decide că există prea mulți pași pentru a raționa și începe să vâneze comenzi rapide inteligente. Așadar, au trecut de opt sau nouă discuri, abilitatea fiind investigată se schimbă în tăcere din„ Motivul modelului prin secvența turnului Hanoi? ” Pentru „Modelul poate veni cu un turn generalizat de soluție de Hanoi care sare trebuie să raționeze prin secvență?”

În loc să dovedească că modelele sunt lipsite de speranță la raționament, Goedecke a sugerat că rezultatele evidențiază modul în care sistemele AI își adaptează comportamentul sub presiune – alteori inteligent, alteori nu. Eșecul nu este doar în raționamentul pas cu pas, ci în abandonarea sarcinii atunci când devine prea nepăsător.

Companiile tehnologice evidențiază adesea raționamentul simulat ca o descoperire. Hârtia Apple confirmă faptul că chiar și modelele reglate fin pentru raționamentul în lanț de gândire tind să lovească un perete odată ce sarcina cognitivă crește-de exemplu, atunci când urmărirea se deplasează dincolo de șase discuri din Tower of Hanoi. Logica internă a modelelor se dezvăluie, unele gestionând doar succesul parțial prin imitarea explicațiilor raționale. Puțini prezintă o înțelegere constantă a cauzei și efectului sau a unui comportament orientat către obiective.

Rezultatele studiilor Apple și ETH Zurich sunt în contrast puternic cu modul în care companiile comercializează aceste modele-ca motive capabile capabile să se ocupe de sarcini complexe, cu mai multe etape. În practică, ceea ce trece pentru raționament este adesea doar o completare automată avansată cu pași suplimentari. Iluzia inteligenței provine din fluență și formatare, nu din perspectivă adevărată.

Hârtia de mere nu se oprește de a propune corecții de măturare. Cu toate acestea, se aliniază apelurilor din ce în ce mai mari pentru abordări hibride care combină modele de limbaj mare cu logica simbolică, verificatori sau constrângeri specifice sarcinii. Este posibil ca aceste metode să nu facă AI cu adevărat inteligente, dar ar putea ajuta la prevenirea prezentării răspunsurilor greșite de a fi prezentate ca fapte.

Până la materializarea acestor progrese, raționamentul simulat este probabil să rămână ceea ce implică numele: simulat. Este util – uneori impresionant – dar departe de inteligența autentică.

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.