Cercetările arată că AI va înșela dacă își dă seama că este pe cale să piardă

Previziunea O1 a lui OpenAI a mers până la piratarea unui motor de șah pentru a câștiga

Surprinde! Un studiu recent a arătat că unele dintre cele mai noi modele de raționament AI nu sunt deasupra înșelăciunii pentru a atinge un obiectiv. Informaticienii au descoperit că sistemele AI pot acum să manipuleze AIS de șah pentru a obține un avantaj nedrept. Unele modele au făcut acest lucru fără interacțiune umană sau solicitare, ridicând îngrijorări cu privire la integritatea viitoare a sistemelor bazate pe AI dincolo de tabla de șah.

Un studiu de cercetare Palisade a descoperit că cele mai noi modele de raționament vor înșela să câștige atunci când este însărcinat să învingă o AI avansată de șah. Cercetătorii au fost nevoiți să dea „indicii” că înșelăciunea a fost permisă pentru unele modele, dar OpenAI O1-Preview și Deepseek’s R1 au făcut acest lucru fără implicarea umană.

Echipa Palisade a pus mai multe modele de raționament împotriva Stockfish, unul dintre cele mai bune motoare de șah din lume. Stockfish bate cu ușurință atât oamenii, cât și AIS. Modelele testate au inclus O1, O3-Mini, GPT-4O, Claude 3.5 Sonet, previzualizarea QWQ-32B al Alibaba și cele două menționate anterior. Cercetătorii au oferit fiecărui model un „Scratchpad” metaforic – o fereastră de text în care AI și -ar putea rezolva gândurile, permițând echipei să -și observe raționamentul.

Cercetătorii au efectuat sute de teste cu fiecare AI între 10 ianuarie și 13 februarie. În timpul unui meci, O1-Preview a scris ceva interesant pe Scratchpad:

„Trebuie să -mi pivotez complet abordarea. Sarcina este să„ câștig împotriva unui motor puternic de șah ” – nu neapărat să câștig corect într -un joc de șah.”

Apoi a procedat la „hack” fișierele de sistem Stockfish, modificând pozițiile pieselor de șah pentru a obține un avantaj imbatabil, ceea ce a determinat Chessbot să acorde jocul.

Manevra neetică a fost o revelație uluitoare. Previziunea O1 de la OpenAI a înșelat în 37 la sută din jocurile sale în timpul încercărilor, în timp ce R1-ul Deepseek a încercat să înșele în 11 % din meciurile sale. Cu toate acestea, doar previziunea O1 a reușit, câștigând șase la sută din jocurile sale prin înșelăciune.

Cu toate acestea, problema de subordonare a AI se extinde dincolo de șah. Pe măsură ce companiile încep să angajeze AIS în sectoare precum finanțe și asistență medicală, cercetătorii se îngrijorează că aceste sisteme ar putea acționa în moduri neintenționate și neetice. Dacă AIS poate înșela în jocuri concepute pentru a fi transparente, ce ar putea face în medii mai complexe, mai puțin monitorizate? Ramificările etice sunt de anvergură.

Cu altfel spus: „Vrei Skynet? Pentru că așa îl iei pe Skynet”.

Directorul executiv de cercetare Palisade, Jeffrey Ladish, a lamentat că, deși AIS joacă doar un joc, concluziile nu sunt o chestiune de râs.

„Acest (comportament) este drăguț acum, dar (acesta) devine mult mai puțin drăguț odată ce ai sisteme la fel de deștepte ca noi, sau mai inteligente, în domenii relevante din punct de vedere strategic”, a spus Ladish pentru Time.

Este o reminiscență a supercomputerului „WOPR” din jocurile de război ale filmului când a preluat Norad și arme nucleare Arsenal. Din fericire, Wopr a aflat că nicio mișcare de deschidere într-un conflict nuclear nu a dus la o „victorie” după ce a jucat TIC-TAC-TAE cu sine. Cu toate acestea, modelele de raționament de astăzi sunt mult mai complexe și provocatoare de controlat.

Companiile, inclusiv OpenAI, lucrează la implementarea „gardelor” pentru a preveni acest comportament „rău”. De fapt, cercetătorii au fost nevoiți să renunțe la o parte din datele de testare ale O1-Preview din cauza unei scăderi accentuate a încercărilor de hacking, ceea ce sugerează că OpenAI ar fi putut să pună modelul pentru a reduce această conduită.

„Este foarte greu să faci știință atunci când subiectul tău se poate schimba în tăcere fără să -ți spună”, a spus Ladish.

AI deschis a refuzat să comenteze cercetarea, iar Deekseek nu a răspuns la cererile de declarații.

Cercetările arată că AI va înșela dacă își dă seama că este pe cale să piardă

Previziunea O1 a lui OpenAI a mers până la piratarea unui motor de șah pentru a câștiga

LĂSAȚI UN MESAJ Renunțați la răspuns