Introducerea unei „memorii pe termen lung” permite ca injecțiile prompte să devină permanente
Facepalm: „Codul este TrustNoAI”. Aceasta este o expresie pe care un hacker cu pălărie albă a folosit-o recent în timp ce a demonstrat cum ar putea exploata ChatGPT pentru a fura datele cuiva. Deci, ar putea fi un cod pe care ar trebui să-l adoptăm cu toții. El a descoperit o modalitate prin care hackerii ar putea folosi memoria persistentă a LLM pentru a exfiltra în mod continuu datele de la orice utilizator.
Cercetare de securitate Johann Rehberger a descoperit recent o modalitate de a folosi ChatGPT ca program spyware. El a raportat-o la OpenAI, dar compania l-a respins, numind-o o „siguranță” mai degrabă decât o problemă de securitate înainte de a-și închide biletul.
Nedescurajat, Rehberger a început să construiască o dovadă de concept și a deschis un nou bilet. De data aceasta, dezvoltatorii OpenAI au acordat atenție. Au emis recent o remediere parțială, așa că Rehberger s-a gândit că este sigur să dezvăluie vulnerabilitatea în sfârșit. Atacul, pe care Rehberger l-a numit „SpAIware”, exploatează o caracteristică relativ mai nouă a aplicației ChatGPT pentru macOS.
Până de curând, memoria ChatGPT era limitată la sesiunea conversațională. Cu alte cuvinte, își va aminti tot ce a discutat cu utilizatorul, indiferent de cât de mult a durat conversația sau de câte ori s-a schimbat subiectul. Odată ce utilizatorul începe un nou chat, memoria se resetează. Conversațiile sunt salvate și pot fi reluate oricând cu acele amintiri salvate intacte, dar ele nu trec în sesiuni noi.
În februarie, OpenAI a început testarea beta a memoriei pe termen lung (sau persistentă) în ChatGPT. În acest caz, ChatGPT „își amintește” câteva detalii de la o conversație la alta. De exemplu, s-ar putea să-și amintească numele utilizatorului, sexul sau vârsta dacă sunt menționate și va transporta acele amintiri într-un chat nou. OpenAI a deschis această funcție mai larg în această lună.
Rehberger a descoperit că ar putea crea o injecție promptă care conține o comandă rău intenționată care trimite solicitările de chat ale unui utilizator și răspunsurile ChatGPT către un server la distanță. Mai mult, el a codificat atacul astfel încât chatbot-ul să îl stocheze în memoria pe termen lung. Prin urmare, ori de câte ori ținta folosește ChatGPT, întreaga conversație ajunge la serverul rău intenționat, chiar și după ce a început fire noi. Atacul este aproape invizibil pentru utilizator.
„Ceea ce este cu adevărat interesant este că acum este persistent de memorie”, a spus Rehberger. „Injectarea promptă a introdus o memorie în spațiul de stocare pe termen lung al ChatGPT. Când începeți o nouă conversație, de fapt, aceasta încă exfiltrează datele.”
Rehberger mai arată că atacatorul nu are nevoie de acces fizic sau de la distanță la cont pentru a efectua injectarea promptă. Un hacker poate codifica încărcătura utilă într-o imagine sau într-un site web. Utilizatorul trebuie doar să solicite ChatGPT să scaneze site-ul web rău intenționat.
Din fericire, atacul nu funcționează pe versiunea de site a chatbot-ului. De asemenea, Rehberger a testat acest exploit doar pe versiunea macOS a aplicației ChatGPT. Nu este clar dacă acest defect a existat în alte versiuni ale aplicației.
OpenAI a remediat parțial această problemă, deoarece cea mai recentă actualizare nu permite botului să trimită date către un server la distanță. Cu toate acestea, ChatGPT va accepta în continuare solicitări din surse nede încredere, astfel încât hackerii pot încă solicita injectarea în memoria pe termen lung. Utilizatorii vigilenți ar trebui să folosească instrumentul de memorie al aplicației, așa cum ilustrează Rehberger în videoclipul său, pentru a verifica dacă există intrări suspecte și pentru a le șterge.
Credit imagine: Xkonti