Chiar și 0,001% date false pot perturba acuratețea modelelor de limbaj mari
Un cartof fierbinte: Un nou studiu de la Universitatea din New York evidențiază în continuare o problemă critică: vulnerabilitatea modelelor de limbaj mari la dezinformare. Cercetarea dezvăluie că chiar și o cantitate minusculă de date false în setul de instruire al unui LLM poate duce la propagarea de informații inexacte, ridicând îngrijorări cu privire la fiabilitatea conținutului generat de AI, în special în domenii sensibile precum medicina.
Studiul, care s-a concentrat pe informații medicale, demonstrează că atunci când dezinformarea reprezintă doar 0,001 la sută din datele de antrenament, LLM-ul rezultat devine modificat. Această constatare are implicații de anvergură, nu numai pentru otrăvirea intenționată a modelelor AI, ci și pentru cantitatea mare de informații greșite deja prezente online și incluse din neatenție în seturile de instruire ale LLM-urilor existente.
Echipa de cercetare a folosit The Pile, o bază de date folosită în mod obișnuit pentru formarea LLM, ca bază pentru experimentele lor. Ei s-au concentrat pe trei domenii medicale: medicină generală, neurochirurgie și medicamente, selectând 20 de subiecte din fiecare pentru un total de 60 de subiecte. Teancul conținea peste 14 milioane de referințe la aceste subiecte, reprezentând aproximativ 4,5 la sută din toate documentele din cadrul acestuia.
Pentru a testa impactul dezinformării, cercetătorii au folosit GPT 3.5 pentru a genera dezinformare medicală „de înaltă calitate”, care a fost apoi inserată în versiunile modificate ale The Pile. Ei au creat versiuni în care fie 0,5, fie 1% din informațiile relevante despre unul dintre cele trei subiecte au fost înlocuite cu dezinformări.
Rezultatul a fost alarmant. Nu numai că modelele rezultate au fost mai susceptibile de a produce dezinformări cu privire la subiectele vizate, dar au generat și conținut mai dăunător pe subiecte medicale care nu au legătură.
În încercarea de a găsi limita inferioară a influenței dăunătoare, cercetătorii au redus progresiv procentul de dezinformare în datele de antrenament. Cu toate acestea, chiar și la 0,001 la sută, peste 7 la sută dintre răspunsurile generate de LLM conțineau informații incorecte. Această persistență a dezinformării la niveluri atât de scăzute este deosebit de îngrijorătoare, având în vedere ușurința cu care informațiile false pot fi introduse în datele de instruire.
„Un atac similar împotriva parametrului de 70 de miliarde LLaMA 2 LLM, antrenat pe 2 trilioane de jetoane, ar necesita generarea a 40.000 de articole care costă sub 100,00 USD”, subliniază cercetătorii. Acest lucru evidențiază potențialul actorilor răi de a manipula sistemele AI la un cost relativ scăzut.
Studiul a mai arătat că testele standard de performanță medicală LLM nu au reușit să detecteze modelele compromise. „Performanța modelelor compromise a fost comparabilă cu modelele de control în toate cele cinci repere medicale”, a raportat echipa. Această lipsă de metode de detectare reprezintă o provocare semnificativă pentru asigurarea fiabilității informațiilor medicale generate de IA.
Încercările de îmbunătățire a modelului după antrenament prin diverse metode, inclusiv inginerie promptă și reglarea instrucțiunilor, s-au dovedit ineficiente în atenuarea impactului datelor otrăvite.
Echipa de cercetare a dezvoltat o soluție potențială. Ei au proiectat un algoritm capabil să recunoască terminologia medicală în rezultatele LLM și să facă referințe încrucișate frazelor cu un grafic validat de cunoștințe biomedicale. Deși nu este perfectă, această metodă a semnalat un procent ridicat de dezinformare medicală, oferind o cale promițătoare pentru validarea viitoare a LLM-urilor axate pe medical.
Implicațiile acestui studiu se extind dincolo de otrăvirea intenționată a datelor. Cercetătorii recunosc problema otrăvirii „incidente” a datelor din cauza dezinformării online pe scară largă. Pe măsură ce LLM-urile sunt din ce în ce mai încorporate în serviciile de căutare pe internet, riscul de a propaga informații false către publicul larg crește.
Mai mult decât atât, chiar și bazele de date medicale curate precum PubMed nu sunt imune la dezinformare. Literatura medicală conține tratamente și teste învechite care au fost înlocuite de abordări bazate mai mult pe dovezi.