Instrumentul de transcriere OpenAI utilizat pe scară largă de medici și spitale ridică îngrijorări cu privire la halucinații

Într-un caz, a halucinat un tratament medical inexistent

Facepalm: Nu este un secret pentru nimeni faptul că IA generativă este predispusă la halucinații, dar pe măsură ce aceste instrumente își fac loc în mediile medicale, sună alarma. Chiar și OpenAI avertizează împotriva utilizării instrumentului său de transcriere în setări cu risc ridicat.

Instrumentul de transcriere bazat pe inteligență artificială al OpenAI, Whisper, a fost criticat pentru un defect semnificativ: tendința sa de a genera text fabricat, cunoscut sub numele de halucinații. În ciuda afirmațiilor companiei de „robustețe și acuratețe la nivel uman”, experții intervievați de Associated Press au identificat numeroase cazuri în care Whisper inventează propoziții întregi sau adaugă conținut inexistent transcripțiilor.

Problema este deosebit de îngrijorătoare, având în vedere utilizarea pe scară largă a lui Whisper în diverse industrii. Instrumentul este folosit pentru traducerea și transcrierea interviurilor, generarea de text pentru tehnologiile de consum și crearea de subtitrări video.

Poate că cea mai alarmantă este graba centrelor medicale de a implementa instrumente bazate pe Whisper pentru transcrierea consultărilor pacienților, chiar dacă OpenAI a dat avertismente explicite împotriva utilizării instrumentului în „domenii cu risc ridicat”.

În schimb, sectorul medical a îmbrățișat instrumentele bazate pe șoaptă. Nabla, o companie cu birouri în Franța și SUA, a dezvoltat un instrument bazat pe șoaptă folosit de peste 30.000 de clinicieni și 40 de sisteme de sănătate, inclusiv Clinica Mankato din Minnesota și Spitalul de copii din Los Angeles.

Martin Raison, directorul de tehnologie al Nabla, a declarat că instrumentul lor a fost reglat fin pe limbajul medical pentru a transcrie și a rezuma interacțiunile pacientului. Cu toate acestea, compania șterge audio original din „motive de siguranță a datelor”, făcând imposibilă compararea transcripției generate de AI cu înregistrarea originală.

Până acum, instrumentul a fost folosit pentru a transcrie aproximativ 7 milioane de vizite medicale, potrivit Nabla.

Utilizarea instrumentelor de transcripție AI în medii medicale a ridicat, de asemenea, probleme legate de confidențialitate. Parlamentarul statului California, Rebecca Bauer-Kahan, și-a împărtășit experiența în care a refuzat să semneze un formular care îi permite medicului copilului ei să partajeze audio de consultație cu furnizorii, inclusiv Microsoft Azure. „Comunicarea a fost foarte specifică că companiile cu scop profit ar avea dreptul să aibă acest lucru”, a spus ea pentru Associated Press. „Am spus „absolut nu”.

Amploarea problemei halucinațiilor lui Whisper nu este pe deplin cunoscută, dar cercetătorii și inginerii au raportat numeroase cazuri ale problemei în munca lor. Un cercetător de la Universitatea din Michigan le-a observat în 80% dintre transcrierile întâlnirilor publice examinate. Un inginer de învățare automată a întâlnit halucinații în aproximativ jumătate din peste 100 de ore de transcripții Whisper analizate, în timp ce un alt dezvoltator le-a găsit în aproape toate cele 26.000 de transcrieri create cu ajutorul instrumentului.

Un studiu realizat de profesorul Allison Koenecke de la Universitatea Cornell și de profesorul asistent Mona Sloane de la Universitatea Virginia a examinat mii de fragmente audio scurte, descoperind că aproape 40% dintre halucinații au fost considerate dăunătoare sau îngrijorătoare din cauza unei potențiale interpretări greșite sau denaturare a vorbitorilor.

Exemple de aceste halucinații includ adăugarea de conținut violent acolo unde nu a existat niciunul în audio original, inventarea de comentarii rasiale care nu sunt prezente în discursul original și crearea de tratamente medicale inexistente.

Într-un caz, Whisper a transformat o declarație simplă despre un băiat care ia o umbrelă într-un scenariu violent care implică o cruce și un cuțit. Într-un alt caz, instrumentul a adăugat descriptori rasiali la o declarație neutră despre oameni. Whisper a fabricat, de asemenea, un medicament fictiv numit „antibiotice hiperactivate” într-una dintre transcripțiile sale.

Astfel de greșeli ar putea avea „consecințe cu adevărat grave”, în special în mediul spitalicesc, a spus Alondra Nelson, care a condus până anul trecut Biroul Casei Albe pentru Politică în Știință și Tehnologie pentru administrația Biden. „Nimeni nu vrea un diagnostic greșit”, a spus Nelson, profesor la Institutul pentru Studii Avansate din Princeton, New Jersey. „Ar trebui să existe o bară mai înaltă”.

Influența lui Whisper se extinde cu mult dincolo de OpenAI. Instrumentul este integrat în unele versiuni de ChatGPT și este oferit ca serviciu încorporat pe platformele de cloud computing Oracle și Microsoft. În doar o lună, o versiune recentă de Whisper a fost descărcată de peste 4,2 milioane de ori de pe platforma open-source AI HuggingFace.

Criticii spun că OpenAI trebuie să abordeze imediat acest defect. „Acest lucru pare solubil dacă compania este dispusă să-i acorde prioritate”, a declarat William Saunders, un fost inginer OpenAI care a părăsit compania în februarie din cauza preocupărilor legate de direcția acesteia.

„Este problematic dacă puneți acest lucru acolo și oamenii sunt prea încrezători în ceea ce poate face și îl integrează în toate aceste alte sisteme.”

Instrumentul de transcriere OpenAI utilizat pe scară largă de medici și spitale ridică îngrijorări cu privire la halucinații

Într-un caz, a halucinat un tratament medical inexistent

LĂSAȚI UN MESAJ Renunțați la răspuns