Nu se poate avea încredere în LLM-urile că fac codificare științifică cu acuratețe, dar și oamenii fac greșeli

(Acest articol a fost publicat pentru prima dată pe Modele de peisaje maritimeși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)

Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.

Aud adesea comentariul că LLM/AI generativă (modele mari de limbaj) nu pot fi de încredere pentru sarcinile de cercetare.

Imagine Nano Banana de la Google a fost însărcinată cu „Generează o imagine a unui cercetător african de sex masculin ținând un balon care îl trage în sus deasupra unui val de mare de slop generat de inteligență artificială care este plin de erori. Balonul are o lucrare de cercetare în interior. Generați imaginea în stilul unui desen animat Simpsons.”

Dar acesta este modul greșit de a gândi despre LLM. Nici în oameni nu se poate avea încredere să facă cercetări științifice cu acuratețe. Ei fac greseli. De aceea avem sisteme de revizuire.

Întrebarea mai importantă este: sunt LLM-urile mai precise decât oamenii în îndeplinirea unei anumite sarcini?

De fapt, cred că LLM-urile ar putea duce la o mai bună codificare științifică și analiză statistică.

Un exemplu comun de ceea ce sunt criticați LLM-urile este scrierea codului sau efectuarea de analize statistice. LLM-ul ar putea să halucineze non-adevăruri sau cel puțin să vă inducă în eroare să credeți că analiza pe care ați făcut-o este corectă din punct de vedere științific.

Implicația este că nu ar trebui să le folosim pentru anumite sarcini, cum ar fi proiectarea modelelor statistice.

Dreptul său de a fi sceptic față de output-ul produs de IA. Cu toate acestea, trebuie să fim, de asemenea, sceptici cu privire la producția umană. Oamenii fac și greșeli.

În calitate de oameni de știință, evaluarea inter pares este inclusă în cultura noastră. Dar revizuirea codului este mult mai rară. De asemenea, nu avem multe recenzii sistematice ale codificării științifice care să fi cuantificat rata greșelilor.

Bănuiesc că greșelile în codificarea științifică sunt mai frecvente decât ne-am dori să credem.

Într-un exemplu (rar), cercetătorii au revizuit analizele de modelare a populației și au descoperit că erorile matematice sunt comune. Un tip de eroare a apărut în 62% dintre studii!

Acum nu am stabilit unui agent LLM sarcina de a face modele de populație echivalente pentru a vedea care este rata de eroare. Cu toate acestea, testele mele (care sunt în curs de revizuire) ale agenților la statistici destul de complicate și modelarea ecologică arată o performanță de 80-90% la îndeplinirea cu precizie a sarcinilor.

Așadar, agenții LLM pot avea rezultate mai bune decât oamenii și fac mai puține greșeli.

De ce cred că LLM-urile ar putea duce la o cercetare mai bună este că ne oferă mai mult timp pentru revizuirea codului.

În calitate de modelator ecologic, investesc mult timp în scrierea codului, apoi verificând acel cod să funcționeze așa cum vreau (și într-un mod precis din punct de vedere matematic).

LLM-urile fac acum mai mult din scrisul de cod pentru mine. Folosit eficient, acest lucru îmi oferă mai mult timp pentru a revizui codul pentru acuratețe, precum și verificarea codului este o reprezentare exactă a teoriei științifice.

Un om cu un partener LLM ar putea alege să: (1) să producă o muncă proastă mai repede decât înainte de LLM, SAU (2) să producă o muncă de calitate superioară într-un interval de timp similar cu ceea ce i-a luat înainte de LLM.

Susțin că ar trebui să ne propunem să producem lucrări de calitate superioară. Putem face acest lucru dacă folosim LLM-uri pentru a accelera codul, apoi folosim timpul suplimentar pentru mai multă asigurare a calității.

În general, nu vă lăsați păcăliți de argumentul că „genAI face greșeli, așa că nu poate fi de încredere”.

Este modul greșit de a ne gândi la problemă și cred că ne va conduce la o parte oarbă de valul de cercetare creat cu genAI.

O modalitate mai bună de a ne gândi la asta este: „Amândoi genAI și oamenii greșesc, cum putem proiecta fluxurile de lucru astfel încât punctele lor forte să se completeze reciproc și să producem o muncă de mai bună calitate”.

Acest lucru ne va oferi rezultate de o calitate superioară decât lumea pre-LLM și sperăm că se va ridica peste cantitatea uriașă de slop generată de AI care se întâmplă în prezent.

Nu se poate avea încredere în LLM-urile că fac codificare științifică cu acuratețe, dar și oamenii fac greșeli

LĂSAȚI UN MESAJ Renunțați la răspuns