Cele mai noi modele O3 și O4-MINI ale lui OpenAI excelează la codificare și matematică-dar halucinați mai des

Ratele de halucinație cresc la 33% pentru O3 și 48% pentru O4-MINI

Un cartof fierbinte: Ultimele modele de inteligență artificială OpenAI, O3 și O4-MINI, au stabilit noi repere în codificare, matematică și raționament multimodal. Cu toate acestea, în ciuda acestor progrese, modelele atrag îngrijorarea pentru o trăsătură neașteptată și tulburătoare: ele halucinate sau fabrică informații, cu rate mai mari decât predecesorii lor – o inversare a tendinței care a definit progresul AI în ultimii ani.

Istoric, fiecare nouă generație de modele Openai a oferit îmbunătățiri incrementale în precizia faptică, ratele de halucinație scăzând pe măsură ce tehnologia s -a maturizat. Cu toate acestea, testarea internă și evaluările terților dezvăluie acum că O3 și O4-MINI, ambele clasificate drept „modele de raționament”, sunt mai predispuse la crearea lucrurilor decât modele de raționament anterioare, cum ar fi O1, O1-MINI și O3-MINI, precum și GPT-4O cu scop general, potrivit unui raport al TechCrunch.

Pe punctul de referință al OpenAI, care măsoară capacitatea unui model de a răspunde cu exactitate la întrebări despre oameni, O3 a halucinat în 33 la sută din cazuri, mai mult decât dublul ratei O1 și O3-MINI, care a marcat 16 % și, respectiv, 14,8 la sută. O4-MINI s-a comportat și mai rău, cu o rată uluitoare de halucinație de 48 la sută-aproape una din două răspunsuri.

Motivele acestei regresii rămân neclare, chiar și pentru cercetătorii lui Openai. În documentația tehnică, compania recunoaște că „este nevoie de mai multe cercetări” pentru a înțelege de ce reducerea modelelor de raționament pare să agraveze problema halucinației.

O ipoteză, oferită de Neil Chowdhury, cercetător la Nonprofit AI Lab Traducere și un fost angajat OpenAI, este că tehnicile de învățare de consolidare utilizate pentru modelele din seria O pot amplifica problemele pe care procesele anterioare de post-instruire au reușit să le atenueze, dacă nu în eliminare.

Descoperirile terților susțin această teorie: Traducere documentate cazuri în care O3 a inventat acțiuni pe care nu le-ar fi putut efectua, cum ar fi pretenția de a rula cod pe un MacBook Pro din 2021 „în afara Chatgpt” și apoi copierea rezultatelor în răspunsul său-o fabricare directă.

Sarah Schwettmann, co-fondatoare a Traducerii, avertizează că rata de halucinație mai mare ar putea limita utilitatea O3 în aplicațiile din lumea reală. Kian Katanforoosh, un profesor adjunct al Stanford și CEO al Workera, a declarat pentru TechCrunch că, în timp ce O3 excelează în codificarea fluxurilor de lucru, acesta generează adesea link -uri de site -uri.

Aceste halucinații prezintă un risc substanțial pentru întreprinderi și industrii în care precizia, cum ar fi legea sau finanțele, este esențială. Un model care fabrică fapte ar putea introduce erori în contracte legale sau rapoarte financiare, subminând încrederea și utilitatea.

OpenAI recunoaște provocarea, purtătorul de cuvânt, Niko Felix, spunând TechCrunch că abordarea halucinațiilor „pe toate modelele noastre este o zonă de cercetare continuă și lucrăm continuu pentru a le îmbunătăți exactitatea și fiabilitatea”.

O cale promițătoare pentru reducerea halucinațiilor este integrarea capacităților de căutare pe web. OpenAI GPT-4O, atunci când este echipat cu căutare, obține o precizie de 90 la sută pe referința SimpleQA, ceea ce sugerează că regăsirea în timp real ar putea ajuta răspunsurile la AI la fapte verificate-cel puțin în cazul în care utilizatorii sunt confortabili împărtășind întrebările lor cu furnizori de căutare terță parte.

Între timp, industria AI mai largă își schimbă atenția către modele de raționament, care promit performanțe îmbunătățite pe sarcini complexe, fără a necesita exponențial mai multe date și putere de calcul. Cu toate acestea, așa cum arată experiența cu O3 și O4-Mini, această nouă direcție aduce propriul său set de provocări, printre care riscul de a crește halucinații.

Cele mai noi modele O3 și O4-MINI ale lui OpenAI excelează la codificare și matematică-dar halucinați mai des

Ratele de halucinație cresc la 33% pentru O3 și 48% pentru O4-MINI

LĂSAȚI UN MESAJ Renunțați la răspuns