Noul studiu constată că instrumentele de căutare AI sunt inexacte cu 60 % în medie

Bump asta până la 96 la sută dacă sunteți Grok-3

În context: Este o concluzie anterioară că modelele AI pot lipsi de precizie. Halucinațiile și dublarea informațiilor greșite au fost o luptă continuă pentru dezvoltatori. Utilizarea variază atât de mult în cazurile de utilizare individuală, încât este greu să reducem procentele cuantificabile legate de precizia AI. O echipă de cercetare susține că acum are aceste numere.

Centrul de remorcare pentru jurnalismul digital a studiat recent opt motoare de căutare AI, inclusiv Search Chatgpt, Perplexity, Perplexity Pro, Gemini, Deepseek Search, Grok-2 Search, Grok-3 Search și Copilot. Au testat fiecare pentru precizie și au înregistrat cât de des au refuzat instrumentele.

Cercetătorii au ales la întâmplare 200 de articole de știri de la 20 de editori de știri (10 fiecare). Aceștia s -au asigurat că fiecare poveste a revenit în primele trei rezultate într -o căutare Google atunci când utilizează un extras citat din articol. Apoi, au efectuat aceeași interogare în cadrul fiecărui instrument de căutare AI și au clasat precizia pe baza faptului că căutarea a citat corect a) articolul, b) organizația de știri și c) adresa URL.

Cercetătorii au etichetat apoi fiecare căutare pe baza gradelor de precizie de la „complet corect” la „complet incorect”. După cum puteți vedea din diagrama de mai jos, în afară de ambele versiuni de perplexitate, AIS nu a funcționat bine. Colectiv, motoarele de căutare AI sunt inexacte 60 % din timp. Mai mult, aceste rezultate greșite au fost consolidate de „încrederea” AI în ele.

Studiul este fascinant, deoarece confirmă cuantificabil ceea ce știm de câțiva ani – că LLM -urile sunt „cei mai neteziți artiști din toate timpurile”. Ei raportează cu o autoritate completă că ceea ce spun ei este adevărat chiar și atunci când nu este, uneori până la punctul de argument sau alcătuirea altor afirmații false atunci când sunt confruntate.

Într -un articol anecdot din 2023, Ted Gioia (brokerul cinstit) a subliniat zeci de răspunsuri chatgpt, arătând că bot -ul „se află” cu încredere atunci când a răspuns la numeroase întrebări. În timp ce unele exemple au fost întrebări adverse, multe au fost doar întrebări generale.

„Dacă aș crede că jumătate din ceea ce am auzit despre Chatgpt, aș putea să -l las să preia brokerul cinstit în timp ce stau pe plajă bând margaritas și căutând agitatorul meu pierdut de sare”, a remarcat Flippant Gioia.

Chiar și atunci când a recunoscut că a greșit, ChatGPT va urmări această admitere cu informații mai fabricate. LLM este aparent programat pentru a răspunde la fiecare intrare a utilizatorului cu orice preț. Datele cercetătorului confirmă această ipoteză, menționând că căutarea ChatGPT a fost singurul instrument AI care a răspuns la toate cele 200 de întrebări. Cu toate acestea, a obținut doar un rating de 28 la sută complet exact și a fost complet inexact 57 la sută din timp.

Chatgpt nu este chiar cel mai rău dintre grămadă. Ambele versiuni ale lui X’s Grok AI au avut performanțe slabe, căutarea GROK-3 fiind de 94 la sută inexactă. Copilotul Microsoft nu a fost cu atât mai bun atunci când considerați că a refuzat să răspundă la 104 întrebări din 200. Din restul de 96, doar 16 erau „complet corecți”, 14 au fost „parțial corecți”, iar 66 au fost „complet incorecte”, ceea ce a făcut -o aproximativ 70 la sută inexactă.

Probabil, cel mai nebun lucru despre toate acestea este faptul că companiile care fac aceste instrumente nu sunt transparente cu privire la această lipsă de precizie, în timp ce percep publicul între 20 și 200 USD pe lună pentru a accesa cele mai recente modele AI. Mai mult decât atât, Perplexity Pro (20 USD/lună) și căutarea GROK-3 (40 USD/lună) au răspuns puțin la mai multe interogări decât versiunile lor gratuite (perplexitate și căutare GROK-2), dar au avut rate de eroare semnificativ mai mari (mai sus). Vorbește despre un con.

Cu toate acestea, nu toată lumea este de acord. Lance Ulanoff de la Techradar a spus că ar putea să nu mai folosească niciodată Google după ce a încercat căutarea chatgpt. El descrie instrumentul ca fiind rapid, conștient și precis, cu o interfață curată, fără anunțuri.

Simțiți -vă liber să citiți toate detaliile din lucrarea centrului de remorcare publicată în Columbia Journalism Review și să ne anunțați ce credeți.

Aveți încredere în motoarele de căutare AI pentru a returna rezultate exacte?

Noul studiu constată că instrumentele de căutare AI sunt inexacte cu 60 % în medie

Bump asta până la 96 la sută dacă sunteți Grok-3

LĂSAȚI UN MESAJ Renunțați la răspuns