Se luptă și cu calendare
Facepalm: Instrumentele AI generative sunt capabile să îndeplinească tipurile de sarcini care păreau odată lucrurile de știință, dar majoritatea încă se luptă cu multe abilități de bază, inclusiv citirea ceasurilor și calendarelor analogice. Un nou studiu a constatat că, în general, AI Systems citesc ceasul se confruntă corect cu mai puțin de un sfert din timp.
O echipă de cercetători de la Universitatea Edinburgh a testat câteva modele de limbă multimodală de top multimodale pentru a vedea cât de bine ar putea răspunde la întrebări bazate pe imagini cu ceasuri și calendare.
Sistemele testate au fost Google DeepMind’s Gemini 2.0, sonetul Claude 3.5 al Anthropic, Meta’s Llama 3.2-11b-Vision-Instruct, Alibaba QWEN2-VL7B-Instruct, ModelBest Minicpm-V-V-2.6 și OpenAI’s GPT-4O și GPT-O1.
În imagini au apărut diverse tipuri de ceasuri: unele cu cifre romane, cele cu și fără secunde, diferite cadrane colorate etc.
Sistemele citesc ceasurile corect mai puțin de 25% din timp. S -au luptat mai mult cu ceasuri care foloseau cifre romane și mâini stilizate.
Performanța AI nu s -a îmbunătățit atunci când a fost eliminată mâna secunde, determinând cercetătorii să sugereze că problema vine din detectarea mâinilor ceasurilor și interpretarea unghiurilor pe fața ceasului.
Folosind 10 ani de imagini din calendar, cercetătorii au pus întrebări precum ce zi a săptămânii este ziua de Anul Nou? Și care este a 153 -a zi a anului?

Chiar și cele mai de succes modele AI au obținut întrebările din calendar greșit cu 20 % din timp.
Ratele de succes au variat în funcție de sistemul AI utilizat. Gemini-2,0 a fost cel mai mare marcator în testul de ceas, în timp ce GPT-01 a fost exact 80% din timp la întrebările calendaristice.
„Majoritatea oamenilor pot spune timpul și pot folosi calendare de la o vârstă fragedă”, a declarat Rohit Saxena, liderul studiului, de la Școala de Informatică a Universității Edinburgh. „Descoperirile noastre evidențiază un decalaj semnificativ în capacitatea AI de a efectua ceea ce sunt abilități destul de de bază pentru oameni. Aceste deficiențe trebuie abordate dacă sistemele AI vor fi integrate cu succes în aplicații reale sensibile la timp, cum ar fi programarea, automatizarea și tehnologii de asistență.”
Aryo Gema, un alt cercetător de la Școala de Informatică din Edinburgh, a spus: „Cercetările AI de astăzi subliniază adesea sarcini de raționament complexe, dar, în mod ironic, multe sisteme încă se luptă atunci când vine vorba de sarcini mai simple și de zi cu zi”.
Rezultatele sunt raportate într-o lucrare revizuită de la egal la egal, care va fi prezentată la atelierul de raționament și planificare pentru modele de limbaj mare la cea de-a treisprezecea Conferință internațională privind reprezentările de învățare (ICLR) din Singapore, pe 28 aprilie. Constatările sunt disponibile în prezent pe Arxiv Server Pretrint.
Acesta nu este primul studiu din această lună care arată că sistemele AI fac încă o mulțime de greșeli. Centrul de remorcare pentru jurnalismul digital a studiat opt motoare de căutare AI și a constatat că sunt inexacte 60 % din timp. Cel mai rău vinovat a fost Grok-3, care a fost inexact de 94 la sută.
