Agenții AI pot crea modele ecologice convingătoare, dar tot trebuie să știi ce faci

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

(Acest articol a fost publicat pentru prima dată pe Modele de peisaje maritimeși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)


Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.

Instrumentele AI agentice precum Claude Code pot scrie și rula cod, pot remedia propriile erori și pot produce un raport formatat cu cifre. Am vrut să știu dacă asta se traduce într-o modelare ecologică fiabilă, așa că am efectuat un test: trei sarcini de pescuit, patru modele AI, zece runde independente fiecare, punctate pe o rubrică. Rezultatele sunt publicate în Fish and Fisheries.

Am descoperit că agenții pot fi cu adevărat utili, dar numai dacă știi să-i folosești bine și doar dacă știi suficient despre analiză pentru a ști ce le scăpa.

Cum ne-am făcut testele

Am folosit Roo Code, un AI agentic care rulează în VS Code. Spre deosebire de un chatbot, acesta poate scrie cod, îl poate executa, poate citi mesaje de eroare și poate repeta în mod autonom. Există multe software-uri populare pentru AI agentic, Claude Code este cel mai popular în acest moment. Am ales Roo Code pentru că este open source și complet personalizabil.

I-am dat fișe detaliate de specificații și i-am cerut să realizeze trei sarcini. Una a fost o sarcină comună de modelare ecologică: adaptarea unui model liniar generalizat (GLM) al abundenței peștilor și al habitatului coralilor. Celelalte două au fost sarcini specializate în modelarea pescuitului: ajustarea unei curbe de creștere von Bertalanffy și efectuarea unei analize a randamentului pe recrută. Le-am ales pe acestea pentru că sunt obișnuite în științele ecologice, dar suficient de specializate încât LLM probabil că nu au văzut multe exemple în datele lor de formare.

Am executat fiecare sarcină de 10 ori. Răspunsurile LLM au o anumită aleatorie, iar acest lucru se înmulțește atunci când efectuați sarcini de lungă durată. Prin urmare, este la fel de important de măsurat consecvența ca și cea mai bună performanță a acestora. Am punctat fiecare rezultat în funcție de o rubrică care acoperă acuratețea, calitatea codului și calitatea raportului.

Am folosit patru versiuni de LLM. Două modele proprietare: Claude Sonnet 4.0, Sonnet 4.5 (care a apărut în timpul revizuirii, așa că am adăugat mai târziu). Un model cu greutate deschisă: Kimi K2 și varianta sa „exacto”.

În timpul revizuirii, Kimi K2 „exacto” a devenit disponibil pe platforma OpenRouter, așa că am adăugat asta. Exacto direcționează cererile către furnizorii cu cele mai bune performanțe. Unii furnizori îl rulează ieftin. Pe scurt, exacto a funcționat mult mai bine decât a solicita doar versiunea K2 a oricărui furnizor, acest lucru evidențiază importanța rulării modelelor cu greutate deschisă pe hardware de calitate.

Fluxuri de lucru agentice vs codificare asistată AI

Cum să utilizați AI agentic pentru modelarea ecologică

Am învățat câteva lecții cheie despre cum să obținem cele mai bune rezultate din IA agentică pentru modelarea ecologică.

Scrieți o fișă detaliată cu specificații. Fișele noastre s-au desfășurat pe mai multe pagini care acoperă obiectivele analizei, structura datelor, funcțiile și pachetele R recomandate, rezultatele așteptate și convențiile de denumire a fișierelor. Acest lucru necesită timp, dar scrierea unei specificații te obligă să te gândești cu atenție la ceea ce vrei de fapt. Iată un exemplu.

Specificați algoritmii în mod explicit. Agenții folosesc implicit cea mai comună metodă în datele lor de antrenament, care poate să nu fie adecvată pentru întrebarea dvs. Dacă doriți intervale de încredere bootstrapped prin intermediul boot pachet, spune așa.

Chiar și atunci, s-ar putea să nu se conformeze: ambele modele Claude din studiul nostru au aplicat în mod repetat mortalitatea naturală la prima clasă de vârstă în modelul de randament pe recrut, în ciuda instrucțiunilor explicite de a nu face acest lucru. Aceasta este o eroare subtilă care a afectat estimările capturilor – cifrele care ar informa managementul pescuitului. Aceste ciudatenii ale comportamentului agentului evidentiaza de ce supravegherea experta este esentiala.

Rulați replici și comparați rezultatele. Scorurile de precizie au variat substanțial între curse. uneori, agentul a întins fiecare parametru; uneori a corectat unele părți, dar a făcut erori sistematice în alte părți ale analizei. Rularea mai multor agenți și compararea rezultatelor este o modalitate de a identifica cele mai bune soluții.

Verificați lucrurile pe care agentul nu știe să le verifice. Niciunul dintre agenții noștri nu a verificat coliniaritatea dintre predictori din GLM, chiar dacă este o practică standard. Am lăsat-o în mod deliberat în afara specificațiilor pentru a vedea dacă ar face asta. GLM-urile au funcționat bine, rezultatele păreau coerente, dar a existat de fapt o colinearitate puternică între predictori. Lecția aici este că agenții sunt buni la codificare, dar implementarea lor conceptuală poate fi înșelătoare, incompletă sau greșită din punct de vedere logic.

Cea mai mare problemă cu AI-ul agentic este că poate produce rezultate formatate profesional care conține erori logice

Tipul de eroare care mă preocupă cel mai mult este rezultatul formatat profesional care conține erori logice.

În rezultatele noastre am văzut curbe de creștere care au reprezentat frumos, dar au folosit metoda greșită a intervalului de încredere sau o analiză a randamentului care aplică mortalitatea într-o secvență greșită. O eroare de sintaxă de codare este imediat evidentă. O comandă rapidă metodologică încorporată într-o ieșire altfel curată poate fi invizibilă dacă nu știți deja cum ar trebui să arate răspunsul.

Există un risc real ca cercetătorii fără experiență să folosească aceste instrumente pentru a produce analize pe care nu le pot evalua. Cercetătorii cu experiență pot, de asemenea, să devină prea încrezători și să nu verifice rezultatele suficient de amănunțit. Aceste defecte se pot scurge apoi în aplicații, așa cum am văzut unde erorile umane în modelarea ecologică influențează deciziile asupra speciilor invazive.

Pentru oamenii de știință cu baze cantitative puternice, agenții oferă un real câștig de eficiență. Fișele de specificații și rubricile din studiul nostru sunt în materialele suplimentare dacă doriți să le adaptați. Tot codul nostru este disponibil pe github dacă doriți să vă executați propriile teste (Verificați acest folder, fiecare „caz de testare” de modelare are fișa de specificații și alte fișiere)

Lucrarea este cu acces deschis: Brown et al. 2026, Pește și pescuit.

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.