Inginer software pe starea reală a agenților AI (încă nu sunt acolo)

Matematica nu minte, agenții AI funcționează cel mai bine atunci când nu sunt autonomi

Un cartof fierbinte: Pe fondul creșterii în jurul agenților AI, un inginer experimentat a adus o perspectivă întemeiată, modelată prin lucrul la mai mult de o duzină de sisteme la nivel de producție care se întind pe dezvoltare, DevOps și Operațiuni de date. Din punctul său de vedere, ideea că 2025 va aduce agenți cu adevărat autonome de transformare a forței de muncă, pare din ce în ce mai nerealistă.

Într-o postare recentă pe blog, inginerul de sisteme Utkarsh Kanwat indică constrângeri matematice fundamentale care contestă noțiunea de fluxuri de lucru pe deplin autonomă cu mai multe etape. Deoarece sistemele de calitate de producție necesită o fiabilitate în creștere de 99,9 la sută, matematica face rapid fluxuri de lucru autonome extinse.

„Dacă fiecare pas într -un flux de lucru al agentului are o fiabilitate de 95 la sută, ceea ce este optimist pentru LLM -urile actuale, cinci pași produc 77 la sută succes, 10 pași 59 la sută și 20 de pași doar 36 %”, a explicat Kanwat.

Chiar și îmbunătățirea ipotetică a fiabilității pe pas de 99 la sută scade cu aproximativ 82 la sută succes pentru 20 de pași.

„Aceasta nu este o problemă de inginerie promptă. Aceasta nu este o problemă de capacitate a modelului. Aceasta este o realitate matematică”, spune Kanwat.

Agentul DevOps al lui Kanwat evită problema erorilor compuse prin ruperea fluxurilor de lucru în 3 până la 5 etape discrete, verificabile independent, fiecare cu puncte de rulare explicite și porți de confirmare umană. Această abordare de proiectare – accentuând contextele delimitate, operațiunile atomice și intervenția umană opțională la joncțiuni critice – constituie fundamentul fiecărui sistem de agent de încredere pe care l -a construit. El avertizează că încercarea de a lansa prea multe etape autonome duce inevitabil la eșecul din cauza ratelor de eroare compuse.

Scalarea costurilor jetonului în agenții de conversație prezintă o a doua barieră trecută cu vederea. Kanwat ilustrează acest lucru prin experiența sa prototipând un agent de baze de date conversațional, unde fiecare nouă interacțiune a trebuit să proceseze contextul anterior complet – ceea ce a determinat costurile de jeton să se extindă în mod quadratic cu lungimea conversației.

Într-un caz, un schimb de 100 de rânduri costă între 50 și 100 USD în jetoane, făcând o utilizare pe scară largă din punct de vedere economic nesustenabil. Agentul de generare a funcțiilor Kanwat a evoluat problema rămase apatride: descrierea, funcționarea-niciun context de menținut, nicio conversație de urmărit și fără costuri fugite.

„Cei mai de succes„ agenți ”din producție nu sunt deloc conversaționali”, spune Kanwat. „Sunt instrumente inteligente, delimitate, care fac un lucru bine și ies din drum”.

Dincolo de constrângerile matematice se află o provocare de inginerie mai profundă: proiectarea instrumentelor. Kanwat susține că acest aspect este adesea subestimat pe fondul hype -ului mai larg în jurul agenților. În timp ce invocarea instrumentelor a devenit relativ precisă, el spune că adevărata dificultate constă în proiectarea instrumentelor care oferă feedback structurat și acționabil, fără a copleși fereastra de context limitată a agentului.

De exemplu, un instrument de baze de date bine conceput ar trebui să rezume rezultatele într-un format compact, digerabil-ceea ce indică faptul că a reușit o interogare, a returnat 10 mii de rezultate și afișând doar o mână-mai degrabă decât să copleșească agentul cu ieșire brută. Manevrarea succesului parțial, recuperarea de la eșec și gestionarea operațiunilor interdependente crește în continuare complexitatea ingineriei.

„Agentul meu de bază de date nu funcționează nu pentru că apelurile de instrumente nu sunt de încredere”, spune Kanwat, „ci pentru că am petrecut săptămâni proiectate instrumente care comunică eficient cu AI”.

Kanwat critică companiile care promovează soluții simpliste „doar conectează -ți API -urile”, spunând că deseori proiectează instrumente pentru oameni, mai degrabă decât pentru sistemele AI. Drept urmare, agenții pot fi capabili să apeleze la API -uri, dar nu reușesc frecvent să gestioneze fluxurile de lucru reale din cauza lipsei comunicării structurate și a conștientizării contextuale.

Kanwat observă că mediile întreprinderilor oferă rareori API -uri curate pentru agenții AI. Constrângerile moștenite, limitele ratei fluctuante și cerințele stricte de conformitate reprezintă toate obstacole semnificative. Agentul său de baze de date, de exemplu, încorporează caracteristici tradiționale de inginerie, cum ar fi colectarea de conexiuni, relășirea tranzacțiilor, intervalele de timp de interogare și exploatarea detaliată a auditului – elemente care se încadrează în afara domeniului de aplicare al AI.

El subliniază că agentul generează întrebări, în timp ce programarea sistemelor convenționale gestionează orice altceva. În opinia sa, multe companii care împing promisiunea unor agenți pe deplin autonome, cu stivă completă, nu reușesc să ia în considerare aceste realități dure. Adevărata provocare, susține el, nu este capacitatea AI, ci integrarea – și de aici se destramă majoritatea agenților.

Agenții de succes ai lui Kanwat împărtășesc o abordare comună: AI gestionează complexitatea în limitele clare, în timp ce oamenii sau sistemele deterministe asigură controlul și fiabilitatea. Agentul său de generație UI creează componente React, dar necesită revizuire umană înainte de implementare. DevOps Automation produce cod Terraform care suferă revizuire, control al versiunilor și rollback. Agentul CI/CD include criterii de succes definite și proceduri de rollback, iar agentul de baze de date confirmă comenzi distructive înainte de execuție. Acest design permite AI să gestioneze „părțile dure”, păstrând în același timp supravegherea umană și inginerie tradițională pentru a menține siguranța și corectitudinea.

Privind în viitor, Kanwat prezice că startup-urile susținute de aventuri alungând agenții pe deplin autonomi vor lupta din cauza constrângerilor economice și a acumulării erorilor. Între timp, întreprinderile care încearcă să integreze AI cu software -ul Legacy se vor confrunta cu obstacole de adopție din cauza problemelor complexe de integrare. El consideră că echipele cele mai de succes se vor concentra pe crearea de instrumente specializate, orientate spre domeniu, care se aplică AI la sarcini complexe, dar păstrează supravegherea umană sau limitele operaționale stricte. Kanwat avertizează, de asemenea, că multe companii se vor confrunta cu o curbă de învățare abruptă care trece de la demonstrații impresionante la produse de încredere, gata de piață.

Inginer software pe starea reală a agenților AI (încă nu sunt acolo)

Matematica nu minte, agenții AI funcționează cel mai bine atunci când nu sunt autonomi

LĂSAȚI UN MESAJ Renunțați la răspuns