Microsoft Research arată că instrumentele de codificare AI nu se încadrează în sarcinile cheie de depanare

AI ar putea scrie codul dvs., dar totuși nu îl poate repara (deocamdată)

În context: Unii experți din industrie susțin cu îndrăzneală că AI generativ va înlocui în curând dezvoltatorii de software uman. Cu instrumente precum GitHub Copilot și startup-urile de codificare „Vibe” bazate pe AI, poate părea că AI a avut deja un impact semnificativ asupra ingineriei software. Cu toate acestea, un nou studiu sugerează că AI mai are un drum lung de parcurs înainte de a înlocui programatorii umani.

Studiul de cercetare Microsoft recunoaște că, deși instrumentele de codificare AI de astăzi pot stimula productivitatea sugerând exemple, acestea sunt limitate în căutarea activă a informațiilor noi sau interacționând cu execuția codului atunci când aceste soluții nu reușesc. Cu toate acestea, dezvoltatorii umani îndeplinesc în mod obișnuit aceste sarcini la depanare, subliniind un decalaj semnificativ în capacitățile AI.

Microsoft a introdus un nou mediu numit Debug-Gym pentru a explora și aborda aceste provocări. Această platformă permite modelelor AI să depanseze codurile de cod din lumea reală folosind instrumente similare cu acei dezvoltatori, permițând comportamentul de căutare a informațiilor esențiale pentru depanarea eficientă.

Microsoft a testat cât de bine un agent AI simplu, construit cu modele de limbă existente, ar putea depana codul din lumea reală folosind Debug-Gym. În timp ce rezultatele au fost promițătoare, acestea erau încă limitate. În ciuda accesului la instrumente de depanare interactivă, agenții bazate pe prompt au rezolvat rar mai mult de jumătate din sarcinile din repere. Acest lucru este departe de nivelul de competență necesar pentru a înlocui inginerii umani.

Cercetarea identifică două probleme cheie în joc. În primul rând, datele de instruire pentru LLM-urile de astăzi nu au exemple suficiente ale comportamentului decizional tipic în sesiunile reale de depanare. În al doilea rând, aceste modele nu sunt încă pe deplin capabile să utilizeze instrumente de depanare la potențialul lor maxim.

„Credem că acest lucru se datorează deficitului de date care reprezintă un comportament secvențial de luare a deciziilor (de exemplu, urme de depanare) în actualul corp de formare LLM”, au spus cercetătorii.

Desigur, inteligența artificială avansează rapid. Microsoft consideră că modelele de limbă pot deveni debuggeri mult mai capabili cu abordările de instruire concentrate potrivite în timp. O abordare pe care o sugerează cercetătorii este crearea de date de formare specializate axate pe procesele și traiectoriile de depanare. De exemplu, ei propun dezvoltarea unui model de „căutare de informații” care adună contextul de depanare relevant și îl transmite unui model mai mare de generare a codului.

Rezultatele mai largi se aliniază studiilor anterioare, arătând că, în timp ce inteligența artificială poate genera ocazional aplicații aparent funcționale pentru sarcini specifice, codul rezultat conține adesea erori și vulnerabilități de securitate. Până când inteligența artificială nu se poate ocupa de această funcție de bază a dezvoltării software, aceasta va rămâne asistent – nu un înlocuitor.

Microsoft Research arată că instrumentele de codificare AI nu se încadrează în sarcinile cheie de depanare

AI ar putea scrie codul dvs., dar totuși nu îl poate repara (deocamdată)

LĂSAȚI UN MESAJ Renunțați la răspuns