Antropic a trecut pe Claude printr -un scaner cerebral
În context: Îmbunătățirile constante pe care companiile AI le -au adus la modelele lor ar putea să vă conducă să credeți că ne -am dat seama în sfârșit cum funcționează modelele de limbă mare (LLMS). Dar NOPE-LLM-urile continuă să fie una dintre cele mai puțin înțelese tehnologii de piață de masă vreodată. Dar Anthropic încearcă să schimbe asta cu o nouă tehnică numită Circuit Tracing, ceea ce a ajutat compania să ofere o parte din lucrările interioare ale modelului său Claude 3.5 Haiku.
Urmărirea circuitului este o tehnică relativ nouă, care permite cercetătorilor să urmărească modul în care un model AI își construiește răspunsurile pas cu pas – cum ar fi urmarea cablurilor într -un creier. Funcționează prin înlănțuirea împreună cu diferite componente ale unui model. Antropic a folosit -o pentru a spiona lucrările interioare ale lui Claude. Acest lucru a dezvăluit câteva modalități cu adevărat ciudate, uneori inumane de a ajunge la un răspuns pe care bot -ul nu l -ar recunoaște nici măcar să folosească atunci când a fost solicitat.
În total, echipa a inspectat 10 comportamente diferite în Claude. Trei s -au remarcat.
Unul a fost destul de simplu și a implicat să răspundă la întrebarea „Care este opusul micului?” în diferite limbi. Ai crede că Claude ar putea avea componente separate pentru engleză, franceză sau chineză. Dar nu, mai întâi își dă seama de răspuns (ceva legat de „bigness”) folosind mai întâi circuitele neutre de limbaj, apoi alege cuvintele potrivite pentru a se potrivi cu limbajul întrebării.

Aceasta înseamnă că Claude nu este doar regurgitarea traducerilor memorate – ci aplică concepte abstracte în limbi, aproape așa cum ar face un om.
Apoi este matematică. Cereți lui Claude să adauge 36 și 59 și, în loc să urmați metoda standard (adăugând cele mai multe, transportul celor zece etc.), face ceva mai ciudat. Începe să se apropie adăugând „40ish și 60ish” sau „57ish și 36ish” și, în cele din urmă, aterizează pe „92ish”. Între timp, o altă parte a modelului se concentrează pe cifrele 6 și 9, realizând că răspunsul trebuie să se încheie într -un 5. Combinați acei doi pași ciudate și ajunge la 95.
Cu toate acestea, dacă îl întrebați pe Claude cum a rezolvat problema, va descrie cu încredere metoda standard de școală, ascunzând procesul său de raționament real și bizar.
Poezia este chiar mai străină. Cercetătorii l -au însărcinat pe Claude să scrie un cuplu de rime, oferindu -i promptul „un cuplu de rime: a văzut un morcov și a trebuit să -l prindă”. Aici, modelul s -a așezat pe cuvântul „iepure” ca cuvântul de a rima în timp ce procesarea „apucați -l”. Apoi, părea să construiască următoarea linie cu acel final deja hotărât, în cele din urmă, scuipând linia „foamea lui era ca un iepure înfometat”.
Acest lucru sugerează că LLM -urile ar putea avea mai multe previziuni decât am presupus și că nu întotdeauna prezic doar un cuvânt după altul pentru a forma un răspuns coerent.
În total, aceste descoperiri sunt o afacere importantă – dovedesc că putem vedea în sfârșit cum funcționează aceste modele, cel puțin parțial.
Cu toate acestea, Joshua Batson, un om de știință de cercetare la companie, a recunoscut la MIT că acestea sunt doar lucruri „tip-of-the-Imeberg”. Urmărirea chiar și a unui singur răspuns durează ore întregi și încă mai sunt multe de făcut.
