Același model de bază, două lese foarte diferite
În context: Cea mai recentă lansare a lui Anthropic este într-adevăr o poveste despre control, nu doar despre capacitate. Compania oferă două versiuni ale aceluiași model de bază: Claude Mythos 5 pentru un cerc restrâns de parteneri de încredere și Claude Fable 5 pentru toți ceilalți. Divizarea reflectă o provocare de bază pe care Anthropic încă încearcă să o rezolve – cum să implementeze un sistem extrem de capabil în sălbăticie fără a le oferi atacatorilor o nouă clasă de instrumente ofensive.
Mythos a arătat deja ce poate face atunci când nu este foarte restricționat. Din aprilie, când o previzualizare anterioară a fost trimisă la aproximativ 150 de organizații sub bannerul Proiectului Glasswing, utilizatorii au raportat peste 10.000 de defecte critice de securitate în propriile sisteme. Aceleași capacități ar putea fi folosite și de atacatorii care doresc să pătrundă, mai degrabă decât să corecteze găurile de securitate.
Din acest motiv, Mythos 5 rămâne în spatele geamului deocamdată. Anthropic îl ține în mâinile unui „grup mic de apărători cibernetici și furnizori de infrastructură”, împreună cu cercetători selecționați în biologie și coordonează cu agențiile guvernamentale americane ca parte a lansării. Accesul se face în mod eficient pe baza necesității de a cunoaște, compania semnalând că un „program de acces de încredere” mai larg va veni mai târziu.
Fable 5 este locul în care Anthropic testează cum arată o versiune cu scop general a tehnologiei de clasă Mythos sub constrângere. Din punct de vedere tehnic, rulează pe același model de bază ca Mythos 5, dar cu limite stricte încorporate. Sistemul este proiectat să refuze sau să redirecționeze o listă lungă de solicitări legate de securitatea cibernetică, biologie și chimie. Când se declanșează acele balustrade, interogarea este direcționată în tăcere către un model mai vechi, Claude Opus 4.8, în schimb.
Anthropic a conectat, de asemenea, Fable 5 pentru a urmări distilare, în care un utilizator încearcă să colecteze volume mari de răspunsuri pentru a antrena un model mai mic al lor. Dacă sistemul crede că acest lucru se întâmplă, acele solicitări sunt de asemenea redirecționate către Opus 4.8. Cu alte cuvinte, compania nu încearcă doar să controleze despre ce va vorbi modelul, ci și ce pot învăța alții din el.

Anthropic se luptă cu aceste decizii de luni de zile. Diane Penn, șefa de management al produselor al companiei, a declarat pentru Wired că testarea și feedback-ul de la avanpremiera din aprilie au contribuit la modelarea strategiei actuale, deși este încă departe de a fi perfectă.
„Încercăm să aducem îmbunătățiri într-un mod care să fie benefic, chiar dacă nu avem (soluția) perfectă pentru fiecare caz de utilizare pentru a începe”, spune ea. „Din toate abordările diferite, aceasta a apărut ca cea mai viabilă și cea mai bună. Tocmai am ajuns să simțim că aceasta este cea mai bună alegere de produs pentru utilizatori pentru a obține valoarea maximă din Fable 5.”
Deocamdată, filtrele sunt reglate pentru a greși pe partea de suprablocare. Penn a recunoscut că unele interogări inofensive vor fi direcționate către modelul mai vechi. Anthropic spune că dorește să-și perfecționeze clasificatorii în timp, dar susține că acest nivel de precauție este singura modalitate de a justifica o lansare mai largă în această etapă.
Miza este mai mare, deoarece Fable și Mythos nu sunt doar chatbot care răspund la solicitări și se opresc. Anthropic spune că ambele pot rula „nesupravegheate” pentru perioade mai lungi decât modelele anterioare Claude, executând secvențe de instrucțiuni fără supraveghere constantă.
Această trecere către un comportament mai asemănător unui agent ar putea stimula substanțial ingineria software și alte lucrări tehnice, în special având în vedere generarea de cod și capacitățile vizuale mai puternice ale Fable 5. Dar ridică, de asemenea, întrebări evidente despre ce se întâmplă dacă aceste capacități sunt utilizate greșit.
Prețurile Anthropic reflectă cât de puternice consideră că aceste sisteme sunt în comparație cu celelalte modele ale sale. Fable 5 și Mythos 5 costă 10 USD per milion de jetoane de intrare și 50 USD per milion de jetoane de ieșire, aproximativ dublu față de celelalte modele publice ale companiei, dar totuși mai ieftine decât Mythos Preview anterior. Prețul mai mare reflectă atât câștigurile de performanță, cât și sentimentul că aceste modele sunt încă poziționate ca sisteme specializate, nu doar un alt SKU într-un catalog în creștere.

În jurul Anthropic, concurenții se mișcă într-o direcție similară. OpenAI și-a lansat propriul model avansat de securitate cibernetică unui cerc restrâns de parteneri și a convocat un grup de lucru care face ecou proiectul Glasswing. Ambele companii se pregătesc pentru potențiale IPO și sunt sub presiune să le arate investitorilor că pot livra tehnologie de ultimă oră fără a declanșa reacții în privința problemelor de siguranță.
Chiar și unii dintre cei care privesc din exterior spun că neliniștea este justificată. Ministrul canadian de Finanțe François-Philippe Champagne a declarat pentru BBC că îngrijorarea publicului în legătură cu Mythos provine din „este necunoscutul, necunoscutul”.
Cofondatorul antropic, Jack Clark, a susținut un punct de vedere similar din interior, susținând că industria încă nu și-a dat seama cum să încetinească. „Vrei ca opțiunea să poată lua piciorul de pe accelerație și să pui piciorul pe frână”, a spus el. „În acest moment, este ca și cum industria AI are o pedală de accelerație, dar nu are o pedală de frână”.
