Există o mulțime de moduri în care această tehnică poate fi abuzată
Pe scurt: O postare recentă pe blog a inginerului software Paul Butler a aruncat lumină asupra unei tehnici inedite pentru a ascunde datele din personajele Unicode, în special Emojis. Postarea explică conceptul și potențialul său de utilizare greșită și oferă un instrument pentru a experimenta această metodă.
Conceptul se învârte în jurul sistemului Unicode de a reprezenta textul ca o secvență de CodePoints, fiecare codepoint fiind un număr atribuit sens de consorțiul Unicode. În timp ce majoritatea utilizatorilor sunt familiarizați cu maparea unu-la-unu între codepoints și personaje vizibile în scripturile bazate pe latină, situația devine mai complexă cu alte sisteme de scriere în care mai multe codepoint-uri pot reprezenta un singur personaj pe ecran.
Cheia acestei metode de codificare a datelor constă în „selectorii de variații” ale Unicode. Aceste 256 Codepoints speciale etichetate VS-1 până la VS-256 nu au reprezentare vizibilă, dar pot modifica prezentarea caracterului precedent. Majoritatea caracterelor Unicode nu au variații asociate, dar standardul Unicode prevede ca acești selectori să fie păstrați în timpul transformărilor de text, chiar dacă sensul lor este necunoscut pentru software -ul de procesare.
De când a scris postarea de contrabandă cu mesaje Unicode, o grămadă de oameni s -au întrebat dacă AI îl poate decoda.
Nu funcționează 100% din timp, dar Claude Sonet este destul de consistent. Gemini 2.0 Flash a avut o rezolvare impresionant de rapidă, dar nu pot părea să -l reproduc pentru un videoclip. https://t.co/56omal3vdh pic.twitter.com/7ak2ihiqkr
– Paul Butler (@Paulgb) 13 februarie 2025
Această caracteristică de conservare deschide ușa către o schemă inteligentă de codificare. Deoarece 256 de variații pot reprezenta un singur octet de date, devine posibil să „ascundeți” un octet în orice codepoint Unicode. Luând în continuare acest concept, prin concatenarea mai multor selectori de variații, se poate reprezenta orice șir arbitrar de octeți, codificând efectiv date nelimitate într -un singur caracter.
În timp ce această descoperire prezintă posibilități fascinante, aceasta ridică îngrijorări serioase cu privire la utilizarea greșită. Hackerii ar putea exploata această metodă pentru a ocoli filtrele de conținut uman. Întrucât datele codificate devin invizibile odată redate, moderatorii nu și -ar detecta prezența, permițând actorilor rău intenționați să alunece sisteme de moderare a conținutului dăunător sau interzis.
Tehnica are, de asemenea, potențialul de a informa filigranul. Codificarea datelor în selectoarele de variație permite inițiatorului să marcheze mesaje identice pentru diferiți destinatari. Dacă este scurs, expeditorul ar putea urmări textul înapoi unui destinatar specific, ridicând probleme grave de confidențialitate și protecție împotriva denunțătorului.
Butler a explorat, de asemenea, impactul acestei metode de codificare asupra modelelor de limbă (LLM). Rezultatele inițiale sugerează că, în timp ce tokenizerile păstrează în general selectoarele de variații ca jetoane, majoritatea modelelor par reticente să le decodeze intern. Cu toate acestea, atunci când sunt asociate cu un interpret de cod, unele modele avansate au demonstrat capacitatea de a rezolva aceste puzzle -uri de date ascunse.
Butler a creat, de asemenea, un codificator/decodificator care permite utilizatorilor să ascundă datele arbitrare în caracterele Unicode, în special Emojis. Utilizatorii pot introduce text, pe care instrumentul codifică în orice caracter Unicode, inclusiv emoji. Caracterul rezultat pare normal pentru ochi, dar conține date ascunse pe care oricine le poate extrage cu instrumentul lui Butler. El a postat codificatorul online dacă doriți să experimentați cu acesta.