Deci, cât ne datorează OpenAI?

Am vizionat recent un clip dintr-o dezbatere dintre Timothy Nguyen de la Google Deepmind și autoarea daneză Janne Teller. Dezbaterea, intitulată Tehnologie și libertatea avut loc la Hay-on-Wye în vara anului 2025. Pe tema drepturilor de autor, Nguyen spune:

Motivul pentru care AI este atât de puternică este pentru că a răzuit toate aceste date de pe internet și, desigur, are toate aceste probleme în ceea ce privește legea drepturilor de autor și altele. Dar asta este și cunoaștere democratizată și, prin urmare, există moduri în care a fost bine și rău. Dar acum avem acest sistem foarte inteligent care are toate aceste cunoștințe din cărți, dar atunci poate că vor fi niște autori care nu vor fi foarte fericiți. Deci întotdeauna vor fi câștigători și învinși.

casierul răspunde:

Aceasta este o subminare a oricăror drepturi de proprietate intelectuală pe care le-am dezvoltat până acum. Orice ați scris într-o postare pe Facebook care este publică va fi considerat de acest Metaverse drept ceva pe care îl pot folosi pentru a-și dezvolta AI și ați putea spune OK, aceasta este o nouă formă de partajare. Orice contribuiți, toată lumea deține. Dar apoi asta vorbește despre naționalizarea tuturor platformelor tehnologice. Vrei să ai tot ce au creat toți ceilalți. Dar apoi vrem să avem și munca ta și să avem control asupra ei.

Clipul se întrerupe aici și nu am văzut un videoclip cu întreaga dezbatere, așa că nu știu cum a răspuns Nguyen. Dar cred că Teller a făcut o idee bună. Nu este doar faptul că LLM-urile au fost instruite (ilegal) pe mase de materiale protejate prin drepturi de autor. Ei au fost, de asemenea, instruiți cu privire la datele de pe internet, care este un bun public, și poate că oamenii care au creat fără să vrea toate datele de formare ar trebui să aibă dreptul la un fel de compensație. Chiar și slopigarhii înșiși recunosc acest lucru. De exemplu, în 2017, Elon Musk a spus că ritmul schimbării este:

o mare provocare socială. Și cred că în cele din urmă va trebui să avem un fel de venit de bază universal (UBI). Nu cred că vom avea de ales.

În acest moment, ne confruntăm cu două posibile rezultate. Fie progresul AI se oprește și bula izbucnește, fie descoperirile AI continuă să aibă loc într-un ritm rapid, înlocuind locurile de muncă umane și toată lumea ajunge să rămână șomer până își poate găsi alte locuri de muncă. Fiecare îmbunătățire anterioară a tehnologiei, oricât de perturbatoare, a ajuns în cele din urmă cu oamenii să găsească alte lucruri de făcut, așa că economia va continua să meargă cumva. Dar înainte de a ajunge la acel punct, s-ar putea să ne confruntăm cu tulburări sociale serioase. După cum sugerează Teller, poate chiar companiile AI ar trebui să plătească pentru asta. La urma urmei, ei a făcut fură munca tuturor pentru a-și antrena modelele. Dar dacă, într-un viitor sumbru în care companii precum OpenAI devin profitabile, până la urmă primim compensații, câte compensații ar trebui să primim?

Se pare că această întrebare nu are răspuns. Dar, de fapt, există o simplă euristică pentru evaluarea contribuțiilor relative ale modelului și ale datelor, pe care vreau să o explic în această postare. Nu numai că această euristică este relevantă pentru a gândi despre viitorul AI, dar este și surprinzător de utilă și în știința datelor de zi cu zi.

Luați în considerare o problemă de clasificare în care intrarea este un punct de date $x$ conținut într-un spațiu metric (adică o mulțime echipată cu o noțiune de distanță) $(X, d)$, iar rezultatul este o clasificare într-una din clasele $M$. Clasificatorul este evaluat prin procentul de puncte de date pe care le clasifică corect (the precizie). Dacă $A$ este precizia, atunci $R = 1-A$ se numește rata de eroare.

The Rata Bayes $R^ast$ pentru problemă este definită a fi cea mai bună acuratețe posibilă pe care ar putea-o avea orice clasificator. De ce $R^ast$ nu este doar 100%? Asta pentru că același punct ar putea apărea în mai multe clase! Vezi exemplul de mai jos.

Să presupunem că este dat un set de date $mathcal{X}$. Este format din câteva puncte $x_i în X$ și clasele corespunzătoare $theta_i$. Vrem să folosim setul de date $mathcal{X}$ pentru a construi un clasificator.

The 1-Cel mai apropiat vecin sau 1-NN clasificatorul este clasificatorul $C$ care atribuie pur și simplu un punct de date nevăzut $x$ la clasa celui mai apropiat punct de $x$ din $mathcal{X}$ (pentru simplitate, să presupunem că $mathcal{X}$ nu conține niciun punct duplicat). Adică, dacă $d(x, x_i) = min_{y in mathcal{X}}d(x, y)$ atunci $C(x) := theta_i$. Rețineți că pentru a defini clasificatorul 1-NN, avem nevoie de $X$ să fie un spațiu metric, altfel nu există noțiune de cel mai apropiat vecin.

Teorema pe care Cover și Hart au demonstrat-o în 1967 este că rata de eroare $R$ a clasificatorului 1-NN satisface

(R^ast le R le 2R^ast)

asimptotic, deoarece numărul de puncte de date din $mathcal{X}$ ajunge la $infty$ și cu condiția ca punctele din $mathcal{X}$ să fie un eșantion iid dintr-o anumită distribuție.

Cu alte cuvinte, dacă vi se oferă un set de date și vi se cere să construiți un model predictiv, doar să faceți cel mai naiv lucru posibil și să căutați cel mai apropiat punct din setul dvs. de date până la punctul pe care doriți să îl clasificați, vă duce deja la jumătatea drumului către cel mai mic. posibil eroare.

Exemplu

Iată un exemplu pe care îl foloseam când predau această temă în cursurile universitare.

Să considerăm un singur predictor $x$. Există două clase etichetate $0$ și $1$. Distribuția lui $x$ pentru clasa $1$ este $N(1, 1)$ și distribuția $x$ pentru clasa $0$ este $N(-1, 1)$. Să presupunem că populația este distribuită egal între cele două clase.

Cel mai bun clasificator posibil ar clasifica un punct $x$ în oricare dintre clasele care are densitatea mai mare pentru acea valoare particulară de $x$. Zona violetă reprezintă proporția de puncte care ar fi clasificate greșit. Deoarece 50% din populație este în fiecare clasă, zona violet este egală cu

bayes_rate <- 1-pnorm(1)
# 0.1586553

Acum să presupunem că ni se furnizează un set de date de antrenament format din 50 de puncte din fiecare clasă

set.seed(100)

N <- 100
df_train <- data.frame(x = c(rnorm(N/2, 1, 1), rnorm(N/2, -1, 1)), y = rep(c(1, 0), each=N/2))

Următoarea funcție clasifică un punct folosind cel mai apropiat vecin, metrica fiind $d(x, y) = lvert xy rvert$.

classify_point <- function(x, df){
  df$y(which.min(abs(x-df$x)))
}

Pentru a vedea dacă teorema Cover-Hart funcționează în acest exemplu, să creăm un set de date de testare de 1000 de puncte noi.

M <- 1000
df_test <- data.frame(x = c(rnorm(M, 1, 1), rnorm(M, -1, 1)), y = c(rep(1, M), rep(0, M)))

Rata de eroare a clasificatorului 1-NN pe acest set de date poate fi calculată după cum urmează

pred <- sapply(as.list(df_test$x), function(x) classify_point(x, df_train))
1 - sum(pred == df_test$y)/length(pred)
# 0.216

După cum era de așteptat, 0,216 USD se află între rata Bayes și de două ori rata Bayes.

Desigur, multe alte clasificatoare vor avea performanțe mai bune. De exemplu, regresia logistică atinge deja aproape o precizie perfectă.

model <- glm(y~x, data=df_train, family="binomial")
pred_logistic <- round(predict(model, df_test, type="response"))
1 - sum(pred_logistic == df_test$y)/length(pred)
# 0.16

Dacă rulați întregul script din nou cu aceeași sămânță, dar cu N=10000 puncte din datele de antrenament, veți descoperi chiar că regresia logistică primește o rată de eroare care este mai jos decât rata Bayes! Acest lucru se întâmplă deoarece seturile de antrenament și de testare sunt mostre finite din distribuția reală a datelor, deci există o eroare de eșantionare.

Utilizare practică

Există două moduri de a folosi acest lucru în practică. În primul rând, să presupunem că vi se prezintă un set de date și construiți un clasificator rapid și murdar folosind 1-NN și obțineți o precizie de 80%. Atunci rata de eroare $R$ a clasificatorului 1-NN este de 20%, iar teorema Cover-Hart vă spune că rata Bayes $R^ast ge R/2$, deci rata Bayes nu poate fi mai mică de 10%, ceea ce înseamnă că nu vă puteți aștepta să obțineți o precizie mai bună de 90% folosind un alt algoritm. Acesta ar putea fi un ghid util pentru cât timp ar trebui să petreceți încercând să construiți un clasificator mai bun. În practică, clasificatorul rapid și murdar pe care îl construiți va fi altceva decât 1-NN¹și de obicei are performanțe mai bune decât 1-NN, așa că aceasta poate fi de fapt o modalitate utilă de a estima rata Bayes pe un nou set de date.

În al doilea rând, să presupunem că vi se prezintă un algoritm de clasificare cu o precizie de 95%. Apoi puteți estima că rata Bayes $R^ast$ este de cel mult 5%, deoarece $R^ast$ este cea mai mică rată de eroare posibilă dintre toți clasificatorii. Aceasta înseamnă că rata de eroare a unui clasificator 1-NN $R$ nu poate fi mai mare de 10%. Dar asta înseamnă că un clasificator 1-NN ți-ar fi oferit o precizie de 90%. Deoarece clasificatorul 1-NN este doar un alt nume pentru „priviți datele”, puteți obține deja o acuratețe de 90% analizând datele singur, fără a vă construi modelul elegant. Cu alte cuvinte, datele fac 90 USD/95 = 94,7%$ din muncă!²

Probleme cu teorema Cover-Hart

În practică, Cover-Hart ar trebui să fie folosit doar ca o euristică și nu ca ceva care ar trebui să fie valabil în toate cazurile. Acest lucru se datorează faptului că face ipoteze foarte puternice cu privire la date.

Este adevărat numai dacă aveți infinit de puncte de date, așa că va fi aproximativ adevărat doar în orice situație din viața reală. Cât de aproape este teorema Cover-Hart de a fi adevărată în orice situație din viața reală ar putea depinde, de asemenea, foarte puternic de metrica utilizată.
Mai serios, punctele de date trebuie să fie independente și distribuite identic (iid). Aceasta este nu adevărat, în ciuda faptului că manualele și cursurile par să sugereze contrariul. De fapt, cred că este rar ca seturile de antrenament și de testare chiar să provină din aceeași distribuție.

De exemplu, luați în considerare clasificarea imaginilor. Cover-Hart sugerează că puteți clasifica corect orice imagine dacă găsiți cea mai apropiată imagine, poate în sensul distanței euclidiene, într-un set de date de referință suficient de mare. Dar în mod clar setul de date de referință ar trebui să fie masiv, iar costul căutării celei mai apropiate imagini ar fi probabil extrem de mare.

Ce spune Cover-Hart despre AI?

Teorema Cover-Hart, prin urmare, nu sugerează o modalitate sensibilă de a construi un model AI. De exemplu, să presupunem că doriți să generați următorul cuvânt, având în vedere un șir de text. Un clasificator 1-NN va fi furnizat cu un corpus de date. Ar trebui să caute prin aceste date și să găsească fragmentul de text care se potrivește cel mai mult cu șirul dat, apoi extrage următorul cuvânt din acea bucată de text. Pentru unele tipuri de text, de exemplu The capital of France isacest lucru ar putea funcționa bine, dar în mod clar nu va fi o abordare bună în general.

Nu așa funcționează deloc modelele de limbaj mari, deci cum este relevantă teorema Cover-Hart pentru LLM? Ei bine, cred că ar putea fi folosit ca o euristică pentru măsurarea contribuției relative a modelului și a datelor. De exemplu, să presupunem că un LLM are o performanță de precizie de $A$ procente la un anumit punct de referință. Apoi, după cum s-a explicat mai sus, se poate aștepta ca un clasificator 1-NN să atingă o rată de eroare de $2(1-A)$ și, astfel, puteți estima că datele în sine contribuie aproximativ

(frac{1-2(1-A)}{A} = frac{2A-1}{A})

a performanței generale. Aceasta ar putea fi luată ca o măsură a cât de mult „valorează” datele față de model.

De exemplu, dacă o companie de inteligență artificială atinge 80% la un punct de referință, atunci oamenii care au contribuit cu date într-un fel merită $(2(0,8)-1)/0,8 = 75%$ din credit.

Deci Teller a avut dreptate? Oamenii care au generat datele merită majoritatea profiturilor (dacă există) de la AI? Ei bine, asta depinde de ceea ce vrei să spui prin „AI”.

În cazul LLM-urilor, presupunând că sunt într-adevăr capabili să înlocuiască oamenii la locul de muncă, cred că teorema Cover-Hart ar putea oferi un prim pas pentru a decide cum să reglementeze sau să impoziteze. Dar termenul „AI” cuprinde o mulțime de modele diferite, iar unele dintre aceste modele nu folosesc deloc datele de antrenament. De exemplu, AlphaZero a atins performanța la nivel de mare maestru în șah și performanța supraomenească jucând împotriva lui însuși. Și aceasta nu este o idee nouă; în anii 1990, TD-Gammon era deja capabil să-i depășească pe oameni la table, adoptând o abordare similară. Personal, găsesc acest tip de algoritmi chiar mai impresionanți decât LLM-urile, dar asta este doar părerea mea.

Încă un lucru. Să presupunem că ne aflăm într-o lume în care un guvern a ales să taxeze companiile de inteligență artificială pe baza formulei de mai sus. Atunci am putea ajunge la un scenariu bizar în care, pentru a evita impozitele, companiile AI ar concura pentru a face raportul $(2A-1)/A$ cât mai mic posibil. Acest lucru ar însemna că, în loc să se laude cu acuratețea modelelor lor pe criterii de referință alese de sine, aceste firme s-ar afla într-o cursă paradoxală pentru a pretinde că acuratețea lor a fost la fel de scăzut pe cât posibil.

Cred că ar fi amuzant.

(1) Apropo, clasificatorul 1-NN este unul dintre puținii clasificatori care scoate doar o clasă fără nicio noțiune despre puterea apartenenței la clasă, așa că nu puteți defini un AUC pentru acesta. Acesta este unul dintre clasificatorii care suferă de așa-numitul problemă de dezechilibru de clasădespre care se întreabă în fiecare interviu pentru știința datelor. În practică, dezechilibrul de clasă nu este niciodată cu adevărat o problemă, deoarece nimeni nu compară clasificatorii folosind doar precizia.

(2) Desigur, aceasta ar putea să nu fie întreaga poveste. În primul rând, probabil că veți fi interesat de alte valori în afară de acuratețe. Pe de altă parte, algoritmul dvs. ar putea avea alte avantaje față de clasificatorul 1-NN, cum ar fi venirea mai rapidă cu predicții.

Deci, cât ne datorează OpenAI?

Exemplu

Utilizare practică

Probleme cu teorema Cover-Hart

Ce spune Cover-Hart despre AI?

LĂSAȚI UN MESAJ Renunțați la răspuns