(Acest articol a fost publicat pentru prima dată pe R pe kieranhealy.orgși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)
Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.
La Daring Fireball, John Gruber face o observație trecătoare despre aplicația Apple Sports:
Am câteva nemulțumiri cu privire la anumite aspecte specifice ale Apple Sports. Cum ar fi, de unde cineva chiar început pentru a explica cât de mult este în neregulă cu vizualizarea lor cu sumă zero a statisticilor echipei? A mai văzut cineva vreodată o astfel de prezentare? Cineva?
Link-ul „Oricine” ajunge aici. Bună tuturor! Imaginea statisticilor echipei este destul de confuz. Este un rezumat al unui joc dintre San Antonio Spurs și Oklahoma City Thunder. Nu știu prea multe despre baschet, dar știu puțin despre vizualizarea datelor și, într-o coincidență plăcută, fostul meu student Josh Fink este A-VP la Basketball Data Science pentru Spurs. Iată imaginea la care John a obiectat:

A trebuit să mă uit și eu o vreme.
Tocmai am terminat de condus un drum foarte lung în partea din țară, așa că sunt cam obosit. Dar chiar și ținând cont de asta, băiete, acest mod de a reprezenta lucrurile este într-adevăr destul de confuz. Nefiind utilizator Apple Sports, a trebuit să mă uit puțin la el pentru a înțelege ce se întâmplă. Dar, acum că mi-a dat o bătaie de cap, pot să văd de ce cine a creat asta a ajuns în locul fără îndoială rău în care a făcut-o.
Înainte să ajung la motivul pentru care am o oarecare simpatie pentru designer, de ce mi s-a părut atât de dezorientată această reprezentare a acestor numere? Nu doar pentru că am condus de nouă ore. John are dreptate să numească imaginea o reprezentare „Suma zero”. Designul puternic sugerează spectatorului că, în fiecare rând, ne uităm la cota fiecărei echipe dintr-un total. Fiecare pereche de linii negre și albastre par să lupte pentru controlul întregului rând, cea mai lungă linie fiind „câștigătorul” în fiecare caz.
Acest tip de reprezentare ar avea perfect sens pentru o măsură care într-adevăr
a fost suma zero. Luați un exemplu dintr-un sport adecvat, cum ar fi rugby-ul. Acolo, ca la baschet, la o primă aproximare o echipă fie are mingea, fie nu are. Dar nu există un cronometru de lovituri în rugby, iar posesia este de obicei schimbată fără ca jocul să se oprească. Deci, a ști că echipa A a avut 65% posesie nu este doar informativ, ci implică imediat că echipa B a avut 35%. Puteți arăta asta cu o reprezentare ca unul dintre rândurile de mai sus.
Literal, niciuna dintre măsurile din datele de baschet de mai sus nu are sumă zero în acest fel. Ambele echipe ar putea trage 100% din linia de aruncări libere, sau zero la sută. Dar pentru că primele trei măsuri afișate sunt procente, acest lucru întărește impresia de sumă zero dată de linii. Cu siguranță a făcut asta în cazul meu. Dar apoi, începând cu Asistențe, rândurile rămase sunt doar numere absolute. Când am început să mă uit la numerele absolute, am fost confuz a doua oară de lungimea liniilor. „Oh, deci nu este o cotă, este valoarea”, m-am gândit – dar nu, ele corespund în termeni de proporții relative cu cota echipelor din fiecare rând. Dar nu sunt cu adevărat acțiuni sunt doar magnitudini. Dar trebuie să fie afișate într-un spațiu fix și vrem să le facem relativ comparabile cumva, așa că… Argh.
Ar fi bine dacă ar exista un truc ciudat pentru a repara complet această cifră. Dar nu sunt sigur că există. De exemplu, cel puțin am putea redesena aceste numere pentru a reflecta faptul că nu sunt cu sumă zero. Păstrați fiecare măsură ca un rând (adică pe axa y), dar liniile sau coloanele să fie una lângă alta în cadrul fiecărei categorii, în loc să fie în față. Ca aceasta:


Statisticile echipei una lângă alta pentru fiecare măsură.
Această vizualizare vă permite cel puțin să vedeți imediat cine „a câștigat” fiecare măsură. Privitorul poate compara direct lungimea barelor din fiecare categorie. Oamenii sunt foarte buni să facă asta cu exactitate. În acest sens, este mult mai puțin confuz decât originalul. Dar sunt încă multe greșeli în asta. Problema de bază este că atunci când desenăm un grafic ca acesta, de obicei punem acelasi gen de lucruri (de exemplu, țări, sau grupuri religioase sau echipe sportive) pe axa y și apoi să vedem cât de diferite sunt scorurile lor pe o singură măsură (de exemplu, PIB-ul sau numărul de aderenți sau punctele medii înscrise pe joc), pe care le punem pe axa x. Poate că folosim culoarea pentru a desprinde lucrurile și cu o a treia măsură. În acest caz, tocmai am etichetat axa x cât mai generic posibil. „Valoare” acoperă gama tuturor măsurilor. Cea mai mică valoare este 5, în Cel mai mare client. Cel mai mare este 88, în Aruncare Liberă %. Dar aceste cifre nu sunt comparabile în mod semnificativ. Graficul ne încurajează să comparăm atât între categorii, cât și între categorii. Dar, în timp ce comparațiile între categorii sunt semnificative, cele între categorii nu sunt. Au fost mult mai multe puncte de bancă decât blocuri în joc. Dar nu este un lucru util de știut.
A ști cine a câștigat fiecare măsură nu este nimic. Poate fi informativ despre cum a decurs jocul, poate mai ales atunci când o echipă a câștigat jocul, dar a „pierdut” la o serie de măsuri. Dacă ai vrea cu adevărat să te apleci la acest aspect, ai putea să justifice punctul de vedere cu sumă zero și poate să cauți o modalitate de a sorta și ordona după „cât de mult” o echipă „a câștigat” fiecare categorie. Dar din nou, care este numitorul potrivit pentru acele măsuri? De exemplu, ne pasă de partea unei echipe din toate recuperările defensive din joc? Sau ne pasă de ponderea recuperărilor defensive câștigate de o echipă în raport cu fiecare oportunitate pe care a avut-o de a face o revenire defensivă? Cât de semnificativă este ordonarea rândurilor noastre după aceste tipuri de acțiuni? Și mai rău, unele măsuri (în special Faulturile) sunt rău pentru a „câștiga”, așa că ar trebui să facem ceva în privința acestora.


Statisticile echipei una lângă alta și ordonate de la cel mai mare la cel mai mic absolut, orice înseamnă asta.
Problema noastră fundamentală este că avem doar două cazuri (echipele) și cincisprezece măsuri diferite, sau variabile. Fiecare variabilă, cu excepția celor trei procente, este în vigoare la propria sa scară. Nu există o modalitate directă de a face comparații între ele. Sigur, unele dintre aceste măsuri vor fi probabil asociate una cu cealaltă – de exemplu, cifrele de afaceri și cifrele de afaceri cu puncte off – dar valorile numerice nu sunt direct comparabile în general. Dacă știi multe despre baschet, s-ar putea să ai câteva reguli de bază informative despre fiecare dintre aceste măsuri, sau unele dintre ele în combinație. Dar, în acel moment, liniile din acest grafic anume nu vor lucra pentru tine; vei ajunge să te uiți direct la numere. Dacă am avea date despre toate aceste măsuri pentru fiecare meci NBA pentru un sezon întreg, atunci am putea face, desigur, mult mai multe cu ele, pentru că atunci fiecare măsură ar avea o distribuție în toate jocurile și în toate echipele.
Așa cum este, scopul ecranului „Statistici” din Apple Sports este doar acela de a rezuma informațiile dintr-un singur joc. Celălalt lucru la care m-aș putea gândi să fac cu numerele ca un fel de grafic este ceva de genul acesta:


Un diagramă cu coloane spate în spate.
Aceasta este marginal mai util decât cel de dinainte doar pentru că, din nou, scapă de aspectul inutil de sumă zero al originalului. După cum sper că puteți vedea imediat, creează multe alte dificultăți. De asemenea, nu elimină problema de bază. Această problemă este în principal una de proiectare a informațiilor, mai degrabă decât de vizualizare a datelor. Ceea ce vreau să spun este că ceea ce încercăm să organizăm sunt, de fapt, cincisprezece perechi de numere legate, dar fundamental distincte. Dacă am avea cincisprezece cazuri si doi variabile lucrurile ar fi simple. Dar cu cincisprezece variabile și două cazuri… ei bine, acesta nu este genul de lucru din care poți face un singur grafic eficient și fără confuzie. De aceea simpatizez oarecum cu designerul. Într-un spațiu restrâns, ei trebuie să arate treizeci de numere (treizeci și două, inclusiv scorul). O mulțime de informații. O masă dreaptă pare că ar fi plictisitoare. Cu siguranță există o modalitate de a integra tematic numerele într-o manieră atrăgătoare din punct de vedere vizual, care scoate în evidență unele dintre relațiile de pe rând. Asta fac graficele; pare a fi lucrul potrivit pentru care să ajungi. Dar, în esență, această informație nu este un grafic. Pur și simplu arată ca unul și asta ajunge să încurce oamenii.
