(Acest articol a fost publicat pentru prima dată pe Achim Zeileisși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)
Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.
După toate cele 72 de meciuri din faza grupelor de la Cupa Mondială FIFA 2026, prognozele noastre probabilistice sunt evaluate, dezvăluind ce a prezis bine algoritmul de învățare automată și unde a avut probleme.
Un nou format de turneu provocator
În urmă cu câteva zile, faza grupelor a Cupei Mondiale FIFA 2026 a fost încheiată după ce s-au strâns 72 de meciuri în doar puțin mai mult de două săptămâni. Astfel, toate perechile pentru turul de 32 sunt fixate acum. Astăzi dorim să evaluăm calitatea propriei noastre prognoze probabilistice pentru Cupa Mondială FIFA 2026, pe baza unui algoritm de învățare automată pe care l-am publicat înainte de turneu.
Cele mai multe dintre predicțiile noastre au funcționat rezonabil de bine, iar rezultatele corespunzătoare sunt în limitele variației aleatoare așteptate. S-a dovedit, totuși, că trecerea de la 32 la 48 de echipe în turneu nu a fost o provocare doar pentru public, ci și pentru algoritmul de învățare automată. Au fost mult mai multe meciuri între echipe foarte inegale în comparație cu edițiile anterioare ale Cupei Mondiale (adică, datele de antrenament pentru algoritm). De asemenea, din cauza faptului că 8 din 12 echipe clasate pe locul trei au trecut și ele în faza eliminatorie, de multe ori a fost mai important ca echipele să nu piardă un meci (decât să-l câștige efectiv), favorizând astfel multe egaluri. În cele din urmă, datorită numeroaselor posibilități de repartizare a echipelor clasate pe locul trei la meciurile eliminatorii, unele echipe au profitat mai mult decât altele din extragerea turneului realizat în optimile de finală.
TL;DR
Toate favoritele turneului au mers în turul de 32 și majoritatea echipelor mai slabe au renunțat la turneu. Probabil că cele mai mari surprize au fost echipele africane (în special Africa de Sud, Capul Verde și RD Congo) care au „supraviețuit” fazei grupelor.
În timp ce probabilitățile de câștig/înfrângere prezise s-au conformat în cea mai mare parte cu rezultatele observate, diferențele de goluri prezise au avut tendința să fie prea mici. În special pentru meciurile dintre echipe destul de inegale, diferențele de goluri observate au fost adesea mai extreme decât se aștepta de către algoritm. Motivul probabil pentru aceasta este că au existat mult mai multe echipe slabe în acest turneu în comparație cu anii anteriori, datorită extinderii la 48 de echipe.
Au fost, de asemenea, ceva mai multe egaluri decât se aștepta (și mai puține victorii/înfrângeri cu o marjă de un singur gol). Din nou, acest lucru se datorează probabil noului format de turneu cu 48 de echipe. O victorie și o remiză au fost cele mai suficiente pentru a fi printre cele mai bune echipe clasate pe locul trei, care trec și în faza eliminatorie. De asemenea, acele grupe care își joacă ultimele meciuri s-ar putea comporta mai strategic și ar putea încerca să se mulțumească cu o egalitate. Un fapt care a fost dureros de evident în meciul memorabil dintre Algeria și Austria.
Rezultatele fazei grupelor
În primul rând, ne uităm la rezultatele în ceea ce privește echipele care au avansat cu succes din faza grupelor până în optimile de finală. Graficele de mai jos arată prezis probabilitatea ca toate echipele să treacă în optimile de finală, în observat ordinea clasamentului, cu culoarea evidențiind echipele care au avansat în faza eliminatorie.

În mod clar, toate favoritele grupei au trecut la limita și majoritatea echipelor cu probabilități mai mici au renunțat. Cele mai mari surprize au fost unele dintre echipele africane, în special Africa de Sud (în Grupa A), Capul Verde (în Grupa H) și RD Congo (în Grupa K), toate care au „supraviețuit” cu succes fazei grupelor. Mai mult, deși unii dintre favoriții turneului (cum ar fi Spania, Anglia, Germania sau Portugalia) nu au convins pe deplin în meciurile din faza grupelor, aceste performanțe nu au avut încă multe consecințe negative. Toți au trecut în faza eliminatorie, de obicei ocupând încă primul loc în grupele lor respective.
Rezultatele meciului
În continuare, aruncăm o privire mai atentă la cele 72 de meciuri individuale din faza grupelor pentru a verifica cât de bine s-au conformat previziunile noastre cu rezultatul real. Graficul cu bare stivuite de mai jos grupează toate rezultatele meciului în cinci intervale (coloane) pe baza diferenței de goluri estimate pentru echipa mai puternică față de echipa mai slabă.


Prima coloană rezumă 15 meciuri în care ambele echipe au fost prezise a fi aproape la fel de puternice. Mai precis, echipa mai puternică a fost prezisă a fi doar puțin mai bună, cu 0 până la 0,35 goluri mai multe prezise în medie. O treime din aceste meciuri a fost câștigată de echipa ceva mai bună, o treime a fost pierdută, iar o altă treime s-a încheiat la egalitate. Pe scurt, distribuția rezultatelor se conformează foarte bine cu predicția că ambele echipe ar fi în esență la fel de puternice.
În a doua și a treia coloană, avantajele prezise ale echipei mai puternice au crescut la 0,35-0,7 goluri, respectiv 0,7-1,05 goluri, iar proporția empirică a meciurilor câștigate a crescut în consecință.
Cu toate acestea, în ultimele două coloane cu cele mai pronunțate avantaje prognozate (diferență de goluri de 1,05-1,4 și, respectiv, 1,4-1,75) proporția de câștiguri a rămas ridicată, dar nu a crescut în continuare. De asemenea, proporția remizelor a rămas relativ mare, chiar și în meciurile cu o favorită clară.
Acest lucru sugerează că prognozele noastre probabilistice au surprins mai bine rezultatele reale în meciurile cu diferențe mici până la moderate între echipe. Dar se pare că algoritmul s-a luptat puțin în meciurile cu diferențe prezise foarte mari.
Pentru a explora acest lucru mai detaliat, comparăm diferențele de goluri observate în aceste meciuri cu distribuțiile așteptate bazate pe modelul Poisson folosit. Acest lucru este evidențiat grafic de așa-numitele rootograme suspendate, separat pentru diferențele mici de gol prezise (0-0,7, primele două coloane de mai sus) și cele mari (1,05-1,75, ultimele două coloane de mai sus).


În ambele panouri, linia roșie arată rădăcina pătrată a frecvențelor așteptate, în timp ce barele gri „atârnând” reprezintă rădăcina pătrată a frecvențelor observate.
Pentru subsetul de diferențe scăzute din panoul din stânga, distribuțiile observate și așteptate se conformează rezonabil de bine. Este de observat, totuși, că remizele (diferențe de goluri de 0) sunt ușor suprareprezentate în observații în comparație cu predicții.
Cu toate acestea, pentru subsetul diferențe mari, este clar că există o părtinire în predicțiile privind diferențele de goluri: diferențele scăzute de goluri observate sunt subreprezentate, în timp ce diferențele mari de goluri observate sunt suprareprezentate. Suprareprezentarea remizelor este, de asemenea, mai pronunțată în acest subset.
După cum sa explicat mai sus, este probabil ca aceste abateri să se datoreze noului format de turneu cu 48 de echipe. Mult mai multe meciuri între echipe extrem de diferite au avut loc în acest turneu în comparație cu turneele anterioare cu doar câteva echipe foarte slabe. Se pare că algoritmul de învățare automată nu a surprins pe deplin acest lucru. În mod similar, stimulentele pentru câștigarea fiecărui meci nu au fost la fel de puternice ca în turneele anterioare, deoarece 8 din 12 echipe de pe locul trei au trecut și ele în faza eliminatorie.
Predicții actualizate pentru etapa eliminatorie
În cele din urmă, dorim să privim în viitor și să explorăm modul în care extragerea turneului realizat pe baza rezultatelor fazei grupelor modifică probabilitățile de câștig prezise pentru Cupa Mondială FIFA 2026. Facem acest lucru presupunând că toate rezultatele de până acum sunt în intervalul de variație aleatorie și că o facem nu trebuie să adapteze previziunile pentru toate meciurile posibile. Cu alte cuvinte, simularea se bazează pe așteptarea că, în special, favoritele Spania și Anglia își pot atinge potențialul maxim în meciurile următoare.
În ceea ce privește predicția noastră originală, simulăm etapa eliminatorie de 100.000 de ori și apoi calculăm cu câte puncte procentuale se modifică probabilitățile de câștig.


Acest lucru arată că Argentina și Anglia au profitat cel mai mult din tragerea la sorți a turneului. Ambii sunt la brațul turneului cu echipe mai puține puternice și se pot înfrunta doar în semifinală. Prin urmare, probabilitatea de câștig a Argentinei a crescut cu 3,1 puncte procentuale (de la 8,2% la 11,3%). În mod similar, probabilitatea de câștig a Angliei a crescut cu 2,6 puncte procentuale (de la 12,4% la 15,0%). Amintiți-vă că aceste numere sunt derivate din ipoteza că toate echipele vor juca conform așteptărilor de înainte de începerea turneului. Astfel, în plus, s-ar putea dori să luați în considerare faptul că Argentina a jucat și mai puternic decât se aștepta, iar Anglia oarecum mai slabă.
Echipele care suferă cel mai mult de la tragerea la sorți realizate includ cele mai importante favorite Spania și Franța, alături de Portugalia și Germania, deoarece acestea sunt foarte probabil să se întâlnească deja în optimile de finală (Spania vs. Portugalia și, respectiv, Franța vs. Germania). Astfel, acestea sunt obstacole mult mai dificile în drumul către Finala Cupei Mondiale în comparație cu cele pentru Argentina și Anglia din brațul celălalt al turneului.
În orice caz, cea mai interesantă parte a Cupei Mondiale FIFA 2026 începe abia acum și cu toții putem fi curioși ce se va întâmpla. Mai sunt 32 de echipe în cursa pentru titlu! (Ei bine, 31 după ce Canada a învins Africa de Sud în primul meci eliminatoriu de ieri.)
