Fotbalul se întâlnește cu învățarea automată: prognozarea Cupei Mondiale FIFA 2026

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

(Acest articol a fost publicat pentru prima dată pe Achim Zeileisși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)


Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.

Prognozele probabilistice pentru Cupa Mondială FIFA 2026 sunt obținute prin utilizarea unui model hibrid care combină date, informații experți și modele statistice avansate. Favorita este Spania, urmată îndeaproape de Anglia, Franța și Germania.

Fanii fotbalului din întreaga lume așteaptă cu nerăbdare începerea Cupei Mondiale FIFA 2026 în Canada, Mexic și Statele Unite săptămâna viitoare. 48 dintre cele mai bune echipe din întreaga lume vor concura între 11 iunie și 19 iulie pentru a determina noul campion mondial. În așteptarea turneului, marea întrebare este cine dintre echipe va reuși, cine va renunța și cine va prevala în cele din urmă. În timp ce, desigur, încă nu este posibil să dai definitiv Răspunsuri la aceste întrebări, suntem capabili să le oferim probabilistică previziuni pentru toate potrivirile posibile folosind un algoritm de învățare automată rafinat. Acest lucru ne permite să explorăm cursul probabil al turneului prin simulare.

Sigla Cupei Mondiale FIFA 2026

Probabilități de câștig

Prognoza se bazează pe un algoritm de învățare automată care combină o varietate de surse diferite de informații: o estimare a aptitudinilor pentru fiecare echipă pe baza meciurilor istorice; o estimare a aptitudinilor pentru fiecare echipă pe baza cotelor de la 24 de case de pariuri; evaluările medii ale jucătorilor din fiecare echipă pe baza performanțelor lor individuale în cluburile și echipele naționale de acasă; valoarea medie de piață a tuturor jucătorilor din fiecare echipă conform unei abordări bazate pe înțelepciunea publicului; alte covariate ale echipelor și ale țării (de exemplu, evaluări FIFA și Elo sau PIB). Un algoritm de învățare automată este antrenat pe rezultatele tuturor turneelor ​​importante de fotbal (Cupele Mondiale masculine și Euro) între 2006 și 2024 și apoi aplicat informațiilor actuale pentru a obține o prognoză pentru Cupa Mondială FIFA 2026. Mai precis, algoritmul estimează numărul de goluri prezis pentru toate meciurile posibile dintre toate cele 48 de echipe din turneu. Pe baza golurilor prezise, ​​probabilitățile pentru fiecare rezultat potențial (adică, 0-0, 1-0, 0-1, 2-0 etc.) în fiecare dintre aceste meciuri pot fi calculate dintr-o distribuție Poisson bivariată (aici: asumarea independenței). Acest lucru ne permite să simulăm toate meciurile din faza grupelor și care echipe trec în faza eliminatorie și cine câștigă în cele din urmă. Repetarea simulării de 100.000 de ori oferă probabilități de câștig pentru fiecare echipă. Rezultatele arată că Spania este favorită la titlu cu o probabilitate de câștig de 14,5%, urmată îndeaproape de Anglia și Franța, ambele cu 12,4%, și Germania cu 11,2%. Probabilitățile de câștig pentru toate echipele sunt afișate în diagrama cu bare de mai jos, cu mai multe informații legate în versiunea interactivă cu lățime completă.

Grafică interactivă pe toată lățimea

Barchart: Probabilități de câștigBarchart: Probabilități de câștig

Studiul a fost realizat de o echipă internațională de cercetători: Andreas Groll, Agamyrat Hanekov, Lars Magnus Hvattum, Rouven Michels, Gunther Schauberger, Elina Sukhanova, Sebastian Witte, Achim Zeileis. Ideea de bază pentru prognoză este de a continua în doi pași. În primul pas, sunt folosite modele statistice sofisticate, precum și perspective experților pentru a determina punctele forte ale tuturor echipelor și ale jucătorilor acestora, folosind seturi disparate de informații. În al doilea pas, un algoritm de învățare automată decide cum să combine cel mai bine estimările de putere cu alte informații despre echipe.

  • Informații istorice: abilități de potrivire.
    O estimare a capacității este obținută pentru fiecare echipă pe baza datelor „retrospective”, și anume toate meciurile naționale istorice din ultimii 8 ani (gizat liber de Mart Jürisoo pe Kaggle). O model Poisson bivariat cu efecte fixe specifice echipei și presupunând independența este adaptată la numărul de goluri marcate de ambele echipe în fiecare meci. Cu toate acestea, mai degrabă decât ponderea egală a tuturor meciurilor pentru a obține medie abilitățile de echipă (sau punctele forte ale echipei) de-a lungul întregii perioade de istorie, este folosită o schemă de ponderare exponențială. Acest lucru atribuie mai multă pondere rezultatelor mai recente și, astfel, produce o estimare a actual abilități de echipă. Mai multe detalii găsiți în Ley, Van de Wiele, Van Eetvelde (2019).

  • Așteptări viitoare: abilități de consens ale caselor de pariuri.
    O altă estimare a capacității pentru fiecare echipă este obținută pe baza datelor „prospective”, și anume cotele a 24 de case de pariuri internaționale care reflectă așteptările experților lor pentru turneu. Folosind modelul de consens al caselor de pariuri din Leitner, Zeileis, Hornik (2010), cotele caselor de pariuri sunt mai întâi ajustate pentru marjele de profit ale caselor de pariuri („overround”) și apoi mediate (pe o scară logit) pentru a obține un consens pentru probabilitatea de câștig a fiecărei echipe. Pentru a ajusta pentru efectele extragerii turneului (care ar fi putut duce la grupuri mai ușoare sau mai dificile pentru unele echipe), se folosește o abordare de simulare „inversă” pentru a deduce abilitățile echipelor care sunt cel mai probabil să conducă la probabilitățile de câștig de consens.

  • Contribuții individuale ale jucătorilor: evaluări medii ale jucătorilor.
    Pentru a deduce „contribuțiile jucătorilor individuali” într-un meci, evaluările jucătorilor plus-minus de Pantuso & Hvattum (2021) disecă toate meciurile cu un anumit jucător (atât la nivel de club, cât și la nivel național) în segmente, de exemplu, între înlocuiri. Ulterior, diferența de obiective atinsă în aceste segmente este legată de prezența jucătorilor individuali pe parcursul segmentului respectiv. Acest lucru generează evaluări individuale pentru toți jucătorii care pot fi agregate la evaluările medii ale jucătorilor pentru fiecare echipă.

  • Înțelepciunea mulțimii: valori medii de piață:
    O altă modalitate de a reflecta calitatea actuală și potențialul viitor al fiecărui jucător dintr-o echipă este să luați în considerare valoarea de piață a acestora. Deoarece valorile reale de piață sunt necunoscute, portalul web Transfermarkt folosește o abordare „înțelepciunea publicului” pentru a determina valorile actuale de piață așteptate pentru toți jucătorii. Acestea se bazează pe discuții bazate pe date disponibile public în rândul membrilor comunității online ai portalului și moderate și consolidate de membri experți ai comunității și de angajații portalului.

  • Combinație cu starea actuală: păduri hibride aleatorii.
    În cele din urmă, învățarea automată este utilizată pentru a combina aceste patru variabile foarte agregate și informative cu o gamă largă de covariabile relevante suplimentare care reflectă stările actuale ale diferitelor echipe și țările din care provin. O astfel de abordare hibridă a fost sugerată pentru prima dată de Groll, Ley, Schauberger, Van Eetvelde (2019). Un algoritm de pădure aleatoriu este antrenat pentru a decide cum să îmbine diferitele estimări de abilități cu caracteristici specifice echipei, care sunt de obicei mai puțin informative, dar suficient de puternice pentru a îmbunătăți previziunile. Caracteristicile luate în considerare cuprind detalii specifice echipei (de exemplu, clasamentul FIFA, ratingul Elo, numărul de jucători din Liga Campionilor), precum și factori socio-economici specifici țării (cum ar fi PIB-ul pe cap de locuitor). Prin combinarea unui ansamblu mare de arbori de regresie destul de slab informativi într-o pădure aleatorie, importanțele relative ale tuturor covariatelor pot fi deduse automat. Numărul de goluri estimat rezultat pentru fiecare echipă poate fi apoi utilizat pentru a simula întregul turneu de 100.000 de ori.

Probabilități de potrivire

Folosind prognozele din algoritmul de învățare automată, se obține numărul de goluri prezis pentru ambele echipe în fiecare meci posibil. Informațiile explicative utilizate pentru aceasta sunt diferența dintre cele două echipe în fiecare dintre variabilele enumerate mai sus, adică diferența în abilitățile istorice de meci (pe o scară de log), diferența de abilități de consens caselor de pariuri (pe o scară de log), diferența de evaluări medii ale jucătorilor echipelor, diferența în valorile pieței de jurnal, etc. probabilitatea ca o anumită potrivire să se termine în a câştigaa remizăsau a pierderi. Același lucru poate fi repetat și în prelungiri, dacă este necesar, iar o monedă este folosită pentru a decide penalizările, dacă este necesar.

Următoarea hartă termică arată pentru fiecare combinație posibilă de echipe probabilitatea ca o echipă să o învingă pe cealaltă într-un meci eliminatoriu. Schema de culori folosește verde față de violet pentru a semnala probabilitățile peste 50% față de sub 50%. Sfaturile instrumente pentru fiecare potrivire din versiunea interactivă a graficului imprimă, de asemenea, probabilitățile ca meciul să se termine într-un câştiga, remizăsau pierderi după ora normală.

Grafică interactivă pe toată lățimea

Hartă termică: probabilități de potrivireHartă termică: probabilități de potrivire

Performanță pe tot parcursul turneului

Întrucât obiectivele ambelor echipe în fiecare meci pot fi simulate cu abordarea descrisă mai sus, este, de asemenea, simplu să simulați întregul turneu (aici: de 100.000 de ori), oferind probabilități de „supraviețuire” pentru fiecare echipă în diferitele etape.

Grafică interactivă pe toată lățimea

Graficul cu linii: probabilități de supraviețuireGraficul cu linii: probabilități de supraviețuire

Mărunţişuri

Toate prognozele noastre sunt probabilistice, clar sub 100% și, prin urmare, deloc sigure. Deși putem cuantifica această incertitudine în termeni de probabilități dintr-un multivers de turnee potențiale, este departe de a fi predeterminat care dintre aceste turnee potențiale vom vedea în cele din urmă în timpul turneului propriu-zis.

Cu toate acestea, perspectiva probabilistică ne oferă câteva perspective interesante: de exemplu, în comparație cu previziunile pentru turneele anterioare (vezi de exemplu, 2018, 2022), este și mai incert cine va câștiga titlul, deoarece există un număr de echipe cu șanse bune (deși niciuna cu foarte mari) de a câștiga turneul. Un factor important pentru aceasta este dimensiunea semnificativ crescută a turneului cu 48 de echipe (în locul celor 32 anterioare) și o rundă eliminatorie suplimentară. De asemenea, tragerea la sorți a turneului este mult mai variabilă, deoarece 8 dintre cele 12 echipe clasate pe locul trei trec la faza eliminatorie cu 495 (!) posibile permutări pentru maparea grupelor la meciurile din optimile de finală.

Mai mult decât atât, comparând previziunile noastre cu cele bazate doar pe cotele caselor de pariuri, este izbitor că Germania se află pe locul 4, aproape în spatele celor trei echipe de top, în timp ce este doar pe locul 7 de multe case de pariuri. În schimb, Brazilia și Argentina sunt de obicei clasate mai sus de casele de pariuri, dar au rezultate mai proaste în simularea noastră calibrată prin învățare automată.

În orice caz, toate acestea înseamnă că prognozele probabilistice lasă mult loc pentru surprize și entuziasm în timpul Cupei Mondiale FIFA 2026. Dar ceea ce este absolut sigur este că așteptăm cu nerăbdare un turneu distractiv în calitate de fani ai fotbalului (mult mai mult decât ca prognozatori profesioniști).

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.