Modelarea predictivă cu date lipsă

(Acest articol a fost publicat pentru prima dată pe Jason Bryerși a contribuit cu drag la R-Bloggers). (Puteți raporta problema despre conținutul de pe această pagină aici)

Doriți să vă împărtășiți conținutul pe R-Bloggers? Faceți clic aici dacă aveți un blog sau aici dacă nu.

Majoritatea strategiilor de modelare predictivă necesită să nu existe date lipsă pentru estimarea modelului. Când lipsesc date, în general, există două strategii pentru lucrul cu date lipsă: 1.) Excludeți variabilele (coloanele) sau observațiile (rândurile) unde lipsesc datele care lipsesc; sau 2.) imputați datele lipsă. Cu toate acestea, datele lipsesc adesea în moduri sistematice. Excluderea datelor de la instruire este ignorarea informațiilor potențial predictive și pentru multe proceduri de imputare, presupunerea care lipsește complet la întâmplare (MCAR) este încălcată. Pachetul Medley implementează o soluție la modelare atunci când există modele sistematice de lipsă. Va fi explorat un exemplu de lucru pentru prezicerea reținerii studenților dintr -un studiu mai mare a evaluării diagnostice și a realizării abilităților de colegiu (DAAC). În acest studiu, datele demografice au fost colectate la înscrierea de la toți studenții și apoi studenții au finalizat evaluări de diagnostic în învățarea autoregulată (SRL), scrierea, matematica și citirea în primele câteva săptămâni ale semestrului. Deși toți studenții erau așteptați să completeze DAAC -uri, nu au existat consecințe și, prin urmare, un procent mare de studenți nu a finalizat niciunul sau doar unele dintre evaluări. Setul de date rezultat are trei modele de răspuns predominate: 1.) Studenți care au finalizat toate cele patru evaluări, 2.) Studenții care au finalizat doar evaluarea SRL și 3). Studenții care nu au finalizat niciuna dintre evaluări. Scopul algoritmului Medley este de a profita de tiparele de date lipsă. Pentru acest exemplu, algoritmul Medley a instruit trei modele predictive: 1.) Demografii plus toate cele patru evaluări, 2.) Demografii plus evaluarea SRL și 3.) doar demografii. Atât pentru formare, cât și pentru predicție, modelul utilizat pentru fiecare student se bazează pe datele disponibile. Adică, dacă un student a completat doar SRL, modelul 2 ar fi utilizat. Algoritmul Medley poate fi utilizat cu majoritatea modelelor statistice. Pentru acest studiu, se folosesc atât regresia logistică, cât și pădurea aleatorie. Precizia algoritmului Medley a fost cu 3,5% mai bună decât utilizarea doar a datelor complete și cu 3,1% mai bune decât utilizarea unui set de date în care datele lipsă au fost imputate folosind pachetul de șoareci. Pachetul Medley oferă o abordare pentru modelarea predictivă folosind același cadru de instruire și predicție, utilizatorii R sunt obișnuiți să utilizeze. Există numeroși parametri care pot fi modificați, inclusiv ce modele statistice care stau la baza sunt utilizate pentru instruire. Funcții de diagnostic suplimentare sunt disponibile pentru a explora modelele de date lipsă.

Pentru a vă înregistra la conferință, accesați https://user2025.r-project.org

Programul sesiunii: https://user2025.r-project.org/program/in-person/

Pentru mai multe informații despre proiect, vizitați: https://github.com/jbryer/medley

Modelarea predictivă cu date lipsă

LĂSAȚI UN MESAJ Renunțați la răspuns