Date pentru potrivirea modelelor versus date pentru predicție din modele

(Acest articol a fost publicat pentru prima dată pe Modele de peisaje maritimeși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)

Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.

Răspunzând la o întrebare care a venit recent de la un student.

Să presupunem că aveți 20 de studii ale biomasei peștilor de recif în diferite locații. Apoi, aveți și date grilă cu covariabile de mediu. Datele grilă sunt pentru toate recifele de pretutindeni.

Scopul este de a prezice biomasa peștilor la toate recifele de pretutindeni. Iată o postare mai veche care parcurge pașii din R cu pachete mai vechi (veți dori să actualizați raster la terratotul ar trebui să funcționeze).

Fluxul de lucru corect din punct de vedere statistic ar arăta astfel:

1. Extrageți covariabilele de mediu din cele 20 de locuri de recif

De exemplu, este posibil să aveți site-uri ca coordonate xy și datele grilă ca terra rasterele. Puteți folosi extract funcția pentru a obține valorile datelor de mediu de la siturile dvs. de recif. Să numim acest nou cadru de date pe care îl veți crea fish_data.

2. Potriviți un model

Ajustați un model care prezice biomasa peștilor la cele 20 de locuri din covariatele de mediu. de exemplu:

model1 <- gam(biomass ~ SST + depth, data = `fish_data`)

Dimensiunea eșantionului dvs. pentru acest model va fi de 20, adică numărul de locuri de recif în care ați măsurat peștii.

Faceți toți pașii obișnuiți pentru a vă verifica modelul, selecția modelului etc…

3. Transformați grilele într-un cadru de date de covariate de mediu

Există o mulțime de moduri de a face acest pas de disputare a datelor. Îmi place să folosesc funcția pentru a obține coordonatele punctelor centrale ale grilelor (xyFromCell), apoi convertiți-l într-un punct spațial, apoi utilizați extractconvertirea înapoi într-un cadru de date simplu (păstrând XY ca coloane).

Acum avem un nou cadru de date de covariate de mediu la fiecare locație de celulă din grilă. Să-i spunem pred_data pentru „date de predicție”. Va avea tot atâtea rânduri câte grile există în rasterul dvs., probabil 1000s.

Ați putea dori să faceți un pas de filtrare pentru a elimina grilele care nu se află pe recife (sau habitatul țintă, nu are rost să preziceți biomasa peștilor de recif pentru locurile care sunt nisip sau pământ).

4. Prezice cu modelul tău

Acum folosiți modelul pentru a estima toate locațiile din grilă, de ex

pred_data$mean <- predict(model1, newdata = pred_data)

Apoi poți converti pred_data înapoi într-un obiect spațial pentru maparea predicțiilor.

Greșeli comune

Deci, elevii greșesc uneori secvența pașilor. De exemplu, puteți transforma grilele într-un cadru de date, interpolați biomasa peștilor în grile nemăsurate ÎNAINTE să vă potriviți modelul. Acest lucru ar fi nepotrivit din punct de vedere statistic, deoarece măriți dimensiunea eșantionului prin replicarea datelor sondajului pe grile nemăsurate.

O altă greșeală comună este utilizarea covariatelor măsurate la nivel local, dar apoi predicția la covariabile grilă care au fost măsurate diferit. Ar trebui să folosim covariatele grilă, mai degrabă decât covariatele măsurate local pentru potrivirea și predicția noastră.

De exemplu, este posibil să aveți grila de temperatură măsurată de un satelit, precum și temperatura măsurată local în timpul sondajelor. Doriți să utilizați covariate grile pentru scopul nostru de a estima, deoarece acestea sunt datele de temperatură pe care le aveți peste tot.

Așa că acum ești gata să mergi mai departe și să faci niște predicții interesante pe hartă. Nu uitați să mapați și incertitudinea (de exemplu, erori standard).

Ultimul cuvânt, tmap este încă instrumentul meu preferat pentru cartografierea în R și continuă să se îmbunătățească.

Date pentru potrivirea modelelor versus date pentru predicție din modele

Greșeli comune

LĂSAȚI UN MESAJ Renunțați la răspuns