(Acest articol a fost publicat pentru prima dată pe BLUECOLOGIE BLOGși a contribuit cu drag la R-Bloggers). (Puteți raporta problema despre conținutul de pe această pagină aici)
Doriți să vă împărtășiți conținutul pe R-Bloggers? Faceți clic aici dacă aveți un blog sau aici dacă nu.
Nu văd de ce este un lucru să spun „Sunt Bayesian”. A fi un bayesian este normal pentru orice persoană rațională, așa cum ne vom dovedi în câteva propoziții. A fi frecventist este ceea ce este ceea ce este ciudat. Ar avea mai mult sens să presupunem că suntem toți bayesieni și că frecventei trebuie să declare „sunt frecventist”.
Cantitatea statistică de interes pentru frecventist este probabilitatea, care este definită ca probabilitatea observațiilor tale, având în vedere ipoteza ta. Poate fi scris:
Pr(D | H)
(Probabilitatea echivalentă a datelor date, presupunem un anumit model). Pentru un bayesian, cantitatea statistică este probabilitatea ipotezei având în vedere observațiile sau:
Pr(H | D)
(Probabilitatea echivalentă a unui model dat datele).
Spuneți că suntem pe o barcă și aruncăm o privire asupra unei scufundări de animale de dimensiuni umane sub apă, cu o clapetă din coadă. A fost o sirenă sau un dugong? (Un dugong este tipul de mamifer care mănâncă mare).
Un frecventist ar gândi după probabilități și ar concluziona, corect, că atât sirena, cât și dugong sunt la fel de probabile: ambele creaturi, dacă se presupune că există, ar putea duce la o observație similară a faptului că vedem un corp și o coadă care se scufundă sub apă, adică
Pr(seeing a tail | dugongs exist) ≈ Pr(seeing a tail | mermaid exist)
O persoană rațională ar ghici că coada observată era un dugong. Acest lucru se datorează faptului că o persoană rațională se gândește în ceea ce privește probabilitățile. Probabilitatea pe care am observat -o o sirenă este dispărută de mică, deoarece toate dovezile anterioare ne determină să credem că sirenele nu există (deși știu unii mai puțin decât raționali care cred în „Merfolk”).
În logică, teorema Bayes spune că putem calcula probabilitatea ipotezei
Pr(H | D) = Pr(D | H)*Pr(H) / Pr(D)
Deci, pentru ipoteza „este un dugong”:
Pr(dugong | seeing tail) = Pr(seeing tail | dugong)*Pr(dugong) / Pr(seeing tail)
Pentru cele două modele ale noastre, Dugong versus sirena, avem valori similare pentru probabilitățile și pr(D)
dar „probabilitățile anterioare”, Pr(H)
sunt foarte diferite. Pr(dugong)
este plauzibil (chiar dacă este rar să le vezi), în timp ce Pr(mermaid)
este zero, pentru că Merfolk nu există.
Înmulțim probabilitatea cu priorul în ecuația Bayes, deci Pr(mermaid | seeing tail)
devine zero.
(Dacă sunteți nou în teoria Bayes, s -ar putea să vă întrebați ce face Pr(D)
medie? Cum calculăm probabilitatea datelor? Pentru exemplul de mai sus nu contează ca Pr(seeing a tail)
este același pentru ambele ipoteze. Una dintre provocările statisticilor Bayes în practică este calcularea acestui lucru Pr(D)
. O mulțime de calcule statistice sunt dedicate să -și dea seama cum să facă asta. Pe scurt totuși Pr(D)
poate fi calculat ca suma Pr(seeing tail | dugong)*Pr(H)
Pentru toate ipotezele discrete sau integralul dacă ipotezele noastre sunt continue (cum ar fi valorile parametrilor)).
Această distincție filosofică contează în practica statisticilor?
Versiunea Bayesiană a unei analize, cum ar fi un GLM, va da adesea similare sau aceleași predicții ca versiunea frecventă. Cu toate acestea, ecologia, la fel ca multe alte discipline, are o problemă cu repetabilitatea și p-hacking-ul P.
O parte a problemei provine din metodele pe care le folosim. Pentru dimensiuni mari de eșantion, rezultatele frecventiste și bayesiene converg adesea.
Dar dimensiunile mici ale eșantionului sunt frecvente în multe domenii, inclusiv în ecologie. Un studiu mic de mărime a eșantionului care găsește un rezultat extrem și semnificativ este atractiv de publicat. Această problemă a fost deosebit de problematică în ecologia comportamentală. Aceste false pozitive vin să domine literatura.
Utilizarea adecvată a priorilor bayesieni ar penaliza aceste dimensiuni de efect extrem. Acest lucru este echivalent cu stabilirea unei probabilitate scăzută la observațiile de sirenă de mai sus. Unii au cerut ca Priorii mai puternici să fie alegerea implicită
Deci, în viața de zi cu zi, ne gândim la probabilități bayesieni, nu ca frecventiști. Există numeroase pachete R Bayesian acum și sunt din ce în ce mai ușor de utilizat. Așadar, are sens că ar trebui să aplicăm aceeași logică și la analizele noastre statistice.
Mulțumită „filozofiei biologiei” lui Sober pentru acest exemplu (el folosește gremlins în acoperiș, mai degrabă decât sirene) și Coralina pentru că mi -a spus despre carte!