(Acest articol a fost publicat pentru prima dată pe R-posts.comși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)
Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.
Înțelegerea lui R describe() Funcție: un ghid complet pentru statistici rezumative
Introducere la describe()
The describe() funcție de la R psych pachet (Revelle, 2023) oferă un rezumat statistic complet al setului dvs. de date. Spre deosebire de baza lui R summary() funcție, include metrici suplimentare care sunt deosebit de utile pentru explorarea datelor și verificarea ipotezelor.
library(psych) describe(your_data)
Defalcarea coloanelor de ieșire
Iată ce reprezintă fiecare coloană din rezultat:
| Coloană | Descriere | Formula/Calcul | Caz de utilizare ideal |
|---|---|---|---|
| vars | Număr index variabil | – | Urmărirea ordinii variabilelor |
| n | Cazuri complete | length(na.omit(x)) |
Verificarea completității datelor |
| medie | Media aritmetică | sum(x)/n |
Date distribuite în mod normal |
| sd | Abaterea standard | sqrt(var(x)) |
Măsurarea răspândirii |
| median | percentila 50 | quantile(x, 0.5) |
Distribuții distorsionate |
| tuns | Mediu după eliminarea extremelor | mean(x, trim=0.1) |
Tendință centrală robustă |
| nebun | Abaterea mediană absolută | median(abs(x-median(x))) |
Răspândire rezistentă la valori aberante |
| min | Valoarea minima | min(x) |
Evaluarea intervalului |
| max | Valoarea maximă | max(x) |
Evaluarea intervalului |
| gamă | Max – Min | max(x)-min(x) |
Raspandirea totala |
| oblic | Asimetrie de distribuție | sum((x-mean(x))³)/(n*sd(x)³) |
Detectarea direcției oblice |
| curtoză | Cozi | sum((x-mean(x))⁴)/(n*sd(x)⁴)-3 |
Înclinație anormală |
| se | Eroare standard | sd(x)/sqrt(n) |
Precizia estimării medii |
Statisticile cheie și interpretarea lor
Tendința centrală
- Media vs. Mediană: Diferențele indică asimetrie
- Mediu tăiat: Elimină influența valorilor aberante (implicit scade sus/jos 10%)
Variabilitate
- SD vs. MAD: Folosiți MAD când sunt prezente valori aberante
- Gamă: Simplu, dar sensibil la valori aberante
Forma de distribuție
- asimetrie:
- >0: coada dreapta
- <0: Coada stângă
- 0: simetric
- Kurtoză (Exces):
- >0: coadă grea (mai multe valori aberante decât în mod normal)
- <0: Coada deschisă
Exemple practice
Exemplul 1: MPG de la mtcars
describe(mtcars$mpg)
Interpretarea rezultatelor:
vars n mean sd median trimmed mad min max range skew kurtosis se 1 1 32 20.09 6.03 19.2 19.70 5.41 10.4 33.9 23.5 0.61 -0.37 1.07
- Deformat la dreapta (medie > mediană, înclinare pozitivă)
- Coada deschisă (curtoză negativă)
- SD (6,03) > MAD (5,41): Sugerează o influență excepțională
Când să folosiți ce statistică
| Scenariu | Statistici recomandate |
|---|---|
| Distribuție normală | Adică, SD |
| Date distorsionate | Mediană, IQR, MAD |
| Detectare valori aberante | MAD, mediu tăiat, curtoză |
| Testare parametrică | Adică, SE |
| Analiza neparametrică | Mediană, IQR |
Extinderea funcționalității
Adăugarea IQR
Implicit describe() nu afișează IQR, dar îl puteți adăuga:
library(dplyr) describe(mtcars) %>% mutate(IQR = apply(mtcars, 2, IQR, na.rm = TRUE))
Grupuri de comparare
Utilizare describeBy() pentru statistici grupate:
describeBy(mtcars$mpg, group = mtcars$cyl)
Concluzie
R describe() Funcția oferă un punct de plecare puternic pentru analiza exploratorie a datelor. Înțelegând fiecare statistică pe care o oferă, puteți:
- Detectați problemele de calitate a datelor
- Alegeți metodele de analiză adecvate
- Înțelegeți distribuțiile variabilelor dvs
- Luați decizii informate cu privire la transformările datelor
Pentru raportarea oficială, luați în considerare completarea acestor valori cu teste de vizualizare și statistice.
Sfat pro: Vizualizați-vă întotdeauna datele alături de aceste statistici – numerele spun o parte a poveștii, dar intrările dezvăluie imaginea completă!
Codare fericită!
—
Referinţă:
Revelle, W. (2023). psych: Proceduri de cercetare psihologică, psihometrică și personalitate. Universitatea Northwestern.
Înțelegerea funcției „describe()” a lui R: un ghid complet pentru statistici rezumate a fost postat pentru prima dată pe 29 aprilie 2026 la 6:09 am.
