Înțelegerea funcției `describe()` a lui R: un ghid complet pentru statistici rezumative

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

(Acest articol a fost publicat pentru prima dată pe R-posts.comși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)


Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.

Înțelegerea lui R describe() Funcție: un ghid complet pentru statistici rezumative

Introducere la describe()

The describe() funcție de la R psych pachet (Revelle, 2023) oferă un rezumat statistic complet al setului dvs. de date. Spre deosebire de baza lui R summary() funcție, include metrici suplimentare care sunt deosebit de utile pentru explorarea datelor și verificarea ipotezelor.

library(psych)
describe(your_data)

Defalcarea coloanelor de ieșire

Iată ce reprezintă fiecare coloană din rezultat:

Coloană Descriere Formula/Calcul Caz de utilizare ideal
vars Număr index variabil Urmărirea ordinii variabilelor
n Cazuri complete length(na.omit(x)) Verificarea completității datelor
medie Media aritmetică sum(x)/n Date distribuite în mod normal
sd Abaterea standard sqrt(var(x)) Măsurarea răspândirii
median percentila 50 quantile(x, 0.5) Distribuții distorsionate
tuns Mediu după eliminarea extremelor mean(x, trim=0.1) Tendință centrală robustă
nebun Abaterea mediană absolută median(abs(x-median(x))) Răspândire rezistentă la valori aberante
min Valoarea minima min(x) Evaluarea intervalului
max Valoarea maximă max(x) Evaluarea intervalului
gamă Max – Min max(x)-min(x) Raspandirea totala
oblic Asimetrie de distribuție sum((x-mean(x))³)/(n*sd(x)³) Detectarea direcției oblice
curtoză Cozi sum((x-mean(x))⁴)/(n*sd(x)⁴)-3 Înclinație anormală
se Eroare standard sd(x)/sqrt(n) Precizia estimării medii

Statisticile cheie și interpretarea lor

Tendința centrală

  • Media vs. Mediană: Diferențele indică asimetrie
  • Mediu tăiat: Elimină influența valorilor aberante (implicit scade sus/jos 10%)

Variabilitate

  • SD vs. MAD: Folosiți MAD când sunt prezente valori aberante
  • Gamă: Simplu, dar sensibil la valori aberante

Forma de distribuție

  • asimetrie:
    • >0: coada dreapta
    • <0: Coada stângă
    • 0: simetric
  • Kurtoză (Exces):
    • >0: coadă grea (mai multe valori aberante decât în ​​mod normal)
    • <0: Coada deschisă

Exemple practice

Exemplul 1: MPG de la mtcars

describe(mtcars$mpg)

Interpretarea rezultatelor:

   vars  n   mean    sd median trimmed   mad min  max range skew kurtosis   se
1     1 32 20.09 6.03   19.2   19.70 5.41 10.4 33.9  23.5 0.61    -0.37 1.07
  • Deformat la dreapta (medie > mediană, înclinare pozitivă)
  • Coada deschisă (curtoză negativă)
  • SD (6,03) > MAD (5,41): Sugerează o influență excepțională

Când să folosiți ce statistică

Scenariu Statistici recomandate
Distribuție normală Adică, SD
Date distorsionate Mediană, IQR, MAD
Detectare valori aberante MAD, mediu tăiat, curtoză
Testare parametrică Adică, SE
Analiza neparametrică Mediană, IQR

Extinderea funcționalității

Adăugarea IQR

Implicit describe() nu afișează IQR, dar îl puteți adăuga:

library(dplyr)
describe(mtcars) %>% 
  mutate(IQR = apply(mtcars, 2, IQR, na.rm = TRUE))

Grupuri de comparare

Utilizare describeBy() pentru statistici grupate:

describeBy(mtcars$mpg, group = mtcars$cyl)

Concluzie

R describe() Funcția oferă un punct de plecare puternic pentru analiza exploratorie a datelor. Înțelegând fiecare statistică pe care o oferă, puteți:

  • Detectați problemele de calitate a datelor
  • Alegeți metodele de analiză adecvate
  • Înțelegeți distribuțiile variabilelor dvs
  • Luați decizii informate cu privire la transformările datelor

Pentru raportarea oficială, luați în considerare completarea acestor valori cu teste de vizualizare și statistice.

Sfat pro: Vizualizați-vă întotdeauna datele alături de aceste statistici – numerele spun o parte a poveștii, dar intrările dezvăluie imaginea completă!

Codare fericită!


Referinţă:
Revelle, W. (2023). psych: Proceduri de cercetare psihologică, psihometrică și personalitate. Universitatea Northwestern.


Înțelegerea funcției „describe()” a lui R: un ghid complet pentru statistici rezumate a fost postat pentru prima dată pe 29 aprilie 2026 la 6:09 am.

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.