Partea I - folosind R în Excel - Statistici descriptive

(Acest articol a fost publicat pentru prima dată pe Laboratorul software al lui Adamși a contribuit cu drag la R-Bloggers). (Puteți raporta problema despre conținutul de pe această pagină aici)

Doriți să vă împărtășiți conținutul pe R-Bloggers? Faceți clic aici dacă aveți un blog sau aici dacă nu.

Introducere

Scopul acestei serii de postări este de a demonstra unele cazuri de utilizare pentru R în Excel folosind Excelraddin Component (Disclaimer: Eu sunt dezvoltatorul acestui supliment: Excelraddin). Motivul fundamental pentru supliment este că permite accesul la ecosistemul R extensiv într-o foaie de lucru Excel. Excel oferă multe facilități excelente pentru Wrangling și Analiza datelor. Cu toate acestea, pentru anumite tipuri de analize de date statistice, limitările funcțiilor încorporate chiar și alături de Analiza ToolPak nu este suficientă, iar R oferă facilități superioare (de exemplu, pentru efectuarea LDA, PCA, prognoză și analiză a seriilor de timp pentru a menționa câteva).

Această serie de postări demonstrează patru domenii principale în care R este utilă în Excel: Statistici descriptive, Regresie liniară, prognozăși Accesarea Python. Pe parcurs, vom vedea că utilizarea R în Excel nu este mai dificilă decât să scrieți o formulă și să apelați Excelraddin pentru a evalua. „Trucul”, dacă există unul, este ambalarea rezultatelor într -o formă pe care Excel o înțelege și care poate fi utilizată într -o foaie de lucru. Vom vedea mai multe exemple despre cum să faceți acest lucru.

Instalarea și configurarea Excelraddin este descris aici. Fiecare parte a seriei este însoțită de un caiet de lucru Excel cu scripturile R. Cărțile de lucru depind de ExcelRAddIn-AddIn64.dlldeci acest lucru ar trebui să fie încărcat mai întâi, iar meniul „R Addin” ar trebui să apară în partea dreaptă a barei de meniu.

Excelraddin

Panoul de sarcini este gol până la evaluarea primului script. Acest lucru va inițial r folosind directoarele din „Setări”. Pachetele implicite pe care le folosesc sunt Tidyverse, DPlyr, prognoză, GGPLOT2, GGTHEMES, așa cum se arată mai jos:

R Setări de mediu

Cartea de lucru pentru această parte a seriei este: Partea I – R în Excel – Descriptive Statistics.xlsx. Cartea de lucru toate au o structură similară doar pentru a menține lucrurile organizate. Fișa de lucru „Referințe” listează orice link -uri către referințe externe. Fișa de lucru „Biblioteci” încarcă pachete suplimentare (fără default). Fișa de lucru „Seturi de date” conține orice date la care se face referire în foile de lucru.

Statistici descriptive

Încărcarea datelor

Primul pas este să încărcați unele date. Acest set de date provine din „Modele liniare cu R” de Julian Faraway. În acest exemplu, am încărcat datele în Excel dintr -un fișier CSV (Galapagosdata.csv) folosind interogarea de putere. Datele au fost redactate și am creat un tabel (tableGalapagos) care poate fi menționat în cartea de lucru.

În fișa de lucru a statisticilor descriptive, creăm mai întâi un cadru de date folosind CreateDataFrame funcţie.

=RScript.CreateDataFrame("galapagos", tableGalapagosData, tableGalapagosData(#Headers))

Această funcție face parte din supliment și simplifică crearea de date de date. Există, de asemenea, funcții pentru a crea vectori și matrici. Trecem într -un nume (care va apărea în mediul R) și datele și anteturile. Parametrul final (‘type’ => caracter, complex, întreg, logic, numeric) este opțional; RTYPE este acum determinat din date, dacă este posibil. Acest lucru face oarecum mai ușor să creezi obiecte pentru a trece la R din Excel.

Creați cadru de date

Aceasta copiază datele în mediul R. Există o serie de alternative la această abordare. Am fi putut încărca fișierul CSV direct în R folosind:

galapagos <- read.csv("D:Development...GalapagosData.csv")

Prin încărcarea datelor în Excel și apoi copierea lor în R, putem folosi importul Excel folosind interogarea de putere, astfel încât obținem automat grupare, filtrare etc și putem crea imediat pivottables. Dezavantajul este că trebuie să facem o copie în R, iar acest lucru înseamnă să ne asigurăm că tipurile de date sunt „viabile”. Acest lucru este deosebit de important cu datele.

Obținerea statisticilor

Acum că avem cadrul de date în R (și în Excel), putem obține unele statistici descriptive. Dacă am face acest lucru exclusiv în Excel, am putea folosi formule individuale (=COUNT(), =AVERAGE(), =STDEV.S() și așa mai departe). Folosind R, putem realiza același lucru.

Statistici de bază

După cum era de așteptat, acest lucru returnează media și abaterea standard.

Putem îmbunătăți acest lucru folosind unele funcții R suplimentare: sapply împreună cu fivenum (Fivenum Returnează rezumatul celor cinci numere ale lui Tukey (minim, cu balamale inferioare, mediane, balansă superioară, maxim) pentru datele de intrare).

as.data.frame(sapply(galapagos(,2:8), fivenum))

Când este evaluat, toate acestea sunt să aplici fivenum Funcția la coloanele 2 până la 8 (bazate pe zero) din setul de date Galapagos și constrângeți rezultatul într-un date de date. Dacă nu facem acest lucru, nu primim înapoi titlurile de coloană (ceea ce nu este extrem de util). De asemenea, este posibil să fi observat că trebuie să determinăm valorile de returnare din documentație. Nu pare să existe o modalitate de a prelua această meta -date din funcție.

O alternativă la rezumatul cu cinci numere este utilizarea încorporată summary(...) funcţie. Din păcate, producția din aceasta nu funcționează bine cu Excel, așa că trebuie să masam rezultatele pentru a obține un tabel decent care arată rezumatul cu etichete.

Funcția sumară

Practic, obținem etichetele coloanei din setul de date Galapagos folosind: names(galapagos)și obținem etichetele pentru rezumat folosind: names(summary(galapagos$Species)). Apoi, pentru fiecare coloană a datelor care ne interesează, solicităm rezumatul. De exemplu: summary(galapagos$Elevation).

Acum că masam rezultatele, am putea avea în vedere chiar utilizarea unei funcții personalizate. Putem, de exemplu, să definim o funcție care returnează un DataFrame constând dintr -o etichetă și statistica corespunzătoare:

custom_summary <- function(data) {
  label <- c("count", "mean", "std.dev")
  value <- c(length(data), mean(data), sd(data))
  data.frame(label, value)
}

Evaluarea funcției cu scriptul:

custom_summary(galapagos$Area)

rezultă un tabel mic, după cum urmează:

Funcție personalizată

Dacă toate acestea par destul de multă muncă grea sau căutați o abordare mai sofisticată – poate un rezumat care testează normalitatea distribuției datelor – atunci puteți prefera să utilizați o funcție sumară dintr -un pachet diferit. Există mai multe dintre care să alegeți. Aici folosim pastecs pasecs și summarytools SummaryTools. Ambele dau rezultate bune cu un efort minim:

Stats.Desc Funcție de la PATEC -uri

Învelire

În această postare, am observat diverse abordări pentru obținerea statisticilor descriptive folosind R în Excel prin intermediul Excelraddin. Am introdus câteva abordări de bază (similar cu ceea ce oferă Excel nativ). Dar am văzut, de asemenea, o utilizare mai avansată care demonstrează cât de util poate fi să aveți acces la funcționalitatea R în Excel. Următorul post acoperă regresia liniară folosind R în Excel.

Partea I – folosind R în Excel – Statistici descriptive

Introducere

Statistici descriptive

Încărcarea datelor

Obținerea statisticilor

Învelire

LĂSAȚI UN MESAJ Renunțați la răspuns