Conducte analitice reproductibile | R-bloggeri

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

Iată noile date. Ați putea să rezumați așa cum a făcut Alice anul trecut și să-mi trimiteți un raport?

Funcția publică și organismele publice din Marea Britanie publică o mulțime de seturi de date. Aceste seturi de date pot fi foarte utile atunci când experimentați cu instrumente de vizualizare și prezentare a datelor. În calitate de consumatori de date, ceea ce vedem rar este cantitatea de muncă necesară pentru pregătirea acestor seturi de date sau modul în care acestea sunt utilizate pentru a lua decizii sau pentru a înțelege tendințele din țară. Acea activitate trebuie să fie coordonată între mai mulți oameni, fiecare cu abilități diferite.

La fel ca echipele, software-ul și datele evoluează în timp. Datele brute care se alimentează în seturile de date de mai sus și orice produse care sunt construite pe baza acestora (rapoarte, aplicații și așa mai departe) pot fi colectate și procesate doar la fiecare câțiva ani – și multe se pot schimba în câțiva ani. Așadar, echipele din cadrul acestor departamente au nevoie de o modalitate de a genera în mod fiabil acele seturi de date și produse de date din date brute nou colectate, care este suficient de robustă (sau cel puțin flexibilă) pentru a se adapta schimbărilor în:

  • calitatea datelor,
  • structura/schema datelor brute,
  • personal din cadrul echipei și restructurare departamentală,
  • instrumente software,
  • formatul sau utilizarea datelor de ieșire.

Devine din ce în ce mai frecvent ca acest tip de prelucrare a datelor să fie gestionată de a
Conductă analitică reproductibilă (RAP). Un RAP este, în mare măsură, un proces automat scris în cod. Un scop al utilizării RAP-urilor aici este de a reduce cantitatea de intrări manuale și ad-hoc în procesarea datelor, astfel încât, atunci când vi se oferă aceleași date de intrare, veți genera aceleași produse în aval și astfel încât procesul să funcționeze cu succes și previzibil atunci când sunt furnizate date noi. Prin plasarea deciziilor de procesare în cod, RAP-urile fac procesarea datelor mai ușor de auditat și mai transparentă.

Serviciul civil din Regatul Unit și NHS au linii directoare cu privire la obiectivele lor pentru RAP și cum să creeze aceste conducte.

Acum, s-ar putea să nu lucrați pentru una dintre aceste instituții, iar prelucrarea și analiza datelor pe care le efectuați ar putea să nu fie publice sau să nu facă obiectul unui audit național. Dar, dacă faci știință sau procesare a datelor ca parte a muncii tale, ideile din jurul RAP-urilor te pot ajuta să lucrezi mai eficient.

Să începem cu elementele de bază:

  • de unde vin datele tale?
  • unde se duce?
  • care este instrumentul tău principal atunci când lucrezi cu el?
  • și cine mai depinde de munca ta sau este, de asemenea, responsabil pentru munca ta?

Orientările RAP pentru serviciul civil din Regatul Unit promovează utilizarea instrumentelor open-source, controlul versiunilor și automatizarea. Ce instrumente ar trebui să alegeți, ce ar trebui să automatizați și cine trebuie să știe sau să aprobe ceea ce faceți?

Dacă ați moștenit un registru de lucru Excel cu datele de anul trecut încorporate și trebuie să procesați datele din acest an, este posibil să nu cunoașteți suficient despre procesele care au avut loc înainte ca datele de anul trecut să fie copiate în foaia de calcul sau despre orice ajustări manuale care au avut loc după ce au fost importate (cum au fost gestionate valorile lipsă etc.). Puteți automatiza etapele timpurii, asimilarea datelor.

Dacă ați moștenit niște scripturi SQL care fac interogări la baza de date și trebuie să copiați-lipiți valorile rezultate într-un raport, puteți automatiza pasul de generare a raportului.

Dacă aveți o colecție de pași de analiză sau scripturi, care trebuie apelate într-o anumită ordine, sau în care trebuie să editați manual scripturile (remedierea căilor fișierelor, de exemplu) pentru ca acestea să funcționeze cu o nouă versiune de date brute, vă puteți gândi la cum să orchestrați rularea acelor scripturi sau cum să configurați proiectul astfel încât să fie nevoie de mai puțină intervenție manuală pentru a rula data viitoare. Editarea codului și apelarea comenzilor într-un mediu de programare sunt, de asemenea, procese manuale.

Este posibil să nu puteți automatiza totul deodată. Așadar, încercați să obțineți câștiguri strategice în acele zone ale fluxului de lucru de date care sunt cel mai puțin clare sau care implică cea mai mare intrare manuală.

Impingerea către automatizare necesită abilități de programare și o alegere față de un limbaj de programare. În știința datelor, aceasta înseamnă de obicei SQL plus R sau Python. Pe ce alegeți pentru un proiect, depinde de abilitățile echipei dumneavoastră și de infrastructura care vă este disponibilă. Nu folosiți limba dvs. preferată sau o limbă cu care doriți să experimentați, dacă nimeni altcineva din echipă nu vă poate revizui codul sau prelua proiectul de la dvs.

Una dintre cele mai bune resurse pe care le-am găsit în timp ce cercetam această postare pe blog a fost cartea „Construirea conductelor analitice reproductibile cu R” de Bruno Rodrigues. Această carte acoperă multe dintre subiectele menționate mai sus: cum să configurați un proiect cu controlul versiunilor, cum să generați rapoarte automate, cum să orchestrați mai multe procese analitice împreună. Este o carte foarte concentrată pe R, dar ideile rămân valabile indiferent dacă lucrați în Python sau în altă limbă.

Totuși, pentru noi, RAP-urile se referă mai mult la asigurarea faptului că prelucrarea datelor este previzibilă și transparentă și că procesele pot fi reutilizate la o dată ulterioară și cu date actualizate. Este posibil ca echipa dumneavoastră să aibă nevoie să-și îmbunătățească abilitățile de programare sau cunoștințele despre mediul dumneavoastră de programare, pentru a profita de automatizarea îmbunătățită. Dar acest lucru va reduce cantitatea de sarcini manuale repetitive, va simplifica integrarea de noi membri ai echipei și va ușura întreținerea.

De asemenea, automatizarea lucrurilor este foarte distractiv.

Pentru actualizări și revizuiri ale acestui articol, consultați postarea inițială

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.