(Acest articol a fost publicat pentru prima dată pe openwashdatași cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)
Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.
Lucrând cu cercetători în domeniul Apă, Sanitare și Igienă (WASH) din mai multe țări cu resurse limitate, am observat că seturile de date valoroase rămân adesea subutilizate. Acest lucru se datorează frecvent familiarității limitate cu FAIR (Fde nedat, Oaccesibil, euinteroperabil, Rutilizabile) practici de date (Wilkinson et al. 2016). Ca parte a comunității academice, recunoaștem că cercetarea se extinde dincolo de valorile tradiționale, cum ar fi citările și publicațiile. Munca solicitantă de generare, colectare și curățare a datelor rămâne adesea nerecunoscută, lăsând mulți colaboratori nerecunoscuți. Ca parte a proiectului Openwash Data al GHE, am realizat sondaje cu participanții din rețeaua noastră de colaboratori care erau interesați să participe la un curs Data Science for Open WASH Data. Datele colectate relevă practici suboptime de stocare a datelor în rândul cercetătorilor WASH, mulți încă se bazează pe metode care împiedică portabilitatea și interoperabilitatea (vezi @parcela-stocare).

Datele sondajului arată, de asemenea, niveluri diferite de competență în programare (vezi Figura @experienta-complot), cu mulți cercetători având o experiență limitată cu R în special. Acest lucru evidențiază nevoia de instrumente ușor de utilizat, care nu necesită cunoștințe extinse de programare. O barieră principală este lipsa instrumentelor accesibile care să simplifice publicarea și distribuirea datelor folosind software-ul open-source. Această provocare a motivat crearea washrun pachet R care simplifică procesul de transformare a datelor brute în pachete de date gata de publicare folosind utilitarele devtools.


În urma feedbackului utilizatorilor și recunoscând nevoia comunității academice mai largi de instrumente de date deschise accesibile, am dezvoltat fairenough: un pachet R îmbunătățit conceput pentru fluxuri de lucru mai eficiente de publicare a datelor, cu cerințe minime de introducere a utilizatorului. Oferă o conductă completă pentru crearea pachetului de date R cu următoarele caracteristici:
- Conductă cu o singură comandă: Crearea completă a pachetului de date R cu o singură comandă, care oferă un flux de lucru automat și interactiv, de la date ordonate până la pachetul și site-ul final.
- Opțiuni de control granular: Învelișul individual funcționează cu alternativa pentru suprascrierea documentației și a mesajelor detaliate opționale ale procesului în consolă.
Comparativ cu washr această nouă iterație minimizează inputul cerut de la utilizatori prin reutilizarea tuturor informațiilor furnizate atunci când este posibil și sugerând conținut. De exemplu, fairenough valorifică LLM-urile prin ellmer pentru a genera automat dicționare de date. De asemenea, intenționăm să oferim un ghid detaliat pentru lucrul cu fairenough.
Prin automatizarea generării metadatelor, asigurarea unei documentații adecvate, permițând controlul versiunilor și facilitând atribuirea DOI prin Zenodo, fairenough abordează în mod direct fiecare componentă a principiilor FAIR – realizarea de date Găsibil prin metadate complete, Accesibil prin pachetul de date R și opțiunile de descărcare de pe site-ul web, Interoperabil prin furnizarea de date și metadate în formate care pot fi citite de mașină și Reutilizabil cu licențiere și atribuire clară.
Am fost încântați să avem ocazia să prezentăm fairenough publicului în decembrie anul trecut la conferința LatinR și a primit comentarii pozitive încurajatoare despre acest proiect. Propunerea noastră a fost acceptată ca o discuție fulger în care am putut demonstra cum să creăm un pachet de date R și un site web în câteva minute! Am avut norocul să împărtășim scena (virtuală) cu alți entuziaști ai R care au prezentat și noi instrumente interesante. Descoperirea eforturilor existente pentru știință deschisă și reproductibilitate din perspective diferite îmbogățește, de asemenea, procesul de dezvoltare a fairenough. A fost deosebit de motivant să participăm la un spațiu în care putem ajunge și obține feedback din partea comunităților vorbitoare de spaniolă și portugheză. Credem cu fermitate că lipsa cunoștințelor despre datele deschise și practicile științei deschise reprezintă o barieră semnificativă în adoptarea acestora și de aceea, atingerea unui public mai larg și mai divers a devenit, de asemenea, parte a misiunii noastre.
Resurse:
