Deschideți REDATAM a unui an de publicație

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

În primul rând, aș vrea să solicite să disculpe prin lipsa actualizărilor pe blog. Mis probleme de financiar continuan; în prezent, sunt cu dos lucrari a timpului parțial, în plus de la pesada încărcătură del doctorat, și cu las justas rezultate plătesc el arriendo și la mâncare. Agradezco la paciencia de quienes leen este spațiu.

Facem exact un an publicăm articolul nostru despre Open REDATAM împreună cu Lital Barkai. El camino hacia la publicación era curios: el articol a fost rechazado por muchas revistas que publican en castellano y que tienen un foco regional. La „paradoja” este în cele din urmă acceptat en Date și politică de Cambridge University Press (Q1), sin foco regional, și cuyo lugar en los índices académicos este destul de mai bine că las revistas care lo rechazaron initialmente.

În timpul ăsta, am primit multe mesaje de utilizatori din tot lumea agravate de software. A menudo nu ajungem întrebări de tip: „Tengo este cens de 1960 și nu pot exporta tabelă determinată cu software-ul original și cu Open REDATAM, ¿qué puedo hacer?”. Din fericire, putem ajuta majoritatea utilizatorilor să rezolve problemele și să acceseze datele istorice.

În plus, îmi spuneți că, al îndeplinit acest prim an, am început revizuirea formală a software-ului prin partea de rOpenScilo cual ayudará a dar o garanție suplimentară de calitate și robustez a nuestro trabajo.

Resumen del articol

Para quienes no han leído Formatul REDATAM și provocările sale pentru accesul la date și crearea de informații în politicile publiceaquí va un resumen detallado de los argumentos centrales.

¿Qué es REDATAM și cuál este problema?

REDATAM (Retrieval of Data for Small Areas by Microcomputer) este formatul standard al CEPAL pentru distribuirea microdatelor censales în America Latina. Țările ca Argentina, Chile, Columbia și Mexic au trecut decenii în uz. Problema centrală este că REDATAM este un format binar cerrado: nu are o specificație oficială publică, sus fișierele nu se pot deschide cu un editor de text ca și cum se întâmplă cu un CSV, și software-ul oficial (REDATAM R+SP) nu permite efectuarea de analize estadísticos más allá de tabulaciones simple. Esto înseamnă că nu este posibil să facă regresiuni, probe de hipoteză și vizualizări avansate direct din REDATAM.

Date versus informație

În articolul facem o distincție conceptuală importantă: datele sunt fapte crude, în timp ce informațiile sunt procesate, ceea ce permite să ia decizii. REDATAM crea un cuello de botella în esa transformación. Los gobiernos ya plătesc costul de producere a datelor censales; utilizați formatele cerrados pentru a distribui ONG-urile, grupurile de incidente și echipamentele tehnice care folosesc informații utile pentru proiectarea politicilor publice. Impactul economic de publicare în format deschis ar fi marginal pentru guverne, dar beneficiul pentru participarea cetățeană și evidența politică publică ar fi enorm.

Securitate pentru securitate și riscuri de confidențialitate

Otro problemă gravă este că lipsește o specificație oficială echivalentă a ceea ce în securitatea informatică se numește „seguridad por oscuridad”: confiar în el secreto del format como mecanismo de protecție. Această practică este extinsă dezactivată, deoarece este doar o problemă de timp înainte de a face formatul sea revertit prin ingeniería inversă, cum a apărut cu formatul DVD. Mai mult, al revizuirii censului din Uruguay 2011 disponibil pe site-ul CEPAL, găsim că arhiva vine etichetată ca „de utilizare interno al INE Uruguay”, ceea ce trebuie să verifice datele pe care le presupunem că sunt confidențiale pot rămâne expuse unei erori. La soluția corectă nu este secretul formatului, dar este cifrat și anonimizarea datelor individuale.

Incompatibilidad cu instrumente moderne

REDATAM este incompatibil cu R, Python, Excel, SPSS și Stata. Pentru a exporta variabilele, trebuie să utilizați o interfață grafică de punct și să faceți clic pe care nu este suficient de mult când necesită mai multe filtre sau variabile. Există un limbaj de consultare de tip SQL în cadrul aceluiași software, dar nu permite probe statistice. Se limitează mult la analiza cantitativă, care este astăzi standard în științe sociale, economie și știință politică.

Deschideți REDATAM como soluție

Para resolver esto, dezvoltămos Deschideți REDATAMo unealtă multiplataforma (Linux, Mac și Windows) scrisă în C++ care transformă fișierele REDATAM în CSV. Construim asupra muncii înainte de Pablo de Grande, care a fost creat un convertitor în C# pentru Windows, și am reescribim în C++ pentru a realiza portabilitatea totală. În plus, creăm pachete de R y Python, care vă permit să citiți datele direct în aceste medii și să treceți prin linia de comenzi, urmărind principiile Tidy Data. Software-ul este sub licență Apache, care permite utilizarea comercială și derivate întotdeauna care se menține atribuția de autoritate.

Validare cu IPUMS

Pentru a verifica că nostra instrument extrae los date corect, comparăm rezultatele cu serviciile IPUMS International, care dovedește microdatele censales armonizate pentru mai multe țări. Lo hicimos para Bolivia (2012), Chile (2017), República Dominicana (2002), Ecuador (2010), El Salvador (2007), Perú (2017) și Uruguay (2011). Las diferencias observadas son explicables: IPUMS lucrează cu o mostră de 10% și aplica procese de curățare și armonizare proprii, în timp ce Open REDATAM lee the data tal as the distribuye to govern. Rezultatele sunt consistente și au încredere în corectarea software-ului.

Conservarea datelor istorice

O altă problemă identificată în articol este conservarea într-un termen lung. Instalator al censului argentinian din 2001, de exemplu, nu funcționează în Windows 10, dar și în Ubuntu 22.04 cu Wine. Si los formats cerrados si el software-ul proprietar van quedando obsoletos, the data censales históricos couldn volverse inaccesibles. Este refuerza la necesitate de specificații deschise standardizate, ca și cum există pentru XLSX (ISO 29500), care permite mai multe instrumente să citească același format fără a depinde de un singur furnizor de software.

Exemplu de utilizare

Pentru un censo dado, ca el Censo chileno 2017, basta cu executar:

library(redatam)

chl17 <- read_redatam("input-dir/CPV2017-16.dicx")

Esto returna o listă de cadre de date, unul pentru fiecare nivel jerárquico del censo (región, provincia, comuna, hogar, persona, etc.), apoi se pot combina cu dplyr pentru a obține tabla agregate:

Făcând această idee, în cazul particular al censului chileno 2017, am putea obține numărul de persoane din regiunea cu codul următor:

library(dplyr)

chl17$zonas %>%
    mutate(region = substr(as.character(geocodigo), 1, 2)) %>%
    select(region, geocodigo, zonaloc_ref_id) %>%
    inner_join(
        chl17$viviendas %>%
            group_by(zonaloc_ref_id, cant_per) %>%
            summarise(cant_per = sum(cant_per, na.rm = TRUE), .groups = "drop"),
        by = "zonaloc_ref_id"
    ) %>%
    group_by(region) %>%
    summarise(cant_per = sum(cant_per, na.rm = TRUE), .groups = "drop")

Pentru o explicație mai detaliată, incluzând cum să cruzați nivelurile și să calculați indicatori ca hacinamiento, puteți consulta vina oficială a pachetului.

Actualizări tehnice

Înainte ca după publicarea articolului, software-ul a fost îmbunătățit în mai multe aspecte. El mai semnificativ a fost extins suportul pentru censori istorici care se află în puterea universităților și a arhivelor instituționale și nu sunt întotdeauna ușor de găsit pe internet. Acesta a fost un proces iterativ de încercare și eroare: o măsură pe care utilizatorii nu au trimis fișiere cu variante vechi ale formatului, identificăm patronii care au diferit cei mai recenti cenzuri și extindem codul pentru acoperiri, fără a modifica logica centrală și verificată. El rezultat este que hoy Open REDATAM poate citi o gamă de fișiere considerabil mai extinsă în versiunea inițială.

În plus, împreună cu utilizatorii, am organizat o colecție de microdate censales convertite în CSV, care acum este disponibil public pe github.com/pachadotdev/redatam-microdata. Repozitoriul include cenzurii mai multor țări și ani, pe care utilizatorii au fost primiți, și acum pot descărca direct fără a fi nevoie să instalați niciun software suplimentar. Sperăm că esto reduzca încă mai mult la bariera de intrare pentru cercetători și echipele tehnice cu resurse limitate.

În cele din urmă, în aspectul tehnic mai imediat, migré la interfața de C++ al pachetului de R de cpp11 o cpp4r (pueden leer más sobre esta herramienta aquí). Această decizie se bazează în principal pentru a îmbunătăți portabilitatea codului și a facilita menținerea unui termen lung.

Se menționează că recent se publică în CRAN el pachet redatamxcare sigue un enfoque diferit al nostru: în loc de reimplementare a lecturii formatului, acționează ca o interfață către aplicația oficială REDATAM, care trebuie să fie instalată în prealabil. Este disponibil oficial pentru Ubuntu, dar în practică a avut dificultăți pentru a putea funcționa: nu este în mie laptop cu Manjaro și nici nu a reușit să funcționeze din mașini virtuale cu Ubuntu. În contrast, Open REDATAM nu depinde de nicio instalație externă și funcționează în orice platformă unde este disponibil un compilator de C++.

Actualizări instituționale

În ceea ce privește interfața institucională, încercăm în mai multe ocazii stabilirea contactului cu CEPAL — organismul Națiunilor Unite care dezvoltă și menține REDATAM— pentru a explora posibilele căi de colaborare a integrării Open REDATAM în munca oficială a organizației. În mod regretabil, a la data nu am primit răspuns la ninguno de esos mensajes. Cu toate acestea, vă depășim constanta publică de la invitația este deschisă: și cineva la CEPAL sau într-un institut național de statistică vrea să contacteze pentru a discuta cum am putea colabora, suntem încântați de a face acest lucru.

Si te-am gustat acest articol, por favor consideri donar pentru a susține mie munca de cod deschis: https://buymeacoffee.com/pacha.

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.