Extragerea datelor din bazele de date OCDE în R: Utilizarea pachetelor oecd și rsdmx

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

Introducere

The OCDE (Organizația pentru Cooperare și Dezvoltare Economică) oferă baze de date extinse pentru indicatori economici, sociali și de mediu. Accesarea acestora în mod programatic prin R este eficientă și reproductibilă. În acest articol, explorăm două pachete R populare pentru accesarea datelor OCDE—oecd şi rsdmx— și discutați actualizările critice ale API-ului pentru dezvoltatori OECD care au afectat funcționalitatea pachetului.

Oferim, de asemenea, exemple practice, subliniem importanța aplicării filtrelor în timpul recuperării datelor și îndrumăm utilizatorii cu privire la modul de lucru cu cele mai recente instrumente pentru a asigura accesul fără probleme la date.

De ce este important accesul programatic

Accesarea datelor în mod programatic oferă mai multe beneficii:

  1. Personalizare: Personalizați solicitările pentru a prelua numai datele de care aveți nevoie (de exemplu, anumite țări, indicatori și ani).

  2. Eficienţă: Economisiți timp și lățime de bandă prin filtrarea datelor înainte de descărcare.

  3. Reproductibilitatea: Asigurați-vă că analizele pot fi actualizate sau partajate cu ușurință.

  4. Automatizare: eficientizați fluxurile de lucru prin automatizarea extragerii datelor.

OECD Data Explorer: Explorarea și accesarea datelor

OCDE oferă acces programatic la datele OCDE pentru țările OCDE și economiile nemembre selectate printr-o interfață de programare a aplicațiilor (API) RESTful bazată pe standardul SDMX. API-urile permit dezvoltatorilor să interogheze cu ușurință datele OCDE în mai multe moduri pentru a crea aplicații software inovatoare care utilizează date OCDE actualizate dinamic.

The OECD Data Explorer este o platformă interactivă bazată pe web, care permite utilizatorilor să exploreze, să vizualizeze și să descarce date din bazele de date OCDE. Este deosebit de util pentru utilizatorii care doresc să răsfoiască manual seturile de date înainte de a decide asupra anumitor puncte de date pentru analiză. Aici oferim o imagine de ansamblu asupra OECD Data Explorerinclusiv cum să navigați pe platformă, să personalizați filtrele și să accesați linkurile API pentru utilizare programatică.

OECD Data Explorer este disponibil la: https://data-explorer.oecd.org/

Când vizitați site-ul, sunteți întâmpinat cu o interfață curată pentru navigarea prin seturi de date. Platforma organizează datele în teme ca;

Fiecare temă conține diverse seturi de date care pot fi explorate interactiv.

Folosind exploratorul de date OCDE

1. Căutați un set de date

Bara de căutare vă permite să localizați rapid seturi de date. De exemplu, dacă sunteți interesat de datele despre șomaj, introduceți pur și simplu „șomaj” în bara de căutare.

2. Personalizați filtrele

După ce ați selectat un set de date (de exemplu, Statistica pieței muncii), puteți aplica diverse filtre pentru a restrânge datele de care aveți nevoie. Unele dintre ele sunt prezentate mai jos:

  • Regiunea geografică: Alegeți anumite țări sau regiuni (de exemplu, SUA, Franța, OCDE Total).

  • Perioada de timp: selectați ani de interes (de exemplu, 2015–2023).

  • Indicator: specificați ceea ce analizați (de exemplu, rata șomajului, raportul ocupare/populație).

  • Unități de măsură: Alegeți unitățile relevante (de exemplu, procente, valori ale indicilor).

3. Explorați Vizualizările de date

Platforma oferă vizualizări instantanee, cum ar fi tabele, diagrame cu linii și diagrame cu bare, pe baza filtrelor selectate. Aceste vizualizări facilitează înțelegerea tendințelor și modelelor din date.

4. Exportarea datelor

După ce ați personalizat setul de date, puteți descărca în formatele disponibile, cum ar fi Excela sau CSV de manual. cealaltă opțiune este accesarea link-ului API. Pentru acces programatic, OECD Data Explorer furnizează legături API care pot fi utilizate în R sau în alte limbaje de programare. După ce ați selectat filtrele, faceți clic pe API pentru dezvoltatori și copiați linkul generat.

De exemplu, să dorim să extragem date despre ratele șomajului din unele țări. După aplicarea filtrelor pe care le doresc, se va crea un astfel de link.

https://sdmx.oecd.org/public/rest/data/OECD.SDD.TPS,DSD_LFS@DF_IALFS_UNE_M,1.0/BEL+AUS+AUT+CAN+DNK+FRA+DEU+GRC+HUN+IRL+ITA+JPN+NLD+NZL+NOR+PRT+SVN+ESP+SWE+CHE+USA+GBR+TUR..PT_LF_SUB._Z.Y._T.Y_GE15..M?startPeriod=2023-11&dimensionAtObservation=AllDimensions

Această legătură poate fi utilizată direct cu pachete R precum rsdmx pentru a prelua datele în mod programatic.

De asemenea, puteți obține informații detaliate de la https://www.oecd.org/en/data/insights/data-explainers/2024/09/api.html. Această pagină oferă informații detaliate despre cum să preluați în mod programatic date din Exploratorul de date OCDE prin intermediul API.

The OECD Pachet: Accesarea datelor OCDE în R

The oecd pachetul este un pachet R conceput pentru a oferi o interfață convenabilă pentru accesarea datelor din OECD Developer API. Acesta permite utilizatorilor să:

  • Explorați seturile de date disponibile în bazele de date OCDE.

  • Preluați datele filtrate în mod programatic pentru anumite țări, indicatori și perioade de timp.

  • Lucrați cu datele într-un mod reproductibil direct în R.

Cu toate acestea, versiunea OECD pachet disponibil pe CRAN este în prezent învechit din cauza modificărilor recente ale API-ului OCDE (2024). Aceste modificări au afectat funcționalitatea unor caracteristici cheie din versiunea CRAN. Puteți găsi mai multe informații despre modificările API-ului OCDE de la https://www.oecd.org/en/data/insights/data-explainers/2024/09/OECD-DE-FAQ.html.

Pentru detalii despre instalare și utilizare, consultați depozitul de pachete actualizat:
https://github.com/expersso/OECD

Instalarea Updated oecd Pachet:

# Install devtools if not already installed
install.packages("devtools")

# Install the updated oecd package from GitHub
devtools::install_github("expersso/OECD")

Versiunea actualizată a OECDpachetul simplifică interacțiunea cu API-ul OCDE, concentrându-se doar pe două funcții de bază: get_data_structure() şi get_dataset(). Iată o scurtă prezentare generală a funcționalității și argumentelor lor:

1. get_data_structure()

Această funcție preia metadate despre un anumit set de date din API-ul OCDE. Oferă informații despre variabile, clasificări, ajustări, unități de măsură etc. De exemplu, putem accesa aceste informații despre ratele șomajului din unele țări, luând codul setului de date relevante din linkul de mai sus. Apoi putem extrage informații despre setul de date din linkul pe care l-am primit de la secțiunea API pentru dezvoltatori, începând cu slash (/) după expresia datelor și până la următoarea slash (Afișată cu albastru în captură de ecran).

library(OECD)
dataset_unemprate <- "OECD.SDD.TPS,DSD_LFS@DF_IALFS_UNE_M,1.0"
data_str <- get_data_structure(dataset_unemprate)
str(data_str, max.level = 1)
List of 15
 $ VAR_DESC               :'data.frame':    17 obs. of  2 variables:
 $ CL_ACTIVITY_ISIC4      :'data.frame':    958 obs. of  2 variables:
 $ CL_ADJUSTMENT          :'data.frame':    17 obs. of  2 variables:
 $ CL_AGE                 :'data.frame':    308 obs. of  2 variables:
 $ CL_AREA                :'data.frame':    469 obs. of  2 variables:
 $ CL_SECTOR              :'data.frame':    216 obs. of  2 variables:
 $ CL_SEX                 :'data.frame':    7 obs. of  2 variables:
 $ CL_TRANSFORMATION      :'data.frame':    59 obs. of  2 variables:
 $ CL_UNIT_MEASURE        :'data.frame':    670 obs. of  2 variables:
 $ CL_WORKER_STATUS_ICSE93:'data.frame':    13 obs. of  2 variables:
 $ CL_MEASURE_LFS_TPS     :'data.frame':    30 obs. of  2 variables:
 $ CL_DECIMALS            :'data.frame':    16 obs. of  2 variables:
 $ CL_FREQ                :'data.frame':    34 obs. of  2 variables:
 $ CL_OBS_STATUS          :'data.frame':    20 obs. of  4 variables:
 $ CL_UNIT_MULT           :'data.frame':    31 obs. of  4 variables:

2. get_dataset()

Această funcție preia datele reale dintr-un set de date specificat, cu filtre opționale pentru parametri precum țara, ora și indicatorii.

get_dataset(
  dataset,
  filter = NULL,
  start_time = NULL,
  end_time = NULL,
  last_n_observations = NULL,
  ...
)

Pentru filtre, trebuie să începeți cu „/” după partea pentru setul de date și să o luați până la semnul de întrebare „?”. Dar aveți grijă, nu includeți semnul întrebării. Pentru filtrarea timpului, pot fi folosite argumentele start_time sau end_time.

data_filters_unemprate <- "BEL+AUS+AUT+CAN+DNK+FRA+DEU+GRC+HUN+IRL+ITA+JPN+NLD+NZL+NOR+PRT+SVN+ESP+SWE+CHE+USA+GBR+TUR..PT_LF_SUB._Z.Y._T.Y_GE15..M"

df <- get_dataset(dataset = dataset_unemprate,
                  filter = data_filters_unemprate,
                  start_time = 2014)

head(df)
  ACTIVITY ADJUSTMENT    AGE DECIMALS FREQ  MEASURE OBS_STATUS ObsValue
1       _Z          Y Y_GE15        1    M UNE_LF_M          A      3.6
2       _Z          Y Y_GE15        1    M UNE_LF_M          A      3.7
3       _Z          Y Y_GE15        1    M UNE_LF_M          A      5.5
4       _Z          Y Y_GE15        1    M UNE_LF_M          A      5.6
5       _Z          Y Y_GE15        1    M UNE_LF_M          A      5.7
6       _Z          Y Y_GE15        1    M UNE_LF_M          A      4.3
  REF_AREA SEX TIME_PERIOD TRANSFORMATION UNIT_MEASURE UNIT_MULT
1      USA  _T     2019-06             _Z    PT_LF_SUB         0
2      USA  _T     2019-07             _Z    PT_LF_SUB         0
3      BEL  _T     2024-06             _Z    PT_LF_SUB         0
4      BEL  _T     2024-07             _Z    PT_LF_SUB         0
5      BEL  _T     2024-08             _Z    PT_LF_SUB         0
6      DEU  _T     2015-08             _Z    PT_LF_SUB         0

Folosind rsdmx Pachet

The rsdmx pachetul permite interacțiunea cu API-ul OECD Developer prin format SDMX. Este deosebit de util dacă preferați să lucrați direct cu adrese URL API.

Instalarea rsdmx Pachet

install.packages("rsdmx")

Funcții cheie în rsdmx

  1. readSDMX(): Preia date de la un punct final API compatibil SDMX.

  2. as.data.frame(): Convertește obiectul SDMX preluat într-un cadru de date.

Exemplu de flux de lucru cu rsdmx

Iată cum puteți prelua datele despre șomaj:

# Load the rsdmx package
library(rsdmx)
Warning: package 'rsdmx' was built under R version 4.3.3
# Define the API URL for unemployment rates
oecd_url <- "https://sdmx.oecd.org/public/rest/data/OECD.SDD.TPS,DSD_LFS@DF_IALFS_UNE_M,1.0/BEL+AUS+AUT+CAN+DNK+FRA+DEU+GRC+HUN+IRL+ITA+JPN+NLD+NZL+NOR+PRT+SVN+ESP+SWE+CHE+USA+GBR+TUR..PT_LF_SUB._Z.Y._T.Y_GE15..M?startPeriod=2023-11&dimensionAtObservation=AllDimensions"

# Step 1: Fetch the data
unemployment_data <- readSDMX(oecd_url)

# Step 2: Convert to a data frame
unemployment_df <- as.data.frame(unemployment_data)

# View the data
head(unemployment_df)
  TIME_PERIOD REF_AREA  MEASURE UNIT_MEASURE TRANSFORMATION ADJUSTMENT SEX
1     2024-03      ITA UNE_LF_M    PT_LF_SUB             _Z          Y  _T
2     2024-04      ITA UNE_LF_M    PT_LF_SUB             _Z          Y  _T
3     2024-08      BEL UNE_LF_M    PT_LF_SUB             _Z          Y  _T
4     2024-09      BEL UNE_LF_M    PT_LF_SUB             _Z          Y  _T
5     2024-10      BEL UNE_LF_M    PT_LF_SUB             _Z          Y  _T
6     2023-12      SVN UNE_LF_M    PT_LF_SUB             _Z          Y  _T
     AGE ACTIVITY FREQ obsValue UNIT_MULT DECIMALS OBS_STATUS
1 Y_GE15       _Z    M      6.9         0        1          A
2 Y_GE15       _Z    M      6.7         0        1          A
3 Y_GE15       _Z    M      5.7         0        1          A
4 Y_GE15       _Z    M      5.8         0        1          A
5 Y_GE15       _Z    M      5.8         0        1          A
6 Y_GE15       _Z    M      3.4         0        1          A

Concluzie

ambele oecd şi rsdmx vă permit să specificați filtre direct în solicitarea dvs. API, ceea ce este esențial pentru:

  1. Eficiența timpului: seturi de date mai mici și concentrate se descarcă mai rapid.

  2. Optimizarea stocării: filtrarea minimizează dimensiunea setului de date preluat.

  3. Analiză mai simplă: Datele prefiltrate reduc necesitatea unei preprocesări extinse.

Indiferent de pachet, aplicarea filtrelor în solicitările dumneavoastră de date este esențială pentru a asigura eficiența și reproductibilitatea. Prin integrarea acestor instrumente în fluxul dvs. de lucru, puteți accesa datele OCDE în mod programatic și vă puteți concentra asupra analizei în sine.

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.