(Acest articol a fost publicat pentru prima dată pe Jonas Haslbeck – rși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)
Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.
Argumentul sună destul de rezonabil: toată lumea încearcă să încheie proiecte înainte de sfârșitul anului, astfel încât numărul de depuneri în decembrie este semnificativ mai mare decât în lunile anterioare. Presupunând că numărul de lucrări trimise spre revizuire rămâne constant pe parcursul lunilor (ceea ce pare rezonabil, deoarece resursele precum editorii și recenzenții nu cresc în decembrie – într-adevăr, dimpotrivă), acest lucru ar implica că rata de respingere a biroului crește în decembrie. Și, în consecință, toate celelalte fiind egale, ar trebui să evitați depunerea unei lucrări în decembrie. Spre surprinderea mea, o simplă căutare pe internet nu a fost suficientă pentru a verifica premisa că mai multe lucrări sunt depuse în decembrie. În mod util, arxiv.org, un server de preprint popular în fizică, matematică, informatică și biologie cantitativă, oferă statistici lunare privind trimiterile din 1993.
Putem descărca un CSV cu statisticile lunare de trimitere de pe site-ul lor:
Graficul de pe site-ul web cu trimiteri lunare arxiv.org arată clar că trimiterile cresc exponențial. Prin urmare, distribuția trimiterilor în luni de-a lungul anilor va prezenta o variație uriașă de-a lungul anilor, ceea ce ar masca diferențele sistematice de-a lungul lunilor. De exemplu, numărul de trimiteri în ianuarie 1994 și 2024 este foarte diferit:
Prin urmare, calculăm proporțiile trimiterilor pentru fiecare lună în fiecare an și apoi arătăm distribuția proporțiilor de-a lungul anilor pentru fiecare lună:
Putem vizualiza proporțiile pentru fiecare lună de-a lungul anilor cu un boxplot:
Vedem că trimiterile sunt cele mai scăzute în ianuarie (mediana 7,4%) și februarie (7,3%), comparativ cu 8,3% care reprezintă o distribuție egală pe 12 luni. Vedem o creștere în martie (8,2%), dar cererile scad din nou în aprilie (7,7%). Trimiterile se stabilizează la niveluri mai ridicate înainte de vara în mai (8,3%), iunie (8,5%) și iulie (8,5%) și scad semnificativ în vacanța de vară din august (7,5%). Odată cu începerea noului an universitar, observăm o creștere în septembrie (8,8%), iar numărul de depuneri ating maximul în octombrie (9,5%). Înscrierile scad apoi în noiembrie (9,1%) și decembrie (8,7%). Aceste rezultate arată că există modele lunare puternice în ceea ce privește numărul de trimiteri. Cu toate acestea, pentru a reveni la întrebarea noastră despre vacanța de Crăciun, datele nu arată o creștere semnificativă a depunerilor în special înainte de vacanța de Crăciun.
Dacă luăm datele arxiv.org ca populație de interes, atunci, desigur, nu este necesară nicio inferență și putem pur și simplu să ne uităm la proporțiile observate. Cu toate acestea, dacă considerăm trimiterile arxiv.org ca un eșantion (aleatoriu) dintr-o populație mai mare, evident că dorim să facem inferență. Aceasta ar presupune că estimările din anii anteriori cu mai puține depuneri sunt estimări mai puțin fiabile ale proporțiilor. Aici, m-am uitat doar la modul în care modelul s-ar schimba dacă s-ar include doar ultimii ani. Toate limitele conduc la aproximativ aceleași rezultate, dar includerea doar a anilor mai recenti duce la o variație mai mică de-a lungul anilor, deoarece avem mult mai multe trimiteri pentru a estima proporțiile; dar poate și pentru că procesul de generare a datelor (adică modul în care lucrează oamenii de știință) poate fi mai omogen mai aproape în timp. Singura diferență sistematică a rezultatelor atunci când se iau în considerare doar anii următori este un procent mai mare de depuneri în luna mai.
Ceea ce explică aceste modele este ghicitul oricui. Ar fi fost intuitiv pentru mine că, din motive psihologice, oamenii de știință încearcă să termine lucrări înainte de pauzele majore de vacanță. Cu toate acestea, acest lucru nu este susținut de date. O scădere a dosarelor în timpul probabil cea mai lungă vacanță din august are sens. Procentul mai mare de trimiteri în mai în anii următori se explică probabil prin faptul că procentul general de lucrări de informatică/învățare automată pe arxiv.org a crescut de-a lungul anilor, care au adesea termene limită pentru lucrările de conferință în mai (de exemplu, NeurIPS pe 15 mai ). Cu toate acestea, nu am o explicație bună pentru ce se depun atât de multe lucrări în octombrie și noiembrie și atât de puține în ianuarie și februarie. Nu mă așteptam la diferențe atât de mari între luni și le găsesc destul de interesante pentru că sugerează că oamenii de știință lucrează în cicluri relativ omogene pe tot parcursul anului.
Tot ce am putut găsi într-o căutare rapidă online a fost această postare pe blogul Cell, care spune că majoritatea lucrărilor sunt trimise în iunie/iulie/august și octombrie/noiembrie, ceea ce este doar parțial în concordanță cu datele arxiv.org. O postare pe blogul Nature discută un studiu realizat de Boja și colab. (2018) care au analizat lucrările trimise la Physica A, PLOS ONE, Nature și Cell și au constatat că au fost depuse mai multe lucrări în perioada Crăciunului, definită ca 20 decembrie – 10 ianuarie, comparativ cu restul anului. Aceste rezultate nu sunt în concordanță cu rezultatele arxiv.org. Într-un alt blog Nature, ei arată date despre publicațiile revistelor Nature de-a lungul anului. Cu toate acestea, deoarece adaugă procesul de revizuire și producție, probabil destul de variabil, pe lângă data depunerii, probabil că aceste date conțin puține informații despre momentul în care sunt depuse lucrările.