Etichetarea pachetelor de bioconductor cu EDAM

URMĂREȘTE-NE
16,065FaniÎmi place
1,142CititoriConectați-vă

Ontologia EDAM este utilizată pentru a oferi organizarea conceptuală a resurselor în inițiative majore precum Elixir Bio.tools și Galaxy.

Metodele și datele Bioconductor sunt etichetate folosind o ierarhie terminologică ad -hoc numită BioCViews.

În 2024, o propunere de îmbunătățire a descoperirii resurselor bioconductoare prin colaborarea cu dezvoltatorii de ontologie a EDAM a fost finanțată prin intermediul programului software esențial de la Chan-Zuckerberg. Această postare pe blog oferă o actualizare a proiectului.

Vizualizările sarcinilor CRAN sunt o bonanza pentru practicarea oamenilor de știință de date. Introduceți în 2005, „(T) oferă îndrumări cu privire la pachetele CRAN sunt relevante pentru sarcinile legate de un anumit subiect și pot facilita, de asemenea, instalarea automată a tuturor pachetelor corespunzătoare (Zeileis și colab. (2023)).

Explorarea vizualizărilor de sarcini CRAN

  • Numărul de vizualizări pe 2025-07-17 este de 48,
  • Un eșantion aleatoriu de nume de vizualizare (supraviețuire, experimentallalDesign, baze de date, omice, mașini) și
  • Numărul mediu de pachete pe vedere (121,1).

Subvenții

Fiecare vizualizare este curată de o echipă și o pagină web narativă este compilată la HTML. Folosim Rvest pentru a identifica subtopicele Omics View:

library(rvest)
read_html("https://cran.r-project.org/web/views/Omics.html") |> 
  html_elements("h3") |> html_text()
 (1) "Annotation and databases"    "Genomics"                   
 (3) "Transcriptomics"             "Proteomics"                 
 (5) "Metabolomics"                "Other omics"                
 (7) "Multiple omics"              "Specific tasks"             
 (9) "Specific application fields" "CRAN packages"              
(11) "Related links"               "Other resources"            

Această abordare poate fi utilizată pentru a învăța subtopicele oricărei vizualizări ale sarcinilor.

Upshots

Vizualizările CRAN TASK oferă un vocabular pentru organizarea de pachete software pentru știința datelor, narațiuni ale sarcinilor abordate de diverse pachete, mecanisme pentru etichetarea pachetelor pentru descoperire prin căutarea vizualizării și protocoale pentru adăugarea de noi vizualizări și pentru adăugarea de pachete noi la vizualizările existente. Vezi Zeileis și colab. (2023) pentru detalii complete.

De remarcat: În timp ce CRAN găzduiește peste 22.000 de pachete software, numărul de pachete alocate unor vizualizări în acest moment este 4908.

BioCViews are un ecuson care indică faptul că a fost în bioconductor de 19 ani. Pe scurt, intenția a fost să imite vizualizări ale sarcinilor CRAN, cu un vocabular și curatarea pachetelor folosind subiecte relevante pentru știința datelor genomice. Figura 1 oferă o idee de bază a vocabularului și a structurii sale. Există 497 de termeni într -un grafic direcționat cu „biocviews” root.

Figura 1. Un aspect „punct” de 20 de noduri din graficul biocviewsvocab.

Maparea de la termenii bioCViews la pachete este specificată în fișierul de descriere al fiecărui pachet. Pentru o versiune dată de bioconductor, biocpkgtools include maparea de la fiecare pachet la lista de termeni bioCViews aleși de dezvoltatorul de pachete pentru a caracteriza capacitățile pachetului. Toate pachetele se hărțează la cel puțin un termen. Numărul mediu de termeni pentru pachetele software este de 9, iar numărul maxim de termeni utilizați pentru orice pachet este de 45, pentru Roastgsa.

Explorarea BioCViews

Figura 2. O vedere a aplicației BVBROWSE cu accent pe pachetele mapate la termenul biocviews „diferențiere”, care este un fel de „biologicquestion”.

Upshots

Motivat de vizualizările CRAN TASK, vocabularul BioCViews este profund înrădăcinat în operațiunile Bioconductor. Fiecare pachet hărime la cel puțin un termen. Mapările date în fișierele de descriere sunt utilizate pentru a sorta contribuții la clase de software, adnotare, experiment și flux de lucru.

Figura 2 prezintă familia „întrebări biologice” abordate în vocabular. Acest subvocabular a fost creat într -un ad-hoc chestiune, la cerere sau necesitate percepută. Cele mai recente adăugări la vocabular par să fi fost făcute în 2023, implicând termenii Longread, Workflow Management și Salmo_salar.

Din păcate, motivația inițială de a produce documente curate și povestite la nivel de subiect în modul de vizualizări ale sarcinilor Cran, nu a fost niciodată realizată.

Opiniile ierarhiei conceptuale EDAM

De la edamontologie.org:

EDAM este o ontologie cuprinzătoare a conceptelor bine stabilite, cunoscute, care predomină în cadrul analizei științifice a datelor și gestionării datelor (atât în cadrul științelor și imagisticii vieții, cât și dincolo de viață). EDAM include subiecte, operații, tipuri de date și identificatori de date și formate de date.

Un gust al rețelei conceptuale este prezentat în figura 3. Vizitați nodul de date pentru a explora tipurile de date enumerate în sistem.

Figura 3. O imagine a unei extinderi a vizualizatorului de rețea interactivă pentru EDAM.

Comparând BioCViews și EDAM

Este firesc să ne așteptăm ca instrumentele de procesare a limbajului natural să contribuie la identificarea corespondențelor dintre vocabularul BioCViews și EDAM. Am folosit sistemul Text2Term Gonçalves și colab. (2024) pentru a ajuta la identificarea potențialelor potriviri ale termenilor folosind analiza lexicală și semantică. Figura 4 oferă o felie a rezultatului acestei abordări. Primii 3 termeni de notare în EDAM sunt furnizați pentru fiecare termen în BioCViews.

Figura 4. Aplicarea Text2Term la BioCViews pentru punctaje pentru meciurile la ontologia EDAM.

Interpretarea acestei analize este în desfășurare. Figura 4 arată, de exemplu, că termenul biocviews „singlecell” poate fi mapat la subiect, operare, concepte de date în EDAM. Termenul BioCViews pare destinat să abordeze secvențarea cu o singură celulă și, probabil, ar trebui înlocuit cu subiectul EDAM 4028. Nu este clar că un proces de judecată și înlocuire de acest fel ar putea să se extindă pe întregul vocabular BioCViews, dar se observă unele meciuri directe sau foarte apropiate.

Utilizarea metodelor mari de model de limbaj pentru a eticheta conținutul pachetului

Datorită codului și datelor puse la dispoziție de Anh Nguyet VU de la Sage Bionetworks, pachetul Biocedam R (în curs de dezvoltare) poate utiliza GPT-4O pentru a produce atribuții de termen EDAM pentru pachetele Bioconductor. Procesul curent are doi pași. Funcția vig2data procesează vinietele HTML sau PDF și folosește extract_data caracteristică a ellmer::chat_openai pentru a produce un rezumat cu lungime fixă. Acest rezumat este apoi analizat împotriva schemelor pentru cele patru concepte principale ale EDAM: subiect, format, operare, date, folosind solicitare specifică pentru extragerea conceptelor relevante „cât mai specific posibil”.

Bazându -ne pe această fundație, explorăm integrarea cu Gemeni (prin Ellmer) pentru a oferi un backend fără cheie care face testarea mai ușoară pentru un public mai larg. Această lucrare în curs de desfășurare va face parte și din discuțiile la ISMB/ECCB 2025 CollaborationFest (23-24 iulie), unde invităm contribuții și feedback. Consultați pagina noastră de proiect pentru detalii.

Figura 5 oferă ieșirea acestei abordări pentru vigneta de dezvoltare a pachetului MSNBASE, care descrie tipurile de date pentru analiza datelor de spectrometrie de masă.

Figura 5. Termeni EDAM pentru pachetul MSNBASE, pe baza analizei GPT-4O a unei viniete pentru pachetul care descrie modul în care sunt structurate clasele de date ale pachetului.

Invităm dezvoltatori și contribuitori bioconductori să exploreze pachetul Biocedam R pentru a testa atribuțiile de termen EDAM pe propriile pachete.

  • Etichetarea EDAM sugerată reflectă funcționalitatea pachetului dvs.?
  • Există concepte importante care lipsesc de la EDAM?
  • Ați sugera rafinări la prompturi sau mapări?

Acest proiect a început cu ideea că un ad-hoc Enumerarea conceptelor utilizate pentru etichetarea pachetelor bioconductoare (BioCViews) ar putea fi „înlocuită” cu o ontologie mai sistematică (EDAM). Se dovedește că BioCViews are scopuri dincolo de „etichetarea” pachetului pentru suport pentru descoperire, iar modificările la vocabular au ramificări în alte domenii ale ecosistemului software bioconductor. De asemenea, este clar că EDAM „lipsește” concepte care sunt utilizate în BioCViews și vor trebui să fie actualizate. Acesta este un proces formal care necesită revizuire și consens în rândul întreținătorilor EDAM. Consultați această solicitare de tragere pentru un exemplu care rezultă din acest proiect.

În cele din urmă, credem că instrumentele legate de cele furnizate în pachetul Biocedam va ajuta la propunerea de atribuții de termen pentru pachetele bioconductoare (și alte artefacte utile în știința datelor genomice) pe care dezvoltatorii și creatorii de conținut le pot adopta după cum consideră că sunt potrivite. Acest lucru va duce la câștiguri în descoperirea resurselor și va oferi valori pentru organizarea ecosistemelor și a colecțiilor de flux de lucru precum Bioconductor și Bio.tools.

Pentru o viziune mai largă a direcției viitoare a lui Bioconductor, consultați piesa recentă de opinie a lui Vince Carey în modele: https://doi.org/10.1016/j.patter.2025.101319.

Salutăm feedback și contribuții – în special de la cei care lucrează la metadatele pachetelor. Dacă doriți să încercați instrumentul Biocedam, consultați Sfatul 1 de mai sus.

Această lucrare a fost susținută în parte de un proiect de software esențial de la Chan-Zuckerberg, proiectul software open source EOSS6-000000000067, „Etichetare și descoperire a resurselor ontologice pentru bioconductor”. Repere importante au fost raportate într -un preprint Biohackathon Europe 2024. În prezent este angajat un grup de lucru pentru consiliul consultativ tehnic bioconductor este angajat cu aceste activități.


© 2025 Bioconductor. Conținutul este publicat sub licență Creative Commons CC-BY-4.0 pentru licența de text și BSD 3-clauză pentru orice cod. | R-BLOGGERS

Dominic Botezariu
Dominic Botezariuhttps://www.noobz.ro/
Creator de site și redactor-șef.

Cele mai noi știri

Pe același subiect

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.