(Acest articol a fost publicat pentru prima dată pe Jason Bryerși a contribuit cu drag la R-Bloggers). (Puteți raporta problema despre conținutul de pe această pagină aici)
Doriți să vă împărtășiți conținutul pe R-Bloggers? Faceți clic aici dacă aveți un blog sau aici dacă nu.
Analiza clusterului este o procedură statistică pentru gruparea observațiilor folosind o abordare centrată pe observație în comparație cu abordările centrate pe variabile (de exemplu, PCA, analiza factorilor). Indiferent dacă este o etapă de preprocesare pentru modelarea predictivă sau analiza primară, validarea este esențială pentru determinarea generalizării pe seturile de date. Theodoridis și Koutroumbas (2008) au identificat trei tipuri largi de validare pentru analiza clusterului: 1) validarea internă a clusterului, 2) validarea relativă a clusterului și 3) validarea externă a clusterului. Strategiile pentru etapele 1 și 2 sunt bine stabilite, cu toate acestea analiza clusterului este de obicei o metodă de învățare nesupravegheată în care nu există un rezultat observat. Ullman și colab. (2021) au propus o abordare pentru validarea unei soluții de cluster prin inspecția vizuală a soluțiilor de cluster într -un set de date de instruire și validare. Această discuție introduce pachetul CLAV R care implementează și extinde această abordare prin generarea mai multor eșantioane aleatorii (folosind fie un simplu eșantion de divizare aleatorie, fie de bootstrap). Vizualizările atât ale profilurilor de cluster, cât și ale distribuțiilor mijloacelor de cluster sunt furnizate împreună cu o aplicație strălucitoare pentru a ajuta cercetătorul.
Pentru mai multe informații despre proiect, vizitați: https://github.com/jbryer/clav
Un student va prezenta, de asemenea, Detectarea textului generată de AI în contextul eseurilor specifice domeniului și prompt
Adoptarea pe scară largă a modelelor de limbaj mare a făcut distincția între eseurile generate de om și AI mai dificil. Acest studiu explorează metodele de detectare a AI pentru eseuri specifice domeniului și prompt în cadrul cadrului de evaluare a diagnosticului și realizare a competențelor colegiului (DAACS), aplicând atât forestiere aleatorii, cât și clasificatoare moderne reglate. Abordarea noastră încorporează eseuri pre-chatgpt, probabil generate de om, alături de seturi de date sintetice ale eseurilor generate și modificate de AI. Clasificatorul de pădure aleatoriu a fost instruit cu încorporațiri open-source precum Minilm, Roberta și un model OpenAI cu costuri reduse, folosind o strategie unu-versus-one. Metoda Modernbert a folosit o nouă strategie de reglare fină la două niveluri, încorporând clasificări la nivel de eseu și pereche de propoziții care combină caracteristicile textului global cu tranziții detaliate ale propoziției prin notarea coerenței și detectarea consistenței stilului. Împreună, aceste metode identifică în mod eficient dacă eseurile au fost modificate de AI. Abordarea noastră oferă o soluție rentabilă pentru domenii specifice și servește ca o alternativă robustă la instrumentele generice de detectare AI, toate permițând execuția locală pe hardware de calitate pentru consumatori.
Pentru a vă înregistra la conferință, accesați https://ww2.amstat.org/meetings/jsm/2025/
