(Acest articol a fost publicat pentru prima dată pe Jason Bryerși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)
Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.
Descărcați diapozitive
Analiza cluster este o procedură statistică de grupare a observațiilor folosind o abordare centrată pe observație în comparație cu abordări centrate pe variabilă (de exemplu, PCA, analiză factorială). Ca metodă nesupravegheată, apartenența adevărată la cluster nu este de obicei cunoscută. Prin urmare, determinarea numărului optim de clustere, sau k, ridică provocări unice. Va fi explorată o revizuire a șase metrici comune pentru determinarea k cu mai multe metode de grupare folosind două seturi de date. O introducere la două statistici de potrivire bootstrap va fi furnizată împreună cu tehnici de validare pentru evaluarea validității și stabilității rezultatelor clusterului în eșantioanele bootstrap.
