APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)
|
|
- Evelina Marconi
- 5 anni fa
- Visualizzazioni
Transcript
1 APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in gruppi o clusters secondo criteri di similarità (o dissimilarità distanza). I gruppi devono essere caratterizzati da: un elevato grado di omogeneità (similarità) interna un elevato grado di eterogeneità (dissimilarità) tra i gruppi
2 L omogeneità e l eterogeneità vengono misurate (con misure che verranno introdotte in seguito) sulla base di un insieme di variabili. È importante che le variabili utilizzate: - presentino una certa eterogeneità nel collettivo oggetto di osservazione (per permettere di distinguere tra i diversi rispondenti) - siano rilevanti per lo scopo della ricerca (altrimenti potrebbero avere un ruolo del tutto fuorviante e dare luogo a risultati privi di senso). La cluster analysis ha un ruolo molto importante nelle analisi di segmentazione del mercato. Un segmento di mercato è un gruppo di clienti effettivi o potenziali che ci si può attendere rispondano in modo simile all offerta di un prodotto o di un servizio. 2
3 La segmentazione del mercato è il processo di divisione dei clienti (le cui valutazioni di un prodotto o di un servizio possono essere estremamente variabili) in gruppi (segmenti) di clienti le cui valutazioni sono alquanto omogenee all interno del gruppo. La cluster analysis non è importante solo per la segmentazione della clientela ma anche per: l identificazione di nuovi prodotti attraverso la previa clusterizzazione dei prodotti già esistenti sul mercato attraverso le loro caratteristiche. Formare gruppi di marchi o prodotti simili rispetto a caratteristiche specifiche con lo scopo di individuare i competitor, gli spazi di mercato non occupati ed eventuali nicchie di mercato disponibili. 3
4 La cluster analysis può essere applicata in congiunzione con altre tecniche statistiche multivariate. In particolare, la cluster analysis può essere applicata a partire dai risultati dell analisi fattoriale: 1. l analisi fattoriale consente, prima, di ridurre il numero delle variabili; 2. la cluster analysis consente di ridurre il numero delle osservazioni raggruppandole in cluster omogenei. Si noti che questa metodologia statistica consente di effettuare la segmentazione a posteriori. 4
5 ESEMPIO: vediamo un piccolo esempio relativo a 9 persone sulle quali sono stati rilevati il reddito (in migliaia di Euro) e l età. Unità Reddito Età Innanzitutto vediamo una rappresentazione grafica del nostro data set. 5
6 Età Reddito Da questo grafico vediamo che emerge la possibilità di partizionare le nove unità in tre gruppi. 6
7 Età Reddito 7
8 Nel fare questa affermazione siamo certamente stato aiutati dal colpo d occhio che ci fa cogliere quelle che sono le unità più vicine fra loro. In generale, però, le variabili usate per la cluster analysis sono più di due e, quindi, non si dispone di semplici rappresentazioni grafiche come quella appena vista. Diventa, quindi, determinante misurare la dissimilarità tra unità e tra gruppi. Per fare ciò occorre, innanzitutto definire i metodi di misurazione della similarità o della dissimilarità (distanza) fra unità e fra gruppi. 8
9 Misure di similarità e dissimilarità tra gruppi Innanzitutto vediamo le metriche per misurare la dissimilarità fra due unità. Consideriamo il caso di caratteri quantitativi. Una misura di distanza deve godere delle seguenti proprietà: 1. d ij 0 (non negatività) 2. d ii = 0 3. d ij = d ji (simmetria) 4. d ij d ir + d rj (disuguaglianza triangolare) Le misure più usate sono: - la distanza euclidea. 9
10 Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è 2 2 ( ) ( ) d 12 = = 178 = In generale la distanza euclidea tra due generiche unità i e j sui cui sono state rilevate p variabili è data da d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj dove il generico x pi indica il valore che la variabile p assume nell unità i. - La metrica di Manhattan (o della città a blocchi). Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è d = =
11 In generale questa distanza è data da d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj - la distanza euclidea ponderata. In generale la distanza euclidea ponderata tra due generiche unità i e j sui cui sono state rilevate p variabili è data da d = x x w + x x w + + x x w ij 1i 1j 1 2i 2 j 2 pi pj p L uso di questo tipo di distanza può essere utile se si vogliono standardizzare le variabili In tal caso basta porre w1 =, w 2 2 =,, w 2 p = 2 s s s per ottenere che 1 2 p 11
12 2 2 2 d x x 1 x x 1 = x x 1 ij 1i 1j 2 2i 2 j 2 s s pi pj s2 1 2 p ossia la distanza euclidea ponderata con l inverso delle varianze equivale alla distanza euclidea calcolata sulle variabili standardizzate xih xh zih =, i = 1,, n h = 1,, p s h 2 Nel nostro esempio, s reddito = e s età = Quindi la distanza euclidea tra l unità 1 e l unità 2 è d 12 = ( 12 25) + ( 23 20) = = Osservazione: bisogna prestare attenzione, quando si calcolano queste distanze, al caso in cui le unità di misura (o le scale) usate per 12
13 misurare o codificare le diverse variabili siano comparabili o meno. Per evitare il problema della comparabilità delle unità di misura si possono standardizzare le variabili prima di procedere al calcolo delle distanze. Consideriamo il caso di attributi dicotomici. Supponiamo di disporre di p misurazioni dicotomiche effettuate su n individui. Ad esempio si consideri la presenza (codificata con 1) o l assenza (codificata con 0) di p attributi su due unità generiche: Unità i Unità j I dati possono essere sintetizzati mediante la seguente tabella 13
14 Unità i 1 0 Unità j 1 a b 0 c d Dove a rappresenta il numero di attributi presenti in entrambe le unità; b rappresenta il numero di attributi presenti nell unità j ma non nell unità i; c rappresenta il numero di attributi presenti nell unità i ma non nell unità j; d rappresenta il numero di attributi assenti in entrambe le unità. Si ha a + b + c + d = p. Nel nostro esempio, la tabella risulta data da: Unità i 1 0 Unità j
15 A partire dalla tabella, si possono definire misure di similarità e di dissimilarità. Vediamone alcune: - Simple matching. La misura di similarità si basa sulla proporzione di attributi che sono presenti o assenti in entrambe le unità a + d cij = p La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = p - Coefficiente di similarità di Jaccard. La misura di similarità si basa sulla proporzione, sugli attributi che sono presenti in almeno una unità, degli attributi presenti in entrambe le unità 15
16 a cij = a + b + c La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = a + b + c 16
17 Consideriamo, ad es. la distanza euclidea al quadrato. In generale la distanza euclidea al quadrato tra due generiche unità i e j sui cui sono state rilevate p variabili è data da ( 1 1 ) ( 2 2 ) ( ) ij = i j + i j + + pi pj d x x x x x x dove il generico x pi indica il valore che la variabile p assume nell unità i. Le misure delle distanze tra tutte le possibili coppie delle n unità possono essere riassunte mediante la seguente matrice delle distanze che nel nostro esempio è data da:
18 Metodi di cluster analysis Una volta misurate le dissimilarità fra unità si deve procedere alla vera e propria creazione dei gruppi. I metodi possono essere raggruppati in due macrocategorie: Metodi gerarchici. Questi a loro volta si dividono in metodi: 1.agglomerativi (che in modo sequenziale, partono dallo stato in cui ogni unità costituisce un gruppo e per aggregazione successiva di una unità al gruppo più vicino, arrivano allo stato in cui tutte le unità appartengono allo stesso, e quindi, solo gruppo) 2.disaggregativi (che funziono sempre in modo sequenziale ma inverso rispetto ai metodi aggregativi). Metodi non gerarchici (o partitivi) mediante i quali i dati vengono partizionati in un numero di gruppi fissato a priori. 18
19 I metodi agglomerativi I metodi agglomerativi differiscono fra loro per il metodo utilizzato per calcolare la distanza tra gruppi o tra una unità e un gruppo. Un po di notazione. Indichiamo con: - d ij la distanza tra le unità i e j; - C ij il cluster ottenuto dal raggruppamento delle unità i e j; - C A e C B due cluster con rispettivamente n A e n B unità e con baricentri (o medie) x = 1 e 1 A n x i x = B n x i Ai C A B i C B 19
20 I metodi più utilizzati sono: Metodo del legame singolo (o metodo della distanza minima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più vicini Questo metodo tende ad identificare cluster di dimensione ampia. Inoltre può anche produrre cluster di forma allungata visto che per unire due gruppi basta che questi possiedano due unità (una per gruppo) molto vicine (le rimanenti possono anche essere molto lontane). 20
21 Metodo del legame completo (o metodo della distanza massima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più lontani Questo metodo tende a raggruppare insiemi di osservazioni vicine tra loro perché è basato sulle distanze massime tra gruppi. Quindi i gruppi risultanti hanno spesso forma sferica. Metodo del legame medio (o metodo della distanza media). La distanza tra due cluster C A e C B è data dalla media delle distanze tra tutte le possibili coppie di elementi (di cui uno in C A e uno in C B ). 21
22 Metodo di Ward. È un metodo gerarchico alternativo rispetto ai precedenti che sono basati sul calcolo di distanze tra gruppi (clusters). I gruppi vengono uniti sulla base della minimizzazione della perdita di informazione derivante dal raggruppamento di unità appartenenti a gruppi differenti. La perdita di informazione viene misurata come somma delle distanze di ogni elemento dalla media del cluster a cui viene assegnato (tale somma può essere chiamata varianza interna al cluster proposto). Viene, quindi, fusa la coppia di cluster per cui la varianza entro i cluster risultanti dalla fusione è minima. Questo metodo tende a produrre gruppi che hanno circa lo stesso numero di osservazioni. Metodo del centroide. La distanza tra i cluster è pari alla distanza tra i valori medi (detti centroidi) calcolati sulle unità appartenenti ai gruppi. Questo metodo fa sì che cluster grandi tendano ad attrarre al loro interno cluster piccoli. 22
23 ESEMPIO: consideriamo il nostro data set su reddito e età e procediamo al raggruppamento usando a scopo illustrativo il metodo del legame singolo. Di seguito si riporta la matrice delle distanze euclidee al quadrato In blu è stata evidenziata la distanza minima. 23
24 Vediamo che le unità più vicine sono la 1 e la 3 che quindi possono essere unite per formare un gruppo. Calcoliamo le nuove distanze usando sempre il metodo del legame singolo. C 1 = C 1 = Vediamo che la distanza minima si ha tra l unità 8 e l unità 9 che quindi possono essere unite in un gruppo. Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 24
25 C 1 = C 2 =8-9 C 1 = C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 1 e l unità 2 che quindi possono essere unite in un gruppo (diciamo C 3 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 25
26 C 3 =1,2, C 2 =8-9 C 3 =1,2, C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 2 e l unità 7 che quindi possono essere unite in un gruppo (diciamo C 4 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 26
27 C 3 =1,2, C 4 =7,8,9 C 3 =1,2, C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra l unità 4 e l unità 6 che quindi possono essere unite in un gruppo (diciamo C 5 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 5 =4,6 5 C 4 =7,8,9 C 3 =1,2, C 5 =4, C 4 =7,8,9 0 27
28 Vediamo che la distanza minima si ha tra C 5 e l unità 5 che quindi possono essere unite in un gruppo (diciamo C 6 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 6 =4,5,6 C 4 =7,8,9 C 3 =1,2, C 6 =4,5, C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra C 3 e C 6 che quindi possono essere unite in un gruppo (diciamo C 7 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3,4,5,6 C 4 =7,8,9 C 3 =1,2,3,4,5, C 4 =7,8,9 0 28
29 Abbiamo visto attraverso l esempio che i metodi gerarchici agglomerativi costituiscono una procedura iterativa che si articola nei seguenti passi: 1. all inizio ciascuna unità costituisce un gruppo distinto. La distanza tra i gruppi è quindi data dalla matrice delle distanze tra unità; 2. i due gruppi che possiedono distanza minima (secondo il metodo che si preferisce usare tra quelli sopra illustrati) vengono fusi. Si registra la distanza a cui avviene la fusione; 3. si calcola la distanza tra il nuovo cluster, sorto dalla fusione effettuata al punto 2., e i cluster già esistenti. Si aggiorna la matrice delle distanze che, così, avrà una riga e una colonna in meno (perché calcolata dopo la fusione di due gruppi); 4. vengono ripetuti i passi 2. e 3. finché non si giunge alla configurazione in cui tutte le unità sono in un gruppo solo (ciò avviene in n 1 iterazioni). 29
30 È possibile assegnare ad ogni gruppo appena formato un indice di aggregazione. Questo è dato dalla distanza fra le due classi appena aggregate. Il processo di aggregazione può essere poi visualizzato mediante un diagramma ad albero detto dendrogramma in cui le altezze sono proporzionali agli indici di aggregazione. Il dendrogramma, quindi, riporta sull asse verticale il livello di distanza (distance level) a cui avviene la fusione e sull asse orizzontale le unità organizzate secondo una struttura ad albero. Ad ogni livello di distanza corrisponde una partizione. Il dendrogramma consente anche di visualizzare quanto un gruppo è separato dagli altri gruppi. Il rapporto tra il livello di distanza a cui un gruppo si forma e il livello di distanza a cui questo gruppo si fonde con un altro gruppo indica quanto il cluster è delimitato e separato dai rimanenti. 30
31 Torniamo al nostro esempio e vediamo il dendrogramma che descrive l operazione di agglomerazione con metodo gerarchico agglomerativo del legame singolo e distanza euclidea al quadrato. Dendrogram Single Linkage; Squared Euclidean Distance 1224,00 Distance 816,00 408,00 0, Observations
32 Scelta del numero dei gruppi I metodi gerarchici aggregativi esplorano tutti i possibili diversi livelli di aggregazione. È compito del ricercatore, quindi, scegliere sulla base degli output quale possa essere la migliore partizione. A questo scopo il dendrogramma costituisce un ottimo supporto. Si può, infatti, tagliare il dendrogramma ad una certa altezza. Distance 1224,00 816,00 408,00 0,00 1 Dendrogram Single Linkage; Squared Euclidean Distance Observations Il punto di taglio può essere trovato cercando il punto in cui avviene il salto (in termini di asse verticale) più consistente. Accanto vediamo (rappresentato con un segmento blu) il taglio nel nostro esempio. 32
33 Per la scelta del numero ottimale di gruppi in cui suddividere le unità ci si può anche avvalere dell output della procedura di cluster analysis. In particolare, come vedremo nell esempio riportato nella pagina successiva, si possono calcolare degli opportuni indicatori che aiutano ad identificare il punto di salto. Ad esempio un indicatore è il livello di similarità che viene calcolato ad ogni passo della procedura iterativa. Il livello di similarità ad un determinato passo è dato da d ij 1, d dove d ij è la distanza tra le unità che a quel passo vengono fuse (ossia la distanza minima in quel passo) e d max è il valore massimo della distanza nella matrice iniziale delle distanze tra le unità. Il passo nel quale il valore del livello di similarità subisce un brusco cambiamento può essere un buon punto per tagliare il dendrogramma e, quindi, per scegliere il numero ottimale di gruppi. max 33
34 Cluster Analysis of Observations: reddito; età Squared Euclidean Distance, Single Linkage Amalgamation Steps Indice di aggregazione Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster Nota: si noti che Minitab consente di produrre un dendrogramma che rappresenta sull asse delle ordinate proprio il livello di similarità (espresso in termini percentuali). 34
35 I metodi non gerarchici I metodi non gerarchici, a differenza dei gerarchici, non producono una gerarchia di partizioni delle osservazioni ma producono una sola partizione. Ciò significa che occorre stabilire (o conoscere) a priori il numero di cluster in cui suddividere le osservazioni. Vediamo, in generale, i passi i cui si articolano i metodi non gerarchici. Supponiamo che i gruppi siano K: 1. sono determinati i centri iniziali dei K cluster. Questi centri o sono individuati dal ricercatore/analista oppure sono selezionati casualmente dal software (ossia sono K osservazioni scelte a caso) 2. le osservazioni sono assegnate ai cluster sulla base della loro distanza dal centro del cluster (ciascuna osservazione viene assegnata al cluster con il centro meno distante dall osservazione) 35
36 3. si calcolano i centri dei nuovi cluster risultanti dalla procedura di assegnazione al punto i passi 2. e 3. vengono ripetuti fintantoché nessuna osservazione può essere più riallocata oppure finché non viene verificata una regola di stop. Esistono diversi metodi non gerarchici. Questi differiscono nella determinazione del criterio di ottimalità della partizione. Vediamo il metodo più diffuso. 36
37 Il metodo delle K medie (K-means) Il metodo delle K-medie ricerca la partizione ottimale in K cluster che minimizza la devianza entro i cluster. In altre parole, l algoritmo opera sulla base della seguente funzione obiettivo: K ( c ) ( c ) ( c WSS = x ) 1i x1 + x2i x2 + + xpi xp within sum of squares c= 1 unità i nel cluster c dove: - x 1i indica, ad esempio, la modalità della variabile X 1 mostrata dall unità i appartenente al cluster c, c=1,...,k c - 1 x indica, ad esempio, il valore medio (o centroide) della variabile X 1 calcolato con riferimento alle sole osservazioni appartenenti al cluster c, c=1,...,k. 37
38 Se ne deduce che WSS rappresenta la somma delle devianze interne ai gruppi. L algoritmo delle K-medie si propone di trovare la partizione ottimale nel senso che minimizza la devianza WSS. Vediamo i passi dell algoritmo K-medie. 1. si specificano i K punti iniziali come centroidi scegliendo in maniera opportuna (se si hanno conoscenze a priori) o casuale (se non si hanno conoscenze a priori) alcune unità; 2. ciascuna unità viene assegnata al cluster il cui centroide si trova alla distanza più piccola; 3. vengono aggiornati i valori dei centroidi per ciascuno del K gruppi; 4. si procede iterativamente a spostamenti successivi fino a raggiungere una configurazione stabile (ossia finché non si può più riallocare nessuna unità). 38
39 L algoritmo è abbastanza veloce e stabile nel senso che, partendo da centroidi iniziali diversi, tende a giungere alla stessa configurazione finale. Quando la popolazione analizzata è piuttosto omogenea e non ammette partizioni, i risultati possono variare molto. Quindi, se non si hanno informazioni a priori sufficientemente affidabili, è consigliabile applicare l algoritmo con valori iniziali diversi e controllare la stabilità della soluzione ottenuta. Un nodo cruciale è la scelta del numero di cluster. Un indice che può essere utilizzato è quello di Calinski e Harabsz: B ( k 1) CHk = WSS ( n k ) dove B rappresenta la devianza tra i gruppi che può essere calcolata come differenza tra la devianza totale e la devianza within. Si sceglie la partizione tale che CH k è massima. 39
40 Metodi gerarchici vs Metodi non gerarchici Confrontiamo alcune caratteristiche dei due metodi di cluster analysis. I metodi gerarchici: non richiedono di conoscere/scegliere a priori il numero di cluster possono essere molto lenti; allora è preferibile usarli su piccoli dataset ad ogni passo richiedono il calcolo dell intera matrice delle distanze I metodi non gerarchici: richiedono di conoscere/scegliere a priori il numero di cluster possono richiedere la specificazione dei centroidi iniziali sono veloci, generalmente affidabili e possono essere usati anche per grandi dataset ad ogni passo richiedono il calcolo solo delle distanze delle unità dai centroidi 40
Statistica per l Impresa
Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici
DettagliCluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
DettagliObiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:
Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono
DettagliCluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca
Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche
DettagliSDE Marco Riani
SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE
DettagliIntelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011
Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 9 maggio 2018 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità Metodi gerarchici
DettagliANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di
ANALISI DEI CLUSTER In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di SPSS che non sono state incluse nel testo pubblicato. Si tratta di opzioni che, pur
DettagliStatistica per le ricerche di mercato
Statistica per le ricerche di mercato A.A. 2012/13 Dr. Luca Secondi 15. Tecniche di analisi statistica multivariata per la segmentazione del mercato Cluster Analysis 1 Cluster analysis La cluster analysis
DettagliC.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.
AMBIENTE STATISTICO SOFTWARE PER L ANALISI STATISTICA DI DATI PROVENIENTI DAL MONITORAGGIO AMBIENTALE Release 4.0 20/03/2018 Manuale d uso Ambiente Statistico è un software sviluppato nell ambito del Progetto
DettagliProva finale del 6 giugno 2011
Prova finale del 6 giugno 2011 Esercizio A, da svolgere con carta e penna Si consideri la seguente matrice dei dati relativa a 3 unità statistiche e 3 variabili, X 1 e X 2 quantitative, X 3 dicotomica.
DettagliI metodi di Classificazione automatica
L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO
Dettagli5. Analisi dei Gruppi (Cluster Analysis)
5. Analisi dei Gruppi (Cluster Analysis) Cosa è l analisi dei gruppi? Viene utilizzata per classificare rispondenti in gruppi omogenei detti clusters. Esamina relazioni di interdipendenza: nessuna distinzione
DettagliCenni sulla cluster analysis
Cenni sulla cluster analysis Distanze Dato un insieme E, una funzione d: E X E -> R + che ha le seguenti tre proprietà: d(x i, x j ) = 0 x i = x j d(x i, x j ) = d(x j, x i ) d(x i, x j ) d(x j, x h )
DettagliI modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica
Titolo della lezione: I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica Obiettivi dell unità didattica Comprendere l insieme delle procedure che si prefiggono di
DettagliRiconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliMaria Brigida Ferraro + Luca Tardella
Cluster Maria Brigida Ferraro + Luca Tardella e-mail: mariabrigida.ferraro@uniroma1.it, ferraromb@gmail.com Lezione #3: Cluster Obiettivi del modulo Cluster 1 Introduzione ai problemi di classificazione
DettagliMetodi di classificazione. Loredana Cerbara
Loredana Cerbara I metodi di classificazione, anche detti in inglese cluster analysis, attengono alla categoria dei metodi esplorativi. Esistono centinaia di metodi di classificazione dei dati ed hanno
DettagliIntroduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.
DettagliMisure di diversità tra unità statistiche. Loredana Cerbara
Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,
DettagliAnalisi Multivariata Prova finale del 3 giugno 2010
Analisi Multivariata Prova finale del 3 giugno 2010 Esercizi da svolgere con carta e penna Esercizio A A1 Descrivere brevemente qual è l obiettivo principale dell analisi fattoriale. A2 Scrivere il modello
DettagliMetodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento
Metodi Probabilistici e Statistici per l Analisi dei Dati Prof. V. Simoncini e-mail: valeria@dm.unibo.it, valeria@ambra.unibo.it Testi di Riferimento Lucidi di Lezione (http://www.dm.unibo.it/ ~simoncin/datiii.html)
DettagliCluster Analysis (2 parte)
Cluster Analysis (2 parte) Esempio 2 Data set: Nel data set Dieta (Dieta.txt, Dieta.sav) sono contenute informazioni sul consumo medio dei principali alimenti in 16 paesi Europei. Paese Cereali (Ce) Riso
DettagliAnalisi dei Gruppi con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi dei Gruppi
DettagliDefinizione 1.3 (Arco accoppiato) Un arco è accoppiato se è appartenente al matching M.
Matching. Definizioni Definizione. (Matching di un grafo G = (N, A)) Il matching di un grafo è un sottoinsieme M di archi tali per cui nessuna coppia di essi condivida lo stesso nodo. Definizione.2 (Matching
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
DettagliProgrammazione con Foglio di Calcolo Cenni di Statistica Descrittiva
Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di
DettagliTECNICHE DI CLASSIFICAZIONE
TECNICHE DI CLASSIFICAZIONE La tecnica di classificazione più conosciuta è la cluster analysis, che ha l obiettivo di identificare gruppi di soggetti (o oggetti) omogenei al loro interno ed eterogenei
DettagliProva scritta di ASM - Modulo Analisi Esplorativa del
Cognome:... Nome:... Matricola:......... Prova scritta di ASM - Modulo Analisi Esplorativa del 14.02.2017 La durata della prova è di 90 minuti. Si svolgano gli esercizi A e B riportando il risultato dove
DettagliLe Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto
Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto di dati affidabili e accurati alle decisioni manageriali
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
DettagliClustering Mario Guarracino Data Mining a.a. 2010/2011
Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,
DettagliSegmentazione di immagini in scala di grigio basata su clustering
Segmentazione di immagini in scala di grigio basata su clustering Davide Anastasia, Nicola Cogotti 24 gennaio 06 1 Analisi del problema La segmentazione di immagini consiste nella suddivisione in un certo
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliSCHEDA N. 6: CLUSTER ANALYSIS
La statistica multivariata SCHEDA N. 6: CLUSTER ANALYSIS Nelle schede precedenti abbiamo visto come si rappresentano e si analizzano una o due variabili alla volta: questo tipo di analisi statistiche sono
DettagliCluster Analysis: Metodi non gerarchici
Cluster Analysis: Metodi non gerarchici Analisi Esplorativa Aldo Solari 1 / 37 1 Cluster Analysis 2 Metodo delle K-medie 2 / 37 Outline 1 Cluster Analysis 2 Metodo delle K-medie 3 / 37 Perchè raggruppare
DettagliStatistica Elementare
Statistica Elementare 1. Frequenza assoluta Per popolazione si intende l insieme degli elementi che sono oggetto di una indagine statistica, ovvero l insieme delle unità, dette unità statistiche o individui
DettagliControllo Statistico della Qualità (alcune note) A cura della Prof.ssa Paola Vicard e della Prof.ssa Flaminia Musella
Controllo Statistico della Qualità (alcune note) A cura della Prof.ssa Paola Vicard e della Prof.ssa Flaminia Musella Syllabus del modulo (20 ore) Introduzione Alcuni richiami alle nozioni fondamentali
DettagliCOGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.
COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008. ESERCIZIO I Si è applicata l analisi delle componenti principali a 97 modelli di fotocamere digitali, considerando 7 variabili ed ottenendo
DettagliElementi di base su modello binomiale e modello normale
Elementi di base su modello binomiale e modello normale (alcune note) Parte 1: il modello binomiale Di fondamentale importanza nell analisi della qualità sono i modelli. I due principali modelli statistico-probablistici
DettagliCalcolo dell inflazione per differenti tipologie di famiglie milanesi
Settore Statistica e S.I.T Servizio Statistica Calcolo dell inflazione per differenti tipologie di famiglie milanesi Introduzione L Indagine sui consumi delle famiglie milanesi realizzata dalla Camera
DettagliASSEGNAZIONE STOCASTICA. SU RETI NON CONGESTIONATE SNL (Stochastic Network Loading)
ASSEGNAZIONE STOCASTICA SU RETI NON CONGESTIONATE SNL Stochastic Network Loading algoritmo di DIAL Ipotesi: 1. La scelta del percorso è basata sul modello LOGIT 2. Si considerano solamente percorsi efficienti
DettagliQUANTIZZATORE VETTORIALE
QUANTIZZATORE VETTORIALE Introduzione Nel campo delle reti neurali, la scelta del numero di nodi nascosti da usare per un determinato compito non è sempre semplice. Per tale scelta potrebbe venirci in
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia
DettagliMisura della performance di ciascun modello: tasso di errore sul test set
Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test
DettagliSISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3
SISTEMI LINEARI. Esercizi Esercizio. Verificare se (,, ) è soluzione del sistema x y + z = x + y z = 3. Trovare poi tutte le soluzioni del sistema. Esercizio. Scrivere un sistema lineare di 3 equazioni
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA 1 SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliTeoria dei giochi. migliorare il proprio obiettivo il sistema ha raggiunto l equilibrio.
iii migliorare il proprio obiettivo il sistema ha raggiunto l equilibrio. Per introdurre la nozione di equilibrio di Nash consideriamo due giocatori. Siano f A (x, y) :AxB = R e f B (x, y) :AxB = R entrambe
DettagliStatistica. Lezioni: 3, 4. Statistica Descrittiva Univariata 2
Corsi di Laurea: a.a. 2018-19 Diritto per le Imprese e le istituzioni Sienze Internazionali dello Sviluppo e della Cooperazione Statistica Statistica Descrittiva Univariata 2 Lezioni: 3, 4 Contenuti La
DettagliUNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:
UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 2 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione
DettagliStesso valore medio per distribuzioni diverse
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
Dettagli2. Variabilità mediante il confronto di valori caratteristici della
2. Variabilità mediante il confronto di valori caratteristici della distribuzione Un approccio alternativo, e spesso utile, alla misura della variabilità è quello basato sul confronto di valori caratteristici
DettagliSTATISTICA 1 ESERCITAZIONE 2
Frequenze STATISTICA 1 ESERCITAZIONE 2 Dott. Giuseppe Pandolfo 7 Ottobre 2013 RAPPRESENTAZIONE GRAFICA DEI DATI Le rappresentazioni grafiche dei dati consentono di cogliere la struttura e gli aspetti caratterizzanti
DettagliRichiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una
DettagliRichiami di inferenza statistica Strumenti quantitativi per la gestione
Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Parametri e statistiche Esempi Tecniche di inferenza Stima Precisione delle stime Intervalli
Dettagli(a) Si proponga una formulazione di programmazione nonlineare a variabili misto-intere per problema.
6. Clustering In molti campi applicativi si presenta il problema del data mining, che consiste nel suddividere un insieme di dati in gruppi e di assegnare un centro a ciascun gruppo. Ad esempio, in ambito
DettagliLe Tecniche di Data Mining
Cluster Analysis Le Tecniche di Data Mining Le rinciali tecniche di data mining che vedremo sono: Ø Ø Cluster Analysis Alberi Decisionali Cluster Analysis La Cluster Analysis è una tecnica di data mining
DettagliComplementi ed Esercizi di Informatica Teorica II
Complementi ed Esercizi di Informatica Teorica II Vincenzo Bonifaci 21 maggio 2008 4 Problemi di ottimizzazione: il Bin Packing Il problema bin packing è il seguente: dato un insieme di n oggetti di dimensioni
DettagliREGISTRO DELLE LEZIONI
UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:
DettagliStatistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1
Statistica Capitolo 1 Verifica di Ipotesi su una Singola Popolazione Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Formulare ipotesi nulla ed ipotesi alternativa
DettagliApprocci multi-criterio III. Valutazione economica dei piani e dei progetti
Approcci multi-criterio III Valutazione economica dei piani e dei progetti Metodo Analytic Hierarchy Process Il metodo AHP, sviluppato da Thomas L. Saaty a partire dalla fine degli anni 70 è diffuso a
DettagliSDE Marco Riani
SDE 2018 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra due unità statistiche di cui si
DettagliAlcune nozioni di Statistica
Alcune nozioni di Statistica La statistica è un insieme di metodi che servono a descrivere ed elaborare i dati relativi ad un determinato insieme di individui. Tale insieme di individui è chiamato popolazione.
DettagliDefinizione della variabile c 2 Distribuzione della variabile c 2
Definizione della variabile c Distribuzione della variabile c In queste definizioni ho N variabili indipendenti, nessun vincolo e quindi N coincide con i gradi di libertà In un sistema fisico dove il numero
DettagliAnalisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
DettagliAlgoritmi. Pagina 1 di 5
Algoritmi Il termine algoritmo proviene dalla matematica e deriva dal nome di in algebrista arabo del IX secolo di nome Al-Khuwarizmi e sta ad indicare un procedimento basato su un numero finito operazioni
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliREGISTRO DELLE LEZIONI
UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:
DettagliScale di Misurazione Lezione 2
Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione
DettagliAnalisi esplorativa di dati multidimensionali
io e Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c., INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1.
Dettagli04 - Numeri Complessi
Università degli Studi di Palermo Facoltà di Economia CdS Statistica per l Analisi dei Dati Appunti del corso di Matematica 04 - Numeri Complessi Anno Accademico 2013/2014 M. Tumminello, V. Lacagnina e
DettagliCorso di Informatica Modulo T1 C1-Sequenza e selezione
Corso di Informatica Modulo T C-Sequenza e selezione Prerequisiti Analizzare un problema Scrivere un algoritmo Istruzioni semplici Espressione logica 2 Introduzione La programmazione a salti crea diverse
DettagliPiano cartesiano e Retta
Piano cartesiano e Retta 1 Piano cartesiano e Retta 1. Richiami sul piano cartesiano 2. Richiami sulla distanza tra due punti 3. Richiami punto medio di un segmento 4. La Retta (funzione lineare) 5. L
DettagliMetodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata II Simone Borra - Roberto Rocci Analisi in Componenti Principali Input: J variabili quantitative rilevate su n unità. Output Rappresentazione
DettagliMetodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata II Simone Borra - Roberto Rocci Analisi in Componenti Principali Input: J variabili quantitative rilevate su n unità. Output Rappresentazione
DettagliLA CASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI
_ LA CLASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI Rosaria Lombardo LA CASSIFICAZIONE AUTOMATICA CLASSIFICAZIONE E CLUSTERING 1. Introduzione L analisi dei gruppi, o cluster analysis,
DettagliChe cosa è la statistica oggi?
Metodologie Statistiche a supporto delle decisioni aziendali: Revenue/Yield Management Prof. Massimo Aria Ricercatore in Statistica Sociale Una breve premessa: Che cosa è la statistica oggi? 1 Statistica
DettagliLa variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le
DettagliELEMENTI DI STATISTICA DESCRITTIVA
Dipartimento di Matematica U. Dini, Università di Firenze Viale Morgagni 67/A, 50134 - Firenze, Italy, vlacci@math.unifi.it November 15, 2015 Terminologia In un esperimento ogni risultato delle caratteristiche
DettagliConcetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta
Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale
DettagliPer definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:
LA SEGMENTAZIONE DEL MERCATO Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di: 1) valutare le caratteristiche, i bisogni e i comportamenti probabili
DettagliIndici di variabilità
Indici di variabilità 1. Prendendo in considerazione il numero di addetti per classi e le aziende: Addetti Aziende 0-5 195 5-10 225 10-25 360 25-40 180 40-100 40 - determinare la varianza e lo scarto quadratico
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
DettagliMD2 MD3. Basi di funzioni e funzioni di primo grado
MD MD3 Basi di funzioni e funzioni di primo grado 0 5.1 Introduzione. Concetto di funzione. Siano A e B due insiemi, una funzione f da A verso B è una relazione che ad ogni elemento x appartenente all
DettagliUso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello
Tesina di Intelligenza Artificiale Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello Roberto Fortino S228682
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019 Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati
DettagliIl metodo dei Piani di Taglio (Cutting Planes Method)
Il metodo dei Piani di Taglio (Cutting Planes Method) E un metodo di soluzione dei problemi (IP) di tipo generale. L idea di base: Se la soluzione di (RL) non è intera allora la soluzione ottima intera
DettagliSlide Cerbara parte 1. Le medie
Slide Cerbara parte 1 Le medie Le medie Non una ma tante: le medie sono di tanti tipi e rappresentano un valore, una modalità caratteristica e che possa sintetizzare una intera distribuzione. 1. La media
DettagliCorso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale
UNIVERSITA DEGLI STUDI DI PERUGIA Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 Perugia Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale Corso di ANALISI
DettagliStatistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione
Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Esercizio 1. Analizzeremo la distribuzione delle famiglie italiane, classificate per numero di
DettagliMatematica Lezione 22
Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,
DettagliCompiti tematici dai capitoli 2,3,4
Compiti tematici dai capitoli 2,3,4 a cura di Giovanni M. Marchetti 2016 ver. 0.8 1. In un indagine recente, i rispondenti sono stati classificati rispetto al sesso, lo stato civile e l area geografica
DettagliStatistica. Campione
1 STATISTICA DESCRITTIVA Temi considerati 1) 2) Distribuzioni statistiche 3) Rappresentazioni grafiche 4) Misure di tendenza centrale 5) Medie ferme o basali 6) Medie lasche o di posizione 7) Dispersione
Dettagli