APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)"

Transcript

1 APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in gruppi o clusters secondo criteri di similarità (o dissimilarità distanza). I gruppi devono essere caratterizzati da: un elevato grado di omogeneità (similarità) interna un elevato grado di eterogeneità (dissimilarità) tra i gruppi

2 L omogeneità e l eterogeneità vengono misurate (con misure che verranno introdotte in seguito) sulla base di un insieme di variabili. È importante che le variabili utilizzate: - presentino una certa eterogeneità nel collettivo oggetto di osservazione (per permettere di distinguere tra i diversi rispondenti) - siano rilevanti per lo scopo della ricerca (altrimenti potrebbero avere un ruolo del tutto fuorviante e dare luogo a risultati privi di senso). La cluster analysis ha un ruolo molto importante nelle analisi di segmentazione del mercato. Un segmento di mercato è un gruppo di clienti effettivi o potenziali che ci si può attendere rispondano in modo simile all offerta di un prodotto o di un servizio. 2

3 La segmentazione del mercato è il processo di divisione dei clienti (le cui valutazioni di un prodotto o di un servizio possono essere estremamente variabili) in gruppi (segmenti) di clienti le cui valutazioni sono alquanto omogenee all interno del gruppo. La cluster analysis non è importante solo per la segmentazione della clientela ma anche per: l identificazione di nuovi prodotti attraverso la previa clusterizzazione dei prodotti già esistenti sul mercato attraverso le loro caratteristiche. Formare gruppi di marchi o prodotti simili rispetto a caratteristiche specifiche con lo scopo di individuare i competitor, gli spazi di mercato non occupati ed eventuali nicchie di mercato disponibili. 3

4 La cluster analysis può essere applicata in congiunzione con altre tecniche statistiche multivariate. In particolare, la cluster analysis può essere applicata a partire dai risultati dell analisi fattoriale: 1. l analisi fattoriale consente, prima, di ridurre il numero delle variabili; 2. la cluster analysis consente di ridurre il numero delle osservazioni raggruppandole in cluster omogenei. Si noti che questa metodologia statistica consente di effettuare la segmentazione a posteriori. 4

5 ESEMPIO: vediamo un piccolo esempio relativo a 9 persone sulle quali sono stati rilevati il reddito (in migliaia di Euro) e l età. Unità Reddito Età Innanzitutto vediamo una rappresentazione grafica del nostro data set. 5

6 Età Reddito Da questo grafico vediamo che emerge la possibilità di partizionare le nove unità in tre gruppi. 6

7 Età Reddito 7

8 Nel fare questa affermazione siamo certamente stato aiutati dal colpo d occhio che ci fa cogliere quelle che sono le unità più vicine fra loro. In generale, però, le variabili usate per la cluster analysis sono più di due e, quindi, non si dispone di semplici rappresentazioni grafiche come quella appena vista. Diventa, quindi, determinante misurare la dissimilarità tra unità e tra gruppi. Per fare ciò occorre, innanzitutto definire i metodi di misurazione della similarità o della dissimilarità (distanza) fra unità e fra gruppi. 8

9 Misure di similarità e dissimilarità tra gruppi Innanzitutto vediamo le metriche per misurare la dissimilarità fra due unità. Consideriamo il caso di caratteri quantitativi. Una misura di distanza deve godere delle seguenti proprietà: 1. d ij 0 (non negatività) 2. d ii = 0 3. d ij = d ji (simmetria) 4. d ij d ir + d rj (disuguaglianza triangolare) Le misure più usate sono: - la distanza euclidea. 9

10 Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è 2 2 ( ) ( ) d 12 = = 178 = In generale la distanza euclidea tra due generiche unità i e j sui cui sono state rilevate p variabili è data da d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj dove il generico x pi indica il valore che la variabile p assume nell unità i. - La metrica di Manhattan (o della città a blocchi). Nel nostro esempio, la distanza euclidea tra l unità 1 e l unità 2 è d = =

11 In generale questa distanza è data da d = x x + x x + + x x ij 1i 1j 2i 2 j pi pj - la distanza euclidea ponderata. In generale la distanza euclidea ponderata tra due generiche unità i e j sui cui sono state rilevate p variabili è data da d = x x w + x x w + + x x w ij 1i 1j 1 2i 2 j 2 pi pj p L uso di questo tipo di distanza può essere utile se si vogliono standardizzare le variabili In tal caso basta porre w1 =, w 2 2 =,, w 2 p = 2 s s s per ottenere che 1 2 p 11

12 2 2 2 d x x 1 x x 1 = x x 1 ij 1i 1j 2 2i 2 j 2 s s pi pj s2 1 2 p ossia la distanza euclidea ponderata con l inverso delle varianze equivale alla distanza euclidea calcolata sulle variabili standardizzate xih xh zih =, i = 1,, n h = 1,, p s h 2 Nel nostro esempio, s reddito = e s età = Quindi la distanza euclidea tra l unità 1 e l unità 2 è d 12 = ( 12 25) + ( 23 20) = = Osservazione: bisogna prestare attenzione, quando si calcolano queste distanze, al caso in cui le unità di misura (o le scale) usate per 12

13 misurare o codificare le diverse variabili siano comparabili o meno. Per evitare il problema della comparabilità delle unità di misura si possono standardizzare le variabili prima di procedere al calcolo delle distanze. Consideriamo il caso di attributi dicotomici. Supponiamo di disporre di p misurazioni dicotomiche effettuate su n individui. Ad esempio si consideri la presenza (codificata con 1) o l assenza (codificata con 0) di p attributi su due unità generiche: Unità i Unità j I dati possono essere sintetizzati mediante la seguente tabella 13

14 Unità i 1 0 Unità j 1 a b 0 c d Dove a rappresenta il numero di attributi presenti in entrambe le unità; b rappresenta il numero di attributi presenti nell unità j ma non nell unità i; c rappresenta il numero di attributi presenti nell unità i ma non nell unità j; d rappresenta il numero di attributi assenti in entrambe le unità. Si ha a + b + c + d = p. Nel nostro esempio, la tabella risulta data da: Unità i 1 0 Unità j

15 A partire dalla tabella, si possono definire misure di similarità e di dissimilarità. Vediamone alcune: - Simple matching. La misura di similarità si basa sulla proporzione di attributi che sono presenti o assenti in entrambe le unità a + d cij = p La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = p - Coefficiente di similarità di Jaccard. La misura di similarità si basa sulla proporzione, sugli attributi che sono presenti in almeno una unità, degli attributi presenti in entrambe le unità 15

16 a cij = a + b + c La misura di dissimilarità è il suo complemento a 1 ossia: b + c dij = 1 cij = a + b + c 16

17 Consideriamo, ad es. la distanza euclidea al quadrato. In generale la distanza euclidea al quadrato tra due generiche unità i e j sui cui sono state rilevate p variabili è data da ( 1 1 ) ( 2 2 ) ( ) ij = i j + i j + + pi pj d x x x x x x dove il generico x pi indica il valore che la variabile p assume nell unità i. Le misure delle distanze tra tutte le possibili coppie delle n unità possono essere riassunte mediante la seguente matrice delle distanze che nel nostro esempio è data da:

18 Metodi di cluster analysis Una volta misurate le dissimilarità fra unità si deve procedere alla vera e propria creazione dei gruppi. I metodi possono essere raggruppati in due macrocategorie: Metodi gerarchici. Questi a loro volta si dividono in metodi: 1.agglomerativi (che in modo sequenziale, partono dallo stato in cui ogni unità costituisce un gruppo e per aggregazione successiva di una unità al gruppo più vicino, arrivano allo stato in cui tutte le unità appartengono allo stesso, e quindi, solo gruppo) 2.disaggregativi (che funziono sempre in modo sequenziale ma inverso rispetto ai metodi aggregativi). Metodi non gerarchici (o partitivi) mediante i quali i dati vengono partizionati in un numero di gruppi fissato a priori. 18

19 I metodi agglomerativi I metodi agglomerativi differiscono fra loro per il metodo utilizzato per calcolare la distanza tra gruppi o tra una unità e un gruppo. Un po di notazione. Indichiamo con: - d ij la distanza tra le unità i e j; - C ij il cluster ottenuto dal raggruppamento delle unità i e j; - C A e C B due cluster con rispettivamente n A e n B unità e con baricentri (o medie) x = 1 e 1 A n x i x = B n x i Ai C A B i C B 19

20 I metodi più utilizzati sono: Metodo del legame singolo (o metodo della distanza minima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più vicini Questo metodo tende ad identificare cluster di dimensione ampia. Inoltre può anche produrre cluster di forma allungata visto che per unire due gruppi basta che questi possiedano due unità (una per gruppo) molto vicine (le rimanenti possono anche essere molto lontane). 20

21 Metodo del legame completo (o metodo della distanza massima). La distanza tra due cluster C A e C B è data dalla distanza tra i due elementi (uno in C A e uno in C B ) più lontani Questo metodo tende a raggruppare insiemi di osservazioni vicine tra loro perché è basato sulle distanze massime tra gruppi. Quindi i gruppi risultanti hanno spesso forma sferica. Metodo del legame medio (o metodo della distanza media). La distanza tra due cluster C A e C B è data dalla media delle distanze tra tutte le possibili coppie di elementi (di cui uno in C A e uno in C B ). 21

22 Metodo di Ward. È un metodo gerarchico alternativo rispetto ai precedenti che sono basati sul calcolo di distanze tra gruppi (clusters). I gruppi vengono uniti sulla base della minimizzazione della perdita di informazione derivante dal raggruppamento di unità appartenenti a gruppi differenti. La perdita di informazione viene misurata come somma delle distanze di ogni elemento dalla media del cluster a cui viene assegnato (tale somma può essere chiamata varianza interna al cluster proposto). Viene, quindi, fusa la coppia di cluster per cui la varianza entro i cluster risultanti dalla fusione è minima. Questo metodo tende a produrre gruppi che hanno circa lo stesso numero di osservazioni. Metodo del centroide. La distanza tra i cluster è pari alla distanza tra i valori medi (detti centroidi) calcolati sulle unità appartenenti ai gruppi. Questo metodo fa sì che cluster grandi tendano ad attrarre al loro interno cluster piccoli. 22

23 ESEMPIO: consideriamo il nostro data set su reddito e età e procediamo al raggruppamento usando a scopo illustrativo il metodo del legame singolo. Di seguito si riporta la matrice delle distanze euclidee al quadrato In blu è stata evidenziata la distanza minima. 23

24 Vediamo che le unità più vicine sono la 1 e la 3 che quindi possono essere unite per formare un gruppo. Calcoliamo le nuove distanze usando sempre il metodo del legame singolo. C 1 = C 1 = Vediamo che la distanza minima si ha tra l unità 8 e l unità 9 che quindi possono essere unite in un gruppo. Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 24

25 C 1 = C 2 =8-9 C 1 = C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 1 e l unità 2 che quindi possono essere unite in un gruppo (diciamo C 3 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 25

26 C 3 =1,2, C 2 =8-9 C 3 =1,2, C 2 =8-9 0 Vediamo che la distanza minima si ha tra C 2 e l unità 7 che quindi possono essere unite in un gruppo (diciamo C 4 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo 26

27 C 3 =1,2, C 4 =7,8,9 C 3 =1,2, C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra l unità 4 e l unità 6 che quindi possono essere unite in un gruppo (diciamo C 5 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 5 =4,6 5 C 4 =7,8,9 C 3 =1,2, C 5 =4, C 4 =7,8,9 0 27

28 Vediamo che la distanza minima si ha tra C 5 e l unità 5 che quindi possono essere unite in un gruppo (diciamo C 6 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3 C 6 =4,5,6 C 4 =7,8,9 C 3 =1,2, C 6 =4,5, C 4 =7,8,9 0 Vediamo che la distanza minima si ha tra C 3 e C 6 che quindi possono essere unite in un gruppo (diciamo C 7 ). Calcoliamo le nuove distanze usando, sempre, il metodo del legame singolo C 3 =1,2,3,4,5,6 C 4 =7,8,9 C 3 =1,2,3,4,5, C 4 =7,8,9 0 28

29 Abbiamo visto attraverso l esempio che i metodi gerarchici agglomerativi costituiscono una procedura iterativa che si articola nei seguenti passi: 1. all inizio ciascuna unità costituisce un gruppo distinto. La distanza tra i gruppi è quindi data dalla matrice delle distanze tra unità; 2. i due gruppi che possiedono distanza minima (secondo il metodo che si preferisce usare tra quelli sopra illustrati) vengono fusi. Si registra la distanza a cui avviene la fusione; 3. si calcola la distanza tra il nuovo cluster, sorto dalla fusione effettuata al punto 2., e i cluster già esistenti. Si aggiorna la matrice delle distanze che, così, avrà una riga e una colonna in meno (perché calcolata dopo la fusione di due gruppi); 4. vengono ripetuti i passi 2. e 3. finché non si giunge alla configurazione in cui tutte le unità sono in un gruppo solo (ciò avviene in n 1 iterazioni). 29

30 È possibile assegnare ad ogni gruppo appena formato un indice di aggregazione. Questo è dato dalla distanza fra le due classi appena aggregate. Il processo di aggregazione può essere poi visualizzato mediante un diagramma ad albero detto dendrogramma in cui le altezze sono proporzionali agli indici di aggregazione. Il dendrogramma, quindi, riporta sull asse verticale il livello di distanza (distance level) a cui avviene la fusione e sull asse orizzontale le unità organizzate secondo una struttura ad albero. Ad ogni livello di distanza corrisponde una partizione. Il dendrogramma consente anche di visualizzare quanto un gruppo è separato dagli altri gruppi. Il rapporto tra il livello di distanza a cui un gruppo si forma e il livello di distanza a cui questo gruppo si fonde con un altro gruppo indica quanto il cluster è delimitato e separato dai rimanenti. 30

31 Torniamo al nostro esempio e vediamo il dendrogramma che descrive l operazione di agglomerazione con metodo gerarchico agglomerativo del legame singolo e distanza euclidea al quadrato. Dendrogram Single Linkage; Squared Euclidean Distance 1224,00 Distance 816,00 408,00 0, Observations

32 Scelta del numero dei gruppi I metodi gerarchici aggregativi esplorano tutti i possibili diversi livelli di aggregazione. È compito del ricercatore, quindi, scegliere sulla base degli output quale possa essere la migliore partizione. A questo scopo il dendrogramma costituisce un ottimo supporto. Si può, infatti, tagliare il dendrogramma ad una certa altezza. Distance 1224,00 816,00 408,00 0,00 1 Dendrogram Single Linkage; Squared Euclidean Distance Observations Il punto di taglio può essere trovato cercando il punto in cui avviene il salto (in termini di asse verticale) più consistente. Accanto vediamo (rappresentato con un segmento blu) il taglio nel nostro esempio. 32

33 Per la scelta del numero ottimale di gruppi in cui suddividere le unità ci si può anche avvalere dell output della procedura di cluster analysis. In particolare, come vedremo nell esempio riportato nella pagina successiva, si possono calcolare degli opportuni indicatori che aiutano ad identificare il punto di salto. Ad esempio un indicatore è il livello di similarità che viene calcolato ad ogni passo della procedura iterativa. Il livello di similarità ad un determinato passo è dato da d ij 1, d dove d ij è la distanza tra le unità che a quel passo vengono fuse (ossia la distanza minima in quel passo) e d max è il valore massimo della distanza nella matrice iniziale delle distanze tra le unità. Il passo nel quale il valore del livello di similarità subisce un brusco cambiamento può essere un buon punto per tagliare il dendrogramma e, quindi, per scegliere il numero ottimale di gruppi. max 33

34 Cluster Analysis of Observations: reddito; età Squared Euclidean Distance, Single Linkage Amalgamation Steps Indice di aggregazione Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster Nota: si noti che Minitab consente di produrre un dendrogramma che rappresenta sull asse delle ordinate proprio il livello di similarità (espresso in termini percentuali). 34

35 I metodi non gerarchici I metodi non gerarchici, a differenza dei gerarchici, non producono una gerarchia di partizioni delle osservazioni ma producono una sola partizione. Ciò significa che occorre stabilire (o conoscere) a priori il numero di cluster in cui suddividere le osservazioni. Vediamo, in generale, i passi i cui si articolano i metodi non gerarchici. Supponiamo che i gruppi siano K: 1. sono determinati i centri iniziali dei K cluster. Questi centri o sono individuati dal ricercatore/analista oppure sono selezionati casualmente dal software (ossia sono K osservazioni scelte a caso) 2. le osservazioni sono assegnate ai cluster sulla base della loro distanza dal centro del cluster (ciascuna osservazione viene assegnata al cluster con il centro meno distante dall osservazione) 35

36 3. si calcolano i centri dei nuovi cluster risultanti dalla procedura di assegnazione al punto i passi 2. e 3. vengono ripetuti fintantoché nessuna osservazione può essere più riallocata oppure finché non viene verificata una regola di stop. Esistono diversi metodi non gerarchici. Questi differiscono nella determinazione del criterio di ottimalità della partizione. Vediamo il metodo più diffuso. 36

37 Il metodo delle K medie (K-means) Il metodo delle K-medie ricerca la partizione ottimale in K cluster che minimizza la devianza entro i cluster. In altre parole, l algoritmo opera sulla base della seguente funzione obiettivo: K ( c ) ( c ) ( c WSS = x ) 1i x1 + x2i x2 + + xpi xp within sum of squares c= 1 unità i nel cluster c dove: - x 1i indica, ad esempio, la modalità della variabile X 1 mostrata dall unità i appartenente al cluster c, c=1,...,k c - 1 x indica, ad esempio, il valore medio (o centroide) della variabile X 1 calcolato con riferimento alle sole osservazioni appartenenti al cluster c, c=1,...,k. 37

38 Se ne deduce che WSS rappresenta la somma delle devianze interne ai gruppi. L algoritmo delle K-medie si propone di trovare la partizione ottimale nel senso che minimizza la devianza WSS. Vediamo i passi dell algoritmo K-medie. 1. si specificano i K punti iniziali come centroidi scegliendo in maniera opportuna (se si hanno conoscenze a priori) o casuale (se non si hanno conoscenze a priori) alcune unità; 2. ciascuna unità viene assegnata al cluster il cui centroide si trova alla distanza più piccola; 3. vengono aggiornati i valori dei centroidi per ciascuno del K gruppi; 4. si procede iterativamente a spostamenti successivi fino a raggiungere una configurazione stabile (ossia finché non si può più riallocare nessuna unità). 38

39 L algoritmo è abbastanza veloce e stabile nel senso che, partendo da centroidi iniziali diversi, tende a giungere alla stessa configurazione finale. Quando la popolazione analizzata è piuttosto omogenea e non ammette partizioni, i risultati possono variare molto. Quindi, se non si hanno informazioni a priori sufficientemente affidabili, è consigliabile applicare l algoritmo con valori iniziali diversi e controllare la stabilità della soluzione ottenuta. Un nodo cruciale è la scelta del numero di cluster. Un indice che può essere utilizzato è quello di Calinski e Harabsz: B ( k 1) CHk = WSS ( n k ) dove B rappresenta la devianza tra i gruppi che può essere calcolata come differenza tra la devianza totale e la devianza within. Si sceglie la partizione tale che CH k è massima. 39

40 Metodi gerarchici vs Metodi non gerarchici Confrontiamo alcune caratteristiche dei due metodi di cluster analysis. I metodi gerarchici: non richiedono di conoscere/scegliere a priori il numero di cluster possono essere molto lenti; allora è preferibile usarli su piccoli dataset ad ogni passo richiedono il calcolo dell intera matrice delle distanze I metodi non gerarchici: richiedono di conoscere/scegliere a priori il numero di cluster possono richiedere la specificazione dei centroidi iniziali sono veloci, generalmente affidabili e possono essere usati anche per grandi dataset ad ogni passo richiedono il calcolo solo delle distanze delle unità dai centroidi 40

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici

Dettagli

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare! La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis

Dettagli

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono

Dettagli

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 9 maggio 2018 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità Metodi gerarchici

Dettagli

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di ANALISI DEI CLUSTER In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di SPSS che non sono state incluse nel testo pubblicato. Si tratta di opzioni che, pur

Dettagli

Statistica per le ricerche di mercato

Statistica per le ricerche di mercato Statistica per le ricerche di mercato A.A. 2012/13 Dr. Luca Secondi 15. Tecniche di analisi statistica multivariata per la segmentazione del mercato Cluster Analysis 1 Cluster analysis La cluster analysis

Dettagli

C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.

C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018. AMBIENTE STATISTICO SOFTWARE PER L ANALISI STATISTICA DI DATI PROVENIENTI DAL MONITORAGGIO AMBIENTALE Release 4.0 20/03/2018 Manuale d uso Ambiente Statistico è un software sviluppato nell ambito del Progetto

Dettagli

Prova finale del 6 giugno 2011

Prova finale del 6 giugno 2011 Prova finale del 6 giugno 2011 Esercizio A, da svolgere con carta e penna Si consideri la seguente matrice dei dati relativa a 3 unità statistiche e 3 variabili, X 1 e X 2 quantitative, X 3 dicotomica.

Dettagli

I metodi di Classificazione automatica

I metodi di Classificazione automatica L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO

Dettagli

5. Analisi dei Gruppi (Cluster Analysis)

5. Analisi dei Gruppi (Cluster Analysis) 5. Analisi dei Gruppi (Cluster Analysis) Cosa è l analisi dei gruppi? Viene utilizzata per classificare rispondenti in gruppi omogenei detti clusters. Esamina relazioni di interdipendenza: nessuna distinzione

Dettagli

Cenni sulla cluster analysis

Cenni sulla cluster analysis Cenni sulla cluster analysis Distanze Dato un insieme E, una funzione d: E X E -> R + che ha le seguenti tre proprietà: d(x i, x j ) = 0 x i = x j d(x i, x j ) = d(x j, x i ) d(x i, x j ) d(x j, x h )

Dettagli

I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica

I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica Titolo della lezione: I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica Obiettivi dell unità didattica Comprendere l insieme delle procedure che si prefiggono di

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Maria Brigida Ferraro + Luca Tardella

Maria Brigida Ferraro + Luca Tardella Cluster Maria Brigida Ferraro + Luca Tardella e-mail: mariabrigida.ferraro@uniroma1.it, ferraromb@gmail.com Lezione #3: Cluster Obiettivi del modulo Cluster 1 Introduzione ai problemi di classificazione

Dettagli

Metodi di classificazione. Loredana Cerbara

Metodi di classificazione. Loredana Cerbara Loredana Cerbara I metodi di classificazione, anche detti in inglese cluster analysis, attengono alla categoria dei metodi esplorativi. Esistono centinaia di metodi di classificazione dei dati ed hanno

Dettagli

Introduzione all analisi di arrays: clustering.

Introduzione all analisi di arrays: clustering. Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.

Dettagli

Misure di diversità tra unità statistiche. Loredana Cerbara

Misure di diversità tra unità statistiche. Loredana Cerbara Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,

Dettagli

Analisi Multivariata Prova finale del 3 giugno 2010

Analisi Multivariata Prova finale del 3 giugno 2010 Analisi Multivariata Prova finale del 3 giugno 2010 Esercizi da svolgere con carta e penna Esercizio A A1 Descrivere brevemente qual è l obiettivo principale dell analisi fattoriale. A2 Scrivere il modello

Dettagli

Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento

Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento Metodi Probabilistici e Statistici per l Analisi dei Dati Prof. V. Simoncini e-mail: valeria@dm.unibo.it, valeria@ambra.unibo.it Testi di Riferimento Lucidi di Lezione (http://www.dm.unibo.it/ ~simoncin/datiii.html)

Dettagli

Cluster Analysis (2 parte)

Cluster Analysis (2 parte) Cluster Analysis (2 parte) Esempio 2 Data set: Nel data set Dieta (Dieta.txt, Dieta.sav) sono contenute informazioni sul consumo medio dei principali alimenti in 16 paesi Europei. Paese Cereali (Ce) Riso

Dettagli

Analisi dei Gruppi con R

Analisi dei Gruppi con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi dei Gruppi

Dettagli

Definizione 1.3 (Arco accoppiato) Un arco è accoppiato se è appartenente al matching M.

Definizione 1.3 (Arco accoppiato) Un arco è accoppiato se è appartenente al matching M. Matching. Definizioni Definizione. (Matching di un grafo G = (N, A)) Il matching di un grafo è un sottoinsieme M di archi tali per cui nessuna coppia di essi condivida lo stesso nodo. Definizione.2 (Matching

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di

Dettagli

TECNICHE DI CLASSIFICAZIONE

TECNICHE DI CLASSIFICAZIONE TECNICHE DI CLASSIFICAZIONE La tecnica di classificazione più conosciuta è la cluster analysis, che ha l obiettivo di identificare gruppi di soggetti (o oggetti) omogenei al loro interno ed eterogenei

Dettagli

Prova scritta di ASM - Modulo Analisi Esplorativa del

Prova scritta di ASM - Modulo Analisi Esplorativa del Cognome:... Nome:... Matricola:......... Prova scritta di ASM - Modulo Analisi Esplorativa del 14.02.2017 La durata della prova è di 90 minuti. Si svolgano gli esercizi A e B riportando il risultato dove

Dettagli

Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto

Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto Le Ricerche di Marketing rappresentano il necessario presupposto per la definizione di vincenti strategie di mercato, poiché forniscono il supporto di dati affidabili e accurati alle decisioni manageriali

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli

Clustering Mario Guarracino Data Mining a.a. 2010/2011

Clustering Mario Guarracino Data Mining a.a. 2010/2011 Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,

Dettagli

Segmentazione di immagini in scala di grigio basata su clustering

Segmentazione di immagini in scala di grigio basata su clustering Segmentazione di immagini in scala di grigio basata su clustering Davide Anastasia, Nicola Cogotti 24 gennaio 06 1 Analisi del problema La segmentazione di immagini consiste nella suddivisione in un certo

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

SCHEDA N. 6: CLUSTER ANALYSIS

SCHEDA N. 6: CLUSTER ANALYSIS La statistica multivariata SCHEDA N. 6: CLUSTER ANALYSIS Nelle schede precedenti abbiamo visto come si rappresentano e si analizzano una o due variabili alla volta: questo tipo di analisi statistiche sono

Dettagli

Cluster Analysis: Metodi non gerarchici

Cluster Analysis: Metodi non gerarchici Cluster Analysis: Metodi non gerarchici Analisi Esplorativa Aldo Solari 1 / 37 1 Cluster Analysis 2 Metodo delle K-medie 2 / 37 Outline 1 Cluster Analysis 2 Metodo delle K-medie 3 / 37 Perchè raggruppare

Dettagli

Statistica Elementare

Statistica Elementare Statistica Elementare 1. Frequenza assoluta Per popolazione si intende l insieme degli elementi che sono oggetto di una indagine statistica, ovvero l insieme delle unità, dette unità statistiche o individui

Dettagli

Controllo Statistico della Qualità (alcune note) A cura della Prof.ssa Paola Vicard e della Prof.ssa Flaminia Musella

Controllo Statistico della Qualità (alcune note) A cura della Prof.ssa Paola Vicard e della Prof.ssa Flaminia Musella Controllo Statistico della Qualità (alcune note) A cura della Prof.ssa Paola Vicard e della Prof.ssa Flaminia Musella Syllabus del modulo (20 ore) Introduzione Alcuni richiami alle nozioni fondamentali

Dettagli

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008. COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008. ESERCIZIO I Si è applicata l analisi delle componenti principali a 97 modelli di fotocamere digitali, considerando 7 variabili ed ottenendo

Dettagli

Elementi di base su modello binomiale e modello normale

Elementi di base su modello binomiale e modello normale Elementi di base su modello binomiale e modello normale (alcune note) Parte 1: il modello binomiale Di fondamentale importanza nell analisi della qualità sono i modelli. I due principali modelli statistico-probablistici

Dettagli

Calcolo dell inflazione per differenti tipologie di famiglie milanesi

Calcolo dell inflazione per differenti tipologie di famiglie milanesi Settore Statistica e S.I.T Servizio Statistica Calcolo dell inflazione per differenti tipologie di famiglie milanesi Introduzione L Indagine sui consumi delle famiglie milanesi realizzata dalla Camera

Dettagli

ASSEGNAZIONE STOCASTICA. SU RETI NON CONGESTIONATE SNL (Stochastic Network Loading)

ASSEGNAZIONE STOCASTICA. SU RETI NON CONGESTIONATE SNL (Stochastic Network Loading) ASSEGNAZIONE STOCASTICA SU RETI NON CONGESTIONATE SNL Stochastic Network Loading algoritmo di DIAL Ipotesi: 1. La scelta del percorso è basata sul modello LOGIT 2. Si considerano solamente percorsi efficienti

Dettagli

QUANTIZZATORE VETTORIALE

QUANTIZZATORE VETTORIALE QUANTIZZATORE VETTORIALE Introduzione Nel campo delle reti neurali, la scelta del numero di nodi nascosti da usare per un determinato compito non è sempre semplice. Per tale scelta potrebbe venirci in

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia

Dettagli

Misura della performance di ciascun modello: tasso di errore sul test set

Misura della performance di ciascun modello: tasso di errore sul test set Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test

Dettagli

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3 SISTEMI LINEARI. Esercizi Esercizio. Verificare se (,, ) è soluzione del sistema x y + z = x + y z = 3. Trovare poi tutte le soluzioni del sistema. Esercizio. Scrivere un sistema lineare di 3 equazioni

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA 1 SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

Teoria dei giochi. migliorare il proprio obiettivo il sistema ha raggiunto l equilibrio.

Teoria dei giochi. migliorare il proprio obiettivo il sistema ha raggiunto l equilibrio. iii migliorare il proprio obiettivo il sistema ha raggiunto l equilibrio. Per introdurre la nozione di equilibrio di Nash consideriamo due giocatori. Siano f A (x, y) :AxB = R e f B (x, y) :AxB = R entrambe

Dettagli

Statistica. Lezioni: 3, 4. Statistica Descrittiva Univariata 2

Statistica. Lezioni: 3, 4. Statistica Descrittiva Univariata 2 Corsi di Laurea: a.a. 2018-19 Diritto per le Imprese e le istituzioni Sienze Internazionali dello Sviluppo e della Cooperazione Statistica Statistica Descrittiva Univariata 2 Lezioni: 3, 4 Contenuti La

Dettagli

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel: UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 2 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione

Dettagli

Stesso valore medio per distribuzioni diverse

Stesso valore medio per distribuzioni diverse Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

2. Variabilità mediante il confronto di valori caratteristici della

2. Variabilità mediante il confronto di valori caratteristici della 2. Variabilità mediante il confronto di valori caratteristici della distribuzione Un approccio alternativo, e spesso utile, alla misura della variabilità è quello basato sul confronto di valori caratteristici

Dettagli

STATISTICA 1 ESERCITAZIONE 2

STATISTICA 1 ESERCITAZIONE 2 Frequenze STATISTICA 1 ESERCITAZIONE 2 Dott. Giuseppe Pandolfo 7 Ottobre 2013 RAPPRESENTAZIONE GRAFICA DEI DATI Le rappresentazioni grafiche dei dati consentono di cogliere la struttura e gli aspetti caratterizzanti

Dettagli

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una

Dettagli

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica Strumenti quantitativi per la gestione Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Parametri e statistiche Esempi Tecniche di inferenza Stima Precisione delle stime Intervalli

Dettagli

(a) Si proponga una formulazione di programmazione nonlineare a variabili misto-intere per problema.

(a) Si proponga una formulazione di programmazione nonlineare a variabili misto-intere per problema. 6. Clustering In molti campi applicativi si presenta il problema del data mining, che consiste nel suddividere un insieme di dati in gruppi e di assegnare un centro a ciascun gruppo. Ad esempio, in ambito

Dettagli

Le Tecniche di Data Mining

Le Tecniche di Data Mining Cluster Analysis Le Tecniche di Data Mining Le rinciali tecniche di data mining che vedremo sono: Ø Ø Cluster Analysis Alberi Decisionali Cluster Analysis La Cluster Analysis è una tecnica di data mining

Dettagli

Complementi ed Esercizi di Informatica Teorica II

Complementi ed Esercizi di Informatica Teorica II Complementi ed Esercizi di Informatica Teorica II Vincenzo Bonifaci 21 maggio 2008 4 Problemi di ottimizzazione: il Bin Packing Il problema bin packing è il seguente: dato un insieme di n oggetti di dimensioni

Dettagli

REGISTRO DELLE LEZIONI

REGISTRO DELLE LEZIONI UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:

Dettagli

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1 Statistica Capitolo 1 Verifica di Ipotesi su una Singola Popolazione Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Formulare ipotesi nulla ed ipotesi alternativa

Dettagli

Approcci multi-criterio III. Valutazione economica dei piani e dei progetti

Approcci multi-criterio III. Valutazione economica dei piani e dei progetti Approcci multi-criterio III Valutazione economica dei piani e dei progetti Metodo Analytic Hierarchy Process Il metodo AHP, sviluppato da Thomas L. Saaty a partire dalla fine degli anni 70 è diffuso a

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 2018 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra due unità statistiche di cui si

Dettagli

Alcune nozioni di Statistica

Alcune nozioni di Statistica Alcune nozioni di Statistica La statistica è un insieme di metodi che servono a descrivere ed elaborare i dati relativi ad un determinato insieme di individui. Tale insieme di individui è chiamato popolazione.

Dettagli

Definizione della variabile c 2 Distribuzione della variabile c 2

Definizione della variabile c 2 Distribuzione della variabile c 2 Definizione della variabile c Distribuzione della variabile c In queste definizioni ho N variabili indipendenti, nessun vincolo e quindi N coincide con i gradi di libertà In un sistema fisico dove il numero

Dettagli

Analisi della varianza

Analisi della varianza 1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della

Dettagli

Algoritmi. Pagina 1 di 5

Algoritmi. Pagina 1 di 5 Algoritmi Il termine algoritmo proviene dalla matematica e deriva dal nome di in algebrista arabo del IX secolo di nome Al-Khuwarizmi e sta ad indicare un procedimento basato su un numero finito operazioni

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

REGISTRO DELLE LEZIONI

REGISTRO DELLE LEZIONI UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Analisi esplorativa di dati multidimensionali

Analisi esplorativa di dati multidimensionali io e Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c., INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1.

Dettagli

04 - Numeri Complessi

04 - Numeri Complessi Università degli Studi di Palermo Facoltà di Economia CdS Statistica per l Analisi dei Dati Appunti del corso di Matematica 04 - Numeri Complessi Anno Accademico 2013/2014 M. Tumminello, V. Lacagnina e

Dettagli

Corso di Informatica Modulo T1 C1-Sequenza e selezione

Corso di Informatica Modulo T1 C1-Sequenza e selezione Corso di Informatica Modulo T C-Sequenza e selezione Prerequisiti Analizzare un problema Scrivere un algoritmo Istruzioni semplici Espressione logica 2 Introduzione La programmazione a salti crea diverse

Dettagli

Piano cartesiano e Retta

Piano cartesiano e Retta Piano cartesiano e Retta 1 Piano cartesiano e Retta 1. Richiami sul piano cartesiano 2. Richiami sulla distanza tra due punti 3. Richiami punto medio di un segmento 4. La Retta (funzione lineare) 5. L

Dettagli

Metodi Statistici per il Management

Metodi Statistici per il Management Metodi Statistici per il Management Statistica Multivariata II Simone Borra - Roberto Rocci Analisi in Componenti Principali Input: J variabili quantitative rilevate su n unità. Output Rappresentazione

Dettagli

Metodi Statistici per il Management

Metodi Statistici per il Management Metodi Statistici per il Management Statistica Multivariata II Simone Borra - Roberto Rocci Analisi in Componenti Principali Input: J variabili quantitative rilevate su n unità. Output Rappresentazione

Dettagli

LA CASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI

LA CASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI _ LA CLASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI Rosaria Lombardo LA CASSIFICAZIONE AUTOMATICA CLASSIFICAZIONE E CLUSTERING 1. Introduzione L analisi dei gruppi, o cluster analysis,

Dettagli

Che cosa è la statistica oggi?

Che cosa è la statistica oggi? Metodologie Statistiche a supporto delle decisioni aziendali: Revenue/Yield Management Prof. Massimo Aria Ricercatore in Statistica Sociale Una breve premessa: Che cosa è la statistica oggi? 1 Statistica

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

ELEMENTI DI STATISTICA DESCRITTIVA

ELEMENTI DI STATISTICA DESCRITTIVA Dipartimento di Matematica U. Dini, Università di Firenze Viale Morgagni 67/A, 50134 - Firenze, Italy, vlacci@math.unifi.it November 15, 2015 Terminologia In un esperimento ogni risultato delle caratteristiche

Dettagli

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale

Dettagli

Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:

Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di: LA SEGMENTAZIONE DEL MERCATO Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di: 1) valutare le caratteristiche, i bisogni e i comportamenti probabili

Dettagli

Indici di variabilità

Indici di variabilità Indici di variabilità 1. Prendendo in considerazione il numero di addetti per classi e le aziende: Addetti Aziende 0-5 195 5-10 225 10-25 360 25-40 180 40-100 40 - determinare la varianza e lo scarto quadratico

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

MD2 MD3. Basi di funzioni e funzioni di primo grado

MD2 MD3. Basi di funzioni e funzioni di primo grado MD MD3 Basi di funzioni e funzioni di primo grado 0 5.1 Introduzione. Concetto di funzione. Siano A e B due insiemi, una funzione f da A verso B è una relazione che ad ogni elemento x appartenente all

Dettagli

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello Tesina di Intelligenza Artificiale Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello Roberto Fortino S228682

Dettagli

Statistica descrittiva in due variabili

Statistica descrittiva in due variabili Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019 Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati

Dettagli

Il metodo dei Piani di Taglio (Cutting Planes Method)

Il metodo dei Piani di Taglio (Cutting Planes Method) Il metodo dei Piani di Taglio (Cutting Planes Method) E un metodo di soluzione dei problemi (IP) di tipo generale. L idea di base: Se la soluzione di (RL) non è intera allora la soluzione ottima intera

Dettagli

Slide Cerbara parte 1. Le medie

Slide Cerbara parte 1. Le medie Slide Cerbara parte 1 Le medie Le medie Non una ma tante: le medie sono di tanti tipi e rappresentano un valore, una modalità caratteristica e che possa sintetizzare una intera distribuzione. 1. La media

Dettagli

Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale

Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale UNIVERSITA DEGLI STUDI DI PERUGIA Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 Perugia Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale Corso di ANALISI

Dettagli

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Esercizio 1. Analizzeremo la distribuzione delle famiglie italiane, classificate per numero di

Dettagli

Matematica Lezione 22

Matematica Lezione 22 Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,

Dettagli

Compiti tematici dai capitoli 2,3,4

Compiti tematici dai capitoli 2,3,4 Compiti tematici dai capitoli 2,3,4 a cura di Giovanni M. Marchetti 2016 ver. 0.8 1. In un indagine recente, i rispondenti sono stati classificati rispetto al sesso, lo stato civile e l area geografica

Dettagli

Statistica. Campione

Statistica. Campione 1 STATISTICA DESCRITTIVA Temi considerati 1) 2) Distribuzioni statistiche 3) Rappresentazioni grafiche 4) Misure di tendenza centrale 5) Medie ferme o basali 6) Medie lasche o di posizione 7) Dispersione

Dettagli