Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca
|
|
- Elisabetta Zanetti
- 6 anni fa
- Visualizzazioni
Transcript
1 Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1
2 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche Tecnica di partizione dei casi Trovare gruppi omogenei di soggetti sulla base delle similarità delle risposte ad alcune variabili Trovare gruppi di oggetti sulla base di valutazioni date dai soggetti su alcune caratteristiche degli oggetti
3 Logica della Clusters Selezionare le variabili su cui i soggetti possono differire Scalare le variabili Selezionare una distanza Selezionare un metodo di estrazione dei gruppi Decidere il numero di gruppi ottimale Interpretare la partizione ottenuta 3
4 Indici di distanza 4 Lezione: XXVI
5 Tipi di Distanze Esistono anche altri indici di distanza, oltre alla distanza euclidea 5 Lezione: XXVI
6 Tipi di Distanze La distanza Euclidea non è necessariamente l unica distanza possibile La scelta di quale tipo di distanza utilizzare dipende da: Quale tipo di variabili abbiamo misurato Quale caratteristica della distanza vogliamo enfatizzare 6
7 Tipi di Variabili e distanze Variabili continue Variabili categoriche La distanza Euclidea Euclidea al quadrato Chebyshev Correlazione Nominali-Frequenze Chi-quadrato Phi-quadrato Dicotomiche Euclidea Russel & Rao Sokal 7
8 Distanza Euclidea La distanza euclidea necessita di variabili misurate su scala ad intervalli (variabili continue) d ( ye ya) ( xe xa ) Eva Adamo Peso y e y e a b d xe Altezza xa 8
9 Distanza Euclidea quadrata La distanza euclidea al quadrato può anche essere utilizzata come misura di distanza fra casi d ( ye ya) ( xe xa ) Eva Adamo Peso y e y e a b d xe Altezza xa 9
10 Euclidea vs. Euclidea La distanza euclidea quadrata tende a esasperare le ampie distanze. Fino a d=1 pesa di meno le distanze, da d>1 in poi le pesa progressivamente di piu. E utile nei casi in cui le distanze marginali siano poco discriminative d d d 10
11 Distanza di Minkowski La distanza di Minkowski rappresenta una famiglia di distanze che racchiude molte distanze possibili r m y y x x e a r e a r m r i ( x x ) ji ki r 11
12 Distanza di Minkowski ordine La distanza Euclidea è la distanza di Minkowski di ordine d y y x x e a e a d i ( x x ji ki ) 1
13 Distanza City-Block La distanza di Minkowski di ordine 1 è anche detta City-Block oppure Manhattan Distance cb 1 y y 1 x x 1 e a e a cb ( x x ) ji i ki 13
14 Distanza City-Block La distanza di Minkowski di ordine 1 è anche detta City-Block oppure Manhattan Distance Esempio: Le tre vie hanno distanza di Manhattan uguale (1) e maggiore della distanza Euclidea (8.48) Esempio: La distanza per i pedoni negli scacchi 14
15 Distanza City-Block La distanza City-Block tende a ridurre la distanza fra oggetti vicini sulla stessa dimensione, ed aumentarla tra oggetti vicini in più dimensioni Stessa distanza Euclidea: 3 Vicino in City-Block: 3+0= 3 Medio in City-Block: 3+1= 4 Lontano in City-Block:+3= 5 15
16 Distanza Chebyshev La distanza di Minkowski di ordine massimo è anche detta Distanza di Chebishev c y y x x e a e a c max( ( x x ji ki ) ) 16
17 Distanza Chebyshev La distanza Chebyshev è la massima distanza fra due punti su una coordinata Stessa distanza di Chebyshev Distanza di Chebyshev più bassa Distanza di Chebyshev più alta 17
18 Distanza di Minkowski In generale, aumentando l esponente, cioè passando da r=1 (cityblock) a r= (Euclidea) a r=3, fino a r=infinito (Chebyshev), si minimizza il numero di dimensioni (variabili) importanti per definire la distanza in cui i casi sono più vicini si massimizza l importanza delle dimensioni in cui i casi sono lontani m r i ( x x ) ji ki r 18
19 Tipi di Variabili e distanze Variabili continue Variabili categoriche La distanza Euclidea Euclidea al quadrato Chebyshev Correlazione Cf. Lezione 5 (ultime slides) Nominali-Frequenze Chi-quadrato Phi-quadrato Dicotomiche Euclidea Russel & Rao Sokal 19
20 Chi-Quadrato Esempio: Dove comprano 30 prodotti i due soggetti? Anna Michele Supermercato Mercato Online Supermercato Mercato Online Chi-quadrato calcolato su questa tabella da la misura di distanza 0
21 Chi-Quadrato Frequenze attese sotto l ipotesi che i due casi siano 13 8 indipendenti (lontani) = Anna Michele Supermercato Mercato Online Supermercato Mercato Online FA TotRiga * totcolonna N 1
22 Chi-Quadrato Osservate meno le frequenze attese Anna Michele Supermercato Mercato Online Supermercato Mercato Online ( FO FA) 6.9
23 Phi-Quadrato Il phi-quadrato dipende dalla numerosità delle frequenza (qui 30) Anna Michele Supermercato Mercato Online Supermercato Mercato Online Phi-quadrato non dipende da ciò: Chi-quadro/N / N 6.9/
24 Spss e Chi-Quadrato Spss calcola il chi-quadrato tale che minore è il valore, più sono vicini i casi Quando si hanno frequenze molto elevate è meglio usare il phi-quadrato Altrimenti si usa il chi-quadrato 4
25 Tipi di Variabili e distanze Variabili continue Variabili categoriche La distanza Euclidea Euclidea al quadrato Chebyshev Correlazione Nominali-Frequenze Chi-quadrato Phi-quadrato Dicotomiche Euclidea Russel & Rao Sokal 5
26 Euclidea Abbiamo misurato variabili la cui risposta è si o no d ( ye ya) ( xe xa ) Anna Michele d R 1 R R è 1 o 0 Si 1 Cena No 0 Cinema Si 1 6
27 Russull & Rao Abbiamo misurato variabili la cui risposta è si o no Contiamo i si ed i no Anna Michele SI No SI 0 15 No rr rr Anna Michele SI No SI a c Quante volte concordano sul si in percentuale rr No b d a b c d a 7
28 Russull & Rao Notiamo che il coefficiente di Russell e Rao è un indice di prossimità Maggiore è il valore, minore è la distanza Tale coefficiente ignora la concordanza sul no Anna Michele SI No SI a c Quante volte concordano in percentuale rr No b d a b c d a 8
29 Sokal Abbiamo misurato variabili la cui risposta è si o no Contiamo i si ed i no Anna Michele SI No s SI 0 15 No s Anna Michele SI No SI a c Quante volte concordano in percentuale No b d a b c d s a d 9
30 Sokal Notiamo che il coefficiente di Sokal è un indice di prossimità Maggiore è il valore, minore è la distanza Questo coefficiente considera l accordo completo Eva Adamo SI No SI a c Quante volte concordano in percentuale No b d a b c d s a d 30
31 Quale scegliere? Russul e Rao Quando si indica una opzione precisa (vai a pesca?) e no indica qualunque altra opzione (chi non va a pesca fa qualsiasi altra cosa) Sokal Quando si e no indicano le due uniche alternative possibili: Ti piace la statistica (si o no)?, ti piace la marmellata (si o no)? 31
32 In generale La misura di distanza scelta deve essere coerente con la scala di misura All interno delle misure di distanza coerente con la scala, si sceglie quella che maggiormente evidenzia le caratteristiche che ci interessano Avere ben presente se gli indici indicano distanze (dissimilarità) o vicinanza (similarità) Più comunemente usate: Distanza euclidea, Chi-quadro, Russel e Rao (o Sokal) 3
33 Metodo di Estrazione Gruppi 33
34 Passo 1 Quale sono i due casi che sono più vicini? Numero Gruppi Gruppi Distanz a 5 (A) (B) (C) (D) (E) 0 A B C D E A 0 B C D E Il nostro primo gruppo sarà formato da B e E 34
35 La prima partizione Ora abbiamo 4 gruppi A BE C D Numero Gruppi Gruppi Distanz a 5 (A) (B) (C) (D) (E) 0 4 (A) (BE) (C) (D) A 0 BE C D
36 Gerarchia di partizioni La prima partizione 4 gruppi B E A C D 36
37 Calcolo delle distanze Notiamo che ora le distanze sono calcolate sul gruppo A BE C D Numero Gruppi Gruppi Distanz a 5 (A) (B) (C) (D) (E) 0 4 (A) (BE) (C) (D) A 0 BE C D Si pone il problema di calcolare la distanza fra gruppi 37
38 Criteri di fusione Il metodo utilizzato per calcolare le distanze fra gruppi appena formati è detto criterio di fusione: Associativi (legame singolo o completo) Legame medio Centroidi Varianze 38
39 Legame singolo La distanza tra due gruppi è data dalla distanza tra i due elementi più vicini dei due gruppi Gruppo 1 Gruppo A B Distanza fra i Gruppi C D 39
40 Legame singolo La distanza tra due gruppi è data dalla distanza tra i due elementi più vicini dei due gruppi d C1C C min( d jk, j C1, d jk, k ) Distanza fra i Gruppi Minima distanza tra tutti i J casi appartenenti a Cluster 1 e tutti i K casi appartenenti al Cluster Può essere utilizzato con tutti gli indici di distanza, cioè con tutti i tipi di variabili Tende a generare clusters poco separati 40
41 Legame completo La distanza tra due gruppi è data dalla distanza tra i due elementi più lontani dei due gruppi Gruppo 1 Gruppo A B Distanza fra i Gruppi C D 41
42 Legame completo La distanza tra due gruppi è data dalla distanza tra i due elementi più lontani dei due gruppi d C1C C max( d jk, j C1, d jk, k ) Distanza fra i Gruppi Massima distanza tra tutti i J casi appartenenti a Cluster 1 e tutti i K casi appartenenti al Cluster Può essere utilizzato con tutti gli indici di distanza, cioè con tutti i tipi di variabili Tende a produrre cluster separati, ma dipende troppo dai valori estremi 4
43 Legame medio tra gruppi La distanza tra due gruppi è data dalla media delle distanze tra gli elementi dei due gruppi Gruppo 1 Gruppo A B C D Distanza fra i Gruppi 43
44 Legame medio tra gruppi La distanza tra due gruppi è data dalla media delle distanze tra gli elementi dei due gruppi d C 1 1C d jk j C1, d jk, k C n n 1 j k ) Distanza fra i Gruppi La media di tutte le distanze dei J casi in C1 con tutti i Casi in C Può essere utilizzato con tutti gli indici di distanza, cioè con tutti i tipi di variabili Comunemente usato offre buoni risultati 44
45 Legame medio entro gruppi La distanza tra due gruppi è data dalla media delle distanze tra tutti gli elementi dei due gruppi Gruppo 1 Gruppo B C A D Distanza fra i Gruppi 45
46 Legame medio entro i gruppi La distanza tra due gruppi è data dalla media delle distanze tra i gli elementi dei due gruppi d C 1C d jk j, k C1 C ( N 1) N jk ) Distanza fra i Gruppi La media di tutte le distanze tra tutti i casi in C1 o in C Può essere utilizzato con tutti gli indici di distanza, cioè con tutti i tipi di variabili Comunemente usato offre buoni risultati 46
47 Centroidi La distanza tra due gruppi è data dalla distanza tra i centroidi dei gruppi Gruppo 1 Gruppo A B C D Distanza fra i Gruppi 47
48 Centroidi I centroidi sono nuovi punti che hanno coordinate date dalle medie delle coordinate dei casi nel gruppo Centroide x 1 m1 x i n1 j y 1 m1 y i n1 j y 1 1 Peso y 3 3 m 4 x x1 x 3 4 Altezza 48
49 Legame dei Centroidi La distanza fra due gruppi è data dalla distanza dai punti definiti dai centroidi distanza d c c 1 d( m1, m) m Peso Può essere utilizzato con tutti gli indici m1 di distanza, cioè con tutti i tipi di variabili Comunemente usato offre molto buoni risultati Altezza 49
50 Metodo di Ward I gruppi vengono fusi al fine di massimizzare la distanza tra i centroidi e minimizzare le distanze tra i centroidi e i casi nel gruppo Si fondono i gruppi o no al fine di minimizzare f var( C1) var( C)...var( CK)/ Var ( Totale ) In pratica si formano quei gruppi che massimizzano la varianza spiegata in una Analisi della varianza con gruppi come Indipendente e le distanze come dipendente Può essere usato solo con variabili continue 50
51 Criteri di fusione Il metodo utilizzato per calcolare le distanze deve essere scelto Relativamente al tipo di variabili Al tipo di partizione che si preferisce 51
Misure di diversità tra unità statistiche. Loredana Cerbara
Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,
DettagliApprendimento basato sulle istanze
Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli
DettagliStatistiche e relazioni
tatistiche descrittive per frequenze e misure Frequenze e misure Per le frequenze e le misure, molte di queste statistiche perdono senso. In compenso, esistono indici appropriati, inutilizzabili per i
DettagliI metodi di Classificazione automatica
L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA 1 SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra
DettagliProf. Giulio Vidotto (Università di Padova) Lez Trasformazione delle misure e significanza delle statistiche
Trasformazione e Significanza delle Statistiche: Invarianza assoluta Invarianza di riferimento Invarianza di confronto Schemi Riassuntivi Significanza e Trasformazioni delle Statistiche Per cui Data una
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI
DettagliDifferenze tra metodi di estrazione
Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori
DettagliI modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione
I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione Giuseppina Bozzo Giuseppina Bozzo Considerazioni preliminari La costruzione di un GLM è preceduta da alcune importanti fasi:
DettagliProf. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione
Consentono di descrivere la variabilità all interno della distribuzione di requenza tramite un unico valore che ne sintetizza le caratteristiche CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILE SCOSTAMENTO
DettagliAnalisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca
Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti
DettagliCluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
DettagliAnalisi Multivariata dei Dati. Regressione Multipla
Analisi Multivariata dei Dati Regressione Multipla A M D Marcello Gallucci Milano-Bicocca Lezione: III Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione
DettagliCluster gerarchica. Capitolo
Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun
DettagliESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)
ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI () Structure From Motion Date m immagini di n punti 3D (fissi) Stimare le m matrici di proiezione P i e gli n vettori X j date le mn corrispondenze x ij SFM
DettagliIl processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni
La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con
DettagliIntelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011
Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
DettagliMetodi di classificazione. Loredana Cerbara
Loredana Cerbara I metodi di classificazione, anche detti in inglese cluster analysis, attengono alla categoria dei metodi esplorativi. Esistono centinaia di metodi di classificazione dei dati ed hanno
DettagliEsercizi svolti. delle matrici
Esercizi svolti. astratti. Si dica se l insieme delle coppie reali (x, y) soddisfacenti alla relazione x + y è un sottospazio vettoriale di R La risposta è sì, perchè l unica coppia reale che soddisfa
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis
DettagliStatistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
DettagliMetodi e modelli per le decisioni
Metodi e modelli per le decisioni Roberto Cordone A. A. 2015-16 5.5 Esercizi Nota : Devo molti di questi esercizi a temi d esame del prof. Alberto Colorni. Nota : Gli esercizi e le soluzioni non sono stati
DettagliObiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:
Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
DettagliIL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI
IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI Perchè confrontare le varianze stimate in due campioni? Torniamo all'esempio dei frinosomi Per poter applicare il test t avevamo detto che le varianze, e
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 03-Medie, variabilità e dispersione vers. 1.0 (15 ottobre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
DettagliIntroduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
DettagliMetodologie Quantitative
Metodologie Quantitative Concetti statistici di base II M Q Marco Perugini Milano-Bicocca 1 Laboratorio Iscrizione/Scelta Turno Laboratorio Metodologie Quantitative Turno 1: Lunedì pomeriggio Turno 2:
DettagliESERCIZIO 1. Vengono riportati di seguito i risultati di una cluster analysis gerarchica.
ESERCIZIO. Vengono riportati di seguito i risultati di una cluster analysis gerarchica. Programma di agglomerazione Stadio 5 6 7 8 9 0 5 6 7 8 9 0 5 6 7 8 9 0 5 6 7 8 9 Stadio di formazione accorpati del
DettagliUlteriori conoscenze di informatica Elementi di statistica Esercitazione3
Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3 Sui PC a disposizione sono istallati diversi sistemi operativi. All accensione scegliere Windows. Immettere Nome utente b## (##
DettagliProgrammazione con Foglio di Calcolo Cenni di Statistica Descrittiva
Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di
DettagliIntroduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) AMD Marcello Gallucci marcello.gallucci@unimib.it Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa e, per quello
DettagliStatistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi
ISTITUZIONI DI STATISTICA A A 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
DettagliMisure di dispersione (o di variabilità)
08/04/014 Misure di dispersione (o di variabilità) Range Distanza interquartile Deviazione standard Coefficiente di variazione Misure di dispersione 7 8 9 30 31 9 18 3 45 50 x 9 range31-74 x 9 range50-941
DettagliEsercitazioni di statistica
Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 22 ottobre 2014 Stefania Spina Esercitazioni
DettagliCapitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento
Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo
DettagliDistribuzione Gaussiana - Facciamo un riassunto -
Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura
DettagliIl modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliAnalisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
DettagliScale di Misurazione Lezione 2
Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile
DettagliUniversità del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche
Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica Statistica Descrittiva: Variabili numeriche Corso triennale biotecnologie - Statistica Medica Statistica descrittiva
DettagliCompiti tematici dai capitoli 2,3,4
Compiti tematici dai capitoli 2,3,4 a cura di Giovanni M. Marchetti 2016 ver. 0.8 1. In un indagine recente, i rispondenti sono stati classificati rispetto al sesso, lo stato civile e l area geografica
DettagliAnalisi della varianza a una via
Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 25-Dimensione degli effetti e 26-Metanalisi vers. 1.0 (2 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università
DettagliRisultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili)
LA MATRICE DEI DATI Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili) Esempi di: unità variabili individui Reddito,
DettagliLezione 4 a - Misure di dispersione o di variabilità
Lezione 4 a - Misure di dispersione o di variabilità Abbiamo visto che la media è una misura della localizzazione centrale della distribuzione (il centro di gravità). Popolazioni con la stessa media possono
DettagliTest di ipotesi. Test
Test di ipotesi Test E una metodologia statistica che consente di prendere una decisione. Esempio: Un supermercato riceve dal proprio fornitore l assicurazione che non più del 5% delle mele di tipo A dell
DettagliANALISI AFFIDABILITÀ SCALE
RICERCA CONGIUNTA NEL SETTORE DELLA MISURA DELLA SODDISFAZIONE DEGLI UTENTI DEI SITI E DEI SERVIZI ON LINE DELLE AMMINISTRAZIONI E PER LA PREDISPOSIZIONE DI UNO STRUMENTO DI RILEVAZIONE DELLA CUSTOMER
DettagliUniversità di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012
Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012 Bruno Federico b.federico@unicas.it Cattedra di Igiene - Università degli Studi di Cassino Indici di sintesi
DettagliLa statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci
La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni
DettagliCopyright Esselibri S.p.A.
70 3000 500 000 1500 1000 500 A B C D (a) Capitolo Terzo A B C D 500 1000 1500 000 5003000 3500 Fig. 1 - Ortogramma a colonne (a) e ortogramma a nastri (b) 4. MISURE DI ASSOCIAZIONE E DI COGRADUAZIONE
DettagliSintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)
Sintesi dei dati in una tabella Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici
DettagliCapitolo 8. Esercizi. R π C' R' R R' π q P P = 60 C P = P = 60 P = 60 P = 50 P = 50 P = 50
Capitolo 8 n Esercizi 1. Nella tabella seguente sono indicati il prezzo (in euro) al quale un impresa può vendere un unità di prodotto e il costo totale della produzione. a. Completate la tabella compilando
DettagliApplicazioni statistiche e utilizzo del package statistico Spss - 7
Applicazioni statistiche e utilizzo del package statistico Spss - 7 CISI 27 gennaio 2005 ricercapsicologica@tiscali.it Illustrare le principali statistiche mono e bivariate. Valutare quando è opportuno
Dettagli3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI
3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI ESISTENZA DI UN PUNTO DI OTTIMO VINCOLATO Il problema di ottimizzazione vincolata introdotto nel paragrafo precedente può essere formulato nel modo seguente:
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
Dettagli5.4.5 Struttura dell algoritmo ed esempi
CAPITOLO 5. IL METODO DEL SIMPLESSO 6 5.4.5 Struttura dell algoritmo ed esempi Come abbiamo già ampiamente osservato, la fase II del metodo del simplesso, a partire da una soluzione di base ammissibile,
DettagliDistribuzioni campionarie
1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari
DettagliUNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.
Lezione 4 DISTRIBUZIONE DI FREQUENZA 1 DISTRIBUZIONE DI PROBABILITA Una variabile i cui differenti valori seguono una distribuzione di probabilità si chiama variabile aleatoria. Es:il numero di figli maschi
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliPolinomio di Taylor del secondo ordine per funzioni di due variabili
Esercitazioni del 15 aprile 2013 Polinomio di Taylor del secondo ordine per funzioni di due variabili Sia f : A R 2 R una funzione di classe C 2. Fissato un p unto (x 0, y 0 A consideriamo il seguente
DettagliMisure di dispersione (o di variabilità)
14/1/01 Misure di dispersione (o di variabilità) Range Distanza interquartile Deviazione standard Coefficiente di variazione Misure di dispersione 7 8 9 30 31 9 18 3 45 50 x = 9 range=31-7=4 x = 9 range=50-9=41
DettagliRiconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliUniversità degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 05-Deviazione standard e punteggi z vers. 1.1 (22 ottobre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca
DettagliDESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.
Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi
DettagliMISURE DI DISPERSIONE
MISURE DI DISPERSIONE 78 MISURE DI DISPERSIONE Un insieme di dati numerici può essere sintetizzato da alcuni valori tipici, che indicano il grado di variabilità dei dati stessi. Grado di Variabilità o
DettagliIl Test di Ipotesi Lezione 5
Last updated May 23, 2016 Il Test di Ipotesi Lezione 5 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura I anno, II semestre Il test di ipotesi Cuore della statistica inferenziale!
DettagliLezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in
DettagliINDICATORI DI TENDENZA CENTRALE
INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla
DettagliMetodi computazionali per i Minimi Quadrati
Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe
DettagliIndice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA
UNIVERSIT DEGLI STUDI DI PRM FCOLT DI ECONOMI Indice della lezione Corso di Pianificazione Finanziaria Introduzione al rischio Rischio e rendimento per titoli singoli La Teoria di Portafoglio di Markowitz
DettagliSTATISTICHE DESCRITTIVE Parte II
STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una
DettagliIndice della lezione. Incertezza e rischio: sinonimi? UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA
UNIVERSIT DEGLI STUDI DI PRM FCOLT DI ECONOMI Corso di Corporate anking a.a. 2010 2011 (Professor Eugenio Pavarani) Introduzione al rischio CPITOLO 9 1 Indice della lezione Rischio e rendimento per titoli
DettagliProf. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale
INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla scala di misura dei dati in
DettagliSCHEDA DIDATTICA N 7
FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti
DettagliLezione 05. Costruzione di grafici a torte, grafici a linee, istogrammi
Lezione 05 Costruzione di grafici a torte, grafici a linee, istogrammi Grafici a TORTA In un grafico a torta il cerchio (torta) è diviso in settori la cui ampiezza angolare è proporzionale al valore delle
DettagliMicrosoft Excel VI parte: Frequenze & Grafici
Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Microsoft Excel VI parte: Frequenze & Grafici 1 Sommario Calcolo di frequenze sui valori
DettagliI TEST STATISTICI. dott.ssa Gabriella Agrusti
I TEST STATISTICI dott.ssa Gabriella Agrusti Dulcis in fundo.. come scegliere un test statistico in base all ipotesi come stabilire se due variabili sono associate (correlazione di Pearson) come stabilire
DettagliLezione n. 1 (a cura di Irene Tibidò)
Lezione n. 1 (a cura di Irene Tibidò) Richiami di statistica Variabile aleatoria (casuale) Dato uno spazio campionario Ω che contiene tutti i possibili esiti di un esperimento casuale, la variabile aleatoria
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliSTATISTICA SOCIALE - Corso di laurea in Scienze Turistiche Prova finale del 18 dicembre 2007 Compito A
STATISTICA SOCIALE - Corso di laurea in Scienze Turistiche Prova finale del 18 dicembre 2007 Compito A Esercizio 1 La Tabella 1 riporta la distribuzione dei Comuni di una certa Provincia per numero di
DettagliLivello di misura Scala Nominale Scala Ordinale Scala di Rapporti. Scala Nominale
Esercitazione Supponiamo che il collettivo che si vuole studiare sia composto da un gruppo di turisti. La seguente tabella raccoglie l osservazione di alcuni caratteri di interesse. Costo Soggetto Titolo
DettagliQuesti appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai
Questi appunti costituiscono soltanto una traccia sintetica del Corso di Laboratorio di Fisica, a prescindere dalle opportune spiegazioni e dai necessari chiarimenti forniti a lezione. 1 MISURA DI UNA
DettagliMisure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci
Misure Ripetute Analisi dei dati in disegni di ricerca con misure ripetute Marcello Gallucci Introduzione Consideriamo una ricerca in cui un gruppo di pazienti è sottoposto ad un trattamento terapeutico
DettagliMetodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata II Simone Borra - Roberto Rocci Analisi in Componenti Principali Input: J variabili quantitative rilevate su n unità. Output Rappresentazione
DettagliCartografia IGM in formato digitale
Cartografia IGM in formato digitale E formata da dati: - in formato vettoriale acquisiti da cartografia esistente mediante digitalizzazione; - in formato raster acquisiti da cartografia esistente mediante
DettagliLezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
DettagliINDICATORI DI TENDENZA CENTRALE
Psicometria (8 CFU) Corso di laurea triennale INDICATORI DI TENDENZA CENTRALE Torna alla pri ma pagina INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore
DettagliStatistica4-29/09/2015
Statistica4-29/09/2015 Raccogliere i dati con il maggior numero di cifre significative ed arrotondare eventualmente solo al momento dei calcoli (min. 3); nella grande maggioranza delle ricerche biologiche
DettagliStatistica Inferenziale
Statistica Inferenziale Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Riepilogo lezione 5 Abbiamo visto: Modelli probabilistici nel continuo Distribuzione uniforme continua Distribuzione
DettagliTeoria e tecniche dei test
Teoria e tecniche dei test Lezione 5 METODI DI COSTRUZIONE DEI TEST PSICOLOGICI IL PROCESSO DI COSTRUZIONE DI UN TEST Il processo di costruzione di un test può essere diviso in 6 passi: 1) Determinazione
Dettagli