Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento
|
|
- Emanuele Carella
- 5 anni fa
- Visualizzazioni
Transcript
1 Metodi Probabilistici e Statistici per l Analisi dei Dati Prof. V. Simoncini valeria@dm.unibo.it, valeria@ambra.unibo.it Testi di Riferimento Lucidi di Lezione ( ~simoncin/datiii.html) Applied Multivariate Statistical Analysis, R. A. Johnson e D. W. Wichern V edizione, Prentice Hall, 22. 1
2 Programma Organizzazione dei dati e note introduttive Statistiche campionarie e di popolazioni Similarità, Cluster Analysis Distribuzione multinormale Test di Ipotesi e MANOVA Analisi della Discriminanza Analisi multivariata di Regressione Analisi delle Componenti Principali Analisi Fattoriale Multidimensional Scaling 2
3 Organizzazione dei dati Le proprietà studiate vengono rappresentate da variabili (es. temperatura, misura, ecc.) Multivariata Per ogni variabile ci sono osservazioni (es. prove ripetute, zone diverse, ecc.) Esempio: zona A zona B. zona F lunghezza spessore larghezza max 3
4 Rappresentazione dei dati p variabili n osservazioni Matrice 1 X = x 1,1 x 1,2 x 1,p x 1,1 x 1,2 x 1,p C A x n,1 x n,2 x n,p x j,i i: variabile, j: osservazione x j,i può assumere valori discreti (interi), continui oppure di dicotomia (/1) 4
5 Rappresentazione dei dati 2 3 X = [x 1, x 2,..., x p ], oppure X = 6 4 x T 1 x T x T n Alcuni problemi e tecniche Esempio: Misure di tre tipi di Iris Classificazione dei dati in gruppi diversi 1. Discriminant analysis: per riconoscere un nuovo dato 2. Cluster analysis: per separare in gruppi omogenei 5
6 Statistica descrittiva Supponiamo di avere x 1,1, x 2,1,..., x n,1 (n misure della prima variabile) Media Aritmetica x 1 = n - nx j=1 Per ogni variabile x :,i, i = 1,..., p: x j,1 nx Media Aritmetica x i = j=1 n x j,i Media Campionaria. Se la media è fatta su un numero limitato di misure, e non sull intera popolazione 6
7 Varianza Campionaria È una misura di dispersione rispetto alla media Per la prima variabile: s 2 1 = 1 n nx (x j,1 x 1 ) 2 j=1 x 1 media campionaria, x j,1 x 1 deviazione (scarto) dalla media nx Per ogni variabile x :,i, i = 1,..., p: s 2 i = 1 (x n j,i x i ) 2 s i,i s 2 i si,i deviazione standard campionaria (unità dei dati) j=1 Nota: per n piccolo (n < 3). Varianza Campionaria: s 2 i = 1 n 1 nx (x j,i x i ) 2 j=1 7
8 Covarianza campionaria Indichiamo x 1 x 2... x p x 1,1 x 1,2... x 1,p x 2,1 x 2,2... x 2,p.... x n,1 x n,2... x n,p s 1,2 = 1 n nx (x j,1 x 1 )(x j,2 x 2 ) j=1 s 1,2 se grandi valori di x j,1 e x k,2 hanno luogo per j = k 8
9 Matrice di covarianza In generale s i,k = 1 n nx (x j,i x i )(x j,k x k ) s i,k = s k,i j=1 Matrice di covarianza: 2 3 S n = 6 4 s 1,1 s 1,2 s 1,p s 2,1 s 2,2 s 2,p p p s p,1 s p,2 s p,p S n è simmetrica 9
10 Coefficiente di correlazione campionario Dati 8 >< >: x T 1 = [x 1,1,..., x n,1 ]. x T p = [x 1,p,..., x n,p ] s i,j = 1 n nx (x l,i x i )(x l,j x j ) l=1 r i,j := s i,j si,i sj,j coefficiente adimensionale: r i,i = 1, r i,j = r j,i 1
11 Matrice di correlazione 2 3 R = r 1,2 r 1,p r 2,1 1 r 2,p r p,1 r p, p p Misura di associazione lineare tra le variabili Osservazioni: R è simmetrica R è la forma standardizzata (adimensionale) di S n R non dipende da fattore per cui ho diviso (n oppure n 1) 11
12 Altre proprietà: r i,j 1 se r i,j = no correlazione lineare sgn(r i,j ) indica il tipo di correlazione r i,j = 1 se e solo se x i = ax j + b, a, b R Se variabili sono standardizzate allora R S n Standardizzazione: x i z i := x i x s x: media, s 2 : varianza Studio delle matrici di covarianza e correlazione ha vantaggi/svantaggi 12
13 Esempio (ex. 1.4 p.18 JW) x 1 : ingaggio medio giocatore di Baseball 1977 x 2 : p.vinte/p.perse nel Squadra x 1 x 2 A B C D E F Tutte le squadre: r 1,2 =.892 Tutte tranne la A: r 1,2 =.93 Tutte tranne le A, B: r 1,2 =
14 1 Diagramma di dispersione rapporto vinte/perse ingaggio giocatori x
15 Trasformazione di dati: (x 1, x 5 2) rapporto vinte/perse ingaggio giocatori x 1 6 Nuovo coeff. di correlazione: r 1,2 =
16 Un solo valore per rappresentare l informazione: Varianza Campionaria generalizzata det(s) S det(s) può essere zero x x colonne lin.dip. rimuovere misure n p S = Varianza Campionaria Totale tr(s) := s 1,1 + s 2,2 + + s p,p (no studio di correlazione) 16
17 X = [x 1, x 2,..., x p ] Valori campionari di combinazioni lineari Combinazione lineare: Xc, c R p Proprietà: Media Campionaria: Varianza Campionaria: x T c V ar(xc) = c T Sc b, c R p, Covarianza campionaria: Cov([Xb, Xc]) = b T Sc 17
18 Esempio: Osservazioni metereologiche relative ad un periodo di 11 anni (dal al ) in una zona agricola inglese. Le variabili rappresentano x 1 x 2 x 3 x 4 x 5 Pioggia caduta in Novembre e Dicembre (mm.) Temperatura media di Luglio (gradi c.) Pioggia caduta in Luglio (mm.) Radiazione in Luglio (ml.) raccolto medio (in quintali per ettaro) 18
19 x 1 x 2 x 3 x 4 x
20 S = C A R = C A
21 Distanza (introduzione) Distanza Euclidea: P = (x, y) d(o, P ) = p x 2 + y 2 x R n d(o, x) = v u nx t x 2 i = x 2 i=1 d(p, Q) = P Q 2 I punti equidistanti da un punto stanno su una circonferenza Tutte le coord. trattate in modo uguale 21
22 Standardizzazione Supponiamo x 1 =, x 2 = Poniamo: x 1 = x 1 s1,1, x 2 = x 2 s2,2 Distanza Statistica : d s (O, P ) = p (x 1 )2 + (x 2 )2 = s x 2 1 s 1,1 + x2 2 s 2,2 (ha senso se s 1,1 s 2,2 ) punti equidistanti da O stanno su ellissi (in R 2 ) In modo analogo (in R p ). Poniamo 2 = diag(s 1,1, s 2,2,..., s p,p ) d s (P, Q) = s (x 1 y 1 ) 2 s 1,1 + (x 2 y 2 ) 2 s 2,2 + + (x p y p ) 2 s p,p =: P Q ( 2 ) 1 = p (x y) T ( 2 ) 1 (x y) 22
23 Distanza di Mahalanobis S matrice di covarianza D 2 ij = x i x j 2 S 1 = (x i x j ) T S 1 (x i x j ) D ij usata nel test T 2 di Hotelling e analisi della discriminanza Definizione di distanza: d(p, Q) = d(q, P ) d(p, Q) > se P Q d(p, Q) = se P = Q d(p, Q) d(p, R) + d(r, Q) (disuguaglianza triangolare) 23
24 Misure di similarità Criteri si somiglianza, primo passo per formare/separare gruppi di oggetti (non variabili) Distanze: Distanza euclidea d(x, y) = p (x y) T (x y) Distanza Statistica d(x, y) = p (x y) T S 1 (x y) Distanza City-block d(x, y) = px x i y i i=1 Distanza di Minkowski d(x, y) = `P p i=1 x i y i m m Nota: cercare di mantenere le caratteristiche vere di una distanza - Anche la matrice di correlazione usata come misura di similarità - Tutti i coeff. di similarità che vedremo in seguito sono adatti 24
25 (variabile binaria) Confronto per la presenza/assenza di caratteristiche (x i y i ) 2 = var x y < : se x i = y i = 1, 1 se x i y i d = px (x i y i ) 2 j=1 Conta il numero di dissimilarità (d grande se x, y dissimili) Nota: d penalizza la similarità! (- e 1-1 trattati uguali) 25
26 Altri coefficienti di similarità Consideriamo la tabella 1 Totali 1 a b a+b c d c+d Totali a+ c b+d p=a+b+c+d a: frequenza di 1-1 b: frequenza di 1-, ecc. per l esempio precedente, a = 2, b = c = d = 1 26
27 Tabella dei coefficienti di similarità Coeff. di similarità: s(p, Q) con (i) s(p, Q) = s(q, P ), (ii) s(p, Q) >, (iii) s(p, Q) Coeff. Descrizione s 1 (P, Q) = a p peso solo per 1-1 s 2 (P, Q) = a+d p pesi uguali per - e 1-1 a a+b+c.... zero peso a - (irrilevanti) 27
28 Esempio: Caratteristiche di 5 individui: # indiv. altezza peso occhi capelli mancino m/f altezza: 1 se 72inc, peso: 1 se 15lb, occhi: 1 se marron, capelli: 1 se biondi, mancino: 1 se destro, m/f: 1 se femmina. 28
29 X n p. Coeff. di similarità (a+d) per ogni coppia: p = 1 p (XXT + (1 n 1 T p X)(1 n 1 T p X) T ) C A Per s 1 = a p, sarebbe 1 p XXT 29
30 Caso di variabili assenza/presenza Consideriamo due specie A, B ed un terreno diviso in n unità. Le variabili definiscono le categorie: a: # volte ci sono A e B nelle n unità b: # volte c è A ma non B nelle n unità Contingenza media quadrata: r = (ad bc) p (a + b)(c + d)(a + c)(b + d) (r 2 = χ2 n ) misura della similarità delle due variabili (grande r 2 implica grande dipendenza delle due variabili) 3
31 Clusters Scopo: determinare raggruppamenti (clusters) significativi tra dati, senza dover esaminare tutte le possibili configurazioni. Metodi di agglomerazione. Tecniche gerarchiche e non. Metodi di separazione Fondamentalmente tecniche grafiche. Diagramma risultante: Dendrogramma 31
32 Metodi di agglomerazione: Metodi delle K-medie (raggruppamento di oggetti in K gruppi) Metodi di connessione (linkage). Adatti per raggruppare sia variabili che osservazioni. 1. Single linkage (basati sulla minima distanza) 2. Complete linkage (basati sulla massima distanza) 3. Average linkage (basati sulla distanza media) FIG
33 Tipica procedura in un metodo gerarchico agglomerativo: 1. Inizia con n gruppi (singoli oggetti) ed una matrice matrice n n simmetrica di distanze (o similarità) D 2. Determina la coppia di elementi u e v più vicini (guardando la matrice D) 3. Forma il gruppo (UV ) 4. Aggiorna D sostituendo alle due righe di U e V una sola riga della distanza del gruppo (UV ) dagli altri oggetti. D sarà quindi (n 1) (n 1). 5. Ripeti i passi precedenti 2-4 n 1 volte La matrice D individua la distanza usata Step 4 individua il tipo di metodo gerarchico 33
34 euclidean seuclidean cityblock mahalanobis minkowski Distanze usate da Matlab distanza Euclidea dist. Euclidea standardizzata (dati prima normalizzati dalla varianza di ogni variabile) dist. City Block dist. Mahalanobis dist. Minkowski d ik = ( P n j=1 (x j,i x j,k ) p ) 1 p cosine d ik = 1 xt i x k x i x k correlation d ik = 1 r ik spearman hamming jaccard d ik = 1 br ik (br ik correlazione per rango) percentuale di coordinate diverse: d ik = #(x j,i x j,k )/n percentuale di coordinate (non zero) diverse chebychev d ik = max j x j,i x j,k 34
35 Algoritmo Single linkage D: matrice delle distanze minime tra gli oggetti oppure D: matrice delle massime similarità tra gli oggetti massima vicinanza: minima distanza o massima similarità Esempio. D matrice di distanze: 9 D = C A Step 2. min{d i,j } = 2, i = 5, j = 3 (3 5) gruppo 35
36 Esempio. Continua Step 3. d (35),1 = min{d 31, d 51 } = min{3, 11} = 3, d (35),2 = min{d 32, d 52 } =... = 7 d (35),4 = min{d 34, d 54 } =... = 8 da cui, la nuova matrice di distanze (prima colonna e riga corrispondono al gruppo (35)) 1 3 D = D = B 7 9 A C A (35) (135) (135), (24) (12345) 36
37 Dendrogramma distanze oggetti 37
38 Alcune proprietà Nota: nella ricerca di clusters, l interesse è nei raggruppamenti intermedi 1. Il livello a cui avviene il raggruppamento è importante. Evidenzia l effettiva distanza. 2. Se D ha minimi uguali con indici diversi, si raggruppano i clusters separatamente 3. Se D ha minimi uguali con indici in comune, si raggruppano solo gli oggetti con stessa distanza. Es. d 1,4 = 1, d 1,6 = 1, d 4,6 = 2 formo i gruppi (14) oppure (16) ma non (146) 4. I clusters (e dendrogramma) rimangono inalterati se si usano distanze che mantengono lo stesso ordine. 38
39 Complete linkage Come nel single linkage, a parte il calcolo della distanza del cluster dagli altri oggetti: d (uv)i = max{d ui, d vi } D = C A (35) (35)(24) C A 1 C A (35), (124) 39
40 Dendrogramma distanze oggetti 4
41 n = 7 oggetti, p = 2 variabili. Distanza euclidea tra gli oggetti X = D = C B C A 41
42 Scatter plot Component Component 1 42
43 Dendrogramma single linkage complete linkage
44 Studio di similarità di variabili Aziende di servizi (elettrici ed altro) (TAB 12.5) Matrice di correlazione: R = C A Correlazione negativa grande dissimilarità 44
45 Dendrogramma.9 single linkage distanze variabili 1.6 complete linkage distanze variabili 45
46 Studio di similarità di osservazioni. Stesse aziende. Distanza euclidea per D 25 single linkage 2 distanze aziende complete linkage distanze aziende 46
47 Data on Air-Pollution. Variabili (D correlazione) single linkage.8 distanze variabili complete linkage 1.2 distanze variabili 47
48 Data on Air-Pollution. Osservazioni (D distanza euclidea) distanze single linkage osservazioni complete linkage.6 distanze osservazioni 48
Misure di diversità tra unità statistiche. Loredana Cerbara
Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,
Rappresentazione dei dati multivariati
Rappresentazione dei dati multivariati Quando si hanno più di due varabili la posizione di ciascuna unità rispetto alle altre può essere rappresentata nel diagramma relativo alle prime due CP l importanza
Vettore (o matrice) casuale (o aleatorio): vettore (o matrice) i cui elementi sono variabili aleatorie
Variabili (vettori e matrici) casuali Variabile casuale (o aleatoria): Variabile che può assumere un insieme di valori ognuno con una certa probabilità La variabile aleatoria rappresenta la popolazione
SDE Marco Riani
SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE
Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca
Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche
I metodi di Classificazione automatica
L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO
Prova scritta di ASM - Modulo Analisi Esplorativa del
Cognome:... Nome:... Matricola:......... Prova scritta di ASM - Modulo Analisi Esplorativa del 14.02.2017 La durata della prova è di 90 minuti. Si svolgano gli esercizi A e B riportando il risultato dove
Distanze Analisi Esplorativa
Distanze Analisi Esplorativa Aldo Solari 1 / 57 1 Distanze 2 Distanza di Mahalanobis 3 Distanze e trasformazioni lineari 4 Indici di similarità 2 / 57 Raggruppamento di unità statistiche L analisi di raggruppamento
PROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
Statistica per l Impresa
Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.
Statistica per l Impresa
Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici
Statistiche e relazioni
tatistiche descrittive per frequenze e misure Frequenze e misure Per le frequenze e le misure, molte di queste statistiche perdono senso. In compenso, esistono indici appropriati, inutilizzabili per i
Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili)
LA MATRICE DEI DATI Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili) Esempi di: unità variabili individui Reddito,
Esplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)
APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
REGISTRO DELLE LEZIONI*
UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI* dell' INSEGNAMENTO o MODULO UFFICIALE Nome:
Statistica multivariata
Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni
Statistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
Indice di contingenza quadratica media (phi quadro) χ n
Indice di contingenza quadratica media (phi quadro) Φ χ n Proprietà L influenza del numero di unità n è eliminata Assume valore 0 se X e Y sono perfettamente indipendenti Pagina Indice di Cramer V min
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
Istituzioni di Statistica
Istituzioni di Statistica CORSO DI LAUREA IN ECONOMIA DEL COMMERCIO INTERNAZIONALE CORSO DI LAUREA IN ECONOMIA E AMMINISTRAZIONE DELLE IMPRESE A.A. 2007/2008 DOCENTE: Marco Minozzo PROGRAMMA - STATISTICA
Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
Analisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
Corso di Laurea in Amministrazione Aziendale Complex Learning. Statistica per l azienda (T) SECS-S/01 a. a. 2017/2018
Corso di Laurea in Amministrazione Aziendale Complex Learning Statistica l azienda (T) SECS-S/01 a. a. 2017/2018 DOCENTI TITOLARI : Prof. Nicoletta Melis ORE DI LEZIONE ON LINE : 18 ore : 6 3 TIPOLOGIE
Approssimazione numerica
Approssimazione numerica Laboratorio di programmazione e calcolo (Chimica e Tecnologie chimiche) Pierluigi Amodio Dipartimento di Matematica Università di Bari Approssimazione numerica p.1/10 Problema
Statistica descrittiva
Luigi Vajani Statistica descrittiva r,,, I o -:i f e l ~ 1 (f"i I - / I I - ETASLIBRI Indice XIII Presentazione Parte prima - Introduzione 3 Capitolo 1 - Concetti generali 1.1 - Introduzione; l.2 - La
Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003
Compito di Statistica del 7/1/2003 I giovani addetti all agricoltura in due diverse regioni sono stati classificati per età; la distribuzione di frequenze congiunta è data dalla tabella seguente Età in
Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011
Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata
Analisi Multivariata Prova intermedia del 20 aprile 2011
Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.
7. STATISTICA DESCRITTIVA
7. STATISTICA DESCRITTIVA Quando si effettua un indagine statistica si ha a che fare con un numeroso insieme di oggetti, detto popolazione del quale si intende esaminare una o più caratteristiche (matricole
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano
Corso di STATISTICA EGA - Classe 1 aa 2017-2018 Docenti: Luca Frigau, Claudio Conversano Il corso è organizzato in 36 incontri, per un totale di 72 ore di lezione. Sono previste 18 ore di esercitazione
1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl
1/4 Capitolo 4 La variabilità di una distribuzione Intervalli di variabilità Box-plot Indici basati sullo scostamento dalla media Confronti di variabilità Standardizzazione Statistica - Metodologie per
Distribuzione normale multidimensionale
Capitolo 2 Distribuzione normale multidimensionale La funzione di densità normale undimensionale ha la forma seguente Anderson, 1984 fx ce 1 2 Ax b2 ce 1 2 x bax b La costante di normalizzazione c è data
Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005
Dipartimento di Fisica a.a. 23/24 Fisica Medica 2 Indici statistici 22/4/25 Ricerca statistica La ricerca può essere deduttiva (data una legge teorica nota cerco verifica tramite più misure) ovvero induttiva
Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
Statistica descrittiva in due variabili
Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con
Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.
AMBIENTE STATISTICO SOFTWARE PER L ANALISI STATISTICA DI DATI PROVENIENTI DAL MONITORAGGIO AMBIENTALE Release 4.0 20/03/2018 Manuale d uso Ambiente Statistico è un software sviluppato nell ambito del Progetto
tabelle grafici misure di
Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine
Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli
Dipartimento di Sociologia e Ricerca Sociale Corso di Laurea in Sociologia Insegnamento di Statistica (a.a. 2018-2019) dott.ssa Gaia Bertarelli Esercitazione n. 4 1. La seguente tabella riporta la distribuzione
Matematica Lezione 22
Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,
Statistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Presentazione dell edizione italiana
1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli
Analisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
Corsi di Laurea in Scienze Biologiche Prova scritta di Informatica e Statistica Generale (A). 05/07/2006
Corsi di Laurea in Scienze Biologiche Prova scritta di Informatica e Statistica Generale (A). 0/07/006 COGNOME NOME MATRICOLA.) Sia {x, x,..., x n } IR una popolazione statistica numerica relativa ad una
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 41 Outline 1 2 3 4 5 () Statistica 2 / 41 Misura del legame Data una variabile doppia (X, Y ), la
L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
María Eugenia Castellanos. Cagliari, Marzo 2010
María Eugenia Castellanos Dep Estadística e IO Universidad Rey Juan Carlos Visiting Professor Università di Cagliari Cagliari, Marzo 2010 María Eugenia Castellanos (URJC) Descrittiva-Bivariata Marzo 2010
Teoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
Statistica. Capitolo 13. Test sulla Bontà di Adattamento e Tabelle di Contingenza. Cap. 16-1
Statistica Capitolo 13 Test sulla Bontà di Adattamento e Tabelle di Contingenza Cap. 16-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Usare il test sulla bontà di adattamento
STATISTICA 1 ESERCITAZIONE 6
STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere
Analisi esplorativa di dati multidimensionali
io e Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c., INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1.
Esercizi. Esercizio 1. Date le funzioni f(x) = x 2 3x + 2 e g(x) = 2x 1,
Esercizi Esercizio 1. Date le funzioni f(x) = x 2 3x + 2 e g(x) = 2x 1, (a) dire quanto vale f g e qual è il suo insieme di definizione; (b) dire quanto vale g f e qual è il suo insieme di definizione;
Metodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
Introduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
Fondamenti e metodi analisi empirica nelle scienze sociali
CORSO DI FONDAMENTI E METODI PER L'ANALISI EMPIRICA NELLE SCIENZE SOCIALI Distribuzioni statistiche multiple AA 2017/2018 1. Introduzione: il processo di rilevazione e le distribuzioni statistiche. 2.
Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento
Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo
Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte
Metodi Quantitativi per Economia, Finanza e Management Lezione n 4 Analisi Bivariata I Parte Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla
Probabilità e Statistica
Diario delle lezioni e del tutorato di Probabilità e Statistica a.a. 2014/2015 www.mat.uniroma2.it/~caramell/did 1415/ps.htm 02/03/2015 - Lezioni 1, 2 Breve introduzione al corso. Fenomeni deterministici
Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51
Sommario 1 I dati...15 1.1 Classificazione delle rilevazioni...17 1.1.1 Esperimenti ripetibili (controllabili)...17 1.1.2 Rilevazioni su fenomeni non ripetibili...18 1.1.3 Censimenti...19 1.1.4 Campioni...19
Ulteriori Conoscenze di Informatica e Statistica
Ulteriori Conoscenze di Informatica e Statistica Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 (I piano) tel.: 06 55 17 72 17 meneghini@fis.uniroma3.it Indici di forma Descrivono le
Indice. Presentazione
Indice Presentazione v 1 Il problema statistico 1 1.1 Esperienze e regole 1 1.2 Un esempio introduttivo 3 1.3 Esperienze ed errori 4 1.4 Errori e fluttuazioni 6 1.5 Quando non ci sono regole 7 1.6 Conclusione
Esplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini
Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica Antonio Azzollini antonio.azzollini@unibas.it Anno accademico 2017/2018 Distribuzione condizionata Un grafico a mosaico è una rappresentazione
Compiti tematici dai capitoli 2,3,4
Compiti tematici dai capitoli 2,3,4 a cura di Giovanni M. Marchetti 2016 ver. 0.8 1. In un indagine recente, i rispondenti sono stati classificati rispetto al sesso, lo stato civile e l area geografica
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010 Statistica Esercitazione 4 12 maggio 2010 Dipendenza in media. Covarianza e
Indici di Dispersione
Indici di Dispersione Si cercano indici di dispersione che: utilizzino tutti i dati {x 1, x 2,..., x n } siano basati sulla nozione di scarto (distanza) dei dati rispetto a un centro d i = x i C ad esempio,
DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:
DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a. 2007-2008 Prerequisiti Popolazione, unità, carattere Come nascono i dati: osservazione e sperimentazione Popolazione: reale e virtuale Classificazione
Esercizi del 10 maggio 2012 da riconsegnare il 17 maggio 2012
Analisi Multivariata Esercizi del 10 maggio 2012 da riconsegnare il 17 maggio 2012 La Tabella 1 contiene la classificazione in base alla qualifica e all abitudine al fumo di 193 dirigenti e impiegati di
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 24 Outline 1 () Statistica 2 / 24 Outline 1 2 () Statistica 2 / 24 Outline 1 2 3 () Statistica 2 /
Statistica per le ricerche di mercato
Università degli studi della Tuscia Dipartimento di Economia e Impresa Statistica per le ricerche di mercato a.a. 2014/15 Prof.ssa Tiziana Laureti 01. Introduzione al corso 1 Statistica per le ricerche
LA RAPPRESENTAZIONE E LA SINTESI DEI DATI
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 LA RAPPRESENTAZIONE E LA SINTESI
ANALISI MULTIDIMENSIONALE DEI DATI (AMD)
ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della
Statistica per le ricerche di mercato
Università degli studi della Tuscia Dipartimento di Economia e Impresa Statistica per le ricerche di mercato a.a. 2012/13 Dr. Luca Secondi 01. Introduzione al corso 1 Statistica per le ricerche di mercato
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
Statistica descrittiva in due variabili
1 / 69 Statistica descrittiva in due variabili Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X = (x 1,...,x N ) Y = (y 1,...,y N ) i valori
Statistica. Matematica con Elementi di Statistica a.a. 2015/16
Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati
Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato
Statistica descrittiva con fogli di calcolo Stoianov, Ceccato Distribuzioni di probabilità empirica 1) OSSERVAZIONI campione X: N osservazioni {x 1,x 2 x N } scala di misura Y K livelli [y 1 y K ] Esempio:
Statistica Un Esempio
Statistica Un Esempio Un indagine sul peso, su un campione di n = 100 studenti, ha prodotto il seguente risultato. I pesi p sono espressi in Kg e sono stati raggruppati in cinque classi di peso. classe
Analisi Multivariata Corso di laurea in Statistica
Analisi Multivariata Corso di laurea in Statistica Carla Rampichini 1 Distribuzione Normale multivariata L utilizzo di computer sempre più potenti consente oggi di considerare distribuzioni campionare
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca
Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)
Sintesi dei dati in una tabella Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici
SOMMARIO CAPITOLO I - NOZIONI DI ALGEBRA DELLE MATRICI
SOMMARIO CAPITOLO I - NOZIONI DI ALGEBRA DELLE MATRICI 1.- Alcuni richiami di matematica... 13 1.1- Simboli... 13 1.2- Funzioni... 14 1.3- Permutazioni di n elementi distinti... 14 2.- Definizioni di vettori
Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi
Distribuzioni secondo due caratteri Rappresentazioni e prime sintesi Rappresentazioni delle distribuzioni doppie Quando per ogni unità del collettivo rileviamo due caratteri otteniamo una Esempio. Ad alcuni
VETTORI E MATRICI. De nizione 1 Chiamiamo vettore x una n-pla ordinata di numeri reali. x 1 x 2. x n
VETTORI E MATRICI De nizione 1 Chiamiamo vettore x una n-pla ordinata di numeri reali x 1 x. x n 5 L insieme di tutti i vettori con n componenti reali si indica con R n :I numeri reali si possono pensare
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
Distribuzione di Frequenza: Esempio
Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati
Ulteriori Conoscenze di Informatica e Statistica
ndici di forma Ulteriori Conoscenze di nformatica e Statistica Descrivono le asimmetrie della distribuzione Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 ( piano) tel.: 06 55 17 72 17
Scale di Misurazione Lezione 2
Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile
ANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA 1 SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra
Una statistica è una quantità numerica il cui valore è determinato dai dati.
STATISTICHE CAMPIONARIE Quando i dati sono molti e illeggibili nella forma grezza, si rende necessario introdurre quantità numeriche che possano essere usate per sintetizzarli. Queste misure riassuntive
Alfonso Iodice D Enza
Strumenti quantitativi per l economia e la finanza I Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale ali dei Il coefficiente () Statistica 1 / 50 Outline
Analisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di