Statistica multivariata! Analisi fattoriale

Documenti analoghi
Statistica multivariata

Statistica multivariata

Statistica multivariata

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata 27/09/2016. D.Rodi, 2016

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

1.1 Obiettivi della statistica Struttura del testo 2

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Introduzione alla Regressione Logistica

L'analisi bivariata (associazione e cograduazione)

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Esercitazione di Statistica Indici di associazione

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI

Indice di contingenza quadratica media (phi quadro) χ n

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

INDICE PARTE METODOLOGICA

Regressione lineare semplice

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Teoria e tecniche dei test. Concetti di base

Analisi della varianza

Statistica multivariata Donata Rodi 17/10/2016

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

1. variabili dicotomiche: 2 sole categorie A e B

Metodi statistici per le ricerche di mercato

Relazioni Statistiche

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Corso in Statistica Medica

REGISTRO DELLE LEZIONI

Dispensa di Statistica

Analisi bivariata Il caso di caratteri qualitativi

Rappresentazioni grafiche di distribuzioni doppie

Metodi di analisi statistica multivariata

Capitolo 12 La regressione lineare semplice

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Regressione Lineare Semplice e Correlazione

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

Statistica multivariata Donata Rodi 08/11/2016

Psicometria con Laboratorio di SPSS 1

REGISTRO DELLE LEZIONI*

Argomenti della lezione:

Regressione & Correlazione

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

REGISTRO DELLE LEZIONI

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Scheda n. 13: modelli lineari

Statistica. Alfonso Iodice D Enza

Nota dell editore Presentazione

viii Indice generale

Analisi delle corrispondenze

Presentazione dell edizione italiana

L'analisi bivariata (associazione e cograduazione)

Esercizi su Regressione e Connessione

Regressione logistica. Strumenti quantitativi per la gestione

PROBABILITÀ ELEMENTARE

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Analisi bivariata. Il caso di caratteri quantitativi

Metodologie Quantitative

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica per le ricerche di mercato

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII

Cognome e nome Tempo disponibile: 60 minuti. Esempio 1 Esempio 2

Statistiche per l analisi dei trend Capitolo 6

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 5 Analisi Bivariata I Parte

Statistiche e relazioni

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Inferenza statistica Donata Rodi 04/10/2016

Statistica di base per l analisi socio-economica

INDICE DEL TESTO. Capitolo IV - Principali distribuzioni teoriche. 1. Distribuzioni continue e discontinue, 109. Prefazione, I

Correlazione e regressione

Metodi statistici per le ricerche di mercato

Strumenti di indagine per la valutazione psicologica

COGNOME.NOME...MATR..

Fondamenti e metodi analisi empirica nelle scienze sociali

JMP 10 Student Edition: Guida rapida

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Corso di Laurea in Amministrazione Aziendale Complex Learning. Statistica per l azienda (T) SECS-S/01 a. a. 2017/2018

Analisi in Componenti Principali (ACP)

Ringraziamenti dell Editore

Stesso valore medio per distribuzioni diverse

Analisi delle corrispondenze

Analisi di Regressione Multipla

Statistica. Alfonso Iodice D Enza

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Statistica descrittiva in due variabili

docente: J. Mortera/P. Vicard Nome

Argomenti della lezione:

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Comprendere i fenomeni vuol dire studiare le relazioni tra 2 o più variabili. Esiste un legame tra le variabili?

La regressione lineare semplice

STATISTICA MULTIVARIATA SSD MAT/06

Ulteriori Conoscenze di Informatica e Statistica

Transcript:

Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi Analisi multivariata Dati multivariati Cercare di capire le relazioni che intercorrono tra le variabili Introdurre tante variabili in un analisi non ha molto senso, né al livello biologico, né al livello statistico.! Il modello diventa troppo complesso.! Diventa difficile interpretare i risultati.! Le stime dei parametri diventano molto instabili.! Più parametri inseriamo, più osservazioni ci vogliono per stimarli. Unità statistiche 1 2 n Var. 1 x 11 x 21 x n1 Variabili statistiche Var. 2 x 12 x 22 x n2 Var. m x 1m x 2m x nm Eliminiamo le variabili che sono molto correlate tra di loro. Se due variabili sono molto correlate, allora l informazione di una è contenuta quasi completamente nell altra. osservazioni, rilevazioni, Matrice dei dati (n!m) : n righe, m colonne con n!m valori Misure di concordanza Covarianza Voglio un indice (una misura) che mi dica il grado di concordanza tra i valori di una variabile X con quelli di una variabile Y. Var. 1 Variabili statistiche Var. 2 Var. m 1 x 11 x 12 x 1m Concordanza positiva Concordanza negativa Unità statistiche 2 n x 21 x n1 x 22 x n2 x 2m x nm x.1 x.2 x.m Covarianza : indice della relazione (lineare) tra due variabili Assenza di concordanza

Correlazione Matrice di covarianza Varianza : indice di dispersione Covarianza : indice di relazione Correlazione : indice di relazione normato Diagonale principale: varianza della variabile ima Altre celle: covarianza tra variabili Quadrata e simmetrica e se le variabili sono di tipo qualitativo? Associazione tra due variabili quantitative: indice di correlazione tra due variabili qualitative: indice del chi-quadro tra variabile quantitativa e qualitativa: Sia X categoriale con categorie 1, 2,,. Sia Y numerica. Allora: chi-quadro indici di associazione nominali ordinali Coefficiente " $ di Kendall D di Somers Coefficiente di contingenza Coefficiente # dove le Y i sono le medie dei valori di Y a cui è associata la modalità ima della variabile X. Coefficiente V di Cramér Assumendo: Analisi della varianza ad una via indipendenza dei campioni e delle osservazioni normalità dei dati varianze all interno dei gruppi uguali (test F/test di Levene) Varianza entro gruppi! 2 w Varianza tra gruppi! 2 B Statistica multivariata! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi F =! 2 B /! 2 w ~ F -1, n-

Metodi multivariati - 1 Ross et al. (2000) Nature Gen. 24:227-235 Riduzione di dimensione! componenti principali (PCA)! multidimensional scaling (MDS) Analisi fattoriale Analisi di raggruppamento tecnica descrittiva - analisi di segmentazione/cluster - analisi interna (unsupervised learning) Analisi discriminante tecnica predittiva - classificazione (machine/supervised learning) Metodi multivariati - 2 Regressione lineare - risposta continua - predittori continui/categoriali Regressione multipla Regressione logistica - risposta binaria - predittori continui/categoriali Dati di sopravvivenza Alizadeh et al. (2000) Nature 403: 503-511 - dati di durata - predittori continui/categoriali Modello di regressione Minimi quadrati Quando ho una variabile risposta Y e tante variabili esplicative X i, si può ipotizzare di spiegare la relazione tra Y e le X i attraverso un modello lineare (nei parametri). Caso univariato semplice Come stimare i parametri? Metodo dei minimi quadrati (MMQ) Nel caso univariato semplice lavoriamo in un piano; man mano che aumentano le X i aumentano le dimensioni dello spazio. Esempio: y = & 0 x 1 x 2 Lavoriamo in 3 dimensioni. Caso multivariato X 2 + " + & X Logica Rendiamo minima la differenza tra i valori osservati (blu) e quelli predetti dal modello (rossi): Qui ' è la componente casuale che si suppone abbia media nulla e varianza costante pari a! 2. min % i [ y i (& 0 i X 2i + " + & X i )] 2

Come stimare i parametri? Metodo dei minimi quadrati (MMQ) Minimi quadrati Minimi quadrati Caso monovariato (una sola variabile esplicativa): Allora, in base al MMQ: b 0 = y b 1 b 1 = Cov(X,Y) Var(X) Caso multivariato: b = (X!X) -1 X!y Var. 1 Var. 2 Var. m dove X è la matrice dei dati. 1 x 11 x 12 x 1m 2 x 21 x 22 x 2m n x n1 x n2 x nm Analisi di regressione Il mio modello è un buon modello? R 2 È la percentuale della variabilità spiegata dal modello rispetto alla variabilità totale. Più tende a 1 più il modello è buono. Test sui parametri Analisi dei residui Deviazioni dalla casualità indicano una specificazione errata del modello. Q-Q plot Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se H 0 : & i = 0 non è rifiutata allora la variabile può essere eliminata senza perdita di informazione. Analisi grafica dei residui I residui ottenuti dal modello, in base al modello che abbiamo utilizzato, dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci aspettiamo che siano omogeneamente distribuiti intorno allo zero. Residui vs. valori predetti Analisi dei residui Scelta del modello Quante e quali variabili inserire nel modello quando se ne hanno a disposizione molte? X 2 + + & X Regressione step-wise Residui vs. x i 1. Parto dal modello con una variabile: forward e man mano ne aggiungo un'altra. Se l inclusione della variabile è significativa, la tengo; altrimenti, la scarto. 2. Parto dal modello completo: bacward X 2 + + & X e man mano ne levo una. Se l esclusione della variabile è significativa, la tengo; altrimenti, la scarto.

Modello di regressione casi particolari E se la variabile (o le variabili) X sono delle variabili categoriali (fattori)? Il modello lineare non è altro che un'analisi della varianza ad una o a più vie. Y ij = & 0 + ) i + & j ij In questo caso la matrice X è una matrice di dummies (cioè di zeri e uno). Le analisi fatte finora sono valide se Y è una variabile numerica. E se non lo fosse? Età e sintomi di malattia coronarica (CHD) Età CHD Età CHD Età CHD 22 0 40 0 54 0 23 0 41 1 55 1 24 0 46 0 58 1 27 0 47 0 60 1 28 0 48 0 60 0 30 0 49 1 62 1 30 0 49 0 65 1 32 0 50 1 67 1 33 0 51 0 71 1 35 1 51 1 77 1 38 0 52 0 81 1 grafico di dispersione / a punti tabella della prevalenza % Malati Gruppo d età # in gruppo # % 20-29 5 0 0 30-39 6 1 17 40-49 7 2 29 50-59 7 4 57 60-69 5 4 80 70-79 2 2 100 80-89 1 1 100 Divido in classi d età. 0 con probabilità ( Y = 1 con probabilità 1-( Utilizzo le percentuali all interno delle classi. Malati % 100 80 60 40 20 0 0 1 2 3 4 5 6 7 Età (anni) Vantaggi del logit Probabilità di malattia 1.0 0.8 0.6 0.4 0.2 e!+"x P # y$x%= 1 +e!+"x " Transformazione semplice di P(y x) " Relazione lineare con x... "... e continua (logit tra - ' to ) " Distribuzione nota: binomiale (P tra 0 ed 1) " Diretto legame con la nozione di odds di malattia 0.0 x P# y$x % =! +"x ln[ 1 &P# y$x %] P # y$x% ln =! +"x [ 1&P # y$x %] logit of P(y x)

Interpretazione di & Esposizione (x) Malati (y) Si No Si No P # y$x=1 % 1&P# y$x=1 % P # y$x=0 % 1&P# y$x= 0 % Esempio Rischio di sviluppare malattia delle arterie coronarie in accordo con età (< 55 e 55+ anni) CHD 55+ (1) < 55 (0) Present (1) 21 22 Absent (0) 6 51 odds d$e = e!+" odds d$)e = e! OR = e!+" e! = e " ln #OR % = " Odds of disease among exposed = 21/6 Odds of disease among unexposed = 22/51 Odds ratio = 8.1 ln# P 1 -P % =! + " Age = &0.841 + 2.094 Age Coefficient SE Coeff/SE Age 2.094 0.529 3.96 Constant -0.841 0.255-3.30 Log-odds = 2.094 OR = e 2.094 = 8.1 Regressione logistica multipla ( Più di una variabile indipendente! dicotomica, ordinale, nominale, continua, ( Interpretazione di & i! incremento del log odds per un incremento unitario di x i con tutte le altre x j constanti