Statistica multivariata

Documenti analoghi
Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata 27/09/2016. D.Rodi, 2016

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Regressione lineare semplice

Introduzione alla Regressione Logistica

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Statistica multivariata Donata Rodi 17/10/2016

Analisi della varianza

Teoria e tecniche dei test. Concetti di base

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Dispensa di Statistica

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Esercitazione di Statistica Indici di associazione

Regressione Lineare Semplice e Correlazione

Statistiche e relazioni

Analisi delle corrispondenze

Strumenti di indagine per la valutazione psicologica

Statistica multivariata Donata Rodi 08/11/2016

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

CORSO INTEGRATO DI STATISTICA E INFORMATICA MEDICA

Statistica. Alfonso Iodice D Enza

Ringraziamenti dell Editore

Argomenti della lezione:

PROBABILITÀ ELEMENTARE

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Esercitazione. 24 Aprile 2012

Metodi di analisi statistica multivariata

Inferenza statistica Donata Rodi 04/10/2016

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Analisi delle corrispondenze

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Presentazione dell edizione italiana

Statistica di base per l analisi socio-economica

La matrice delle correlazioni è la seguente:

viii Indice generale

JMP 10 Student Edition: Guida rapida

Statistica per le ricerche di mercato

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Obiettivo: confrontare due proporzioni, studiare il legame in presenza di un fattore di stratificazione

Istituzioni di Statistica

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Corso di Psicometria Progredito

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Corso di Laurea in Amministrazione Aziendale Complex Learning. Statistica per l azienda (T) SECS-S/01 a. a. 2017/2018

Statistica. Alfonso Iodice D Enza

Università degli Studi di Cassino. Corso di Laurea in Economia Aziendale. Corso di. Statistica. Docente: Simona Balzano.

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

INDICATORI DI TENDENZA CENTRALE

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Esplorazione grafica di dati multivariati. N. Del Buono

Statistica per le ricerche di mercato

Associazione tra caratteri quantitativi: gli indici di correlazione

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Esercitazione del

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Inferenza statistica II parte

ANALISI DEI DATI PER IL MARKETING 2014

REGRESSIONE E CORRELAZIONE

Analisi della varianza

LEZIONE N. 11 ( a cura di MADDALENA BEI)

INDICATORI DI TENDENZA CENTRALE

Inferenza statistica

INFERENZA STATISTICA I (CANALE B)

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

ANALISI MULTIVARIATA

Introduzione all Analisi della Varianza (ANOVA)

STATISTICA 1 ESERCITAZIONE 6

docente: J. Mortera/P. Vicard Nome

INDICATORI DI TENDENZA CENTRALE

Laboratorio di Statistica I

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

INFERENZA STATISTICA I (CANALE B)

Statistica descrittiva in due variabili

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

ANALISI DELLE SERIE STORICHE

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Analisi in Componenti Principali (ACP)

Analisi in Componenti Principali

Statistica Applicata all edilizia: il modello di regressione

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

Analisi avanzate basate sulla regressione (Cap. 7)

Statistica. Alfonso Iodice D Enza

I Dati: aspetti da considerare

Statistica. Alfonso Iodice D Enza

Correlazione e regressione

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Tecniche statistiche di analisi del cambiamento

STATISTICA NOZIONI DI BASE

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Transcript:

Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni che intercorrono tra le variabili Introdurre tante variabili in un analisi non ha molto senso, né al livello biologico, né al livello statistico.! Il modello diventa troppo complesso.! Diventa difficile interpretare i risultati.! Le stime dei parametri diventano molto instabili.! Più parametri inseriamo, più osservazioni ci vogliono per stimarli. Eliminiamo le variabili che sono molto correlate tra di loro. Se due variabili sono molto correlate, allora l informazione di una è contenuta quasi completamente nell altra. Statistica multivariata Dati multivariati Variabili statistiche! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori Unità statistiche 1 2 Var. 1 x 11 x 21 Var. 2 x 12 x 22 Var. m x 1m x 2m! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi n x n1 x n2 osservazioni, rilevazioni, x nm atrice dei dati (n!m) : n righe, m colonne con n!m valori isure di concordanza Covarianza Voglio un indice (una misura) che mi dica il grado di concordanza tra i valori di una variabile X con quelli di una variabile Y. Var. 1 Variabili statistiche Var. 2 Var. m 1 x 11 x 12 x 1m Concordanza positiva Concordanza negativa Unità statistiche 2 n x 21 x n1 x 22 x n2 x 2m x nm x.1 x.2 x.m Covarianza : indice della relazione (lineare) tra due variabili Assenza di concordanza

Correlazione atrice di covarianza Varianza : indice di dispersione Covarianza : indice di relazione Correlazione : indice di relazione normato Diagonale principale: varianza della variabile ima Altre celle: covarianza tra variabili Quadrata e simmetrica e se le variabili sono di tipo qualitativo? Associazione tra due variabili quantitative: indice di correlazione tra due variabili qualitative: indice del chi-quadro tra variabile quantitativa e qualitativa: Sia X categoriale con categorie 1, 2,,. Sia Y numerica. Allora: chi-quadro indici di associazione nominali Coefficiente! Coefficiente di contingenza ordinali # di Kendall D di Somers Coefficiente " dove le Y i sono le medie dei valori di Y a cui è associata la modalità ima della variabile X. Coefficiente V di Cramér Assumendo: Analisi della varianza ad una via indipendenza dei campioni e delle osservazioni normalità dei dati varianze all interno dei gruppi uguali (test /test di Levene) Varianza entro gruppi $ 2 w Varianza tra gruppi $ 2 B Statistica multivariata! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi = $ 2 B / $2 w ~ -1, n-

etodi multivariati - 1 Ross et al. (2000) Nature Gen. 24:227-235 Riduzione di dimensione! componenti principali (PCA)! multidimensional scaling (DS) Analisi fattoriale Analisi di raggruppamento tecnica descrittiva - analisi di segmentazione/cluster - analisi interna (unsupervised learning) Analisi discriminante tecnica predittiva - classificazione (machine/supervised learning) etodi multivariati - 2 Regressione lineare - risposta continua - predittori continui/categoriali Regressione multipla Regressione logistica - risposta binaria - predittori continui/categoriali Dati di sopravvivenza Alizadeh et al. (2000) Nature 403: 503-511 - dati di durata - predittori continui/categoriali odello di regressione inimi quadrati Quando ho una variabile risposta Y e tante variabili esplicative X i, si può ipotizzare di spiegare la relazione tra Y e le X i attraverso un modello lineare (nei parametri). Caso univariato semplice Come stimare i parametri? etodo dei minimi quadrati (Q) Nel caso univariato semplice lavoriamo in un piano; man mano che aumentano le X i aumentano le dimensioni dello spazio. Esempio: y = % 0 x 1 x 2 Lavoriamo in 3 dimensioni. Caso multivariato X 2 + " + % X Logica Rendiamo minima la differenza tra i valori osservati (blu) e quelli predetti dal modello (rossi): Qui & è la componente casuale che si suppone abbia media nulla e varianza costante pari a $ 2. min ' i [ y i (% 0 i X 2i + " + % X i )] 2

Come stimare i parametri? etodo dei minimi quadrati (Q) inimi quadrati inimi quadrati Caso monovariato (una sola variabile esplicativa): Allora, in base al Q: b 0 = y b 1 b 1 = Cov(X,Y) Var(X) Caso multivariato: b = (X!X) -1 X!y Var. 1 Var. 2 Var. m dove X è la matrice dei dati. 1 x 11 x 12 x 1m 2 x 21 x 22 x 2m n x n1 x n2 x nm Analisi di regressione Il mio modello è un buon modello? R 2 È la percentuale della variabilità spiegata dal modello rispetto alla variabilità totale. Più tende a 1 più il modello è buono. Test sui parametri Residui vs. valori predetti Deviazioni dalla casualità indicano una specificazione errata del modello. Analisi dei residui Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se H 0 : % i = 0 Residui vs. x i non è rifiutata allora la variabile può essere eliminata senza perdita di informazione. Analisi grafica dei residui I residui ottenuti dal modello, in base al modello che abbiamo utilizzato, dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci aspettiamo che siano omogeneamente distribuiti intorno allo zero. Analisi dei residui Una terza condizione necessaria per poter fare inferenza sul modello (parametri e R 2 ) è la NORALITÀ del termine d'errore. Confondente vs odificatore d'effetto (interazione) Q-Q plot

Confondente vs odificatore d'effetto (interazione) Scelta del modello Quante e quali variabili inserire nel modello quando se ne hanno a disposizione molte? X 2 + + % X Regressione step-wise 1. Parto dal modello con una variabile: e man mano ne aggiungo un'altra. Se l inclusione della variabile è significativa, la tengo; altrimenti, la scarto. 2. Parto dal modello completo: X 2 + + % X forward bacward e man mano ne levo una. Se l esclusione della variabile è significativa, la tengo; altrimenti, la scarto. odello di regressione casi particolari E se la variabile (o le variabili) X sono delle variabili categoriali (fattori)? Il modello lineare non è altro che un'analisi della varianza ad una o a più vie. Y ij = % 0 + ( i + % j ij In questo caso la matrice X è una matrice di dummies (cioè di zeri e uno). Le analisi fatte finora sono valide se Y è una variabile numerica. E se non lo fosse? Età e sintomi di malattia coronarica (CHD) Età CHD Età CHD Età CHD 22 0 40 0 54 0 23 0 41 1 55 1 24 0 46 0 58 1 27 0 47 0 60 1 28 0 48 0 60 0 30 0 49 1 62 1 30 0 49 0 65 1 32 0 50 1 67 1 33 0 51 0 71 1 35 1 51 1 77 1 38 0 52 0 81 1 grafico di dispersione / a punti tabella della prevalenza % alati Gruppo d età # in gruppo # % 20-29 5 0 0 30-39 6 1 17 40-49 7 2 29 50-59 7 4 57 60-69 5 4 80 70-79 2 2 100 80-89 1 1 100 Divido in classi d età. 0 con probabilità ) Y = 1 con probabilità 1-) Utilizzo le percentuali all interno delle classi. alati % 100 80 60 40 20 0 0 1 2 3 4 5 6 7 Età (anni)

0.0 Vantaggi del logit Probabilità di malattia 1.0 0.8 0.6 0.4 0.2 P # y$x%= e! + " x 1 +e! + " x " Transformazione semplice di P(y x) " Relazione lineare con x... "... e continua (logit tra - ' to + ') " Distribuzione nota: binomiale (P tra 0 ed 1) " Diretto legame con la nozione di odds di malattia x P# y$x % ln[ 1 &P# y$x %] =! + " x P # y$x% ln [ 1&P # y$x %] =! + " x logit of P(y x) Interpretazione di % Esposizione (x) Esempio Rischio di sviluppare malattia delle arterie coronarie in accordo con età (< 55 e 55+ anni) alati (y) Si No Si P # y$x=1 % P # y$x=0 % No 1&P# y$x=1 % 1&P# y$x= 0 % CHD 55+ (1) < 55 (0) Present (1) 21 22 Absent (0) 6 51 odds d$e = e! + " odds d$(e = e! OR = e! + " = e " e! ln #OR % = " Odds of disease among exposed = 21/6 Odds of disease among unexposed = 22/51 Odds ratio = 8.1 ln# P 1 -P % =! + " Age = &0.841 + 2.094 Age Coefficient SE Coeff/SE Age 2.094 0.529 3.96 Constant -0.841 0.255-3.30 Log-odds = 2.094 OR = e 2.094 = 8.1 Regressione logistica multipla ) Più di una variabile indipendente dicotomica, ordinale, nominale, continua, ) Interpretazione di % i incremento del log odds per un incremento unitario di x i con tutte le altre x j constanti