Statistica multivariata

Похожие документы
Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

ANALISI MULTIVARIATA

Analisi della varianza

Esercitazioni di statistica

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Metodologie Quantitative

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

I metodi per la misura della prognosi

Generazione di Numeri Casuali- Parte 2

Regressione Mario Guarracino Data Mining a.a. 2010/2011

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Regressione Logistica

Regressione logistica

(a cura di Francesca Godioli)

Analisi Univariata e Multivariata dei Dati Economici Bruno Ricca (Dipartimento di studi su risorse, impresa, ambiente e metodologie quantitative)

Test di restrizioni lineari nel MRLM: Esempi

Quantificare la variabilità dei processi ecologici

Statistica (Prof. Capitanio) Slide n. 1. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Regressione logistica. Strumenti quantitativi per la gestione

Elementi di Psicometria

Interpretare i modelli prognostici multivariati: il modello logistico

Dott.ssa Caterina Gurrieri

Elementi di Statistica

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Prof.ssa Paola Vicard

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi

2. Variabilità mediante il confronto di valori caratteristici della

MODELLO DI REGRESSIONE PER DATI DI PANEL

Statistica Inferenziale

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

Metodi di Distanza. G.Allegrucci riproduzione vietata

STATISTICA GIUSEPPE DE NICOLAO. Dipartimento di Informatica e Sistemistica Università di Pavia

FONDAMENTI DI PSICOMETRIA - 8 CFU

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Il modello di regressione lineare multivariata

STUDIO DI SETTORE VG73B

4. Confronto tra medie di tre o più campioni indipendenti

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Secondo foglio di esercizi per l esame.

Limited Dependent Variable Models

Gestione ed Analisi Statistica dei dati

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

3) ANALISI DEI RESIDUI

CENNI DI METODI STATISTICI

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

6. Modelli statistici: analisi della regressione lineare

rendimento PROGRAMMA 0. Introduzione 1. Valore. 2. Valutazione del rischio: Introduzione a rischio e rendimento; Teoria del portafoglio e CAPM;

Excel Terza parte. Excel 2003

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

STUDIO DI SETTORE WG87U

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Misura e Valutazione del A. Rischio

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

STIMARE valori ed eseguire ANALISI DI REGRESSIONE

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

Relazioni statistiche: regressione e correlazione

1. Richiami di Statistica. Stefano Di Colli

Probabilità II Variabili casuali discrete

Analisi di dati di frequenza

LEZIONE n. 5 (a cura di Antonio Di Marco)

Elementi di Psicometria

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Valenza predittiva dei test di ammissione al corso di laurea in Medicina e Chirurgia

STUDIO DI SETTORE VG88U

PSICOMETRIA. Esercitazione n.1. C.d.L. Comunicazione e Psicologia a.a. 2012/13

p k q n k = p n (k) = n 12 = 1 = ,1208. q = 1 2 e si ha: p 12 (8) =

Indice Aspetti generali sul campionamento da popolazioni finite Campionamento probabilistico Disegno campionario semplice

VALUTAZIONE D IMPATTO DELLE POLITICHE REGIONALI PER LA PROMOZIONE DELL APPROPRIATEZZA ORGANIZZATIVA

Esercizi su lineare indipendenza e generatori

CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA DANIELE.MONTANINO@UNISALENTO.IT

LEZIONI DI STATISTICA

1) A partire dalla seguente tabella a doppia entrata per le variabili QUALIFICA FUNZIONALE e STIPENDIO PERCEPITO (3 classi): STIPENDIO PERCEPITO

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per continue. Alessandro Valbonesi. SARRF di Scienze ambientali

Lezione n. 2 (a cura di Chiara Rossi)

1 Valore atteso o media

2 CERTAMEN NAZIONALE DI PROBABILITA E STATISTICA FELICE FUSATO Fase di Istituto 15 febbraio 2011

Il modello media-varianza con N titoli rischiosi. Una derivazione formale. Enrico Saltari

Esercizi riassuntivi di probabilità

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

Il Metodo Scientifico

STATISTICA DESCRITTIVA BIVARIATA

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Relazioni tra variabili

Il programma OCTAVE per l insegnamento dell algebra lineare nella Scuola Secondaria p. 1

UNIVERSITÀ DEGLI STUDI DI FERRARA

Capitolo 2 Distribuzioni di frequenza

Elementi di Psicometria con Laboratorio di SPSS 1

Транскрипт:

Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni che intercorrono tra le variabili Introdurre tante variabili in un analisi non ha molto senso, né al livello biologico, né al livello statistico.! Il modello diventa troppo complesso.! Diventa difficile interpretare i risultati.! Le stime dei parametri diventano molto instabili.! Più parametri inseriamo, più osservazioni ci vogliono per stimarli. Eliminiamo le variabili che sono molto correlate tra di loro. Se due variabili sono molto correlate, allora l informazione di una è contenuta quasi completamente nell altra.

Statistica multivariata! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi Dati multivariati Var. 1 Variabili statistiche Var. 2 Var. m 1 x 11 x 12 x 1m Unità statistiche 2 x 21 x 22 x 2m n x n1 x n2 x nm osservazioni, rilevazioni, Matrice dei dati (n!m) : n righe, m colonne con n!m valori

Misure di concordanza Voglio un indice (una misura) che mi dica il grado di concordanza tra i valori di una variabile X con quelli di una variabile Y. Concordanza positiva Concordanza negativa Assenza di concordanza Covarianza Var. 1 Variabili statistiche Var. 2 Var. m 1 x 11 x 12 x 1m Unità statistiche 2 x 21 x 22 x 2m n x n1 x n2 x nm x.1 x.2 x.m Covarianza : indice della relazione (lineare) tra due variabili k

Correlazione Varianza : indice di dispersione Covarianza : indice di relazione k Correlazione : indice di relazione normato k k Matrice di covarianza Diagonale principale: varianza della variabile ima Altre celle: covarianza tra variabili Quadrata e simmetrica e se le variabili sono di tipo qualitativo?

Associazione tra due variabili quantitative: indice di correlazione tra due variabili qualitative: indice del chi-quadro tra variabile quantitativa e qualitativa: Sia X categoriale con categorie 1, 2,, k. Sia Y numerica. Allora: dove le Y i sono le medie dei valori di Y a cui è associata la modalità ima della variabile X. chi-quadro indici di associazione nominali ordinali Coefficiente! # di Kendall D di Somers Coefficiente di contingenza Coefficiente " Coefficiente V di Cramér

Assumendo: Analisi della varianza ad una via indipendenza dei campioni e delle osservazioni normalità dei dati varianze all interno dei k gruppi uguali (test F/test di Levene) Varianza entro gruppi Varianza tra gruppi $ 2 w $ 2 B F = $ 2 B / $2 w ~ F k-1, n-k Statistica multivariata! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi

Metodi multivariati - 1 Riduzione di dimensione! componenti principali (PCA)! multidimensional scaling (MDS) Analisi fattoriale Analisi di raggruppamento tecnica descrittiva - analisi di segmentazione/cluster - analisi interna (unsupervised learning) Analisi discriminante tecnica predittiva - classificazione (machine/supervised learning) Ross et al. (2000) Nature Gen. 24:227-235

Alizadeh et al. (2000) Nature 403: 503-511 Metodi multivariati - 2 Regressione lineare - risposta continua - predittori continui/categoriali Regressione multipla Regressione logistica - risposta binaria - predittori continui/categoriali Dati di sopravvivenza - dati di durata - predittori continui/categoriali

Modello di regressione Quando ho una variabile risposta Y e tante variabili esplicative X i, si può ipotizzare di spiegare la relazione tra Y e le X i attraverso un modello lineare (nei parametri). Caso univariato semplice Y = % 0 + % 1 X 1 + & Caso multivariato Y = % 0 + % 1 X 1 + % 2 X 2 + " + % k X k + & Qui & è la componente casuale che si suppone abbia media nulla e varianza costante pari a $ 2. Minimi quadrati Come stimare i parametri? Metodo dei minimi quadrati (MMQ) Nel caso univariato semplice lavoriamo in un piano; man mano che aumentano le X i aumentano le dimensioni dello spazio. Esempio: y = % 0 + % 1 x 1 + % 2 x 2 + & Lavoriamo in 3 dimensioni. Logica Rendiamo minima la differenza tra i valori osservati (blu) e quelli predetti dal modello (rossi): min ' i [ y i (% 0 + % 1 X 1i + % 2 X 2i + " + % k X ki )] 2

Minimi quadrati Come stimare i parametri? Metodo dei minimi quadrati (MMQ) Minimi quadrati Caso monovariato (una sola variabile esplicativa): Allora, in base al MMQ: Y = % 0 + % 1 X 1 + & b 0 = y b 1 X 1 b 1 = Cov(X,Y) Var(X) Caso multivariato: b = (X!X) -1 X!y Var. 1 Var. 2 Var. m dove X è la matrice dei dati. 1 x 11 x 12 x 1m 2 x 21 x 22 x 2m n x n1 x n2 x nm

Analisi di regressione Il mio modello è un buon modello? R 2 È la percentuale della variabilità spiegata dal modello rispetto alla variabilità totale. Più tende a 1 più il modello è buono. Test sui parametri Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se H 0 : % i = 0 non è rifiutata allora la variabile può essere eliminata senza perdita di informazione. Analisi grafica dei residui I residui ottenuti dal modello, in base al modello che abbiamo utilizzato, dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci aspettiamo che siano omogeneamente distribuiti intorno allo zero. Residui vs. valori predetti Analisi dei residui Deviazioni dalla casualità indicano una specificazione errata del modello. Residui vs. x i

Analisi dei residui Una terza condizione necessaria per poter fare inferenza sul modello (parametri e R 2 ) è la NORMALITÀ del termine d'errore. Q-Q plot Confondente vs Modificatore d'effetto (interazione) M M F F

Confondente vs Modificatore d'effetto (interazione) F M M F Scelta del modello Quante e quali variabili inserire nel modello quando se ne hanno a disposizione molte? Y = % 0 + % 1 X 1 + % 2 X 2 + + % k X k + & Regressione step-wise 1. Parto dal modello con una variabile: Y = % 0 + % 1 X 1 + & forward e man mano ne aggiungo un'altra. Se l inclusione della variabile è significativa, la tengo; altrimenti, la scarto. 2. Parto dal modello completo: backward Y = % 0 + % 1 X 1 + % 2 X 2 + + % k X k + & e man mano ne levo una. Se l esclusione della variabile è significativa, la tengo; altrimenti, la scarto.

Modello di regressione casi particolari E se la variabile (o le variabili) X sono delle variabili categoriali (fattori)? Il modello lineare non è altro che un'analisi della varianza ad una o a più vie. Y ij = % 0 + ( i + % j + & ij In questo caso la matrice X è una matrice di dummies (cioè di zeri e uno).

Modello di regressione logistico Le analisi fatte finora sono valide se Y è una variabile numerica. E se non lo fosse? Età e sintomi di malattia coronarica (CHD) Età CHD Età CHD Età CHD 22 0 40 0 54 0 23 0 41 1 55 1 24 0 46 0 58 1 27 0 47 0 60 1 28 0 48 0 60 0 30 0 49 1 62 1 30 0 49 0 65 1 32 0 50 1 67 1 33 0 51 0 71 1 35 1 51 1 77 1 38 0 52 0 81 1 Modello di regressione logistico Modello di regressione logistico grafico di dispersione / a punti

Modello di regressione logistico tabella della prevalenza % Malati Gruppo d età # in gruppo # % 20-29 5 0 0 30-39 6 1 17 40-49 7 2 29 50-59 7 4 57 60-69 5 4 80 70-79 2 2 100 80-89 1 1 100 Divido in classi d età. 0 con probabilità ) Y = 1 con probabilità 1-) Utilizzo le percentuali all interno delle classi. Malati % 100 80 60 40 20 0 0 1 2 3 4 5 6 7 Età (anni) Modello di regressione logistico 1.0 0.8 Probabilità di malattia 0.6 0.4 0.2 P # y$x%= e! + " x 1 +e! + " x 0.0 x P# y$x % ln[ %] 1 &P# y$x =! + " x logit of P(y x)

Vantaggi del logit " Transformazione semplice di P(y x) " Relazione lineare con x... "... e continua (logit tra - ' to + ') " Distribuzione nota: binomiale (P tra 0 ed 1) " Diretto legame con la nozione di odds di malattia [ P # y$x% %] ln 1&P # y$x =! + " x Interpretazione di % Esposizione (x) Malati (y) Si No Si P # y$x=1 % P # y$x=0 % No 1& P # y$x=1 % 1& P # y$x= 0 % odds d$e = e! + " odds d$ (e = e! OR = e! + " = e " e! ln #OR % = "

Esempio Rischio di sviluppare malattia delle arterie coronarie in accordo con età (< 55 e 55+ anni) CHD 55+ (1) < 55 (0) Present (1) 21 22 Absent (0) 6 51 Odds of disease among exposed = 21/6 Odds of disease among unexposed = 22/51 Odds ratio = 8.1 Modello di regressione logistico ln# P 1 -P % =! + " Age = &0.841 + 2.094 Age Coefficient SE Coeff/SE Age 2.094 0.529 3.96 Constant -0.841 0.255-3.30 Log-odds = 2.094 OR = e 2.094 = 8.1 Regressione logistica multipla ) Più di una variabile indipendente dicotomica, ordinale, nominale, continua, ) Interpretazione di % i incremento del log odds per un incremento unitario di x i con tutte le altre x j constanti