Analisi Multivariata dei Dati

Documenti analoghi
Il modello di regressione

Metodologie Quantitative

Analisi avanzate basate sulla regressione (Cap. 7)

Il modello lineare misto

Introduzione all Analisi della Varianza (ANOVA)

Metodologie Quantitative

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata Donata Rodi 17/10/2016

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Analisi della Varianza Fattoriale

viii Indice generale

Misure Ripetute. Partizione della Varianza. Marcello Gallucci

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Statistica di base per l analisi socio-economica

ANALISI MULTIVARIATA

Associazione tra caratteri quantitativi: gli indici di correlazione

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Esercitazione del

Modelli Lineari Generalizzati. (Cap. 10) Marcello Gallucci Univerisità Milano-Bicocca

Statistica. Alfonso Iodice D Enza

Metodologie Quantitative

Statistica. Alfonso Iodice D Enza

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Analisi della varianza a una via

I TEST STATISTICI. dott.ssa Gabriella Agrusti

Teoria e tecniche dei test. Concetti di base

Tecniche statistiche di analisi del cambiamento

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Distribuzioni e inferenza statistica

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Test per la correlazione lineare

Test F per la significatività del modello

CAPITOLO 11 ANALISI DI REGRESSIONE

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Scheda Corso di STATISTICA (D.M. 270 per 9 CFU) Anno Accademico 2014/2015 (versione in Italiano)

Strumenti informatici Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS

Strumenti di indagine per la valutazione psicologica

Es. la performance all esame in relazione alle ore di studio a casa e alle abilità cognitive

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Elementi di Psicometria

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

REGRESSIONE E CORRELAZIONE

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

STATISTICA. Esercizi vari

Corso di Psicometria Progredito

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 3PTVE A. S. 2015/2016

METODO DEI MINIMI QUADRATI

Analisi della Varianza - II

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Analisi della varianza

Proprietà della varianza

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

b) Calcolare la devianza tra i gruppi (devianza esterna), la devianza entro i gruppi (devianza interna) e la devianza totale

PIANO DI LAVORO ANNUALE DEL DIPARTIMENTO DI MATERIA NUCLEI FONDAMENTALI DI CONOSCENZE

8. ANALISI DELLA COVARIANZA (ANCOVA)

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 4BPT A. S. 2015/2016

Anno Scolastico 2015/16 PROGRAMMAZIONE ANNUALE CLASSE PRIMA LICEO LINGUISTICO LICEO DELLE SCIENZE UMANE LICEO ECONOMICO-SOCIALE LICEO MUSICALE

Statistica per le ricerche di mercato

LE DISTRIBUZIONI CAMPIONARIE

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Transcript:

Analisi Multivariata dei Dati Introduzione al corso e al modello statistico A M D Marcello Gallucci Milano-Bicocca Lezione: I

Programma Odierno I numeri del corso Programma del corso Concetti Statistici Introduttivi Lezione: I

Numeri del Corso 48 lezioni, 2 ore l una (a parte le pause) 16 ore di esercitazioni 2 appelli a sessione + recuperi 8 CFU Lezione: I

Stile del Corso Enfasi sui concetti Enfasi sul ragionamento statistico Minimo utilizzo di formule Utilizzo di software per i calcoli Enfasi sulla interpretazione dei risultati Lezione: I

Software Statistico Il programma SPSS (V21) verra usato per condurre i calcoli necessari alle analisi L utilizzo di SPSS verra insegnato nelle esercitazioni Varie fonti offrono guide pratiche a SPSS Vari testi in biblioteca Lezione: I

Esercitazioni Il corso si completa di 16 ore di esercitazione da tenersi nelle aule informatiche Lo scopo delle esercitazioni e di imparare ad eseguire ed interpretare praticamente le analisi statistiche studiate a lezione Le esercitazione inizieranno la settimana prossima. I gruppi verranno fatti dopo l'iscrizione al gruppo via pagina web del corso Lezione: I

Libri di Testo Il libro di testo è Gallucci, Leone (2012). Modelli statistici nelle scienze sociali Le lezioni possono essere scaricate dalla pagina del corso I capitoli da studiare sono elencati nel materiale del corso http://elearning.unimib.it/course/view.php?id=5601 Lezione: I

Esami L esame e scritto e si svolge nei laboratori informatici dove lo studente potrà utilizzare il software statistico per rispondere alle domande Si chiedera allo studente di rispondere a domande riguardanti una ricerca empirica su cui lo studente condurrà le analisi usando SPSS. Tutti possono integrare il voto con l esame orale L esame orale potrebbe abbassare il voto!! Lezione: I

Scopi del Corso Lo studio approfondito di alcune importanti Tecniche Statistiche Univariate Analisi della varianza Regressione lineare e logistica Modelli lineari generalizzati Inteso come ripasso di corsi precedendi Studio di tecniche multivariate per l analisi di grandezze psicologiche osservate ripetutamente nel tempo o in modalità ripetute Analisi della Varianza a misure ripetute Modelli misti Focus centrale del corso Analisi fattoriale Lezione: I

Tecniche Multivariate Cosa sono? Per capire le tecniche multivariate dobbiamo ricordare cosa sono le tecniche univariate Per ricordare le tecniche univariate dobbiamo ricordare la logica delle tipo tecniche statistiche che andremo a studiare Tecniche volte allo studio delle relazioni tra variabili Lezione: I

Tecniche Univariate Techniche volte a studiare e quantificare gli effetti di una o più variabili indipendenti (variabili esplicative o predittori) su una variabile dipendente (variabile di interesse) Cosa intendiamo per effetti Cosa intendiamo per variabile dipendente Cosa intendiamo per variabili indipendenti Lezione: I

Relazioni statistiche La maggior parte delle tecniche statistiche che conosciamo (e incontreremo) definiscono un modello statistico delle relazioni fra variabili di interesse Y X Differenze medie scatterplot X Path Diagram Y

Modello Statistico Un semplice modello statistico è una rappresentazione efficiente e compatta dei dati raccolti per descrivere un fenomeno empirico Y X Differenze medie scatterplot X Path Diagram Y

Esempio: la media Q: Come vanno gli studenti al mio corso? R: Hanno una media del 28.4 28.4 i X i N = X

Introduzione Il modello statistico e la rappresentazione che ne facciamo serve (tra l'altro) a tre scopi: Descrizione efficiente e compatta Predizione del futuro 28.4 Inferenza sulla popolazione Cioè: comprensione del fenomeno

Errore di approssimazione Come tutte le rappresentazioni compatte ed efficienti, anche quella statistica è una approssimazione dei dati rappresentati Se, per semplificare, diremo che la performance è di 28.4, misrappresenteremo alcuni dei voti effettivi 28.4

Errore di approssimazione Calcolando questo errore per ogni caso (ogni studente), elevandolo al quadrato (sbagliare in più o in meno è uguale) e facendo la media per ogni caso, quantifichiamo l'errore medie associato alla media i X i X 2 N 1 =Var X 28.4

Inferenza statistica Il modello statistico è associato ad una serie di test inferenziali che ci consentono di trarre conclusioni sulla popolazione di riferimento Var X μ ( X ) N =ttest 28.4

Modello statistico se: Il modello statistico sarà una buona rappresentazione dei dati I parametri sono modellati correttamente Gli errori sono modellati correttamente Media La struttura dei dati è rispettata

Scegliere un modello statistico Per costruire un corretto modello statistico dei nostri dati dobbiamo sapere una serie di cose: Cosa ci serve il modello (lo scopo dell'analisi) Che tipo di variabili abbiamo Che tipo di relazioni vogliamo studiare Quali sono le unità di misurazioni dei dati Come sono strutturati i nostri dati

Il modello di regressione (Capitolo 2 e 3)

Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti sorrisi le persone ai tavoli producevano (ogni 10 minuti) e quante birre avevano bevuto fino a quel momento Birre Sorrisi 0 1 1 3 2 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 SMILES 10 8 6 4 2 0 0 2 NBEERS 4 6 8 10 12

Concentti fondamentali Lo scopo della retta di regressione è di rappresentare la relazione lineare tra la variabile indipendente e la dipendente Nel caso più semplice, abbiamo una retta senplice y i =a+ b y i + e i ŷ i =a+ b x i

Concetti fondamentali La retta può essere descritta mediante due coefficienti: il termine costante ed il coefficiente angolare Coefficients a ŷ i =a+ b x i Model 1 (Constant) NBEERS Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig. 2.091.684 3.057.014.709.116.898 6.132.000 Termine constante (o intercetta) Coefficiente di regressione (angolare)

Coefficiente costante a l'intercetta della linea: indica il valore atteso (medio) della VD per la VI=0 ŷ=a+ b 0 Y Y Quando un partecipante ha bevuto zero birre, mostra (in media) 2.09 sorrisi

Coefficiente di regressione B è il coefficiente angolare della retta: indica il cambiamento atteso nella VD al variare di una unità della VI I sorrisi aumentano di B unità Per ogni birra che si beve, i sorrisi aumentano in media di.709 unità Per una unità in più della VI: una birra in più

Coefficienti standardizzati Il coefficiente Beta equivale al coefficiente di regressione calcolato dopo aver standardizzato tutte le variabili Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig. 2.091.684 3.057.014.709.116.898 6.132.000 Il coefficiente standardizzato è uguale al coefficiente r di Pearson

Correlazione: Interpretazione La correlazione indica il cambiamento atteso in v, al variare di x di una deviazione standard dettaglio Legge di relazione r=0.78 vˆ r z xv x z.78 Mi aspetto una scostamento pari a 78% della dev.std di v 1 Mi muovo di una dev.std. Lezione: I

Test inferenziale I coefficenti vengono testati per la loro significatività statistica mediante il t-test t test Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig. 2.091.684 3.057.014.709.116.898 6.132.000 Se Sig. < 0.05, diremo che B (e ) sono significativamente diversi da zero

Bonta di adattamento Non tutte le rette di regressione hanno lo stesso potere predittivo, cioè la stessa capacità di adattarsi ai dati osservati bassa alta

Errore di regressione Notiamo che la predizione non corrisponde di norma ai valori osservati yˆ i a b yx x i predetti Discrepanza osservatipredetti y i yˆ i y i ( a b yx x i ) errore Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l errore y i ( a b ) ( ˆ yxxi yi yi ) retta errore

Quanto e grande l errore di regressione Calcoliamoci la distanza media tra i punti osservati e la retta Le distanze si calcolano mediante le differenze al quadrato Discrepanza osservatipredetti n i 1 ( y ˆ i yi n 1 ) 2 s 2 e Notiamo che questa e una varianza, che chiameremo varianza di errore

Proporzione riduzione errore Il modello si adatterà ai dati tanto più riduce l'errore di predizione rispetto a non usare tale modello La logica è di confrontare due casi: L'errore calcolato per la regressione data L'errore associato alla media, cioè errore associato a non utilizzare la regressione

Proporzione riduzione errore Senza regressione l unica predizione plausibile di Y e la media di Y Predizione senza regressione Errore senza regressione yˆ M i y s 2 y ( yi n M 1 ) 2 Le deviazioni dalla media (la varianza) non siamo in grado di spiegarle YY2 s y

Proporzione riduzione errore Con la regressione faremo una certa predizione Predizione con regressione Errore con regressione yˆ i a b yx x i s 2 e ( y n i 1 yˆ i ) 2 X Le deviazioni dalla regressione (varianza di errore) non siamo in grado di spiegarle YY s 2 e

R-quadro Dunque il fit della regressione è tanto buono quanto riesce a migliorare la predizione, cioè a diminuire l'errore Errore senza regressione 2 sy Y 2 s reg X s 2 y s 2 y s 2 e s 2 reg s 2 y R 2 yx Errore con regressione Cioe : Quanto si riduce l errore di predizione grazie al fatto che usiamo la regressione

Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da più di una variabile Parleremo di Regressione Multipla x b yx. w w y b yw. x

Esempio Effetti multipli Vogliamo predire il numero di sorrisi sia con il numero di birre che con il tratto estroversione del soggetto Regressione Multipla Birre b yx. w Estrovers. Sorrisi b yw. x

Effetti multipli La regressione multipla aggiunge termini lineari (altre VI) alla retta di regressione Legge di relazione della Regressione Multipla x w y Standardizzata ˆ y x z yx. w z yw. x w z Non Standardizzata yˆ a b x b yx. w yw. x w

Interpretazione Il coefficiente di regressione esprime l effetto diretto di x su y, togliendo l effetto che passa indirettamente per w Effetto diretto b yx. w byx byw. x b wx Effetto indiretto x b yx. w b wx w b yw. x y

Effetti Parziali Togliere l effetto indiretto è equivalente a bloccare la possibilità che x vada su y mediante w: Il coefficiente viene dunque detto coefficiente parziale, cioè l effetto di x parzializzando l effetto di w Effetto diretto Effetto indiretto b wx x w b yx. w b yw. x y

Rappresentazione geometrica yˆ a B y1 x 1 B y2 x 2

Interpretazione geometrica Effetto Unico of X 2 for X 1 =-10 Effetto unico di X 2 per X 1 =0 Effetto unico di X 2 per X 1 =10

Intercetta (o costante) L'intercetta indica il valore atteso della VD per tutte le VI uguali a 0 Y =a B y1. 2 0 B y2.1 0 Yˆ a

Esempio Un ricercatore ha misurato la capacita di lettura e la produzione linguistica con due test in bimbi da 5 e 8 anni Si propone di studiare se la capacità di lettura è influenzata dalla produzione linguistica eta Validi 5.00 6.00 7.00 8.00 Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 36 30.0 30.0 30.0 27 22.5 22.5 52.5 25 20.8 20.8 73.3 32 26.7 26.7 100.0 120 100.0 100.0 Statistiche descrittive lettura lingua Validi (listwise) Deviazione N Minimo Massimo Media std. 120 1.82 25.68 12.8629 3.98934 120.02 13.41 6.3781 2.92360 120

Esempio Incominciamo con una regressione semplice Riepilogo del modello lettura b yx lingua Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.178 a.032.023 3.94246 a. Stimatori: (Costante), lingua ANOVA b Varianza spiegata Coefficienti a Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), lingua b. Variabile dipendente: lettura Somma dei Media dei quadrati df quadrati F Sig. 59.794 1 59.794 3.847.052 a 1834.070 118 15.543 1893.864 119 Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non Coefficienti standardizzati standardizzati Coefficienti di regressione B Errore std. Beta t Sig. 11.316.867 13.057.000.242.124.178 1.961.052

Esempio Aggiungiamo l età Riepilogo del modello lettura=b yx.w lingua b yw. x eta Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.641 a.411.401 3.08750 a. Stimatori: (Costante), eta, lingua Varianza spiegata Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), eta, lingua b. Variabile dipendente: lettura ANOVA b Somma dei Media dei quadrati df quadrati F Sig. 778.541 2 389.271 40.835.000 a 1115.323 117 9.533 1893.864 119 Coefficienti a Modello 1 (Costante) lingua eta a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.525 -.077.104 -.056 -.742.460 2.229.257.659 8.683.000 Notiamo come è cambiato l effetto della lettura Coefficienti di regressione

Esempio Concluderemo che la produzione linguistica è debolmente associata alla capacità di lettura Coefficienti a Regressione semplice Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. 11.316.867 13.057.000.242.124.178 1.961.052 Coefficienti a Regressione multipla Modello 1 (Costante) lingua eta Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.525 -.077.104 -.056 -.742.460 2.229.257.659 8.683.000 a. Variabile dipendente: lettura Ma questa associazione dipende dalle differenze dovute all età A parità di età, non vi è una relazione tra produzione linguistica e capacità di lettura

Effetti Statistici Per effetto statistico si intende quanto il cambiamento di una o più variabili ha effetto sul cambiamento di un altra variabile Quando possiamo quantificare il cambiamento in termini di variabilità, possiamo interpretare gli effetti statistici come segue: Interpretazione esplicativa: quanto siamo in grado di spiegare della variabilità di una variabile sulla base della variabilità delle altre Interpretazione predittiva: quanto siamo in grado di predirre della variabilità di una variabile basandoci sulla variabilità delle altre Lezione: I

Fine Fine della Lezione I Lezione: I