Analisi Multivariata dei Dati Introduzione al corso e al modello statistico A M D Marcello Gallucci Milano-Bicocca Lezione: I
Programma Odierno I numeri del corso Programma del corso Concetti Statistici Introduttivi Lezione: I
Numeri del Corso 48 lezioni, 2 ore l una (a parte le pause) 16 ore di esercitazioni 2 appelli a sessione + recuperi 8 CFU Lezione: I
Stile del Corso Enfasi sui concetti Enfasi sul ragionamento statistico Minimo utilizzo di formule Utilizzo di software per i calcoli Enfasi sulla interpretazione dei risultati Lezione: I
Software Statistico Il programma SPSS (V21) verra usato per condurre i calcoli necessari alle analisi L utilizzo di SPSS verra insegnato nelle esercitazioni Varie fonti offrono guide pratiche a SPSS Vari testi in biblioteca Lezione: I
Esercitazioni Il corso si completa di 16 ore di esercitazione da tenersi nelle aule informatiche Lo scopo delle esercitazioni e di imparare ad eseguire ed interpretare praticamente le analisi statistiche studiate a lezione Le esercitazione inizieranno la settimana prossima. I gruppi verranno fatti dopo l'iscrizione al gruppo via pagina web del corso Lezione: I
Libri di Testo Il libro di testo è Gallucci, Leone (2012). Modelli statistici nelle scienze sociali Le lezioni possono essere scaricate dalla pagina del corso I capitoli da studiare sono elencati nel materiale del corso http://elearning.unimib.it/course/view.php?id=5601 Lezione: I
Esami L esame e scritto e si svolge nei laboratori informatici dove lo studente potrà utilizzare il software statistico per rispondere alle domande Si chiedera allo studente di rispondere a domande riguardanti una ricerca empirica su cui lo studente condurrà le analisi usando SPSS. Tutti possono integrare il voto con l esame orale L esame orale potrebbe abbassare il voto!! Lezione: I
Scopi del Corso Lo studio approfondito di alcune importanti Tecniche Statistiche Univariate Analisi della varianza Regressione lineare e logistica Modelli lineari generalizzati Inteso come ripasso di corsi precedendi Studio di tecniche multivariate per l analisi di grandezze psicologiche osservate ripetutamente nel tempo o in modalità ripetute Analisi della Varianza a misure ripetute Modelli misti Focus centrale del corso Analisi fattoriale Lezione: I
Tecniche Multivariate Cosa sono? Per capire le tecniche multivariate dobbiamo ricordare cosa sono le tecniche univariate Per ricordare le tecniche univariate dobbiamo ricordare la logica delle tipo tecniche statistiche che andremo a studiare Tecniche volte allo studio delle relazioni tra variabili Lezione: I
Tecniche Univariate Techniche volte a studiare e quantificare gli effetti di una o più variabili indipendenti (variabili esplicative o predittori) su una variabile dipendente (variabile di interesse) Cosa intendiamo per effetti Cosa intendiamo per variabile dipendente Cosa intendiamo per variabili indipendenti Lezione: I
Relazioni statistiche La maggior parte delle tecniche statistiche che conosciamo (e incontreremo) definiscono un modello statistico delle relazioni fra variabili di interesse Y X Differenze medie scatterplot X Path Diagram Y
Modello Statistico Un semplice modello statistico è una rappresentazione efficiente e compatta dei dati raccolti per descrivere un fenomeno empirico Y X Differenze medie scatterplot X Path Diagram Y
Esempio: la media Q: Come vanno gli studenti al mio corso? R: Hanno una media del 28.4 28.4 i X i N = X
Introduzione Il modello statistico e la rappresentazione che ne facciamo serve (tra l'altro) a tre scopi: Descrizione efficiente e compatta Predizione del futuro 28.4 Inferenza sulla popolazione Cioè: comprensione del fenomeno
Errore di approssimazione Come tutte le rappresentazioni compatte ed efficienti, anche quella statistica è una approssimazione dei dati rappresentati Se, per semplificare, diremo che la performance è di 28.4, misrappresenteremo alcuni dei voti effettivi 28.4
Errore di approssimazione Calcolando questo errore per ogni caso (ogni studente), elevandolo al quadrato (sbagliare in più o in meno è uguale) e facendo la media per ogni caso, quantifichiamo l'errore medie associato alla media i X i X 2 N 1 =Var X 28.4
Inferenza statistica Il modello statistico è associato ad una serie di test inferenziali che ci consentono di trarre conclusioni sulla popolazione di riferimento Var X μ ( X ) N =ttest 28.4
Modello statistico se: Il modello statistico sarà una buona rappresentazione dei dati I parametri sono modellati correttamente Gli errori sono modellati correttamente Media La struttura dei dati è rispettata
Scegliere un modello statistico Per costruire un corretto modello statistico dei nostri dati dobbiamo sapere una serie di cose: Cosa ci serve il modello (lo scopo dell'analisi) Che tipo di variabili abbiamo Che tipo di relazioni vogliamo studiare Quali sono le unità di misurazioni dei dati Come sono strutturati i nostri dati
Il modello di regressione (Capitolo 2 e 3)
Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti sorrisi le persone ai tavoli producevano (ogni 10 minuti) e quante birre avevano bevuto fino a quel momento Birre Sorrisi 0 1 1 3 2 4 3 3 4 5 5 6 6 8 7 8 8 9 9 8 10 7 SMILES 10 8 6 4 2 0 0 2 NBEERS 4 6 8 10 12
Concentti fondamentali Lo scopo della retta di regressione è di rappresentare la relazione lineare tra la variabile indipendente e la dipendente Nel caso più semplice, abbiamo una retta senplice y i =a+ b y i + e i ŷ i =a+ b x i
Concetti fondamentali La retta può essere descritta mediante due coefficienti: il termine costante ed il coefficiente angolare Coefficients a ŷ i =a+ b x i Model 1 (Constant) NBEERS Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig. 2.091.684 3.057.014.709.116.898 6.132.000 Termine constante (o intercetta) Coefficiente di regressione (angolare)
Coefficiente costante a l'intercetta della linea: indica il valore atteso (medio) della VD per la VI=0 ŷ=a+ b 0 Y Y Quando un partecipante ha bevuto zero birre, mostra (in media) 2.09 sorrisi
Coefficiente di regressione B è il coefficiente angolare della retta: indica il cambiamento atteso nella VD al variare di una unità della VI I sorrisi aumentano di B unità Per ogni birra che si beve, i sorrisi aumentano in media di.709 unità Per una unità in più della VI: una birra in più
Coefficienti standardizzati Il coefficiente Beta equivale al coefficiente di regressione calcolato dopo aver standardizzato tutte le variabili Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig. 2.091.684 3.057.014.709.116.898 6.132.000 Il coefficiente standardizzato è uguale al coefficiente r di Pearson
Correlazione: Interpretazione La correlazione indica il cambiamento atteso in v, al variare di x di una deviazione standard dettaglio Legge di relazione r=0.78 vˆ r z xv x z.78 Mi aspetto una scostamento pari a 78% della dev.std di v 1 Mi muovo di una dev.std. Lezione: I
Test inferenziale I coefficenti vengono testati per la loro significatività statistica mediante il t-test t test Model 1 (Constant) NBEERS Coefficients a Unstandardized Coefficients a. Dependent Variable: SMILES Standardized Coefficients B Std. Error Beta t Sig. 2.091.684 3.057.014.709.116.898 6.132.000 Se Sig. < 0.05, diremo che B (e ) sono significativamente diversi da zero
Bonta di adattamento Non tutte le rette di regressione hanno lo stesso potere predittivo, cioè la stessa capacità di adattarsi ai dati osservati bassa alta
Errore di regressione Notiamo che la predizione non corrisponde di norma ai valori osservati yˆ i a b yx x i predetti Discrepanza osservatipredetti y i yˆ i y i ( a b yx x i ) errore Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l errore y i ( a b ) ( ˆ yxxi yi yi ) retta errore
Quanto e grande l errore di regressione Calcoliamoci la distanza media tra i punti osservati e la retta Le distanze si calcolano mediante le differenze al quadrato Discrepanza osservatipredetti n i 1 ( y ˆ i yi n 1 ) 2 s 2 e Notiamo che questa e una varianza, che chiameremo varianza di errore
Proporzione riduzione errore Il modello si adatterà ai dati tanto più riduce l'errore di predizione rispetto a non usare tale modello La logica è di confrontare due casi: L'errore calcolato per la regressione data L'errore associato alla media, cioè errore associato a non utilizzare la regressione
Proporzione riduzione errore Senza regressione l unica predizione plausibile di Y e la media di Y Predizione senza regressione Errore senza regressione yˆ M i y s 2 y ( yi n M 1 ) 2 Le deviazioni dalla media (la varianza) non siamo in grado di spiegarle YY2 s y
Proporzione riduzione errore Con la regressione faremo una certa predizione Predizione con regressione Errore con regressione yˆ i a b yx x i s 2 e ( y n i 1 yˆ i ) 2 X Le deviazioni dalla regressione (varianza di errore) non siamo in grado di spiegarle YY s 2 e
R-quadro Dunque il fit della regressione è tanto buono quanto riesce a migliorare la predizione, cioè a diminuire l'errore Errore senza regressione 2 sy Y 2 s reg X s 2 y s 2 y s 2 e s 2 reg s 2 y R 2 yx Errore con regressione Cioe : Quanto si riduce l errore di predizione grazie al fatto che usiamo la regressione
Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da più di una variabile Parleremo di Regressione Multipla x b yx. w w y b yw. x
Esempio Effetti multipli Vogliamo predire il numero di sorrisi sia con il numero di birre che con il tratto estroversione del soggetto Regressione Multipla Birre b yx. w Estrovers. Sorrisi b yw. x
Effetti multipli La regressione multipla aggiunge termini lineari (altre VI) alla retta di regressione Legge di relazione della Regressione Multipla x w y Standardizzata ˆ y x z yx. w z yw. x w z Non Standardizzata yˆ a b x b yx. w yw. x w
Interpretazione Il coefficiente di regressione esprime l effetto diretto di x su y, togliendo l effetto che passa indirettamente per w Effetto diretto b yx. w byx byw. x b wx Effetto indiretto x b yx. w b wx w b yw. x y
Effetti Parziali Togliere l effetto indiretto è equivalente a bloccare la possibilità che x vada su y mediante w: Il coefficiente viene dunque detto coefficiente parziale, cioè l effetto di x parzializzando l effetto di w Effetto diretto Effetto indiretto b wx x w b yx. w b yw. x y
Rappresentazione geometrica yˆ a B y1 x 1 B y2 x 2
Interpretazione geometrica Effetto Unico of X 2 for X 1 =-10 Effetto unico di X 2 per X 1 =0 Effetto unico di X 2 per X 1 =10
Intercetta (o costante) L'intercetta indica il valore atteso della VD per tutte le VI uguali a 0 Y =a B y1. 2 0 B y2.1 0 Yˆ a
Esempio Un ricercatore ha misurato la capacita di lettura e la produzione linguistica con due test in bimbi da 5 e 8 anni Si propone di studiare se la capacità di lettura è influenzata dalla produzione linguistica eta Validi 5.00 6.00 7.00 8.00 Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 36 30.0 30.0 30.0 27 22.5 22.5 52.5 25 20.8 20.8 73.3 32 26.7 26.7 100.0 120 100.0 100.0 Statistiche descrittive lettura lingua Validi (listwise) Deviazione N Minimo Massimo Media std. 120 1.82 25.68 12.8629 3.98934 120.02 13.41 6.3781 2.92360 120
Esempio Incominciamo con una regressione semplice Riepilogo del modello lettura b yx lingua Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.178 a.032.023 3.94246 a. Stimatori: (Costante), lingua ANOVA b Varianza spiegata Coefficienti a Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), lingua b. Variabile dipendente: lettura Somma dei Media dei quadrati df quadrati F Sig. 59.794 1 59.794 3.847.052 a 1834.070 118 15.543 1893.864 119 Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non Coefficienti standardizzati standardizzati Coefficienti di regressione B Errore std. Beta t Sig. 11.316.867 13.057.000.242.124.178 1.961.052
Esempio Aggiungiamo l età Riepilogo del modello lettura=b yx.w lingua b yw. x eta Modello 1 R-quadrato Errore std. R R-quadrato corretto della stima.641 a.411.401 3.08750 a. Stimatori: (Costante), eta, lingua Varianza spiegata Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), eta, lingua b. Variabile dipendente: lettura ANOVA b Somma dei Media dei quadrati df quadrati F Sig. 778.541 2 389.271 40.835.000 a 1115.323 117 9.533 1893.864 119 Coefficienti a Modello 1 (Costante) lingua eta a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.525 -.077.104 -.056 -.742.460 2.229.257.659 8.683.000 Notiamo come è cambiato l effetto della lettura Coefficienti di regressione
Esempio Concluderemo che la produzione linguistica è debolmente associata alla capacità di lettura Coefficienti a Regressione semplice Modello 1 (Costante) lingua a. Variabile dipendente: lettura Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. 11.316.867 13.057.000.242.124.178 1.961.052 Coefficienti a Regressione multipla Modello 1 (Costante) lingua eta Coefficienti non standardizzati Coefficienti standardizzati B Errore std. Beta t Sig. -1.003 1.573 -.638.525 -.077.104 -.056 -.742.460 2.229.257.659 8.683.000 a. Variabile dipendente: lettura Ma questa associazione dipende dalle differenze dovute all età A parità di età, non vi è una relazione tra produzione linguistica e capacità di lettura
Effetti Statistici Per effetto statistico si intende quanto il cambiamento di una o più variabili ha effetto sul cambiamento di un altra variabile Quando possiamo quantificare il cambiamento in termini di variabilità, possiamo interpretare gli effetti statistici come segue: Interpretazione esplicativa: quanto siamo in grado di spiegare della variabilità di una variabile sulla base della variabilità delle altre Interpretazione predittiva: quanto siamo in grado di predirre della variabilità di una variabile basandoci sulla variabilità delle altre Lezione: I
Fine Fine della Lezione I Lezione: I