Assunzioni (Parte I)

Documenti analoghi
Introduzione all Analisi della Varianza (ANOVA)

Regressione Lineare Semplice e Correlazione

Il modello di regressione

Statistica multivariata Donata Rodi 17/10/2016

Analisi Multivariata dei Dati. Regressione Multipla

Il modello lineare misto

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

viii Indice generale

Modelli Lineari Generalizzati. (Cap. 10) Marcello Gallucci Univerisità Milano-Bicocca

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Esercizi di statistica

Esercitazione del

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

docente: J. Mortera/P. Vicard Nome

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Analisi Multivariata dei Dati

Regressione lineare semplice

Prova di recupero di Probabilità e Statistica - A * 21/04/2006

Analisi della regressione multipla

Misure Ripetute. Partizione della Varianza. Marcello Gallucci

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Teoria e tecniche dei test. Concetti di base

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Argomenti della lezione:

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Confronto tra due popolazioni Lezione 6

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Dispensa di Statistica

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Analisi della varianza

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Laboratorio di Statistica Aziendale Modello di regressione lineare semplice

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Analisi della Varianza Fattoriale

Il confronto fra medie

CAPITOLO 11 ANALISI DI REGRESSIONE

PROBABILITÀ ELEMENTARE

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

STATISTICA A K (60 ore)

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

Statistica Applicata all edilizia: il modello di regressione

Regressione lineare con un solo regressore

STATISTICA ESERCITAZIONE 13

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Esercizi riassuntivi di Inferenza

Analisi della Varianza - II

ESAME. 9 Gennaio 2017 COMPITO B

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

REGRESSIONE E CORRELAZIONE

Test F per la significatività del modello

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

Inferenza statistica II parte

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Elementi di Psicometria con Laboratorio di SPSS 1

Efficacia dei Trattamenti

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Analisi della varianza a una via

Analisi avanzate basate sulla regressione (Cap. 7)

Regressioni Non Lineari

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

Regressione lineare semplice: inferenza

Regressione lineare multipla

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

L indagine campionaria Lezione 3

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

La regressione lineare. Rappresentazione analitica delle distribuzioni

Test delle Ipotesi Parte I

Regressione e Correlazione (cap. 11) Importazione dati da file di testo

Contenuti: Capitolo 14 del libro di testo

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Esame di Statistica A-Di Prof. M. Romanazzi

Statistica multivariata

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

Transcript:

Assunzioni (Parte I) A M D Marcello Gallucci marcello.gallucci@unimib.it Lezione 10

Modello Lineare Generale La regressione semplice e multipla e l'anova sono sottocasi del modello lineare generale (GLM) La validità del GLM applicato ai propri dati dipende dalla soddisfazione di alcune assunzioni relative ai dati Se le assunzioni sono violate, i risultati saranno distorti

Assunzioni della Regressione Semplice Quando conduciamo una regressione o una ANOVA, facciamo implicitamente alcune assunzioni sui dati: Scopo dell operazione Stimiamo gli effetti di relazione Assunzione associata La relazione è lineare Stimiamo la varianza spiegata La varianza di errore è uguale per tutti i valori predetti Testiamo la significatività Gli errori della regressione sono normalmente distribuiti

Assunzioni e Conseguenze La violazione di queste assunzioni (se non sono vere) porta a risultati non corretti Assunzione Se violata La relazione è lineare Non apprezziamo la relazione La varianza di errore è uguale per tutti i valori predetti La varianza spiegata sarà distorta Gli errori della regressione sono normalmente distribuiti Il valore-p sarà diverso dal vero rischio di commettere un errore nel rifiutare H0

Assunzione 1: Linearità Come visto precedentemente, la relazione che riusciamo a catturare con la regressione è una relazione lineare

Relazioni non lineari Le relazioni non lineari non sono catturate dalla correlazione/regressione Le variabili A e B sono associate in maniera perfetta, eppure la loro correlazione è solo 0.2 B La correlazione/regressione è in grado di quantificare solo le relazioni lineari A

Relazioni non lineari La parte non lineare della relazione si perde in quanto le concordanza tra scostamenti (covarianza) è diversa ai diversi valori delle variabili Incrementa qui 5,0 4,0 r=0.1 Incrementa qui Decrementa qui 3,0 0 Z(q) 2,0 1,0 Incrementa qui 0,0-1,0 Incrementa qui 0 In media incrementa di.8 dev.stand. per ogni dev.stad. dell altra -2,0-4,0-2,0 0,0 2,0 4,0 Z(x) In media incrementa di solo.1 dev.stand. Per ogni dev.stad. dell altra Lezione: 7

Assunzione 2: Omoschedasticità Quando stimiamo la varianza spiegata assumiamo che la varianza di errore sia uguale per tutti i valori predetti, cioè gli errori siano omoschedastici

Assunzione 2: Omoschedasticità Consideriamo una regressione con atteggiamento verso il wrestling come VD e classe di età (giovani, adulti, anziani) come VI Varianza VD per giovani 15.00 10.00 = valore predetto attewrest 5.00 0.00 Varianza VD per adulti -5.00-10.00 Varianza VD per anziani 0.00 0.50 1.00 1.50 2.00 classeeta

Assunzione 2: Omoschedasticità Ricordiamo (lezione 9) che la varianza spiegata può essere intesa come varianza totale meno varianza di errore 15.00 R 2 è dato dalla percentuale di varianza non di errore s 2 =s 2 2 s y reg e s 2 =s 2 2 s reg y e R 2 = s y 2 s e 2 s y 2 attewrest 10.00 5.00 0.00-5.00-10.00 0.00 0.50 1.00 1.50 2.00 classeeta

Assunzione 2: Omoschedasticità classeeta.00 1.00 2.00 Totale Ricordiamo che la varianza spiegata può essere intesa come varianza totale meno varianza di errore Se le varianze sono diverse ai diversi valori della VI, la varianza di errore sarà diversa per i diversi valori Report Deviazione std. Deviazione std. Deviazione std. Deviazione std. Errore per i diversi livelli di VI attewrest z 1.59371.46257963 5.15549 1.496396 2.15933.62675264 3.44527 1.000000 attewrest 15.00 10.00 5.00 0.00-5.00-10.00 Errore piccolo per i giovani e anziani Errore grande per gli adulti 0.00 0.50 1.00 1.50 2.00 classeeta

Violazione Omoschedasticità Ricordiamo (lezione 9) che la varianza spiegata può essere intesa come varianza totale meno varianza di errore Dunque l R 2 non sarà accurato, in quanto a diversi valori spiegheremo quantità di verse di varianza Modello 1 Riepilogo del modello R-quadrato Errore std. R R-quadrato corretto della stima.142 a.020.010 3.42795 a. Stimatori: (Costante), classeeta attewrest 15.00 10.00 5.00 0.00-5.00-10.00 0.00 0.50 1.00 1.50 2.00 classeeta

Assunzione 3: Normalità Quando testiamo l ipotesi nulla sui coefficienti di regressione, assumiamo che gli errori associati alla regressione siano distribuiti normalmente

Errori di regressione Ricordiamo che la predizione non corrisponde di norma ai valori osservati Discrepanza osservati-predetti y i =a b yx x i predetti y i y i =y i a b yx x i errore Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l errore y i = a b yx x i y i y i retta errore

Distribuzione degli errori Tali errori si assume essere distribuiti normalmente. Cioè se facciamo un istogramma degli errori per tutti i soggetti, otteniamo uan distribuzione fatta a campana 8.00 Istogramma Variabile dipendente: attewrest 20 6.00 15 attetv 4.00 2.00 Frequenza 10 0.00 5-2.00 0.00 0.50 1.00 1.50 2.00 classeeta 0-3 -2-1 0 1 2 3 Regressione Residuo standardizzato Mean = -5.31E-16 Std. Dev. = 0.995 N = 100 Attegiamento TV = classe eta

Violazione normalità Se tali errori non sono distribuiti normalmente, il test di significatività non sarà corretto 10.00 Istogramma Variabile dipendente: attepol 8.00 30 25 attepol 6.00 4.00 Frequenza 20 15 2.00 10 0.00 5-2.00 0.00 0.50 1.00 1.50 2.00 classeeta 0-2 -1 0 1 2 3 4 5 Regressione Residuo standardizzato Mean = -6.33E-17 Std. Dev. = 0.995 N = 100 Attegiamento politico = classe eta

Test delle assunzioni

Analisi dei residui Per determinare se e quanto le assunzioni sono rispettare, è possible analizzare i residui della regressione/anova y i y i =y i a b yx x i

Calcolare i residui Il calcolo dei residui (di norma fatto dal software automaticamente) consta nella mera sottrazione, per ogni soggetto, del punteggio predetto da quello osservato y i y i =y i a b yx x i

Calcolare i residui Nell'interfaccia SPSS, accediamo all'opzione Salva

Calcolare i residui Chiediamo di salvare i residui ed i valori predetti Cosi' facendo verranno create due variabili PRE= valori predetti RES= valori residui

Controllo assunzioni Linearità e omoschedasticità: Se la relazione tra le variabili è lineare e l'assunzione di omoschedasticità è rispettata, lo scatterplot dei predetti vs residui deve avere una forma a casuale rispetto all'asse delle X

Omoschedastico Sembrano distribuiti a caso

Possibili violazioni Non sembrano distribuiti a caso

Esempi VI Continua Sembrano distribuiti a caso Non Sembrano distribuiti a caso

Esempi VI categorica Non Sembrano distribuiti a caso

Possibili violazioni Presenza di casi estremi outlier

Outlier Outlier o influential points sono residui di molto discordanti con la distribuzione nel campione. Essi corrispondono a soggetti con valori estremi o nella variabile dipendente o nella indipendente. Gli outlier si eliminano dall'analisi

Outlier Outlier o influential points sono residui di molto discordanti con la distribuzione nel campione. Essi corrispondono a soggetti con valori estremi o nella variabile dipendente o nella indipendente. Gli outlier si eliminano dall'analisi

Normalità dei residui Per verificare la normalità dei residui (cioè che si distribuiscano secondo una distribuzione Gaussiana normale), osserveremo l'istogramma

Test di Normalità E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia normale: test di Kolmogorov-Smirnov Il test di Kolmogorv-Smirnov testa la differenza tra la distribuzione dei residui e una normale gaussiana

Test di Normalità E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia normale: test di Kolmogorov-Smirnov Il test di Kolmogorv-Smirnov testa la differenza tra la distribuzione dei residui e una normale gaussiana Se il test NON è significativo, l'assunzione di normalità è rispettata

Normalità dei residui Per verificare la normalità dei residui (cioè che si distribuiscano secondo una distribuzione Gaussiana normale), osserveremo l'istogramma

Test di Normalità E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia normale: test di Kolmogorov-Smirnov Il test di Kolmogorv-Smirnov testa la differenza tra la distribuzione dei residui e una normale gaussiana

Verifica assunzioni Per poter affermare che i risultati della nostra regressione/anova sono validi, è necessario che i dati rispettino le assunzioni É possibile verificare le assunzioni analizzando i residui della regressione/anova Il diagramma di dispersione che lega i valori predetti ai residui deve avere un andamento piatto, simetrico e regolare (banda costante senza outliers) La distribusione dei residui deve essere normale (test di Kolmogorov-Smirnov) Nella prossima lezione affronteremo dei possibili rimedi alla violazione delle assunzioni

Fine Fine della Lezione X