PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Documenti analoghi
MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Argomenti della lezione:

Corso di Psicometria Progredito

Teoria e tecniche dei test. Concetti di base

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Analisi della varianza

Consideriamo due variabili quantitative Y e X, e supponiamo di essere interessati a comprendere come la Y

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

Dispensa di Statistica

Rappresentazioni grafiche di distribuzioni doppie

Corso in Statistica Medica

STATISTICA. Esercitazione 5

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Statistica descrittiva: analisi di regressione

REGRESSIONE E CORRELAZIONE

STATISTICA. Regressione-2

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Regressione lineare semplice

Metodi statistici per le ricerche di mercato

Dalla correlazione all uso della regressione lineare multipla e logistica

Elaborazione statistica di dati

Esercizi di statistica

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Modelli e procedure per l educazione degli adulti

STATISTICA. Regressione-4 ovvero Macron!

Statistica. Alfonso Iodice D Enza

SCOPO DELL ANALISI DI CORRELAZIONE

La regressione lineare. Rappresentazione analitica delle distribuzioni

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica. Alfonso Iodice D Enza

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Metodi statistici per le ricerche di mercato

Matematica Lezione 22

Statistica multivariata Donata Rodi 17/10/2016

Analisi della varianza

Regressione Lineare Semplice e Correlazione

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Argomenti della lezione:

Metodologie Quantitative

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Statistica di base per l analisi socio-economica

Variabilità. ..senza variabilità non ci sarebbe la statistica

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

Capitolo 12 La regressione lineare semplice

Esercitazione del

Analisi della varianza a una via

Regressione & Correlazione

1.1 Obiettivi della statistica Struttura del testo 2

Elaborazione statistica di dati

Istituzioni di Statistica

Biostatistica Laurea Magistrale in Biologia

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Analisi bivariata. Il caso di caratteri quantitativi

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Statistica. Alfonso Iodice D Enza

La regressione lineare semplice

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

Esercizi di statistica inferenziale

Esercitazione di Statistica Indici di associazione

Associazione tra caratteri quantitativi: gli indici di correlazione

Copyright Esselibri S.p.A.

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Indipendenza, Dipendenza e interdipendenza

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Analisi della varianza

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

STATISTICA ESERCITAZIONE 13

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

STATISTICA. Regressione-1

Statistica. Alfonso Iodice D Enza

Metodologie Quantitative

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

standardizzazione dei punteggi di un test

Statistica 1 A.A. 2015/2016

Statistica Un Esempio

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Esame di Statistica A-Di Prof. M. Romanazzi

Premessa: la dipendenza in media

distribuzione normale

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

STATISTICA A K (60 ore)

Statistica Inferenziale

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Teoria e tecniche dei test

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

Transcript:

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA COME INDIPENDENTE) E UNA VARIABILE CARDINALE (ASSUNTA COME DIPENDENTE) OBIETTIVO: STIMARE SE E IN QUALE MISURA LA VARIABILITA (IN SENSO STRETTO LA VARIANZA) DELLA VARIABILE CARDINALE (Y) SIA ATTRIBUIBILE ALLA VARIABILE NOMINALE (X) DALLA QUALE SI IPOTIZZA CHE ESSA DIPENDA (SE L IPOTESI PRENDE IN CONSIDERAZIONE UNA SOLA VARIABILE INDIPENDENTE SI PARLA DI ANALISI DELLA VARIANZA A UNA VIA O A UNA DIMENSIONE - ANOVA). PREMESSA: LA VARIANZA TOTALE DELLA VARIABILE INDIPENDENTE PUO ESSERE SCOMPOSTA IN DUE COMPONENTI: A) VARIANZA INTRA-GRUPPO, RELATIVA/INTERNA A CIASCUNA CATEGORIA DELLA VARIABILE INDIPENDENTE B) VARIANZA INTER-GRUPPO, RELATIVA ALLE DIVERSE CATEGORIE DELLA VARIABILE INDIPENDENTE IPOTESI CONDIZIONALE : SE X Y ALLORA LA VARIANZA INTRA-GRUPPO DEL CARATTERE DIPENDENTE SARA MINIMA O COMUNQUE NOTEVOLMENTE INFERIORE RISPETTO ALLA VARIANZA INTER-GRUPPO 1

ES: SI IPOTIZZI CHE LA PERCENTUALE DEI VOTI ASSEGNATI AD UN DATO PARTITO (a) IN CASO DI ELEZIONI POLITICHE PRESENTI, NEL NOSTRO PAESE, FORTI DIFFERENZIAZIONI TERRITORIALI, CONSIDERATE LA DIVERSA STRUTTURA SOCIO-ECONOMICA E LA DIVERSA CULTURA POLITICA DELLE PROVINCE ITALIANE. DA CUI X = ZONA GEO-POLITICA: variabile nominale che classifica/raggruppa le province italiane considerate in quattro categorie : ZONA A, ZONA B, ZONA C, ZONA D Y= % DI VOTO AL PARTITO (a): variabile cardinale, il cui andamento in funzione della X è esaminato nella Tabella seguente: (Tab. 13.23, in Corbetta, 1999, p. 600) E POSSIBILE DIMOSTRARE CHE: lo scarto di ogni singolo valore dalla media generale è uguale allo scarto dello stesso valore dalla media del gruppo cui appartiene + lo scarto della media del gruppo cui appartiene dalla media generale: ES: 37,1 39,0 = (37,1 38,2) + (38,2 39,0) = -1,9 = (- 1,1) + (- 0,9) E POSSIBILE DIMOSTRARE ANCHE CHE: la somma dei quadrati degli scarti di tutti i valori dalla media generale (somma dei quadrati o devianza = SQ totale) è uguale alla somma dei quadrati degli scarti dei singoli valori dalla rispettiva media di gruppo (SQ interna o intra-gruppo) + la somma dei quadrati degli scarti delle medie di gruppo dalla media generale (SQ esterna o inter-gruppo) == 2

TEOREMA FONDAMENTALE DELLA VARIANZA SQtotale= SQinterna o intra-gruppo + SQ esterna o inter-gruppo SQ interna = devianza non spiegata SQ esterna = devianza spiegata dalla variabile indipendente DA CUI 1. Quanto più i gruppi sono omogenei al loro interno, tanto più bassa sarà la SQ interna e tanto più la SQ totale sarà spiegata dalla SQ esterna: in tal caso la relazione di associazione tra le due variabili sarà perfetta ; 2. Quanto più i gruppi sono omogenei tra loro, tanto più bassa sarà la SQ esterna tanto più la SQ totale sarà dovuta alla SQ interna :in tal caso tra le due variabili ci sarà assenza di associazione. PASSI PROCEDURALI 1. Si calcolano la SQ interna e la SQ esterna della distribuzione bivariata presa in esame (Cfr. Tab. 13.24, in Corbetta, p. 602) 2. Di entrambe le componenti della varianza si calcolano i quadrati medi (QM)( mean squares) dividendo ciascuna somma di quadrati (devianza) per il relativo numero di gradi di libertà (Gl) Gl della devianza esterna = k (n dei gruppi = modalità della variabile indipendente) 1 Gl della devianza interna = N (dei casi) k Gl totale= N-1 QM interna o intragruppo = SQ interna / N-k QM esterna o intergruppo = SQ esterna / k-1 3

3. I risultati del calcolo vengono sintetizzati in una tavola ANOVA riassuntiva (cfr. Tab. 13.25 in Corbetta,p. 603) 4. Si stima la significatività della relazione Si parte dall ipotesi nulla secondo la quale le medie di gruppo provengono tutte dalla stessa popolazione Quindi nessuna parte della varianza osservata nella variabile dipendente è dovuta agli effetti di gruppo se l ipotesi nulla è vera allora QM interna o intragruppo = QM esterna o intergruppo se l ipotesi nulla è falsa allora QM interna o intragruppo QM esterna o intergruppo Problema: Quanto deve essere maggiore QM esterna o intergruppo rispetto a QM interna o intragruppo per poter rifiutare l ipotesi nulla? Si calcola il rapporto tra le due stime (rapporto F): QM esterna o intergruppo F = ------------------------------------ QM interna o intragruppo Il valore di F che si ottiene deve essere confrontato con il valore critico che corrisponde al punto di intersezione tra i Gl delle due stime nella tabella di distribuzione F. Tale tabella presenta in genere i valori critici corrispondenti ai livelli di probabilità ( ) dello 0,05 e dello 0,01. (cfr. Corbetta, pag. 631) 4

a) Se il valore ottenuto di F è uguale al valore critico che corrisponde ad 0,05 possiamo concludere che in caso di ipotesi nulla: abbiamo una probabilità pari allo 0,05 di avere un valore uguale a quello ottenuto ; b) se il valore ottenuto di F è maggiore a quello critico, la probabilità è ancora minore (e quindi è ancora meno plausibile l ipotesi di indipendenza tra le due variabili); c) se il valore ottenuto di F è inferiore rispetto a quello critico, allora è più probabile che le due variabili siano effettivamente indipendenti tra loro. Se F ci dà una misura della significatività della relazione, non ci dice però quale sia la forza dell associazione tra le due variabili; a tal fine si procede al calcolo del quoziente (o rapporto) di correlazione o eta-quadrato o 2 2 = rapporto fra la somma dei quadrati esterna (spiegata) e la somma dei quadrati totali Il valore di 2 è sempre compreso fra 0 e 1 SQ esterna o intergruppo 2 = ----------------------- SQ totale Interpretazione di 2 = il valore ottenuto viene interpretato in termini di percentuale della varianza della variabile dipendente che può essere spiegata dalla variabile indipendente ; si tende a considerare 2 rilevante a partire dal valore 0,10 (considerato che nelle scienze sociali, in generale, non si supera mai il valore di 2 0,30). 5

B) ANALISI DELLA CORRELAZIONE MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI VINCOLI CHE SI IMPONGONO ALLA SUA UTILIZZAZIONE: 1. la relazione deve essere lineare, cioè la progressione dei valori delle distribuzioni considerate può essere rappresentata, su un piano cartesiano, da una linea retta 2. la distribuzione dei valori considerati deve essere normale, cioè deve registrare la frequenza massima nell area centrale (intorno alla media) e quelle minime in corrispondenza dei valori estremi 3. la distribuzione deve essere omoscedastica, cioè la varianza di X deve risultare distribuita più o meno equamente lungo tutti i i valori di Y, e non essere asimmetricamente concentrata su certi valori invece che su altri PERCHE QUESTI VINCOLI? Perché solo a queste condizioni le medie su cui si basano l indice di correlazione e gli strumenti di analisi quantitativa da esso derivati costituiscono valori autenticamente centrali e rappresentativi delle distribuzioni esaminate nella loro relazione reciproca. N.B. Distribuzioni che non presentano queste caratteristiche possono essere normalizzate e linearizzate mediante apposite operazioni di trasformazione (quando ciò non sia possibile e/o opportuno si ricorre ad altre misure di associazione). 6

Le caratteristiche di una distribuzione si esaminano mediante un diagramma di dispersione (scattergram) che consiste in una rappresentazione grafica elementare effettuata mediante punti (cfr. Corbetta, figure pag. 607) Per misurare la forza della relazione di associazione tra due variabili cardinali o quasi-cardinali (ricordiamo essa può essere positiva, nel senso che le due variabili covariano nella medesima direzione, o negativa nel senso che controvariano) si utlizza il coefficiente di correlazione r = coefficiente di correlazione di Bravais-Pearson Formula di calcolo Coefficiente di correlazione lineare = r xy = cov( x, y) s x * s y CAMPO DI VARIAZIONE: 1/+1 = Rapporto fra la covarianza fra X e Y = N i 1 ( x x)( y e il prodotto delle deviazioni standard di X e Y i N i y) = cov(x,y) La misura di r può assumere valori compresi tra +1 e 1 : +1 = perfetta correlazione positiva o diretta: x e y variano nella stessa direzione 0 = la distribuzione è del tutto casuale: X ed Y sono reciprocamente indipendenti -1 = perfetta correlazione negativa o inversa: x e y variano in direzione opposta 7

Criteri orientativi per l interpretazione dei valori intermedi - fino a +/- 20 = correlazione molto bassa, relazione di associazione irrilevante - +/- 0,21-0,40 = correlazione bassa, relazione di associazione modesta - +/- 0,41-0,70 = correlazione media, relazione di associazione sostantiva - +/- 071-0,90 = correlazione alta, relazione di associazione marcata - +/- 0,91-1 = correlazione molto alta, relazione di associazione molto forte AVVERTENZE A) r come tutte le misure statistiche è molto sensibile ai valori di una distribuzione metrica B) r è artificiosamente basso se la varianza è bassa, e viceversa C) r tende ad essere particolarmente alto, quanto più N è basso pertanto si consiglia di eseguire l analisi grafica e accompagnare al valore di r XY le rispettive deviazioni standard e le rispettive varianze N.B. Il valore di r XY ci segnala la forza della relazione di associazione tra X e Y. Esso è tuttavia un test simmetrico, nel senso che il suo calcolo non è vincolato alla individuazione di quale fra X e Y costituisca la variabili dipendente e quale quella indipendente. Per di più, la loro relazione di associazione potrebbe essere dovuta all intervento di altre variabili >>>> coefficiente di correlazione parziale >>>> analisi multivariata Proprio perché test simmetrico, il valore di r elevato al quadrato (r 2 ) può essere interpretato in termini di varianza di Y spiegata da X e viceversa!! = qual è la percentuale di variazione di ciascuna delle due variabili che può essere attribuita a, ovvero spiegata da la variazione dell altra 8

r 2 = coefficiente di determinazione Es: se r = 0,60 condividono > r 2 = 0,36 = percentuale di variabilità che le due variabili infine Anche per r si può stimare il relativo livello di significatività, ricorrendo ad un apposita tavola di distribuzione dei valori critici di r, per verificare l ipotesi che il valore di r stimato nel campione sia, nella popolazione da cui il campione è stato estratto, significativamente diverso da 0,00 9