Statistica Sociale e Criminale (12 CFU) A.A. 2015/2016

Documenti analoghi
Esercitazioni di statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

STATISTICHE DESCRITTIVE Parte II

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Tema d esame del 15/02/12

Lezione 4 a - Misure di dispersione o di variabilità

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Quadro riassuntivo di geometria analitica

L indagine statistica

Anno scolastico 2015/2016 PROGRAMMA SVOLTO. Docente: Catini Romina. Materie: Matematica. Classe : 4 L Indirizzo Scientifico Scienze Applicate

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

ANALISI MULTIVARIATA

Esercitazioni del corso ufficiale di Statistica. Ottobre - Novembre Corso di Laurea in Economia Aziendale. Lezione di Sabato 18 Novembre

Esercizi sulla retta. Gruppo 1 (4A TSS SER, 4B TSS SER, 4A AM )

I RADICALI QUADRATICI

Le disequazioni frazionarie (o fratte)

INDICAZIONI PER LA RICERCA DEGLI ASINTOTI VERTICALI

Statistica. Campione

Interpolazione Statistica

Appunti ed esercizi sulle coniche

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Correlazione. Daniela Valenti, Treccani Scuola 1

Geometria analitica di base (seconda parte)

Esercitazioni di Statistica

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

04 - Numeri Complessi

MISURE DI SINTESI 54

Metodi per la risoluzione di sistemi lineari

FUNZIONI ELEMENTARI, DISEQUAZIONI, NUMERI REALI, PRINCIPIO DI INDUZIONE Esercizi risolti

Capacità: Analizzare un problema semplice. Valutare la congruenza dei risultati con i dati e le informazioni iniziali.

Statistica Descrittiva III

Capitolo 6. La distribuzione normale

ESPONENZIALI E LOGARITMI. chiameremo logaritmica (e si legge il logaritmo in base a di c è uguale a b ).

ECONOMIA APPLICATA ALL INGEGNERIA (Docente: Prof. Ing. Donato Morea) Microeconomia Esercitazione n. 1 - I FONDAMENTI DI DOMANDA E DI OFFERTA

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

12) Metodo dei minimi quadrati e linea di tendenza

Il test (o i test) del Chi-quadrato ( 2 )

Numeri decimali, rapporti e proporzioni

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

CORSO ZERO DI MATEMATICA

Distribuzioni di probabilità

C I R C O N F E R E N Z A...

Problemi di scelta ESEMPI

B6. Sistemi di primo grado

Risoluzione di problemi ingegneristici con Excel

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

ANALISI DEI DATI PER IL MARKETING 2014

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

Elementi di statistica

Funzioni di secondo grado

2. Variabilità mediante il confronto di valori caratteristici della

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

valore di a: verso l alto (ordinate crescenti) se a>0, verso il basso (ordinate decrescenti) se a<0;

Probabilità. Ing. Ivano Coccorullo

LE DISEQUAZIONI LINEARI

1 L estrazione di radice

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Precorso di Matematica

ESERCIZIO SOLUZIONE. 13 Aprile 2011

Integrazioni al corso di Economia Politica (anno accademico ) Marianna Belloc

Protocollo dei saperi imprescindibili Ordine di scuola: professionale

La retta di regressione

Definizione: Dato un sottoinsieme non vuoti di. Si chiama funzione identica o identità di in sé la funzione tale che.

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Potenze - Monomi - Polinomi - Operazioni tra Polinomi - Quadrato e Cubo del Binomio - Quadrato del Trinomio

Il metodo delle proporzioni crescenti

Anno 3. Funzioni esponenziali e logaritmi: le 4 operazioni

Gli asintoti di una funzione sono rette, quindi possono essere: rette verticali o rette orizzontali o rette oblique.

SCUOLA PRIMARIA MATEMATICA (Classe 1ª)

Esercizi sui sistemi di equazioni lineari.

Disequazioni di secondo grado

ESERCIZI. La seguente tabella riporta la classificazione delle famiglie italiane secondo il reddito dichiarato (in milioni di lire) nel 1983:

Disequazioni - ulteriori esercizi proposti 1

Lezione 4. Sommario. L artimetica binaria: I numeri relativi e frazionari. I numeri relativi I numeri frazionari

CURRICOLO VERTICALE MATEMATICA RELAZIONI/ DATI E PREVISIONI/ MISURA

MATEMATICA LA PARABOLA GSCATULLO

Soluzione dei sistemi lineari con metodo grafico classe 2H

GRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti

Statistica descrittiva: misure di associazione

a rappresenta l intercetta o termine noto della retta, ossia il valore della y quando x = 0.

SCHEDA N 8 DEL LABORATORIO DI FISICA

Lezione 39: la legge di Ohm e i circuiti elettrici

Lezione 4. Statistica. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Lezione 4. A. Iodice. Indici di posizione.

GRIGLIA DI CORREZIONE 2012 Matematica Classe II Scuola Secondaria di secondo grado

Funzioni elementari: funzioni potenza

UNITA DIDATTICA. Conoscenze. Abilità

Tecniche statistiche di analisi del cambiamento

Circonferenze del piano

1. La funzione f(x) deve avere uno zero in corrispondenza di x=3

Disequazioni in una incognita. La rappresentazione delle soluzioni

LA FORZA...SIA CON TE!

MATEMATICA LA CIRCONFERENZA GSCATULLO

1 IL LINGUAGGIO MATEMATICO

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

OFFERTA DI LAVORO. p * C = M + w * L

Ultima verifica pentamestre. 1)definizione di miscuglio, soluzione, composto, elemento, molecola ( definizione importantissima!!!!!!!!

Concetti principale della lezione precedente

TOLLERANZE DIMENSIONALI DESIGNAZIONE DI FORI E ALBERI

Transcript:

Statistica Sociale e Criminale (12 CFU) A.A. 2015/2016 CdL Sociologia e Criminologia Simone Di Zio

Dove siamo MODULO 2. La Statistica descrittiva 2.1 La rilevazione del dato statistico 2.2 La rappresentazione dei dati statistici 2.3 Le misure di tendenza centrale 2.4 Le misure di variabilità 2.5 Le Misure delle relazioni tra variabili

Le Misure delle relazioni tra variabili Data una matrice di dati, è possibile calcolare per ognuna di esse gli indici di tendenza centrale e gli indici di variabilità. Altro aspetto è quando si vuole capire se fra due variabili possano sussistere delle relazioni. V 1 V 2 V 3 Nome Colore occhi età titolo di studio Alessandro Neri 15 Licenza media Alessia Marroni 12 Licenza Elem. Andrea Marroni 20 Diploma Angelo Azzurri 30 Laurea Carmine Marroni 35 Licenza media Daniele Neri 40 Diploma Dario Marroni 20 Laurea Donatello Azzurri 22 Laurea Eros Marroni 24 Laurea Federica Neri 60 Diploma Francesca Marroni 65 Licenza media Ivan Azzurri 40 Diploma Luca Verdi 35 Diploma Mattia Neri 38 Diploma Mauro Marroni 59 Licenza media Moda Omogeneità Media Varianza Mediana Dispersione

La variabile doppia e le sue rappresentazioni Per studiare la relazione fra due (o più) variabili bisogna: individuare un possibile legame fra due (o più) variabili. misurare statisticamente l intensità del legame. La distribuzione doppia di frequenze si rappresenta in una tabella a doppia entrata. Esempio: Titolo di studio Reddito (migliaia di ) Totali 0 15 15 30 30 80 di riga Licenza Media 100 80 60 240 Diploma 75 105 50 230 Laurea 10 33 55 98 Totali di colonna 185 218 165 568

Titolo di studio Distribuzioni Condizionate Reddito (migliaia di ) Totali 0 15 15 30 30 80 di riga Licenza Media 100 80 60 240 Diploma 75 105 50 230 Laurea 10 33 55 98 Totali di colonna 185 218 165 568 Se consideriamo la modalità diploma assieme alle modalità della variabile reddito costituiscono la distribuzione del reddito condizionata al titolo di studio diploma. Se estrapoliamo le frequenze della classe di reddito 30 80 e le uniamo alle modalità della variabile titolo di studio, otteniamo la distribuzione del titolo di studio condizionata alla classe di reddito 30-80. Diploma 0-15 75 15-30 105 30-80 50 Totali 230 30-80 Lic. Media 60 Diploma 50 Laurea 55 Totali 165 Dalle distribuzioni marginali e condizionate si possono calcolare tutti gli indici di sintesi e variabilità valide per le distribuzioni semplici di frequenza.

Tipologie di relazioni fra variabili Relazione Causa-Effetto Date due variabili X e Y, il rapporto causa-effetto, indica che al variare della X varia di conseguenza anche la Y. Questa relazione può derivare dalle conoscenze scientifiche. Esempio: secondo una delle leggi di Newton sul moto, quando una forza (X) è applicata a un oggetto, esso accelera (Y). La relazione sarà del tipo: all aumentare di X aumenta Y. Dipendenza logica Per i fenomeni sociali non ci sono leggi esatte. Il rapporto causa/effetto non deriva da conoscenze acquisite ma da ragionamenti di tipo logico-deduttivo. Tali legami sono definiti prima dell osservazione del fenomeno. Tecnicamente si parla di dipendenza logica. Esempio: la spesa per beni di lusso dipende dal reddito. All aumentare del reddito aumenta anche la spesa per alcune tipologie di beni particolarmente costosi.

Se però osserviamo statisticamente un collettivo di famiglie e rileviamo su di esse le due variabili X= reddito e Y=spesa per beni di lusso, probabilmente la relazione non è ESATTA. La relazione fra due variabili in un contesto sociale può essere misurata solo in parte. La rimanente parte non spiegata, è legata ad una serie di altre relazioni che possono rimanere completamente ignote. Indipendenza logica Sempre da un punto di vista logico-deduttivo, possiamo affermare che fra due variabili non esiste nessun tipo di relazione causa/effetto. Esempio: prezzo delle arance a Torino ed età media degli abitanti della Cina. In questi casi si parla di indipendenza logica.

Indipendenza Statistica Quando due variabili sono logicamente indipendenti ci aspettiamo che siano anche statisticamente indipendenti. In statistica due variabili si dicono indipendenti se la conoscenza delle modalità di una delle due non ci permette di fare ipotesi sulle modalità dell altra. Analisi della dipendenza La dipendenza logica sottintende una direzione nel legame fra due variabili. Il legame di causa-effetto è quindi unidirezionale. La variabile X è l antecedente logico della relazione La variabile Y è il conseguente logico. Esempio: X = statura, Y = peso Possiamo affermare che Y dipende da X (relazione di dipendenza logica) Ma non vale il viceversa. X Y

Analisi della inter-dipendenza Spesso non è possibile definire a priori il senso della relazione, cioè non è noto sapere se da un punto di vista logico Y dipende da X oppure X dipende da Y. Esempio: X = consumo di birra Y = consumo di vino. È probabile che all aumentare di X aumenti anche Y ma non è in genere definibile a priori una direzione nel legame X Y In questi casi si parla di interdipendenza fra le due variabili. Siamo nel contesto dell analisi dell interdipendenza.

MISURE STATISTICHE L indipendenza può essere verificata o meno. Solo se si esclude l indipendenza allora si parla di dipendenza o interdipendenza, e a qual punto si pone il problema di misurarne il grado. SI INDIPENDENZA NO STOP SI Legame Unidirezionale NO DIPENDENZA INTERDIPENDENZA MISURA MISURA Dipendenza min Max Perfetta min Max Interdipend. Perfetta Importante: a) indipendenza b) dipendenza perfetta c) interdipendenza perfetta

a) Indipendenza Situazione di indipendenza (o connessione nulla). y 1 y 2 Totale x 1 1 3 4 x 2 2 6 8 x 3 4 12 16 Totale 7 21 28 Per verificarla bisogna calcolare le frequenze relative condizionate di una variabile rispetto alle modalità dell altra. Frequenze relative condizionate Frequenze relative condizionate di X rispetto alle modalità di Y di Y rispetto alle modalità di X y 1 y 2 Totale x 1 0.14 0.14 0.14 x 2 0.29 0.29 0.29 x 3 0.57 0.57 0.57 Totale 1.00 1.00 1.00 y 1 y 2 Totale x 1 0.25 0.75 1.00 x 2 0.25 0.75 1.00 x 3 0.25 0.75 1.00 Totale 0.25 0.75 1.00 Le distribuzioni relative condizionate sono tutte uguali.

Quindi, due variabili sono indipendenti, o non connesse, se le distribuzioni relative di una variabile rispetto alle modalità dell altra sono identiche. Quando X è indipendente da Y vale anche il viceversa, pertanto l indipendenza è una relazione bidirezionale. Relazione fra le frequenze assolute marginali Quando due variabili sono indipendenti si verifica che la generica frequenza assoluta (che ricordiamo si indica con n ij ) è uguale a: n ij = n i n j N Ogni frequenza, posta all incrocio di una riga e una colonna, equivale al prodotto delle rispettive frequenze marginali (totale della riga e totale della colonna) diviso la numerosità del collettivo N. y 1 y 2 Totale x 1 1 = 4 7 3 = 4 21 28 28 4 x 2 2 = 8 7 6 = 8 21 28 28 8 x 3 4 = 16 7 16 21 12 = 16 28 28 Totale 7 21 28 y 1 y 2 Totale x 1 1 3 4 x 2 2 6 8 x 3 4 12 16 Totale 7 21 28

b) Dipendenza perfetta Il caso opposto all indipendenza (o connessione nulla) è la dipendenza perfetta. Esempio di una situazione in cui Y dipende perfettamente da X. y 1 y 2 y 3 Totale x 1 15 0 0 15 x 2 0 25 0 25 x 3 0 0 17 17 x 4 0 14 0 14 Totale 15 39 17 71 Ad ogni modalità della variabile X corrisponde una, e solo una, modalità della variabile Y Quindi, per ogni riga della tabella è presente una sola frequenza diversa da zero, ma non è vero il viceversa. Conoscendo una modalità di X è possibile individuare con esattezza una modalità di Y, ma non vale il contrario. È il comportamento di X a determinare quello di Y, cioè Y dipende da X, e non viceversa.

c) Interdipendenza perfetta Quando ad ogni modalità di X corrisponde una e una sola modalità di Y e viceversa, allora si ha interdipendenza perfetta. Ciò è possibile solo se le variabili X e Y hanno lo stesso numero di modalità. y 1 y 2 y 3 Totale x 1 11 0 0 11 x 2 0 34 0 34 x 3 0 0 28 28 Totale 11 34 28 73 Per l analisi di queste relazioni fra coppie di variabili, dobbiamo sempre tener conto della tipologia delle variabili contenute nella distribuzione doppia. X Y Nominale Ordinale Intervalli Nominale a b c Ordinale d e f Intervalli g h i

Frequenze percentuali di una distribuzione doppia Le frequenze %uali evidenziano in prima approssimazione eventuali relazioni. Dati i totali di riga (n i ), i totali di colonna (n j ) e il totale generale (N), possiamo aver tre diversi tipi di percentuali, che hanno tre significati diversi. Percentuali di riga Dividere ogni frequenza per il totale di riga n i moltiplicando per 100. I valori si interpretano quindi per riga: ad esempio, fra i possessori di licenza media, il 41.7% percepisce un reddito fino a 15 mila euro, il 33.3% un reddito fra 15 e 30 mila e il 25% un reddito fino a 80 mila. Reddito Titolo 0 15 15 30 30 80 Totali di riga Licenza M. 41.7% 33.3% 25.0% 100.0% Diploma 32.6% 45.7% 21.7% 100.0% Laurea 10.2% 33.7% 56.1% 100.0%

Percentuali di colonna Dividere ogni frequenza per il totale di colonna n j moltiplicando per 100. I valori si interpretano ora per colonna: ad esempio, fra coloro che percepiscono un reddito fino a 15 mila euro annui, il 54.1% possiede la licenza media, il 40.5% il diploma e solo il 5.4% è laureato. Reddito Titolo 0 15 15 30 30 80 Licenza M. 54.1% 36.7% 36.4% Diploma 40.5% 48.2% 30.3% Laurea 5.4% 15.1% 33.3% Totali colon. 100.0% 100.0% 100.0%

Percentuali sul totale Dividere ogni frequenza n ij per il totale generale N e moltiplicando per 100. Questo tipo di tabella non è molto utile per esplorare la relazione fra le due variabili. Titolo 0 15 15 30 30 80 Totali Lic. M. 17.6% 14.1% 10.6% 42.3% Diploma 13.2% 18.5% 8.8% 40.5% Laurea 1.8% 5.8% 9.7% 17.3% Totali 32.6% 38.4% 29.0% 100.0%

Quali frequenze utilizzare? A seconda delle relazioni che si vogliono studiare, bisogna ragionare su % di riga o di colonna. Se si suppone che la variabile posta in colonna influenzi (come dipendenza logica) la variabile in riga allora bisogna utilizzare le percentuali di colonna. Se si suppone che la variabile di riga influenzi la variabile di colonna (come nel nostro esempio) allora bisogna ragionare sulle percentuali di riga. Reddito Titolo 0 15 15 30 30 80 Totali di riga Licenza M. 41.7% 33.3% 25.0% 100.0% Diploma 32.6% 45.7% 21.7% 100.0% Laurea 10.2% 33.7% 56.1% 100.0% Nel nostro caso diciamo che la maggiore quota di chi ha la licenza media percepisce un reddito basso (41.7%), la maggioranza relativa dei diplomati un reddito medio (45.7%) e la maggior parte dei laureati un redito alto (56.1%). Questo evidenzia un certo grado di dipendenza fra titolo di studio e reddito.

Relazioni fra variabili qualitative Siamo nel caso delle variabili qualitative. Almeno una delle due variabili è qualitativa. X Y Nominale Ordinale Intervalli Nominale Connessione Connessione Connessione Ordinale Connessione Connessione Connessione Regressione e Intervalli Connessione Connessione correlazione Si parla in tal casso di CONNESSIONE La connessione (o dipendenza) si misura con opportuni indici. La costruzione e l interpretazione delle frequenze percentuali vale solo come descrizione dei dati, utile per avere una prima idea delle possibili relazioni fra le variabili. Ora bisogna quantificare tale relazione.

Connessione Nell ambito delle variabili qualitative, la dipendenza prende il nome tecnico di connessione o associazione. La frequenza che si ha nel caso particolare di indipendenza: n ij = n i n j N Si chiama appunto frequenza teorica di indipendenza e la indichiamo con n ij A partire da una qualunque distribuzione doppia di frequenze è sempre possibile calcolare una tabella contenente le frequenze teoriche n ij, tabella che rappresenta il caso (appunto teorico) di indipendenza fra le due variabili.

Tabella delle frequenze osservate n ij Tabella osservata e tabella teorica n ij = n i n j N Tabella delle frequenze teoriche, che rappresentano la situazione di indipendenza Sono due tabelle aventi le stesse dimensioni e gli stessi totali di riga e colonna. Esempio numerico n ij SITUAZIONE OSSERVATA Y - Stato civile X - Giudizio Celibe - Coniugato Altro Totali sul divorzio Nubile Favorevole 100 80 60 240 Contrario 75 105 50 230 Non so 10 33 55 98 Totali 185 218 165 568 SITUAZIONE TEORICA DI INDIPENDENZA Y - Stato civile X - Giudizio Celibe - Coniugato Altro Totali sul divorzio Nubile Favorevole 78.169 92.113 69.718 240 Contrario 74.912 88.275 66.813 230 Non so 31.919 37.613 28.468 98 Totali 185 218 165 568

Distanza fra due tabelle Se potessimo calcolare una distanza fra le due tabelle avremmo un indicatore di quanto la situazione reale si discosta da quella teorica di indipendenza. Se la distanza è 0: Se la distanza è > 0: fra le due variabili c è indipendenza fra le due variabili c è dipendenza (o connessione) All aumentare della distanza significa che la tabella osservata si allontana sempre di più dalla situazione di indipendenza, per cui vuol dire che la connessione aumenta. Tab. Tab. Osserv. Teorica Indipendenza o connessione nulla Tab. Osserv. Tab. Teorica Dipendenza bassa Tab. Osserv. Tab. Teorica Dipendenza alta

Distanza fra due tabelle Per costruire una distanza partiamo dalla semplice differenza fra i valori corrispondenti delle due tabelle. Questa grandezza si chiama contingenza: c ij = n ij n ij Ne risulta una terza tabella, che viene chiamata tabella delle contingenze. Esempio numerico TABELLA OSSERVATA Cel-Nub Coniugato Altro Totali Favorevole 100 80 60 240 Contrario 75 105 50 230 Non so 10 33 55 98 Totali 185 218 165 568 TABELLA TEORICA Cel-Nub Coniugato Altro Totali Favorevole 78.169 92.113 69.718 240 Contrario 74.912 88.275 66.813 230 Non so 31.919 37.613 28.468 98 Totali 185 218 165 568 TABELLA DELLE CONTINGENZE X - Giudizio sul divorzio Cel-Nub Coniugato Altro Totali Favorevole 21.831-12.113-9.718 0 Contrario 0.088 16.725-16.813 0 Non so -21.919-4.613 26.532 0 Totali 0 0 0 0

Chi-quadrato 2 Ma non è ancora una distanza, perché ci serve un numero e non una tabella. Sommando tutti i rapporti fra contingenze al quadrato e frequenze teoriche otteniamo una distanza fra le due tabelle. Indice di associazione Chi-quadrato di Pearson: k m 2 = c ij 2 i=1 j=1 n ij Se la tabella teorica coincide con quella osservata, c ij = 0 quindi 2 = 0. In tutti gli altri casi 2 > 0 Assume valori tanto più grandi quanto più le frequenze osservate si discostano da quelle teoriche.

Esempio numerico: 1 - TABELLA OSSERVATA n ij 100 80 60 240 75 105 50 230 10 33 55 98 185 218 165 568 k m 2 = c ij 2 i=1 j=1 n ij 2 - TABELLA TEORICA n ij 78.169 92.113 69.718 240 74.912 88.275 66.813 230 31.919 37.613 28.468 98 185 218 165 568 3 - TABELLA DELLE CONTINGENZE c ij = n ij n ij 21.831-12.113-9.718 0 0.088 16.725-16.813 0-21.919-4.613 26.532 0 0 0 0 0 4 - TABELLA DEI TERMINI DELLA SOMMATORIA c 2 ij n ij 6.097 1.593 1.355 0.001 3.169 4.231 15.051 0.566 24.727 La somma di tutti questi valori restituisce il valore dell indice di associazione Chiquadrato: 2 = 56. 789

Livello della dipendenza Fra le due variabili c è dipendenza perché 2 > 0 Non possiamo ancora dire alcunché sull intensità dell associazione. Questo indice dipende dalla numerosità del collettivo: aumenta all aumentare di N. Un indice che non dipende da N è l indice di contingenza quadratica media: Nel nostro esempio: 2 = 2 N 2 = 56.7889 568 = 0.0999 Il valore massimo che può assumere 2 è il più piccolo fra il numero delle righe meno uno (k 1) e il numero delle colonne meno uno (m 1), cioè: max 2 = min[(k 1), (m 1)]

Nel nostro esempio: k = 3 e m = 3. (k 1) = 2 e (m 1) = 2 il minimo tra 2 e 2 è 2, Per cui: max 2 = 2 Un indice relativo di connessione che varia fra 0 e 1, si ottiene rapportando l indice di contingenza quadratico medio al suo valore massimo: 2 = 2 max 2 Indice di contingenza quadratica media relativa. Nel nostro esempio: 2 = 0.0999 2 = 0.049 Interpretazione: fra stato civile e l essere o meno favorevole al divorzio non c è indipendenza, ma comunque vi è un grado di associazione molto basso.

Le relazioni fra variabili quantitative: Se si ci sono informazioni a priori che permettono di stabilire quale delle due variabili è l antecedente logico, allora si utilizza la regressione. Quando invece non è possibile sapere quale variabile dipende dall altra, si utilizza la correlazione. X La Regressione Y Nominale Ordinale Intervalli Nominale Connessione Connessione Connessione Ordinale Connessione Connessione Connessione Intervalli Connessione Connessione Regressione e correlazione

Peso Esempio: Grafico a Dispersione Statura/Peso 95 90 85 80 75 70 65 60 55 50 45 145 150 155 160 165 170 175 180 185 Statura La regressione presuppone una relazione di dipendenza logica fra le due variabili, cioè è un legame con una direzione: da X verso Y Concordanza Dall esame visivo del grafico si nota una concordanza, o relazione positiva, fra statura e peso. A valori bassi della statura corrispondono valori bassi del peso e a valori alti di statura corrispondono valori alti del peso.

Discordanza Il caso opposto si ha quando i punti si posizionano attorno a una linea con pendenza negativa, cioè parte dall alto verso sinistra e scende in basso verso destra. Questo è il caso di regressione negativa, e significa che fra le due variabili vi è discordanza. 95 90 85 80 75 70 65 60 55 50 45 145 155 165 175 185 195 In entrambi i casi ci troviamo in una situazione particolare: la regressione lineare

Regressione lineare e non lineare La relazione che lega due variabili quantitative può assumere anche altre forme, ad esempio curvilinee. Importante conseguenza: se con gli strumenti della regressione lineare fra due variabili X e Y non emerge nessuna relazione, non significa assenza di qualunque relazione ma solo assenza di relazione lineare. Quindi, non si possono escludere altri tipi di relazioni. 75 70 65 60 55 50 45 145 155 165 175 185 195

Il modello statistico Con l analisi di regressione si cerca un modello statistico che può essere utilizzato a scopi descrittivi, interpretativi e previsivi. Si parla pertanto anche di modello di regressione. Un modello è la rappresentazione semplificata di alcuni aspetti della realtà. Esso contiene solo ciò che interessa per il raggiungimento degli scopi, mentre tutto il resto non conta. Anche un modello statistico è una rappresentazione semplificata, ma auspicabilmente soddisfacente, della realtà osservabile. In genere è definito da una legge che lega le due variabili X e Y, ovvero una funzione:

Modello matematico Il modello matematico che lega due variabili si ha quando Y è una funzione di X, cioè ad ogni valore di X corrisponde uno e un solo valore di Y. Y = f(x) Se stabiliamo che la f è una retta, significa che fra tutti i possibili modelli matematici scegliamo quello lineare: Y = a + bx Gli elementi a e b sono due parametri. Quando nella realtà trattiamo un caso specifico partendo dai dati osservati, i due parametri assumeranno un valore numerico: Y = 3.5 + 2X

Modello Matematico: 3 step importanti Il Modello, che esprime una relazione esatta fra le due variabili Specificazione del modello, data una teoria scelgo un modello, ad esempio il modello lineare Y = f(x) Y = a + bx Stima dei parametri Y = 3.5 + 2X

Aspetti grafici Graficamente il modello lineare è rappresentato da una retta su un piano cartesiano. 9 8 7 6 5 4 3 2 1 0 0 0.5 1 1.5 2 Y = 3.5 + 2 X 300 250 200 150 100 50 0 0 100 200 300 400 500 600 Y = 0.4536 X Il parametro a è l intercetta. Il parametro b è la pendenza della retta, ed è chiamato coefficiente angolare. Questo parametro esprime la variazione che subisce la Y all aumentare di una unità della X. Nell esempio a sinistra, al varare di 1 unità di X la Y varia di 2 unità. RICORDARE QUESTO ASPETTO QUANDO SI DOVRA INTERPRETARE

Pendenza della retta Caso b > 0: la retta ha pendenza positiva, e tra la X e la Y vi è una relazione lineare di concordanza. Al crescere di X anche Y aumenta. Nel grafico la retta sale andando verso destra; Caso b < 0: la retta ha pendenza negativa, e tra la X e la Y vi è una relazione lineare di discordanza. Al crescere di X la Y diminuisce. Nel grafico la retta scende andando verso destra; Caso b = 0: la retta non ha pendenza, quindi è parallela all asse delle ascisse. Tra X e Y non c è nessuna relazione lineare. Al crescere di X la Y rimane costante. Nel grafico la retta è orizzontale. Retta con pendenza positiva Retta con pendenza nulla Retta con pendenza negativa CONCORDANZA DISCORDANZA 6 5.5 5 4.5 4 3.5 3 0 0.2 0.4 0.6 0.8 1 4 3.9 3.8 3.7 3.6 3.5 3.4 3.3 3.2 3.1 3 0 0.2 0.4 0.6 0.8 1 1 0 0.2 0.4 0.6 0.8 1 b > 0 b = 0 b < 0 4 3.5 3 2.5 2 1.5

Spesa media per beni alimentari Le relazioni statistiche e il modello di regressione lineare Un modello di tipo lineare che lega reddito (variabile X) e consumi (variabile Y) può spiegare solo in parte il complesso di relazioni che si cela dietro queste due variabili. Esempio: 160 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 Reddito famigliare Non c è una relazione esatta che possa rappresentare un modello matematico. Però, il grafico mostra mediamente un aumento della spesa all aumentare del reddito Quindi c è una relazione crescente fra reddito e consumo, relazione che non può essere di tipo matematico ma è di tipo statistico.

Relazione statistica Una relazione fra una variabile X (variabile esplicativa) e una variabile Y (variabile risposta) del tipo: Y = f(x) + ε. Rispetto al modello matematico, il modello statistico ha una componente in più, cioè epsilon (ε). La f(x) esprime la parte del fenomeno Y spiegata dalla variabile X, mentre la componente aggiuntiva ε esprime il contributo di tutti gli altri fattori non osservati (numero di componenti, livello culturale, eccetera). La variabile ε racchiude tutta la nostra ignoranza rispetto alla vera relazione fra X e Y, quindi una componente casuale che ingloba tutto ciò che non conosciamo.

Dalla relazione generica a un modello specifico: la retta Passiamo dalla legge generica f(x) al modello della retta. Si ha il modello di regressione lineare semplice: per ogni osservazione i = 1,2,, N. Y i = a + bx i + ε i La regressione lineare consiste nella determinazione (tecnicamente stima) dei due parametri a e b del modello lineare, partendo dai dati osservati, in modo da esprimere statisticamente la relazione funzionale tra X e Y.

Metodo di stima Y i = a + bx i + ε i Abbiamo bisogno di un metodo di stima dei due coefficienti a e b. Intuitivamente vogliamo un metodo per cui la retta stimata pasi il più vicino possibile ai punti osservati. Il metodo comunemente utilizzato in questi casi è il metodo dei minimi quadrati.

Le stime dei parametri e i Valori Teorici Y i = a + bx i + ε i Dato questo modello e dato un metodo di stima, otteniamo due valori numerici (detti stime) per i due parametri del modello. Ad esempio: a = 4.5 b = 3.3 Da cui ottengo la retta stimata y i = 4.5 + 3.3x i Il valore y i è detto valore teorico di Y, per distinguerlo da quelli osservati che invece si indicano con y i. x i y i y i 1 7 7.8 2 12 11.1 3 15 14.4 4 17 17.7 5 21 21 y 1 = 4.5 + 3.3x 1 = 4.5 + 3.3 1 = 7. 8 y 2 = 4.5 + 3.3x 2 = 4.5 + 3.3 2 = 11. 18 y 3 = 4.5 + 3.3x 3 = 4.5 + 3.3 3 = 14. 4 y 4 = 4.5 + 3.3x 4 = 4.5 + 3.3 4 = 17. 7 y 5 = 4.5 + 3.3x 5 = 4.5 + 3.3 5 = 21

Modello Statistico: 3 step importanti Il Modello, che esprime una relazione statistica di dipendenza logica Y = f(x) + ε Specificazione del modello, Nella regressione lineare scegliamo la retta Y i = a + bx i + ε i Stima dei parametri Tramite il metodo dei Minimi Quadrati y i = 4.5 + 3.3x i

RESIDUI Si chiama residuo i-esimo, indicato con e i, la differenza fra valore osservato i- esimo (cioè y i ) e il corrispondente valore teorico (cioè y i): e i = y i y i x i y i y i e i 1 7 7.8-0.8 2 12 11.1 0.9 3 15 14.4 0.6 4 17 17.7-0.7 5 21 21 0 Nel modello di regressione lineare i due parametri da stimare si chiamano b coefficiente di regressione a intercetta

Il coefficiente di regressione lineare b La stima dei minimi quadrati del coefficiente di regressione lineare è data dalla seguente espressione: b = N i=1 (x i x )(y i y ) N (x i x ) 2 i=1 Dove x e y sono, rispettivamente, le medie di X e Y. Il numeratore si chiama anche codevianza fra X e Y Il denominatore è la devianza della X. Quindi la formula equivale a: codev(x, Y) b = dev(x) L intercetta a La stima dei minimi quadrati dell intercetta della retta di regressione è: a = y b x

Esempio numerico i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 Unità Statura Peso Scarti di x Scarti di y Prodotti Scarti di x al (in cm) (in Kg) dalla media dalla media fra gli scarti quadrato 1 150 55-19.22-17.89 343.85 369.41 2 153 58-16.22-14.89 241.52 263.09 3 160 70-9.22-2.89 26.65 85.01 4 167 69-2.22-3.89 8.64 4.93 5 172 73 2.78 0.11 0.31 7.73 6 178 80 8.78 7.11 62.43 77.09 7 179 78 9.78 5.11 49.98 95.65 8 181 83 11.78 10.11 119.10 138.77 9 183 90 13.78 17.11 235.78 189.89 x = 169.22 y = 72.89 1088.22 1231.56 Data la relazione logica fra peso e statura, consideriamo la statura variabile indipendente X e il peso variabile dipendente Y.

i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 Unità Statura Peso Scarti di x Scarti di y Prodotti Scarti di x al (in cm) (in Kg) dalla media dalla media fra gli scarti quadrato 1 150 55-19.22-17.89 343.85 369.41 2 153 58-16.22-14.89 241.52 263.09 3 160 70-9.22-2.89 26.65 85.01 4 167 69-2.22-3.89 8.64 4.93 5 172 73 2.78 0.11 0.31 7.73 6 178 80 8.78 7.11 62.43 77.09 7 179 78 9.78 5.11 49.98 95.65 8 181 83 11.78 10.11 119.10 138.77 9 183 90 13.78 17.11 235.78 189.89 x = 169.22 y = 72.89 1088.22 1231.56 La prima cosa da fare è calcolare le medie aritmetiche delle due variabili x = 169.22 y = 72.89.

i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 Unità Statura Peso Scarti di x Scarti di y Prodotti Scarti di x al (in cm) (in Kg) dalla media dalla media fra gli scarti quadrato 1 150 55-19.22-17.89 343.85 369.41 2 153 58-16.22-14.89 241.52 263.09 3 160 70-9.22-2.89 26.65 85.01 4 167 69-2.22-3.89 8.64 4.93 5 172 73 2.78 0.11 0.31 7.73 6 178 80 8.78 7.11 62.43 77.09 7 179 78 9.78 5.11 49.98 95.65 8 181 83 11.78 10.11 119.10 138.77 9 183 90 13.78 17.11 235.78 189.89 x = 169.22 y = 72.89 1088.22 1231.56 Con tali medie è possibile calcolare gli scarti dei valori delle due variabili dalle rispettive medie b = N i=1 N i=1 (x i x )(y i y ) (x i x ) 2

i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 Unità Statura Peso Scarti di x Scarti di y Prodotti Scarti di x al (in cm) (in Kg) dalla media dalla media fra gli scarti quadrato 1 150 55-19.22-17.89 343.85 369.41 2 153 58-16.22-14.89 241.52 263.09 3 160 70-9.22-2.89 26.65 85.01 4 167 69-2.22-3.89 8.64 4.93 5 172 73 2.78 0.11 0.31 7.73 6 178 80 8.78 7.11 62.43 77.09 7 179 78 9.78 5.11 49.98 95.65 8 181 83 11.78 10.11 119.10 138.77 9 183 90 13.78 17.11 235.78 189.89 x = 169.22 y = 72.89 1088.22 1231.56 Poi si fa il prodotto degli scarti Di cui serve anche la somma b = N i=1 N i=1 (x i x )(y i y ) (x i x ) 2

i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 Unità Statura Peso Scarti di x Scarti di y Prodotti Scarti di x al (in cm) (in Kg) dalla media dalla media fra gli scarti quadrato 1 150 55-19.22-17.89 343.85 369.41 2 153 58-16.22-14.89 241.52 263.09 3 160 70-9.22-2.89 26.65 85.01 4 167 69-2.22-3.89 8.64 4.93 5 172 73 2.78 0.11 0.31 7.73 6 178 80 8.78 7.11 62.43 77.09 7 179 78 9.78 5.11 49.98 95.65 8 181 83 11.78 10.11 119.10 138.77 9 183 90 13.78 17.11 235.78 189.89 x = 169.22 y = 72.89 1088.22 1231.56 Infine elevando al quadrato gli scarti di X dalla sua media si ottengono i valori dell ultima colonna che sono i termini per il calcolo della devianza di X. b = N i=1 N i=1 (x i x )(y i y ) (x i x ) 2

i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 Unità Statura Peso Scarti di x Scarti di y Prodotti Scarti di x al (in cm) (in Kg) dalla media dalla media fra gli scarti quadrato 1 150 55-19.22-17.89 343.85 369.41 2 153 58-16.22-14.89 241.52 263.09 3 160 70-9.22-2.89 26.65 85.01 4 167 69-2.22-3.89 8.64 4.93 5 172 73 2.78 0.11 0.31 7.73 6 178 80 8.78 7.11 62.43 77.09 7 179 78 9.78 5.11 49.98 95.65 8 181 83 11.78 10.11 119.10 138.77 9 183 90 13.78 17.11 235.78 189.89 x = 169.22 y = 72.89 1088.22 1231.56 Il coefficiente di regressione lineare risulta essere: b = codev(x, Y) dev(x) = 1088.22 1231.56 = 0.8836

L intercetta a = y b x Possiamo ora ricavare la stima dei minimi quadrati dell intercetta: y = 72.89 b = 0.8836 x = 169.22 a = 72.89 0.8836 169.22 = 76.635 La retta stimata dei minimi quadrati risulta pertanto essere: y i = 76.635 + 0.8836x i

Y - Peso Retta stimata e rappresentazione grafica y i = 76.635 + 0.8836x i 95 90 y = 0.8836x - 76.639 85 80 75 70 65 60 55 50 145 150 155 160 165 170 175 180 185 X - Statura

Interpretazione dei risultati a = 76.635 L intercetta negativa, in questo esempio, non ha un significato pratico: dice il peso che presumibilmente avrebbe una persona con statura nulla. b = 0.8836 Il coefficiente angolare, invece, ha il seguente significato: Il valore 0.8836 indica che all aumentare di un cm di statura, il peso aumenta in media di 883.6 grammi. L aumento in media significa che gli scostamenti da questa legge sono dovuti ad altri fattori, non noti o non osservabili.

Calcolo dei valori teorici di Y Utilizzando l equazione della retta stimata y i = 76.635 + 0.8836x i si calcolano i valori teorici di Y, cioè y i, quindi i residui (e i), e i residui al quadrato (e i 2 ). x i y i y i e i = y i y i e i2 150 55 55.91-0.91 0.819 153 58 58.56-0.56 0.309 160 70 64.74 5.26 27.657 167 69 70.93-1.93 3.710 172 73 75.34-2.34 5.495 178 80 80.65-0.65 0.417 179 78 81.53-3.53 12.457 181 83 83.30-0.30 0.088 183 90 85.06 4.94 24.366 75.318

PREVISIONI Il modello di regressione lineare può esser utilizzato a fini previsivi. Supponiamo di voler prevedere il peso di un individuo con una statura di 190 cm. Si inserisce questo valore nell equazione della retta stimata sostituendolo alla x y i = 76.635 + 0.8836x i 76.635 + 0.8836 190 = 91. 25 Quindi, si prevede che un individuo alto 1 metro e 90 pesi (in media) 91.25 kg.

L indice di determinazione La retta dei minimi quadrati è la migliore fra tutte le possibili rette. Ma questo non significa che la retta in sé sia il modello migliore per rappresentare i dati. Infatti la relazione fra X e Y può anche essere curvilinea o di altro tipo. Per capire quanto la retta sia adatta a rappresentare i dati osservati c è bisogno di un opportuno indice, che è l indice di determinazione. È utilizzato come misura della bontà di adattamento della retta ai dati osservati: R 2 = N i=1 (y i y ) 2 N (y i y ) 2 Questo indice è un numero puro che varia da 0 a 1. Più è vicino a 1 e migliore è la bontà di adattamento della retta ai dati Più è vicino a 0, peggiore è l adattamento. i=1

. R² = 0.9891. R² = 0.7088. R² = 0.319. R² = 0.0041

Esempio di calcolo x i y i y i (y i y ) (y i y ) Statura Peso Valori Scarti di y (y i y ) 2 Scarti di y (in cm) (in Kg) teorici di y dalla media dalla media 150 55 55.91-17.89 320.01-16.98 288.45 153 58 58.56-14.89 221.68-14.33 205.44 160 70 64.74-2.89 8.35-8.15 66.39 167 69 70.93-3.89 15.12-1.96 3.85 172 73 75.34 0.11 0.01 2.46 6.03 178 80 80.65 7.11 50.57 7.76 60.17 179 78 81.53 5.11 26.12 8.64 74.66 181 83 83.30 10.11 102.23 10.41 108.32 183 90 85.06 17.11 292.79 12.17 148.23 x = 169.22 y = 72.89 1036.89 961.54 y i = 76.635 + 0.8836x i (y i y ) 2 R 2 = N i=1 (y i y ) 2 N i=1 (y i y ) 2 = 961.54 1036.89 = 0.927

Le relazioni fra variabili quantitative: Se si ci sono informazioni a priori che permettono di stabilire quale delle due variabili è l antecedente logico, allora si utilizza la regressione. Quando invece non è possibile sapere quale variabile dipende dall altra, si utilizza la correlazione. X La Correlazione Y Nominale Ordinale Intervalli Nominale Connessione Connessione Connessione Ordinale Connessione Connessione Connessione Intervalli Connessione Connessione Regressione e correlazione

La Correlazione Se non si può stabilire quale delle due variabili sia l antecedente logico, si ricorre al coefficiente di correlazione, che misura il grado di concordanza o discordanza fra due variabili quantitative senza presumere un verso nella relazione. Concordanza fra due variabili: a valori alti di una variabile si associano valori alti dell altra variabile Discordanza: a valori alti di una variabile si associano valori bassi dell atra. Un indice che misura la concordanza o discordanza tra due variabili quantitative è la covarianza, che si indica con il simbolo σ XY. Media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie: N σ XY = 1 N (x i x ) (y i y ) i=1

Concordanza e discordanza La covarianza è positiva (σ XY > 0) se prevalgono i prodotti di scostamenti concordi, cioè entrami positivi o entrambi negativi. La covarianza è negativa (σ XY < 0) se prevalgono i prodotti di scostamenti discordi, cioè a quelli positivi di X si associano quelli negativi di Y e viceversa. Ecco perché la covarianza può essere assunta come indice di concordanza/discordanza. Come accade spesso con gli indici, il problema è che la covarianza è legata all unità di misura delle due variabili.

Un indice relativo Con σ X e σ Y, rispettivamente, si indicano le deviazioni standard di X e Y: σ X = N i=1 (x i x ) 2 N σ Y = N i=1 (y i y ) 2 N Queste due grandezze sono sempre positive Da cui si ricava il coefficiente di correlazione lineare di Bravais-Pearson: r = σ XY σ X σ Y

r = σ XY σ X σ Y Dato che al denominatore vi sono quantità sempre positive il segno di questo indice dipende solo ed esclusivamente dal segno della covarianza (numeratore). Pertanto: se c è concordanza fra le due variabili si ha r>0 in caso di discordanza l indice è negativo r<0. Il coefficiente di correlazione assume valori nel seguente intervallo: 1 r 1

I vari casi per i valori di r r = 1: discordanza perfetta. Fra X e Y sussiste un perfetto legame lineare. I punti del diagramma a dispersione sono perfettamente allineati, lungo una retta decrescente; r < 0: discordanza. Il grado di discordanza dipende dal valore assunto da r. I punti del diagramma a dispersione non sono allineati, ma seguono un andamento decrescente; r = 0: indifferenza. In questo caso o c è indipendenza lineare fra X e Y, oppure sussiste una relazione di altro tipo; r > 0: concordanza. Il grado di concordanza dipende dal valore assunto da r. I punti del diagramma a dispersione non sono allineati perfettamente, e seguono un andamento crescente; r = +1: concordanza perfetta. Fra X e Y sussiste un perfetto legame lineare. I punti del diagramma a dispersione sono perfettamente allineati, lungo una linea crescente.

Esempio numerico i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 (y i y ) 2 1 42.5 18.3-1.329-1.586 2.107 1.765 2.514 2 42.7 18.9-1.129-0.986 1.112 1.274 0.972 3 43.0 20.0-0.829 0.114-0.095 0.687 0.013 4 44.1 20.2 0.271 0.314 0.085 0.074 0.099 5 44.4 19.5 0.571-0.386-0.220 0.327 0.149 6 44.6 20.3 0.771 0.414 0.320 0.595 0.172 7 45.5 22.0 1.671 2.114 3.534 2.794 4.470 306.8 139.2 6.843 7.514 8.389 Per prima cosa calcoliamo le due medie, che sono: x = 306.8 7 = 43.83; y = 139.2 7 = 19.89

i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 (y i y ) 2 1 42.5 18.3-1.329-1.586 2.107 1.765 2.514 2 42.7 18.9-1.129-0.986 1.112 1.274 0.972 3 43.0 20.0-0.829 0.114-0.095 0.687 0.013 4 44.1 20.2 0.271 0.314 0.085 0.074 0.099 5 44.4 19.5 0.571-0.386-0.220 0.327 0.149 6 44.6 20.3 0.771 0.414 0.320 0.595 0.172 7 45.5 22.0 1.671 2.114 3.534 2.794 4.470 306.8 139.2 6.843 7.514 8.389 Poi calcoliamo le deviazioni standard, sfruttando i totali delle ultime due colonne: σ X = N i=1 (x i x ) 2 N σ Y = N i=1 (y i y ) 2 N σ X = 7.514 7 = 1. 036 σ Y = 8.389 7 = 1. 095

i x i y i (x i x ) (y i y ) (x i x )(y i y ) (x i x ) 2 (y i y ) 2 1 42.5 18.3-1.329-1.586 2.107 1.765 2.514 2 42.7 18.9-1.129-0.986 1.112 1.274 0.972 3 43.0 20.0-0.829 0.114-0.095 0.687 0.013 4 44.1 20.2 0.271 0.314 0.085 0.074 0.099 5 44.4 19.5 0.571-0.386-0.220 0.327 0.149 6 44.6 20.3 0.771 0.414 0.320 0.595 0.172 7 45.5 22.0 1.671 2.114 3.534 2.794 4.470 306.8 139.2 6.843 7.514 8.389 Ricordando che la codevianza (nell esempio è 6.843) è il numeratore della covarianza, quest ultima l otteniamo facilmente con il seguente rapporto: N σ XY = 1 N ( x i x ) (y i y ) i=1 σ XY = 6.843 7 = 0.978

A questo punto possiamo applicare la formula per il coefficiente di correlazione: r = σ XY σ X σ Y = 0.978 1.036 1.095 = 0.862 Interpretazione La correlazione fra i tempi della bicicletta e quelli della corsa è positiva ed è anche molto alta. Un valore di 0.86 è molto vicino al massimo dell indice, che sappiamo essere 1. Quindi, a tempi alti nella corsa corrispondono tempi alti anche nella prova di bicicletta e viceversa. In altri termini, i bravi nella bicicletta sono anche bravi nella corsa e i meno bravi in una specialità sono meno bravi anche nell altra.

Importante puntualizzazione Una correlazione fra due variabili non significa causazione, cioè che una variabile è conseguenza dell altra, ma soltanto che le variabili sono altamente correlate. Le cause della correlazione vanno spiegate in altri ambiti che non sono propri della statistica. A volte si è in presenza di correlazione spuria. Se ad esempio dovessimo rilevare una correlazione fra il prezzo del pesce a Palermo e i voti in statistica di un gruppo di studenti dell università G. d Annunzio di Chieti-Pescara, si tratta di una correlazione spuria, non potendo esserci in nessun modo un legame logico fra queste due variabili. r = 0. 6