Statistica descrittiva in due variabili

Documenti analoghi
SCOPO DELL ANALISI DI CORRELAZIONE

REGRESSIONE E CORRELAZIONE

METODO DEI MINIMI QUADRATI

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Statistica. Alfonso Iodice D Enza

METODO DEI MINIMI QUADRATI

Università degli Studi del Piemonte Orientale Facoltà di Scienze M.F.N. Precorso di Matematica APPUNTI (preparati da Pier Luigi Ferrari)

La regressione lineare. Rappresentazione analitica delle distribuzioni

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Dati campionari:media, varianza, bruchi

Geometria Analitica Domande e Risposte

Dispensa di Statistica

Statistica. Alfonso Iodice D Enza

LO STUDIO DI FUNZIONE ESERCIZI CON SOLUZIONI

Esercitazione di Statistica Indici di associazione

UNITÀ DIDATTICA 5 LA RETTA

La Retta Ogni funzione di primo grado rappresenta, graficamente, una retta. L equazione della retta può essere scritta in due modi

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

1. (Da Medicina e Odontoiatria 2012) Determinare l'area del triangolo che ha come vertici i punti (0,0), (0,1), (13,12) del piano cartesiano:

Regressione Lineare Semplice e Correlazione

DERIVATE E LORO APPLICAZIONE

Lezione 6 Richiami di Geometria Analitica

GEOMETRIA ANALITICA

Piano cartesiano e Retta

PIANO CARTESIANO e RETTE classi 2 A/D 2009/2010

Y = ax 2 + bx + c LA PARABOLA

Disequazioni di secondo grado

Statistica. Alfonso Iodice D Enza

Soluzione di Adriana Lanza

Esercitazione del

Ricordiamo. 1. Tra le equazioni delle seguenti rette individua e disegna quelle parallele all asse delle ascisse:

Microeconomia (C.L. Economia e Legislazione di Impresa); A.A. 2010/2011 Prof. C. Perugini

Funzioni elementari. Funzioni lineari. 13. Funzioni elementari. Funzioni lineari.

EQUAZIONE DELLA RETTA

Derivata di una funzione

1 Prodotto cartesiano di due insiemi 1. 5 Soluzioni degli esercizi 6

Appunti sulla circonferenza

Unità Didattica N 9 : La parabola

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

PIANO CARTESIANO:EQUAZIONI

Esercitazioni di statistica

Test per la correlazione lineare

Distanza tra punti e punto medio di un segmento. x1 + x 2

Statistica 1 A.A. 2015/2016

Problemi di massimo e minimo

Esercitazione. 24 Aprile 2012

Secondo parziale di Matematica per l Economia (esempio)

PIANO CARTESIANO: un problema di programmazione lineare

MATEMATICA CORSO A II COMPITINO (Tema 1) 5 Aprile 2013

Metodi per la risoluzione di sistemi lineari

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

FUNZIONI ELEMENTARI, DISEQUAZIONI, NUMERI REALI, PRINCIPIO DI INDUZIONE Esercizi risolti

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

Piano cartesiano e retta

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Esercitazione: 16 novembre 2009 SOLUZIONI

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Modelli probabilistici variabili casuali

1 Ampliamento del piano e coordinate omogenee

PIANO CARTESIANO:EQUAZIONI

la velocità degli uccelli è di circa (264:60= 4.4) m/s)

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Mutue posizioni della parabola con gli assi cartesiani

Definizione Dati due insiemi A e B, contenuti nel campo reale R, si definisce funzione reale di variabile reale una legge f : A

Le Derivate. Appunti delle lezioni di matematica di A. Pisani Liceo Classico Dante Alighieri

Francesco Zumbo

SOLUZIONE DEL PROBLEMA 1 CORSO DI ORDINAMENTO 2014

Soluzioni dei problemi della maturità scientifica A.S. 2012/2013

LE COORDINATE CARTESIANE

determinare le coordinate di P ricordando la relazione che permette di calcolare le coordinate del punto medio di un segmento si

Equazione della retta tangente al grafico di una funzione

Punti nel piano cartesiano

2 2 2 A = Il Det(A) = 2 quindi la conica è non degenere, di rango 3.

GEOMETRIA ANALITICA 1 IL PIANO CARTESIANO

MODELLI QUANTITATIVI. f x r = c

GEOMETRIA ANALITICA Prof. Erasmo Modica

a) Determinare il dominio, i limiti agli estremi del dominio e gli eventuali asintoti di f. Determinare inoltre gli zeri di f e studiarne il segno.

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

La retta di regressione

UNIVERSITÀ di ROMA TOR VERGATA

Stabilire se il punto di coordinate (1,1) appartiene alla circonferenza centrata nell origine e di raggio 1.

MATEMATICA PRIMO COMPITINO SOLUZIONE DI ALCUNI ESERCIZI PRIMA PARTE. Esercizio 1. (Testo B) Determina, motivando la risposta, se la funzione f : R R

II Università degli Studi di Roma

LA RETTA. La retta è un insieme illimitato di punti che non ha inizio, né fine.

LABORATORIO DI CIRCUITI ELETTRICI Nozioni generali e guida agli esperimenti. Rappresentazione grafica dei risultati sperimentali

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Consorzio Nettuno - Corso di Matematica 1 Schede di lavoro guidato per le esercitazioni

1. LA GEOMETRIA ANALITICA

Esercizi sulla retta. Gruppo 1 (4A TSS SER, 4B TSS SER, 4A AM )

Richiami sullo studio di funzione

MODULO 1: EQUAZIONI E DISEQUAZIONI 15 ore 1 quadrimestre

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Condizione di allineamento di tre punti

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

1 Nozioni utili sul piano cartesiano

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

Teoria in sintesi 10. Teoria in sintesi 14

Esercizi di Calcolo e Biostatistica con soluzioni

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Transcript:

Statistica descrittiva in due variabili 1 / 65

Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con i valori osservati. X =(x 1,...,x N ) Y =(y 1,...,y N )

1 / 65 Statistica descrittiva in due variabili Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(x 1,...,x N ) Y =(y 1,...,y N ) i valori osservati. In questo caso abbiamo due possibilità Studiare le due variabili separatamente Studiare se esistono dei legami tra le due variabili

1 / 65 Statistica descrittiva in due variabili Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(x 1,...,x N ) Y =(y 1,...,y N ) i valori osservati. In questo caso abbiamo due possibilità Studiare le due variabili separatamente Studiare se esistono dei legami tra le due variabili Di fatto la cosa più importante, quando si misurano due caratteri sullo stesso campione, è capire se le due variabili sono dipendenti, cioè se variazioni di una producono variazioni dell altra.

Tabella di contingenza 2 / 65 Per determinare se due variabili sono dipendenti o indipendenti si procede nel modo seguente.

Tabella di contingenza 2 / 65 Per determinare se due variabili sono dipendenti o indipendenti si procede nel modo seguente. Si costruisce per primo una tabella a doppia entrata, o di contingenza, che, per semplicità, descriveremo con un esempio.

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) 3 / 65 Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute.

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) 3 / 65 Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) 3 / 65 Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10.

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10. X # Y! J 1 =[1,11) J 2 =[11,21) J 3 =[21,31) I 1 =[1,11) I 2 =[11,21) 3 / 65

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10. X # Y! J 1 =[1,11) J 2 =[11,21) J 3 =[21,31) I 1 =[1,11) n 11 n 12 n 13 I 2 =[11,21) n 21 n 22 n 23 3 / 65

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10. X # Y! J 1 =[1,11) J 2 =[11,21) J 3 =[21,31) I 1 =[1,11) I 2 =[11,21) 3 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 4 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) [11, 21) 5 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 [11, 21) 6 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 [11, 21) 7 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 8 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 9 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 10 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 11 / 65

X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 Questa rappresenta la tabella di contingenza e le entrate rappresentano le frequenze osservate. 12 / 65

X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 Questa rappresenta la tabella di contingenza e le entrate rappresentano le frequenze osservate. Completiamo la tabella inserendo le distribuzioni marginali che si ottengono sommando in verticale ed in orizzontale le frequenze osservate. X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 12 / 65

X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 Questa rappresenta la tabella di contingenza e le entrate rappresentano le frequenze osservate. Completiamo la tabella inserendo le distribuzioni marginali che si ottengono sommando in verticale ed in orizzontale le frequenze osservate. X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 Il numero in basso a destra, corrispondente alla somma delle frequenze marginali, è pari al numero delle unità statistiche. 12 / 65

Frequenze attese 13 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) 9 16 8 16 13 16 [1, 11) 16 30 30 30 9 14 8 14 13 14 [11, 21) 14 30 30 30 9 8 13 30

Frequenze attese 14 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) 9 16 8 16 13 16 1 [1, 11) 30 30 30 16 9 14 8 14 13 14 1 [11, 21) 30 30 30 14 1 9 8 13 30

Frequenze attese 15 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) 9 16 8 16 13 16 1 [1, 11) 30 30 30 16 9 14 8 14 13 14 1 [11, 21) 30 30 30 14 1 9 8 13 30

Frequenze attese 16 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1,11) 4.8 4.3 6.9 1 1 16 [11,21) 4.2 3.7 6.1 1 14 1 9 8 13 30

17 / 65 Definizione Diremo che due variabili sono dipendenti se le frequenze osservate sono molto diverse da quelle attese.

17 / 65 Definizione Diremo che due variabili sono dipendenti se le frequenze osservate sono molto diverse da quelle attese. ma cosa vuol dire molto diverse?

17 / 65 Definizione Diremo che due variabili sono dipendenti se le frequenze osservate sono molto diverse da quelle attese. ma cosa vuol dire molto diverse? Per capire quanto sono diverse si può calcolare la distanza delle frequenze osservate da quelle attese. Si calcola un numero chiamato c 2 (si legge chi-quadro)

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 18 / 65

Torniamo all esempio 18 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = (2 4.8) 2 4.8

Torniamo all esempio 18 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = (2 4.8) 2 + 4.8 (5 4.3)2 4.3

Torniamo all esempio 18 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = (2 4.8) 2 + 4.8 (5 4.3)2 4.3 + (9 6.9)2 6.9

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 + 4.8 (7 4.2)2 4.2 (5 4.3)2 4.3 + (9 6.9)2 6.9 18 / 65

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 (5 4.3)2 + + 4.8 4.3 (7 4.2)2 (3 3.7)2 + 4.2 3.7 (9 6.9)2 6.9 18 / 65

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 (5 4.3)2 (9 6.9)2 + + 4.8 4.3 6.9 (7 4.2)2 (3 3.7)2 (4 6.1)2 + + 4.2 3.7 6.1 18 / 65

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 (5 4.3)2 (9 6.9)2 + + 4.8 4.3 6.9 (7 4.2)2 (3 3.7)2 (4 6.1)2 + + 4.2 3.7 6.1 ' 5.11 18 / 65

Utilizzo del c 2 19 / 65 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti.

19 / 65 Utilizzo del c 2 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti. Da un punto di vista qualitativo si può dire che: per valori di c 2 grandi le variabili sono dipendenti per valori di c 2 piccoli le variabili sono indipendenti

19 / 65 Utilizzo del c 2 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti. Da un punto di vista qualitativo si può dire che: per valori di c 2 grandi le variabili sono dipendenti per valori di c 2 piccoli le variabili sono indipendenti In statistica è stato elaborato un test per calcolare con che fiducia, noto il valore del c 2, si possa affermare che due variabili siano dipendenti.

19 / 65 Utilizzo del c 2 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti. Da un punto di vista qualitativo si può dire che: per valori di c 2 grandi le variabili sono dipendenti per valori di c 2 piccoli le variabili sono indipendenti In statistica è stato elaborato un test per calcolare con che fiducia, noto il valore del c 2, si possa affermare che due variabili siano dipendenti. Questo test prende il nome di Test del c 2

Calcolo della fiducia 20 / 65 Per calcolare la fiducia si calcola per primo un numero, denotato con df, che misura i gradi di libertà, definito come df =(numero colonne 1)(numero righe 1)

Calcolo della fiducia 20 / 65 Per calcolare la fiducia si calcola per primo un numero, denotato con df, che misura i gradi di libertà, definito come Nell esempio df =(numero colonne 1)(numero righe 1) df =(2 1)(3 1)=2

Calcolo della fiducia Per calcolare la fiducia si calcola per primo un numero, denotato con df, che misura i gradi di libertà, definito come Nell esempio df =(numero colonne 1)(numero righe 1) df =(2 1)(3 1)=2 Calcolati il c 2 ed il df si utilizza la seguente tabella. df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a = 0.001 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47 5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52 6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46 7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32 8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12 9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88 10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59 11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26 12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91 13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53 14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12 15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7 16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25 17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79 20 / 65

21 / 65 Vediamo il nostro esempio c 2 = 5.11 df =(2 1)(3 1)=2

Vediamo il nostro esempio c 2 = 5.11 df =(2 1)(3 1)=2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 15 19.31 20.6 22.31 25. 27.49 30.58 32.8 16 20.47 21.79 23.54 26.3 28.85 32. 34.27 17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 21 / 65

Vediamo il nostro esempio c 2 = 5.11 df =(2 1)(3 1)=2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 15 19.31 20.6 22.31 25. 27.49 30.58 32.8 16 20.47 21.79 23.54 26.3 28.85 32. 34.27 17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 22 / 65

Vediamo il nostro esempio c 2 = 5.11 df =(2 1)(3 1)=2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 15 19.31 20.6 22.31 25. 27.49 30.58 32.8 16 20.47 21.79 23.54 26.3 28.85 32. 34.27 17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 23 / 65

Il valore a = 0.1 rappresenta la sfiducia 24 / 65

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a)

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1)

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1) = 100(0.9)

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1) = 100(0.9) = 90%

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1) = 100(0.9) = 90% Possiamo affermare che le due variabili sono dipendenti con una fiducia del 90%.

Il caso 2 2 25 / 65 Se la tabella di contingenza è 2 2, cioè del tipo X # Y! J 1 J 2 I 1 a b a + b I 2 c d c + d a + c b + d N

Il caso 2 2 25 / 65 Se la tabella di contingenza è 2 2, cioè del tipo X # Y! J 1 J 2 I 1 a b a + b I 2 c d c + d a + c b + d N si può calcolare il c 2 senza calcolare le frequenze attese tramite la formula c 2 (ad bc) 2 = N (a + b)(c + d)(a + c)(b + d)

Uso del test del c 2 26 / 65 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico.

26 / 65 Uso del test del c 2 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico. Esempio In uno studio di immunologia, vengono studiate 111 cavie nel modo seguente: 57 di esse ricevono una dose di batteri patogeni seguiti da un antisiero; le restanti 54 ricevono solo i batteri ma non l antisiero.

26 / 65 Uso del test del c 2 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico. Esempio In uno studio di immunologia, vengono studiate 111 cavie nel modo seguente: 57 di esse ricevono una dose di batteri patogeni seguiti da un antisiero; le restanti 54 ricevono solo i batteri ma non l antisiero. Dopo un tempo sufficiente per il periodo di incubazione e per il decorso della malattia si contano 38 cavie morte di cui: 12 avevano ricevuto il siero 26 solo i batteri

26 / 65 Uso del test del c 2 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico. Esempio In uno studio di immunologia, vengono studiate 111 cavie nel modo seguente: 57 di esse ricevono una dose di batteri patogeni seguiti da un antisiero; le restanti 54 ricevono solo i batteri ma non l antisiero. Dopo un tempo sufficiente per il periodo di incubazione e per il decorso della malattia si contano 38 cavie morte di cui: 12 avevano ricevuto il siero 26 solo i batteri L antisiero è efficace?

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: 27 / 65 BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: 27 / 65 BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; 54 ricevono solo i batteri 12 morte avevano ricevuto il siero 26 morte solo i batteri Dalla formula per il calcolo del c 2 per una tabella 2 2 si ottiene BA B c 2 (12 28 45 26)2 = 111 w 9.042 57 54 38 73 D S

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: 28 / 65 BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; D S 54 ricevono solo i batteri BA 12 57 12 morte avevano ricevuto il siero B 26 54 26 morte solo i batteri 38 111 Dalla formula per il calcolo del c 2 per una tabella 2 2 si ottiene c 2 (12 28 45 26)2 = 111 w 9.042 57 54 38 73

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; 54 ricevono solo i batteri 12 morte avevano ricevuto il siero 26 morte solo i batteri D S BA 12 45 57 B 26 28 54 38 73 111 29 / 65

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; 54 ricevono solo i batteri 12 morte avevano ricevuto il siero 26 morte solo i batteri D S BA 12 45 57 B 26 28 54 38 73 111 Dalla formula per il calcolo del c 2 per una tabella 2 2 si ottiene c 2 (12 28 45 26)2 = 111 w 9.042 57 54 38 73 29 / 65

30 / 65 Dalla tabella del c 2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a = 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18 si ottiene a = 0.005 da cui la fiducia F = 100(1 0.005)=99.5%

30 / 65 Dalla tabella del c 2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a = 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18 si ottiene a = 0.005 da cui la fiducia F = 100(1 0.005)=99.5% Possiamo quindi affermare che le due variabili sono dipendenti con una fiducia del 99.5. Questo significa che il l antisiero è efficace.

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti.

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti. Il problema naturale è capire quale tipo di dipendenza matematica intercorre tra le due variabili.

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti. Il problema naturale è capire quale tipo di dipendenza matematica intercorre tra le due variabili. In altre parole ci si chiede se sia possibile determinare una funzione y = f (x) che, con una buona approssimazione, soddisfi: Y i = f (X i ) i = 1,...,N

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti. Il problema naturale è capire quale tipo di dipendenza matematica intercorre tra le due variabili. In altre parole ci si chiede se sia possibile determinare una funzione y = f (x) che, con una buona approssimazione, soddisfi: Y i = f (X i ) i = 1,...,N Un primo tentativo è osservare il diagramma di dispersione associato alle variabili X e Y e costruito nel modo seguente.

Nuvole di punti 32 / 65 Si costruisce un nuovo vettore P = X Y =((X 1,Y 1 ),...,(X N,X N )) = (P 1,...,P N ) In un sistema di riferimento cartesiano si tracciano gli N punti. Si ottiene in questo modo il diagramma di dispersione

Nuvole di punti 32 / 65 Si costruisce un nuovo vettore P = X Y =((X 1,Y 1 ),...,(X N,X N )) = (P 1,...,P N ) In un sistema di riferimento cartesiano si tracciano gli N punti. Si ottiene in questo modo il diagramma di dispersione Per esempio per i vettori X =(4,18,10,16,1,10,0,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) si ottiene

33 / 65 30 25 20 15 10 5 2.5 5 7.5 10 12.5 15 17.5

Tipi di diagrammi di dispersione 34 / 65 40 30 20 10 5 10 15 20 25 30 35

Tipo retta y = x + 3 35 / 65 40 30 20 10 5 10 15 20 25 30 35

Tipi di diagrammi di dispersione 36 / 65 1200 1000 800 600 400 200 5 10 15 20 25 30 35

Tipo parabola y = x 2 37 / 65 1200 1000 800 600 400 200 5 10 15 20 25 30 35

Tipi di diagrammi di dispersione 38 / 65 1 0.8 0.6 0.4 0.2 5 10 15 20 25 30 35

39 / 65 Tipo iperbole y = 1 x 1 0.8 0.6 0.4 0.2 5 10 15 20 25 30 35

Regressione lineare 40 / 65 La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due

40 / 65 Regressione lineare La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due esiste un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino ad una retta?

40 / 65 Regressione lineare La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due esiste un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino ad una retta? nel caso fosse sufficientemente vicino come calcolo l equazione della retta?

40 / 65 Regressione lineare La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due esiste un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino ad una retta? nel caso fosse sufficientemente vicino come calcolo l equazione della retta? Per dare una risposta a questi quesiti dobbiamo introdurre un nuovo indice.

La covarianza 41 / 65 Siano X e Y due variabili indicate, come al solito, con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) Definizione Si chiama covarianza di X e Y il numero Cov(X,Y) = 1 N N Â k=1 (X k X)(Y k Y)

La covarianza 41 / 65 Siano X e Y due variabili indicate, come al solito, con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) Definizione Si chiama covarianza di X e Y il numero Cov(X,Y) = 1 N N Â k=1 (X k X)(Y k Y) = (X 1 X)(Y 1 Y)+ +(X N X)(Y N Y) N

Calcolo della covarianza 42 / 65 Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3)

Calcolo della covarianza 42 / 65 Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5

Calcolo della covarianza 42 / 65 Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y 8 4 2 5 3 4 9 5 4 4 6 5 1 4 3 5 43 / 65

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y 4 3 1 4 0 1 3 2 44 / 65

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 1 4 0 1 3 2 45 / 65

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 12 1 4 4 0 1 0 3 2 6 46 / 65

Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Calcolo della covarianza Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 12 1 4 4 0 1 0 3 2 6 10 47 / 65

Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Calcolo della covarianza Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 12 1 4 4 0 1 0 3 2 6 10 Cov(X,Y)= 10 4 = 2.5 47 / 65

Il coefficiente di correlazione lineare 48 / 65 A partire dalla covarianza si introduce un nuovo indice chiamato coefficiente di correlazione lineare è definito come r(x,y)= Cov(X,Y) s X s Y

Il coefficiente di correlazione lineare 48 / 65 A partire dalla covarianza si introduce un nuovo indice chiamato coefficiente di correlazione lineare è definito come r(x,y)= Cov(X,Y) s X s Y Questo coefficiente indicherà, come vedremo più avanti, con che bontà una retta approssima il diagramma di dispersione di X e Y.

Retta di regressione lineare 49 / 65 In questa lezione andiamo a determinare uno strumento qualitativo che ci permetta di individuare quanto due variabili dipendano da un legge di tipo lineare. Cioè del tipo Y = mx + q

Retta di regressione lineare 49 / 65 In questa lezione andiamo a determinare uno strumento qualitativo che ci permetta di individuare quanto due variabili dipendano da un legge di tipo lineare. Cioè del tipo Y = mx + q L idea è di misurare quale errore si commette nel rappresentare il diagramma di dispersione di due variabili con una singola retta.

Retta di regressione lineare 50 / 65 Nella figura 40 30 20 10 5 10 15 20 25 30 35 la retta verde non passa per tutti i punti, ma forse tra tutte le rette è quella che meglio rappresenta il diagramma di dispersione.

Retta di regressione lineare 50 / 65 Nella figura 40 30 20 10 5 10 15 20 25 30 35 la retta verde non passa per tutti i punti, ma forse tra tutte le rette è quella che meglio rappresenta il diagramma di dispersione. Come facciamo a determinare l equazione della retta verde in modo che sia la migliore possibile?

50 / 65 Retta di regressione lineare Nella figura 40 30 20 10 5 10 15 20 25 30 35 la retta verde non passa per tutti i punti, ma forse tra tutte le rette è quella che meglio rappresenta il diagramma di dispersione. Come facciamo a determinare l equazione della retta verde in modo che sia la migliore possibile? Qual è l errore nel rappresentare il legame tra le due variabili tramite l equazione della retta verde?

Retta di regressione lineare sulla X 51 / 65 Dati i vettori X =(X 1,X 2,X 3,X 4 ) Y =(Y 1,Y 2,Y 3,Y 4 ) tracciamo assieme alla nuvola di punti una generica retta di equazione y = mx + q. 5 4 3 y = mx + q 2 1-1 1 2 3 4

-1 1 2 3 4 52 / 65 5 4 3 P k =(X k,y k ) o 2 (X k,mx k + q) 1 Per ogni punto P k =(X k,y k ) misuriamo la differenza tra l ordinata del punto P k e l ordinate del punto sulla retta di ascissa X k.

-1 1 2 3 4 53 / 65 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1 Indicando con e k l errore si ottiene un nuovo vettore e =(e 1,...,e N )

-1 1 2 3 4 53 / 65 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1 Indicando con e k l errore si ottiene un nuovo vettore Osservazione e =(e 1,...,e N ) e k > 0 se P k si trova sopra la retta e k < 0 se P k si trova sotto la retta

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri:

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza.

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile.

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile. I due criteri sono soddisfati se:

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile. I due criteri sono soddisfati se: 1 la media di e è zero;

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile. I due criteri sono soddisfati se: 1 la media di e è zero; 2 la deviazione standard di e è la minore possibile.

La condizione e = 0 55 / 65 Criterio La media degli errori è zero se e solo se il punto P =(X,Y) appartiene alla retta La retta ha quindi equazione y Y = m(x X)

La condizione e = 0 55 / 65 Criterio La media degli errori è zero se e solo se il punto P =(X,Y) appartiene alla retta La retta ha quindi equazione y Y = m(x X) 6 4 2 P =(X,Y) -1 1 2 3 4-2

La condizione s e minima 56 / 65 Per individuare univocamente la retta y Y = m(x X) dobbiamo determinare il coefficiente angolare m.

La condizione s e minima 56 / 65 Per individuare univocamente la retta y Y = m(x X) dobbiamo determinare il coefficiente angolare m. La condizione che la deviazione standard s e degli errori sia la minore possibile implica...

La condizione s e minima 56 / 65 Per individuare univocamente la retta y Y = m(x X) dobbiamo determinare il coefficiente angolare m. La condizione che la deviazione standard s e degli errori sia la minore possibile implica... m = Cov(X,Y) Var(X)

Retta di regressione lineare sulla X 57 / 65 In conclusione si ha la seguente

57 / 65 Retta di regressione lineare sulla X In conclusione si ha la seguente Proposizione Una retta soddisfa alle due condizioni la media di e è zero, la deviazione standard di e è la minore possibile, se ha equazione y Y = Cov(X,Y) (x X) Var(X) e si chiama retta di regressione lineare sulla X

Retta di regressione lineare sulla Y 58 / 65 Torniamo alla definizione degli e k. 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1-1 1 2 3 4

Retta di regressione lineare sulla Y 58 / 65 Torniamo alla definizione degli e k. 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1-1 1 2 3 4 Pensiamo adesso di definire gli e k tenendo conto degli errori orizzontali, cioè

Retta di regressione lineare sulla Y 59 / 65 5 4 e k 3 2 1-1 1 2 3 4

Retta di regressione lineare sulla Y 60 / 65 Con un ragionamento analogo a quello visto prima si ottiene la retta y Y = Var(Y) (x X) Cov(X,Y)

Retta di regressione lineare sulla Y 60 / 65 Con un ragionamento analogo a quello visto prima si ottiene la retta y Y = Var(Y) (x X) Cov(X,Y) In conclusione si ottengono due rette di regressione lineare, una sulla X ed una sulla Y le cui equazioni sono: rettasullax y Y = m X (x X) m X = Cov(X,Y) Var(X) rettasullay y Y = m Y (x X) m Y = Var(Y) Cov(X, Y)

Rette di regressione lineare 61 / 65 Le due rette di regressione lineare r X e r Y passano entrambe per lo stesso punto P =(X,Y) e formano un angolo a tra di loro. 6 r Y 4 2 a P =(X,Y) r X -1 1 2 3 4-2

Rette di regressione lineare 62 / 65 Possiamo distinguere i seguenti casi limite a w 0, in questo caso le due rette coincidono e la nuvola di punti può essere ben rappresentata dall unica retta di regressione lineare;

Rette di regressione lineare 62 / 65 Possiamo distinguere i seguenti casi limite a w 0, in questo caso le due rette coincidono e la nuvola di punti può essere ben rappresentata dall unica retta di regressione lineare; a w p 2, in questo caso le due rette sono ortogonali e la nuvola di punti non può essere rappresentata dalle rette di regressione lineare.

Rette di regressione lineare 63 / 65 10 17.5 15 a w 0 8 a grande 12.5 10 6 7.5 5 4 2.5 2 2 4 6 8 10 2 4 6 8 10 12

Analisi dell angolo a 64 / 65 se a w 0, le due rette coincidono e quindi m X w m Y ;

64 / 65 Analisi dell angolo a se a w 0, le due rette coincidono e quindi m X w m Y ; se a w p 2, in questo caso le due rette sono ortogonali ed in più quella sulla X diviene orizzontale (m X = 0) mentre quella sulla Y verticale (m Y = ).

64 / 65 Analisi dell angolo a se a w 0, le due rette coincidono e quindi m X w m Y ; se a w p 2, in questo caso le due rette sono ortogonali ed in più quella sulla X diviene orizzontale (m X = 0) mentre quella sulla Y verticale (m Y = ). Possiamo quindi considerare la quantità m X m Y

Analisi dell angolo a 64 / 65 se a w 0, le due rette coincidono e quindi m X w m Y ; se a w p 2, in questo caso le due rette sono ortogonali ed in più quella sulla X diviene orizzontale (m X = 0) mentre quella sulla Y verticale (m Y = ). Possiamo quindi considerare la quantità m X m Y Dalle formule trovate prima si ha m X m Y = Cov(X,Y) Var(X) Var(Y) Cov(X,Y) = Cov(X,Y)2 Var(X)Var(Y) = Cov(X,Y) 2 = r 2 s X s Y

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali.

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali. In termini di dipendenza lineare delle variabili X e Y si ha

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali. In termini di dipendenza lineare delle variabili X e Y si ha se r 2 w 1, le due variabili sono dipendenti da una legge lineare se r w 1 la nuvola di punti è crescente se r w 1 la nuvola di punti è decrescente

Il coefficiente di correlazione lineare Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali. In termini di dipendenza lineare delle variabili X e Y si ha se r 2 w 1, le due variabili sono dipendenti da una legge lineare se r w 1 la nuvola di punti è crescente se r w 1 la nuvola di punti è decrescente se r 2 w 0, le due variabili non sono dipendenti da una legge lineare. 65 / 65