Appunti di Statistica Descrittiva



Documenti analoghi
Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Lezione n. 2 (a cura di Chiara Rossi)

E naturale chiedersi alcune cose sulla media campionaria x n

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Prova di autovalutazione Prof. Roberta Siciliano

EQUAZIONI DIFFERENZIALI. 1. Trovare tutte le soluzioni delle equazioni differenziali: (a) x = x 2 log t (d) x = e t x log x (e) y = y2 5y+6

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Regressione Mario Guarracino Data Mining a.a. 2010/2011

4 3 4 = 4 x x x 10 0 aaa

Applicazioni lineari

EQUAZIONI DIFFERENZIALI Esercizi svolti. y = xy. y(2) = 1.

Capitolo 2 Distribuzioni di frequenza

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Basi di matematica per il corso di micro

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Appunti sul corso di Complementi di Matematica - prof. B.Bacchelli Equazioni differenziali lineari omogenee a coefficienti costanti.

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

FONDAMENTI DI PSICOMETRIA - 8 CFU

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

4. Operazioni elementari per righe e colonne

L espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0.

La distribuzione Normale. La distribuzione Normale

La Programmazione Lineare

Relazioni statistiche: regressione e correlazione

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

Il modello media-varianza con N titoli rischiosi. Una derivazione formale. Enrico Saltari

Limiti e continuità delle funzioni reali a variabile reale

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

Capitolo 2. Operazione di limite

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

Dott.ssa Caterina Gurrieri

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

1. PRIME PROPRIETÀ 2

11) convenzioni sulla rappresentazione grafica delle soluzioni

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

CRITERI DI CONVERGENZA PER LE SERIE. lim a n = 0. (1) s n+1 = s n + a n+1. (2) CRITERI PER LE SERIE A TERMINI NON NEGATIVI

1. Distribuzioni campionarie


Un modello matematico di investimento ottimale

risulta (x) = 1 se x < 0.

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

1 Serie di Taylor di una funzione

Esercizi su lineare indipendenza e generatori

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

ESERCIZI APPLICAZIONI LINEARI

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

l insieme Y è detto codominio (è l insieme di tutti i valori che la funzione può assumere)

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

( x) ( x) 0. Equazioni irrazionali

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

Lezione 9: Cambio di base

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Indice. 1 Introduzione alle Equazioni Differenziali Esempio introduttivo Nomenclatura e Teoremi di Esistenza ed Unicità...

Probabilità II Variabili casuali discrete

Luigi Piroddi

Esempi di funzione. Scheda Tre

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

MINIMI QUADRATI. REGRESSIONE LINEARE

Matematica generale CTF

LE FUNZIONI A DUE VARIABILI

ANALISI DELLE FREQUENZE: IL TEST CHI 2

SPC e distribuzione normale con Access

SUCCESSIONI NUMERICHE

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Ottimizazione vincolata

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Parte 3. Rango e teorema di Rouché-Capelli

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

STATISTICA IX lezione

La variabile casuale Binomiale

STRUTTURE ALGEBRICHE

Forze come grandezze vettoriali

FUNZIONE REALE DI UNA VARIABILE

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Il test del Chi-quadrato

APPLICAZIONI LINEARI

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

4 Dispense di Matematica per il biennio dell Istituto I.S.I.S. Gaetano Filangieri di Frattamaggiore EQUAZIONI FRATTE E SISTEMI DI EQUAZIONI

Capitolo 4 Probabilità

Corrispondenze e funzioni

Capitolo 12 La regressione lineare semplice

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Il concetto di valore medio in generale

Funzioni. Funzioni /2

Raccolta degli Scritti d Esame di ANALISI MATEMATICA U.D. 1 assegnati nei Corsi di Laurea di Fisica, Fisica Applicata, Matematica

Analisi di dati di frequenza

Funzioni. Parte prima. Daniele Serra

CAPITOLO I. Prof. Ing. Michele Marra - Appunti delle Lezioni di Ricerca Operativa Programmazione Dinamica

Introduzione al MATLAB c Parte 2

(a cura di Francesca Godioli)

Lezione 6 (16/10/2014)

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

Transcript:

Appunti di Statistica Descrittiva 30 dicembre 009 1 La tabella a doppia entrata Per studiare dei fenomeni con caratteristiche statistiche si utilizza l espediente della tabella a doppia entrata Per esempio si vuole studiare se le persone con una certa età prediligono se andare al mare o in montagna Se X è l età e Y il luogo di villeggiatura, la tabella a doppia entrata è un modo per descrivere la frequenza del numero di persone che, nel campione considerato, preferiscono andare in montagna o al mare a partità di età Generalmente la tabella a doppia entrata date le caratteristiche statistiche X e Y e le modalità x 1,, x h e y 1,, y k si presenta in questa maniera: X/Y y 1 y y j y k n i x 1 n 11 n 1 n 1j n 1k n 1 x n 1 n n j n k n x i n i1 n i n ij n ik n i x h n h1 n h n hj n hk n h n j n 1 n n j n k n dove n ij viene chiamata genericamente la frequenza congiunta, ovvero la frequenza dell evento che contemporaneamente possiede l attributo della modalità x i e l attributo della modalità y j, mentre n i e n j sono le frequenze marginali rispettivamente di X e di Y La tabella delle frequenze assolute ha queste proprietà: n i = n ij n j = Questa dispensa è frutto della mente malata di Federico Carlini Quindi, se trovaste errori, mandate una mail a questo losco individuo a federimi@hotmailcom, così potrò sistemare il tutto Vi ringrazio per la collaborazione! n ij 1

n = n ij = La tabella con le frequenze relative invece si ottiene sostituendo le frequenze assolute n ij con le frequenze relative f ij calcolate in questa maniera: f ij = n ij n n j = e avremo anzichè le marginali assolute n i o n j, le marginali relative f i o f j, f i = f j = f ij f ij n i e si può dimostrare che: f ij = f i = f j = 1 Proviamo a vedere questi concetti in un esempio numerico Si considerino tutti gli studenti del dipartimento di Economia che in estate sono andati al mare o in montagna Chiamiamo X la caratteristica che distingue il luogo di villeggiatura (ovvero montagna/mare) e chiamiamo Y la caratteristica che distingue le classi di età (vale la regola che coloro che vanno in montagna non possono andare al mare) Proviamo ora a scrivere la tabella a doppia entrata con le frequenze assolute: X/Y 19 1 1 3 3 5 n i montagna 40 30 50 40 + 30 + 50 = 10 mare 100 150 80 100 + 150 + 80 = 330 n j 40 + 100 =140 30 + 150 = 180 50 + 80 = 130 140 + 180 + 130 = 450 10 + 330 = 450 Se dovessimo riscrivere la tabella con le frequenze relative, si trova che X/Y 19 1 1 3 3 5 f i montagna 40/450 = 0, 089 30/450 = 0067 50/450 = 0111 067 mare 100/450 = 0 150/450 = 0333 80/450 = 0178 0733 f j 0311 04 089 1 E si può notare come tutte le proprietà descritte precedentemente siano vere

11 La distribuzione marginale La distribuzione marginale vorrebbe riassumere nient altro che la distribuzione di X e la distribuzione di Y, senza che si osservino i legami tra le due varabili (per essere veri statistici si direbbere unconditionally o non condizionatamente) Quindi se dovessimo rappresentare la marginale assoluta di Y date le modalità y 1,, y k, e la marginale relativa di X date le modalità x 1,, x h, esse si possono rappresentare tramite tabelle come: Y n ij X f ij y 1 n 1 y n x 1 f 1 x f y k 1 n (k 1) x h 1 f (h 1) y k n k n x h f h 1 Oppure si può ricorrere a quest altra notazione: n Y = (n 1, n,, n k ) f X = (f 1, f,, f k ) Quindi, per essere più intuitivi, se volessimo calcolare la distribuzioni marginale di Y dobbiamo fregarcene di quello che succede alla caratteristica X Inoltre è bene ricordarsi che dalle distribuzioni congiunte si possono ottenere le distribuzioni marginali univocamente, ma non è possibile il viceversa Nell esempio precedente avremo che la distribuzione marginale assoluta di Y e la distribuzione marginale relativa di X sono: Y n ij 19 1 140 1 3 180 3 5 70 450 X f ij montagna 067 mare 0733 1 1 La distribuzione condizionata La distribuzione condizionata è un altro concetto importante e più sofisticato della marginale, in cui cerchiamo di capire le distribuzioni di una caratteristica (ad esempio la Y ) rispetto ad una modalità dell altra caratteristica (ad esempio x i ) La distribuzione condizionata viene descritta dalle tabelle seguenti, la prima per la distribuzione assoluta, mentre la seconda per la distribuzione relativa 3

Y x i n Y x i f y 1 x i y x i n i1 n i y 1 x i n i1 /n i = f i1 /f i y x i n i /n i = f i /f i y k 1 x i y k x i n i(k 1) n ik n i y k 1 x i n i(k 1) /n i = f i(k 1) /f i y k x i n ik /n i = f ik /f i 1 Ogni distribuzione relativa, come al solito, ha la caratteristica che le frequenze relative sommano ad 1 Ma intuitivamente cosa significa calcolare la distribuzione condizionale? In prima analisi significa vedere qual è la distribuzione delle frequenze di una caratteristica statistica (in questo caso la Y ) rispetto ad una sola modalità della caratteristica statistica X In generale, per ogni x i x j, si avranno le distribuzioni condizionate Y x i e Y x j diverse Ovviamente nulla ci vieta di trovare le condizionali X y j,che avranno anch esse certe caratteristiche distributive Per ultimo si ricordi che con qualche condizione sulle distribuzioni condizionate ed alcune condizioni sulle distribuzioni marginali si possono trovare le congiunte Se vogliamo calcolare le distribuzioni condizionate assoluta di Y x e la distribuzione condizionata relativa di X y 1 nell esempio numerico otteniamo Y x n y 1 x 100 y x 150 y 3 x 80 330 X y 1 f x 1 y 1 40/140 = 086 x y 100/140 = 0714 1 Indipendenza stocastica Si dice che i fenomeni X ed Y sono detti stocasticamente indipendenti se: 1 Le distribuzioni condizionali relative di Y x i sono uguali per ogni i = 1,, h Le distribuzioni condizionali relative di X y j sono uguali per ogni j = 1,, k 3 Le distribuzioni condizionali relative di Y x i sono uguali alla distribuzione marginale relativa di Y 4 Le distribuzioni condizionali relative di X y j sono uguali alle distribuzioni marginali relativa di X Per capire meglio cosa sia l indipendenza stocastica facciamo un esempio numerico Abbiamo una tabella a doppia entrata così fatta: X/Y 3 5 n i 1 5 10 0 35 10 0 40 70 n j 15 30 60 105 4

Innanzitutto si osservi come le righe (e le colonne) siano proporzionali l una con l altra (ovvero ogni riga (colonna) è combinazione lineare delle altre righe (colonne)) Ora proviamo a calcolare le distribuzioni delle frequenze relative condizionate e otteniamo che: f Y x1 = ( 5 35, 10 35, 0 ) 35 f Y x = ( 10 70, 0 70, 40 ) 70 f X y1 = ( 5 15, 10 ) 15 f X y = ( 10 30, 0 ) 30 f X y3 = ( 0 60, 40 ) 60 Ora calcoliamo le distribuzioni delle frequenze relative marginali per ottenere che: f Y = f X = ( 15 105, 30 105, 60 ) 105 ( 35 105, 70 ) 105 A questo punto si nota facendo i calcoli che f Y x1 = f Y x = f Y e che f X y1 = f X y = f X y3 = f X e questa è la proprietà per la quale si definisce l indipendenza stocastica Quindi: Definizione 1: Parliamo di indipendenza stocastica tra X ed Y se e solo se le distribuzioni condizionate relative ad una variabile (Y e X) sono uguali alle distribuzioni delle frequenze marginali relative della stessa variabile, cioè in una tabella a doppia entrata in generale vale che: f Y x1 = f Y x = = f Y xh = f Y f X y1 = f X y = = f X yk = f X 1 Frequenze teoriche Ora proviamo a calcolare le frequenze teoriche dell esercizio del paragrafo precedente, definite come: con n, ovvero il numero totale di osservazioni ˆn ij = n i n j n Se si provano a calcolare quindi le frequenze teoriche nell esercizio del paragrafo precedente si ottiene che: ˆn ij 3 5 ˆn i 1 5 10 0 35 10 0 40 70 ˆn j 15 30 60 105 e si nota come esse siano identiche a quelle di partenza Pertanto un altra condizione che può essere utile per parlare di indipendenza stocastica è la seguente 5

Definizione 1(bis): Parliamo di indipendenza stocastica tra Y ed X se e solo se le frequenze teoriche sono uguali alle frequenze osservate, ovvero n ij = ˆn ij che implica, tramite la definizione 1, che: con H i e K j fissati n ij n i = n j n = K j n ij n j = n i n = H i i = 1, h j = 1, k Indici di connessione: χ di Pearson Prima di definire questo indice bisogna parlare della tabella delle contingenze, dove ogni elemento della stessa è definito come c ij = (n ij ˆn ij ) Questa matrice ha le seguenti proprietà: c ij = 0 c ij = 0 c ij = 0 L indice di Pearson assoluto è un indice che serve a quantificare la dipendenza funzionale tra due variabili X ed Y Esso viene definito in questo modo: χ = (c ij ) = ˆn ij (n ij ˆn ij ) Intuitivamente esso mi dice quanto dista, pesando opportunamente coi diversi valori delle frequenze teoriche, la frequenza osservata da quella teorica Tale indice se è pari a χ = 0 allora vi è indipendenza stocastica mentre se tale indice è pari a χ = n min{(h 1), (k 1)} allora vi è massima dipendenza funzionale tra i fenomeni X ed Y A questo punto si preferisce avere un indice standard che permette comparazioni tra diverse tabelle, e si costruisce il χ N normalizzato come χ χ N = n min{(h 1), (k 1)} che ha la caratteristica per cui 0 χ N 1 ˆn ij 6

dove per 0 si intende che vi sia indipendenza stocastica mentre per 1 si intende che esista massima dipendenza Esso inoltre ha la caratteristica di essere simmetrico ovvero: χ N (Y X) = χ N (X Y ) (Bonus question : provare a ragionare perchè χ è simmetrico) 3 Indice χ e indipendenza stocastica Per capire come sono correlati l indice χ e l indipendenza stocastica, calcoliamo prima nell esempio la tabella delle contingenze e otteniamo: c ij 3 5 c i 1 0 0 0 0 0 0 0 0 c j 0 0 0 0 Dato che l indice χ è definito come: χ = (c ij ) ˆn ij allora si nota come nel nostro esempio, dacchè la matrice dei c ij è coperta di zeri, χ = 0 Quindi si può interpretare questo fatto, secondo la seguente definizione: Definizione 1(ter): Si dice che X ed Y siano indipendenti stocasticamente se e solo se la tabella delle contingenze è coperta da zeri il che implica, per la definizione stessa di χ, che l indice stesso sia pari a χ = 0 3 Regressione in media Per andare ad analizzare se esiste una dipendenza tra i dati e descrivere quale sia l andamento al variare di Y ad X utilizziamo modelli teorici del tipo y = g(x) che approssimino al meglio le diverse osservazioni (x i, y i ) Il modello sicuramente non rappresenterà la realtà (le frequenze osservate), quindi esso avrà un termine di errore che lo definiamo come la differenza tra valore osservato y e il valore teorico del modello y ovvero e i = y i y i = y i g(x i ) i Questo errore di misura bisognerà minimizzarlo per ottenere la migliore interpolante tra modello teorico e dati osservati, minimizzando una funzione L(y y ) Come funzione, in particolare, si prende la media quadratica e quindi il problema diventa min M(e) = min M[(y g(x)) ] 7

ovvero si cerca di minimizzare la distanza quadratica (sempre positiva) tra i dati osservati e il modello condizionato sulle x Prima di partire a descrivere il modello definiamo gli ingredienti che si utilizzano per calcolare questa funzione 31 Media marginale La media marginale è relativa sia ad X sia ad Y e vengono definite come: M(X) = µ X = x i n i /n = x i f i M(Y ) = µ Y = y j n j /n = y j f j 3 Varianza marginale La varianza marginale anch essa e relativa sia ad X sia ad Y ed essendo il momento centrale secondo vengono definite come: Var(X) = σx = Var(Y ) = σy = (x i µ X ) n i /n = (x i µ X ) f i (y j µ Y ) n j /n = (y j µ Y ) f j 33 Medie condizionate Le medie condizionate sono le medie delle distribuzioni Y x i o X y j e vengono definite come M(Y x i ) = µ Y (x i ) = M(X y j ) = µ X (y j ) = y j n ij /n i x i n ij /n j 34 Varianze condizionate Le varianze condizionate sono le varianze delle distribuzioni Y x i o X y j e vengono definite come: Var(Y x i ) = σy (x i ) = Var(X y j ) = σx(y j ) = (y j µ Y ) n ij /n i (x i µ X ) n ij /n j 8

35 La scomposizione della varianza Esiste un teorema che recita così: la varianza totale di una certa variabile aleatoria si può suddividere in addendi: la varianza residua e la varianza spiegata Ovvero: in cui σ Y = Var(µ Y (X)) = σ Y = σ Y + σ Y (µ Y (x i ) µ Y ) f i è la varianza delle medie condizionate (o varianza spiegata o betweeness), mentre σ Y = Var(Y x i ) = è la media delle varianze condizionate (o varianza residua o within) (y j µ Y (x i )) f ij La dimostrazione sta nel fatto di aggiungere e togliere dalla varianza totale la media condizionale delle x i e poi svolgendo i calcoli si scopre che il doppio prodotto è nullo! Dimostrazione: Partiamo dalla varianza totale per capire poi quali sono le componenti: (y j µ Y ) f j = (y j µ Y (x i ) + µ Y (x i ) µ Y ) f j = = (y j µ Y (x i )) f j + } {{ } I Primo addendo: I) (y j µ Y (x i )) f j = Secondo addendo: II) (µ Y (x i ) µ Y ) f j = Terzo addendo: (µ Y (x i ) µ Y ) f j + } {{ } II (y j µ Y (x i )) f ij = (y j µ Y (x i ))(µ Y (x i ) µ Y )f j (µ Y (x i ) µ Y ) f ij = } {{ } III (y j µ Y (x i )) f ij = σ (µ Y (x i ) µ Y ) f i = σ Y III) Si può dimostrare che è pari a 0, moltiplicando e dividendo per f i, e utilizzando le proprietà della media Y 36 L indice di adattamento Esso viene indicato con ηy ed esso indica la percentuale di variabilità spiegata dal modello delle medie condizionali Esso è pari a ed è normalizzato nel senso che vale η Y = σ Y σ Y = 1 σ Y σy 0 η Y 1 9

in cui se l indice è pari a 0 indica indipendenza in MEDIA e mentre se l indice è pari 1 vi è dipendenza FUNZIONALE La differenza tra indipendenza stocastica e in media è la seguente: 1 Indipendenza stocastica : esiste se vi è uguaglianza di frequenza relativa delle variabili condizionate (quindi conserva proprietà simmetriche) Indipendenza in media : esiste se vi è uguaglianza tra le medie delle variabili condizionate Y X o X Y (quindi non è simmetrica) Inoltre vale che: Indipendenza stocastica Indipendenza in media ma NON è VERO il viceversa!!!!! Quindi, in generale vale che η X η Y tranne se vi sia: 1 indipendenza stocastica perfetta dipendenza funzionale biunivoca 3 uguaglianza tra la distribuzione delle medie condizionate di Y X, la distribuzione delle medie condizionate di X Y e uguaglianza tra le varianze marginali σx e σ Y 4 Indipendenza in media Ora proviamo a ragionare su un altro concetto che è quello relativo alll indipendenza in media Partiamo da una tabella a doppia entrata per capire tramite un esempio: X/Y 5 10 0 n i 1 0 3 5 3 0 3 5 n j 3 5 10 Si può dimostrare che in questa tabella non vi sia indipendenza stocastica (dimostrarlo!) Ora calcoliamo, anzichè le distribuzioni, le medie condizionate rispetto alla Y e poi rispetto alla X e otteniamo : µ Y (x 1 ) = 10 3 5 + 0 5 = 14 µ Y (x ) = 5 5 + 0 3 5 = 14 µ X (y 1 ) = 3 = 3 µ X(y ) = 1 3 3 = 1 µ X(y 3 ) = 1 5 + 3 3 5 = 11 5 Ora calcoliamo le medie marginali rispetto alla Y e poi rispetto alla X: µ Y = 5 10 + 10 3 10 + 0 5 10 = 14 10

5 µ X = 1 10 + 3 5 10 = Da qui si può notare come per la variabile Y si trovi che µ Y (x 1 ) = µ Y (x ) = µ Y mentre per la variabile X abbiamo che le medie sono tutte diverse Infatti µ X (y 1 ) µ X (y ) µ X (y 3 ) µ X Ora definiamo che cosa intendiamo per indipendenza in media: Definizione : Si dice che la variabile Y (X) ha indipendenza in media se sono tutte uguali le medie condizionali di Y (X) e tutte queste sono pari alla media marginale di Y (X) Quindi deve valere in generale che: µ Y (x 1 ) = µ Y (x ) = = µ Y (x h ) = µ Y per l indipendenza in media della Y oppure µ X (y 1 ) = µ X (y ) = = µ X (y k ) = µ X per l indipendenza in media della X Da questa definizione si puo capire che l indipendenza in media non è simmetrica, infatti si parla di indipendenza in media per la Y (o per la X) 41 La scomposizione della varianza La varianza della variabile Y si può scomporre in componenti, cioè: dove σ Y la media delle varianze condizionate σ Y = σ Y + σ Y è la varianza spiegata, ovvero la varianza delle medie condizionate, mentre σ Y è la varianza residua, ovvero Ora soffermiamoci sulla varianza residua, e proviamo a calcolarla Per calcolarla ci servono innanzitutto le varianze condizionate di Y e otteniamo σ Y (x 1) = M(Y x 1 ) µ Y (x 1) = 10 3 5 + 0 5 14 = 4 σ Y (x ) = M(Y x ) µ Y (x ) = 5 5 + 0 3 5 14 = 54 E ne calcoliamo la media ovvero Poi calcoliamo la varianza di Y come σy = M(σY 5 (x i ) = 4 10 + 54 5 10 = 39 σ Y = M(Y ) µ Y = 5 10 + 10 3 10 + 0 5 10 14 = 39 Si noti come in questo caso abbiamo che M(σY (x i)) = σy Questa è la seconda caratteristica che ci permette di dire che Y ha indipendenza in media Si può dimostrare che in questo esempio che la variabile X ha la proprietà che σx < σ X Quindi una seconda definizione di indipendenza in media sarà: 11

Definizione (bis): Si dice che la caratteristica Y ha indipendenza in media se e solo se σ Y = σ Y 4 Indice di adattamento L indice di adattamento per la Y (analogamente viene definito per la X cambiando i pedici) viene definito in questo modo: Dalla definizione (bis) abbiamo che se σ Y = σ Y quindi: Perciò si può scrivere che in generale vale che: η Y = σ Y σ Y = 1 σ Y σy σ Y allora vale che σy ηy = 1 σ Y σy = 1 1 = 0 Definizione (ter): Si dice che la caratteristica Y ha indipendenza in media se e solo se = 1 se vi è indipendenza in media per la Y, η Y = 0 5 Relazione tra indipendenza stocastica e indipendenza in media Esiste una relazione tra indipendenza stocastica e indipendenza in media Teorema 3: L indipendenza stocastica implica l indipendenza in media, ma non il viceversa Questo lo si può dimostrare nel primo esercizio, come? Ad esempio dimostrando che esiste indipendenza in media per l esercizio del paragrafo 1! Invece si può dimostrare facilmente che nell esercizio del paragrafo, esiste indipendenza in media per la Y, ma non è vero che vi è indipendenza stocastica Il teorema 3 può essere riscritto anche attraverso gli indici χ e η Y cioè Teorema 3(bis): Per l indipendenza stocastica e l indipendenza in media valgono le seguenti relazioni: χ = 0 η Y = 0 e η X = 0 contemporaneamente mentre η Y = 0 oppure η X = 0 χ = 0 6 La regressione lineare Osserviamo le variabili (x i, y i ) per i = 1,, n ponendo il caso che la frequenza delle osservazioni sia pari ad 1 (questo per farci sveltire i calcoli) Il modello di regressione lineare parte con l idea che ciò che possa descrivere meglio la dipendenza funzionale dei due fenomeni sia una retta Quindi ora costruiamo il modello ŷ i = a + bx i 1

che descrive la media condizionale di Y X Come in tutti i modelli, la media condizionale, espressa dalla retta, ha un errore che, se y i sono i valori osservati, viene espresso da e i = y i ŷ i = y i a bx i che viene chiamato residuo Per stimare poi i parametri del modello si procede come nella regressione in media ovvero si minimizza la media quadratica dei residui, ovvero min e e = min(y a bx) a,b e sta a significare che si risolve il problema di massimizzazione 61 La covarianza Ci serve ancora un ingrediente per capire come si stimino i parametri, ovvero il concetto di covarianza che, in questo caso con frequenza pari ad 1, lo si può scrivere come Cov(X, Y ) = n n mentre se le frequenze non fossero pari ad 1 si avrà Cov(X, Y ) = [(x i µ X )(y i µ Y )] n [(x i µ X )(y i µ Y )] f ij = = i x iy i µ X µ Y n x i y i f ij µ X µ Y e ricordiamo anche che Var(X ± Y ) = Var(X) + Var(Y ) ± Cov(X, Y ) Si può dimostrare infatti, grazie a questa condizione (facendo prima il modulo e poi la radice quadrata di tutto) che: Cov(X, Y ) σ X σ Y 6 La correlazione lineare E un indice che serve ad identificare qual è la correlazione lineare tra due variabili X ed Y, cercandola di normalizzare Essa viene espressa con ed ha la proprietà di essere compresa nell intervallo ρ = Cov(X, Y ) σ X σ Y 1 ρ 1 ed essa assume valore pari a 0 se vi è incorrelazione, pari ad 1 se la correlazione è perfettamente lineare e diretta (il coefficiente angolare della retta è positivo) ed è pari a -1 se la correlazione è perfettamente lineare ma inversa (il coefficiente angolare della retta è negativo) 13

63 Stima dei parametri Per stimare i parametri bisogna minimizzare lo squarto quadratico medio, ovvero min e = min (y i a bx i ) = min f(x e i) a,b a,b si ottiene che le condizioni di minimizzazione, per una singola osservazione saranno date da f a = (y i a bx i ) = 0 f b = (y i a bx i )x i = 0 da cui sommando i termini si ottiene che n y i n a n bx i = 0 n x iy i n ax i n bx i = 0 che mi danno le soluzioni ˆb = Cov(X, Y ) σ X â = M(Y ) ˆbM(X) = µ Y ˆbµ X È bene ricordarsi che X può essere qualsiasi funzione degli x quindi se dovessimo studiare per esempio la retta di regressione 1 y = a + b log x basta sostituire ad x la trasformazione logaritmica log x e si completano così i calcoli 64 L indice ρ Questo è un indice di bontà di adattamento della regressione lineare ovvero quanto il mio modello (la retta) descrive bene il comportamento dei dati Quindi diciamo che si può vedere come un indice ηy particolare, ovvero l interpolante qua è per forza di cose lineare Anche in questo caso, prima di parlare dell indice ρ dobbiamo parlare di varianza totale, varianza residua e varianza totale Esse seguono, tramite un teorema, questa relazione: σ Y = σ SP + σ Y R dove la prima è la varianza totale la seconda è la varianza spiegata e la terza è la varianza totale Ne segue qui che l indice di bontà di adattamento lineare è descritto da ρ = σ SP σ Y = 1 σ Y R σ Y 1 Una particolare trasformazione è e y = ab x che può diventare attraverso una trasformazione logaritmica una regressione lineare del tipo y = log a + (log b)x e chiamando α = log a e β = log b si ottiene y = α + βx 14

e vale che 0 ρ 1 a stare a dire che se ρ = 0 allora vi è incorrelazione tra i dati mentre se ρ = 1 la dipendenza lineare è massima (ovvero che i dati osservati stanno effettivamente su una retta) 7 Per ricapitolare Si NOTI bene: 1 L indice η si riferisce a qualsiasi funzione di regressione (ciò implica che può anche non essere una retta) L indice ρ si riferisce solo ad una retta di regressione!!! 15