x 1 f 1 Proprietà: n i=1 fi = N = somma delle frequenze = f1 + f2 + n i=1 f/n = 1

Transcript

1 Appunti di Statistica descrittiva di Davide Benza Introduzione al corso (su aula web di Imperia ci sono i testi degli appelli passati) Appunti di probabilità, fino a pag. 100, + argomenti di statistica descrittiva + temi svolti (editi da ECIC). In tutto l anno accademico dall alto hanno deciso che è possibile dare soltanto 3 prove, con deroga +1 se siamo alla tesi. La prova scritta riguarderà descrittiva e probabilità e non è possibile svolgere una soltanto delle 2 per arrivare al 18. Chi passa per misericordia lo scritto deve presentarsi all orale. Introduzione sulla statistica descrittiva: Lunedì 19/02/07 Tratta gli indici che descrivono un fenomeno, ovvero la composizione della variabilità della realtà. La rappresentazione sintetica (per esempio quella svolta dall ISTAT) è realizzata mediante grafici, tabelle etc. che riassumono, appunto, questi fenomeni. La statistica mono-dimensionale affronta un fenomeno alla volta. L unità statistica è il soggetto o il gruppo di soggetti oggetto di studio. N = popolazione totale (es.: 40 persone) X = oggetto di studio (es.: colore degli occhi) n = modalità = il modo in cui si esprime la mutabile (es.: 4: verde, blu, nero, castano) f = frequenza = quante volte si ripete una modalità F = frequenza cumulata (= f i + f i+1 ) I fenomeni si dividono in 2 categorie: 1) variabile: quantitativo (es.: il tempo) si manifesta in intensità o distanze 2) mutabile: qualitativo (es.: colore degli occhi) si manifesta in modalità a. ordinale (si può ordinare; es.: insufficiente, buono, cattivo) b. non ordinale (non si può ordinare) X f = frequenza associata alle modalità f/n = frequenza relativa Castano 15 15/40 Blu 5 5/40 Verde 10 10/40 Nero 10 10/40 TOTALE n = 4 N = 40 40/40 = 1 Nel relativo grafico a torta o a istogrammi l ordine è irrilevante. Formalizziamo (formalizzare significa rappresentare in maniera generica una frequenza): X f x 1 f 1 x 2 f 2 x i f i x n f n Proprietà: n i=1 fi = N = somma delle frequenze = f1 + f2 + n i=1 f/n = 1 Tutto quello che non dipende da i può essere portato fuori dalla sommatoria, in questo caso N: 1/N f (se non scrivo i=1 e n nel simbolo di sommatoria, è sottinteso). Esempio: i X = giudizio f assoluta f/n % Fi F/N 1 Insufficiente 10 10/ Sufficiente 20 20/ = 30* 3 Buono 20 20/ Ottimo 10 10/60 60 TOTALE % 150 * 30 sono i soggetti che hanno una votazione sufficiente. Nota: il calcolo della frequenza non si può fare per le mutabili: a livello operativo, si potrebbero definire, per esempio, le frequenze dei colori degli occhi, ma facendo una media non avrebbe senso. Formula generale della frequenza cumulata: Fi i j=1 f Esempio: F 3 = 50 Meno si arrotonda meno c è sintesi. Nella tabella di frequenza, quindi, si ricorre a classi di intervalli (es.: altezza da 1,60 a 1,65: se misurassimo tutte le altezze al milionesimo di millesimo di millimetro sarebbe una funzione continua). Bisogna stare attenti però che le classi di intervallo siano omogenee, altrimenti sulla stessa popolazione si possono generare risultati diversi o falsati. Altre volte le classi di intervallo sono volutamente disomogenee in quanto ai fini della ricerca è preferibile ordinarle in questo modo (es.: persone da 10 a 20, da 20 a 40 e da 40 a 70). Per la rappresentazione grafica delle classi di intervallo normalmente si ricorre agli istogrammi. X fi i = ampiezza fi/ i = densità / /5 = 9 TOTALE f/n Attenzione a non cadere nell errore di non considerare l ampiezza di un intervallo. Se gli intervalli sono disomogenei è necessario rapportarli per renderli omogenei x

2 Lezione pomeridiana: Gli indici di posizione Cerchiamo di eleggere una modalità a modalità tipica, cioè scegliere quella che sintetizza meglio la popolazione. Esistono: o Medie empiriche (si deducono dalla definizione): moda, mediana o Medie analitiche (risultano da elaborazioni matematiche): media geometrica, armonica, aritmetica e quadratica 1) la moda: calcolabile sia su mutabili sia su variabili, rappresenta la modalità con frequenza assoluta più alta. X f Mo(X) = castano ; fmo = frequenza modale = 10 Attenzione: non confondere! Mo(X) fmo castano 10 biondo 3 3 e 2 costituiscono la perdita di informazione o danno. rosso 2 Se non avessimo castano biondo etc. ma delle classi di intervallo (per esempio delle altezze) avremmo una classe modale (per 15 esempio: cm.) rappresentata dal suo valore centrale (165) e sarebbe necessario tener conto dell ampiezza dell intervallo. 2) la mediana (della distribuzione): non è applicabile alle mutabili non ordinali, in quanto è necessario sfruttare l ordinabilità dei caratteri per trovare il valore con frequenza cumulata relativa = 0,5. N = 100; n = 4; Mo(X) = superiori ; fmo = 40 Posizione della mediana: se n pari: n/2, se dispari: (n+1)/2 X fi F F/N = f cumulata relativa % Elementari ,2 20% Medie ,4 40% Superiori ,8 80% Università % Me(X) = Superiori, perché racchiude il soggetto che è al centro della distribuzione. Se fossimo esattamente al 50% teoricamente non esisterebbe mediana. Innanzitutto si cerca la classe mediana e modale, poi la moda e la mediana. La classe modale, se le densità non sono omogenee, è quella con frequenza più alta. Con riferimento all esercizio precedente (pag. 1 in fondo) è la classe modale, la Mo(X) =167,5 (cioè la semi-somma, insomma la media). La classe mediana: Sul libro c è una mega-formulazza geometrica con dimostrazione. F Per trovare la mediana si fa la proporzione: (x i+1 x i ):(Me x i )=(Fx i+1 Fx i ):(F 0,5 Fx i ) 0,72 (35 25):(Me 25)=(0,72 0,42):(0,5 0,42) Me 25 = 0,8/0,3 Me = 27,6667 0,5 Se si ipotizza un equidistribuzione è sufficiente: (35 25)/(Me 25) Me = 27,6667 0,42 La mediana non risente dei dati anomali, cioè gli outliars, a differenza della media. 25 Me 35 x 3) la media aritmetica: formalmente è: µ x = 1/N N i=1 xi fi = µ(x) = M(X) Anche qui si deve far attenzione alle classi di intervallo. Domanda di salvataggio per l orale: le proprietà della media : A. è un indice perfettamente centrato o baricentrato. Qui introduciamo il concetto di distanza/scarto: xi I scarto tra i-esima intensità ed una costante I (è la solita costante di Gini, la vedremo anche nell equazione del Chisini): n i=1 (xi I) fi = 0. I è baricentrato se gli scarti > 0 non eccedono quelli < 0, cioè se il loro valore si compensa. La media è l unico indice che gode di questa proprietà, a meno che gli altri indici non corrispondano proprio alla media stessa. In poche parole: = Sul libro c è lo sviluppo della formula. Lezione del 20/02/07 B. minimizza la distanza della distribuzione di frequenze. La distanza tra le coordinate reali ed il punto rappresentato dalla costante è la perdita di informazione, che va minimizzata (da geometria): d(x,i) = n i=1 (xi I) 2 fi = min. Per minimizzare posso togliere la, tanto minimizzandone il contenuto la minimizzerei comunque. Ora aggiungo e sottraggo la media (si approfondisca sul libro): (xi µ+µ I) 2 fi = [(xi µ)+(µ I)] 2 f = (x µ) f = 0 se e solo se I = µ. C. mantiene costante la somma delle intensità. X f xf Me(X) = 12/ Chisini disse: se si sostituisce a ciascuna intensità un valore costante I, cioè x = I, I = µ i, la somma rimane inalterata. Ciò crea una perdita di informazione. D. gode della proprietà di linearità (y = a + bx): µ(a + bx) = a + bµ(x). (Sul libro ce ne sono 2 ma la 2 a comprende la 1 a ) X f xf ) la media armonica: quando esiste una relazione del tipo: v = s/t = velocità = spazio/tempo, la media aritmetica non è adatta a calcolare la velocità media di un percorso, in quanto la sovrastima. L indice I si sostituisce alle varie velocità, assumendo quindi una velocità costante, ed il risultato ottenuto è denominato: media armonica delle velocità parziali ponderate per gli spazi percorsi = I = Ma = N/ n i=1 (1/xi) fi. La media armonica mantiene costante non la somma delle intensità ma la somma dei reciproci delle intensità (1/x non x). 5) la media quadratica: ad una superficie possiamo far corrispondere la misura lineare li = si pari al lato di un quadrato corrispondente. Per trovare il lato medio di una serie di superfici possiamo utilizzare la media quadratica = l = Mq = i l 2 i fi / N. Generalizzando: I = Mq = 1/N n i=1 xi 2 fi. Ciò che si mantiene inalterato stavolta è la somma della superficie totale. Nota: se anche vi fosse un rettangolo o un cerchio piuttosto che un quadrato, comunque considereremmo il lato medio come se tutti fossero quadrati. produttoria 6) la media geometrica: si pensi, in capitalizzazione composta al tasso medio di rendimento: Mg = N Π n i=1xi fi n n Elaborando si ottiene: ln(mg) = 1/N i=1 fi ln(xi) Mg = exp{1/n i=1 fi ln(xi)}.

3 Lezione del giorno 26/02/07 A volte il problema può essere che la variabile osservata sia legata ad un altra variabile vincolante. Esempio 1: S = P * Q = spesa = prezzo * quantità. Si vuol calcolare l I(X) che mantenga costante il livello di vendite. I(x) = N/( N i=1 1/xi) = Ma(X) = media armonica dei prezzi. Esempio 2: N = numeri di esercizi in cui sono stati venduti Y prodotti con prezzi di vendita X distinti. Si vuol calcolare il prezzo medio di vendita I(X) che mantenga costante il fatturato: I(x) = N i=1 xi yi / N i=1 yi: media aritmetica dei prezzi xi ponderati per le quantità yi. Esempio 3: calcolare ora il valore medio I(x) che lasci inalterata la quantità: I(x) = N i=1 si / ( N i=1 si/xi): media armonica dei prezzi xi ponderati per la spesa si. A seconda del vincolo iniziale cambia il risultato finale e la media da utilizzare. La media analitica detta anche media potenziata racchiude tutti gli altri indici: tutte le medie sinora trattate sono casi particolari estratti dalla famiglia delle medie potenziate di ordine: r (µ (r) ) µ (r) = (µ r ) 1/r per cui: Esercizio in classe Calcolare la previsione per il 2007 con il tasso medio d incremento (media geometrica), in capitalizzazione composta (vedi matematica finanziaria). T f 100(1 + i) K = (1 + i) 5 = (1 + i) 5 = 150/100 = 1, i = 5 1,5 i = ( 5 1,5)/1,084 = 0, Allo scritto difficilmente troveremo un testo che chieda si calcoli la media armonica 2007? La perdita di informazioni La perdita di informazioni di ordine 0 è sempre una frequenza: L 0 (x) Calcolare i principali indici: Moda, Mediana, Media, quindi la Perdita di informazioni. X fi Fi Mo(x) = fmo = Me(x) = 170 (perché 18 tiene il 15 ) µ = 171, L 0 (x) = N fi(x) L 1 (x) = n i=1 xi I fi 30 Perdita di ordine 2: L 2 (x) = n i=1 xi I 2 fi Perdita di ordine r: Lr(x) = n i=1 xi I r fi L 0 (x) 30 Armonica Geometrica Quadratica Aritmetica x x o se r = 1 Ma = media armonica o se r = 0 Mg = media geometrica o se r = 1 µ = media aritmetica o se r = 2 Mq = media quadratica Rispettano tutte la condizione di equivalenza del Chisini e la condizione di internalità di Cauchy. 1) La perdita di informazioni di ordine 0 viene minimizzata dalla moda. 2) La perdita di ordine 1, cioè L 1 (x) = N i=1 xi I, viene minimizzata dalla mediana. (sul libro vecchio pag. 23, volendo, c è la dimostrazione). 3) la perdita di ordine 2 viene minimizzata dalla media aritmetica. 171,2 4) se r = 0 si genera una forma indeterminata, allora semplicemente si sostiene che tenda a zero, quindi tutto tenderà a zero (meno importante per lo scritto). La dispersione Essa è la manifestazione concreta che la mutabilità (attitudine ad esprimersi con modalità differenti) o variabilità (distanza tra fenomeni quantitativi) di un fenomeno ha espresso all atto dell osservazione: assoluta: o nel caso della mutabilità comporta difformità tra le unità; o nel caso della variabilità comporta distanza tra le unità. relativa: o nel caso della mutabilità comporta difformità dall indice di posizione; o nel caso della variabilità comporta distanza dall indice di posizione.

4 Analisi della mutabilità assoluta (γ) La frazione di dispersione teorica massima D è: 0 D = D Dmin 1 con Dmin = 0 diventa normalizzata: 0 D = D / Dmax 1 Dmax Dmin Esiste anche l indice di Shannon Ψ, ma non verrà chiesto all esame. Una misura del grado di dispersione delle mutabili proposta in letteratura è l indice γ di Gini = n t=1 fi/n (1 fi/n) γ' (normalizzato) = γ / (1 1/n) (compreso tra 0 ed 1) (infatti l indice max = 1 1/n) o L equidistribuzione delle frequenze individua la condizione di massima dispersione: γ ha valore massimo. o La massima concentrazione individua la condizione di dispersione nulla: γ ha valore minimo. Analisi della mutabilità relativa (δ) È una misura normalizzata che quantifica il grado di difformità della mutabile dall indice (nel nostro caso la Moda). X fi La moda è l auto, la frequenza modale è 15. La frazione di soggetti difformi dalla moda è 1+14 = 15. Piedi 1 La frequenza minima associabile al valore modale, cioè il minimo perché esista la moda, è: Bus 14 Auto 15 N/n + 1 = f(mo)min = 30/3 +1 = 11 (altrimenti sarebbe a-modale, cioè senza moda). 30 δmax = (30 11)/30 = 19/30 = massima difformità dalla Moda teorica. Metto 19/30 al denominatore per normalizzare: δ = [(30 15)/30]/(19/30) = 15/19 = Mo/max difformità = δ = δ / δmax δmax = (N f(mo)min)/n dove f(mo)min è il più piccolo numero intero maggiore di N/n ( motivo del +1 ). Analisi della variabilità assoluta ( ) (pag. 56 vecchio libro) X fi = 5 (3 2 3) / 2 = 3 numero κ di possibilità di coppie differenti individuabili = = 5 In formula: (N 2 N) /2 3 Distanza euclidea: xi xj 2 Si definisce distanza tra due unità la quantità xi xj. Si definisce misura di variabilità assoluta un opportuno indice delle distanze tra le singole unità. Si definisce differenza quadratica media la media quadratica delle distanze intercorrenti tra le misurazioni, la cui formula non citiamo (se proprio volessimo sono a pag. 59 del libro vecchia versione), perché si utilizza sempre la seguente: = σ 2 N/(N 1) (se N è grande = σ 2) dove σ è lo scarto quadratico medio (che rivedremo più sotto). Analisi della variabilità assoluta normalizzata È il valore massimo teorico che l indice avrebbe potuto assumere: max x n x 1 / 2 (x n = x ultimo ; x 1 = x primo ) La condizione di massima variabilità assoluta consiste nel caso in cui le frequenze si presentano associate ai valori estremi della distribuzione ed equidistribuite (cioè max si ottiene, per esempio, se distribuisco così: 15, 0, 0, 0, 0, 15, altrimenti è = ). Lezione del 5 Marzo 2007: Analisi de la variabilità relativa (pag. 63 vecchio libro) È un opportuno indice I di posizione delle quantità d i = x i µ, che quantifica la distanza della variabile dalla propria media aritmetica. Per affrontare il calcolo della varianza per prima cosa si calcola, dunque, la media aritmetica. Poi tutti gli scarti da essa, ponderati per le frequenze associate: varianza = σ 2 = 1/N n s=1 x s µ 2 f s Vediamo ora, invece, una formula che semplifica i calcoli, perché permette di evitare di calcolare tutti gli scarti: σ 2 = 1/N n 2 2 i=1 x i f i µ x esprimibile anche come: σ 2 = µ 2 µ 2 x = (x 2 2 f)/n µ x La radice quadrata della varianza, o scarto quadratico medio σ, rappresenta la media quadratica delle distanze intercorrenti tra le singole misurazioni e la loro media aritmetica; esso mantiene la dimensionalità del fenomeno oggetto di studio (cioè l unità di misura; es.: i Kg., i litri etc.). Analisi de la variabilità relativa normalizzata (argomenti per l orale, ma spesso c è negli esercizi del libro) (σ 2 / σ 2 max) Quando ci troviamo di fronte ad unità di misura disomogenee o diverse per natura o valor medio, si può trasformare la variabile in numero puro, dividendola per la propria media aritmetica. Tale divisione porta al coefficiente di variazione (c.v. = σ/µ): il rapporto tra scarti quadratici medi e µ. Per normalizzare σ 2 occorre calcolare, invece, il valore massimo teorico che esso può assumere, cioè nel caso teorico in cui le frequenze siano associate ai valori estremi, nel rispetto del vincolo di conservazione della media aritmetica, che individua la massima dispersione e variabilità relativa alla media aritmetica. In questi casi si rende spesso necessaria un approssimazione ai numeri interi. Risulta così: σ 2 max = µ (x 1 + x n ) x 1 x n µ 2 Un caso particolare è quello in cui tutto è trasferito su un unico soggetto, lasciando gli altri a 0: x 1 = 0 = min, mentre il max è la tot. La concentrazione (ricordarsi di ordinare in ordine crescente i dati in tabella, altrimenti il grafico risulterebbe tutto sballato) Caratteristica fondamentale è la trasferibilità (cioè l attitudine a concentrarsi su poche D D.C.B.A E F O 0,4 0,7 0,9 1 F/N o molte unità) dell intensità globale (per esempio, il reddito è trasferibile). La concentrazione è misurata dal rapporto di Gini R = A / Amax = = Area OABCDO / Area OEDO con 0 R 1 Dove: E = (N 1) / N = 99% D = intensità cumulate normalizzate F/N = frequenze cumulate normalizzate OD = retta di equidistribuzione concentrazione nulla Lezione del giorno 15/10/07: La forma delle distribuzioni I momenti centrali sono tutte le medie. L indice centrato tiene conto degli scarti delle intensità e la media (per l orale). µ 0 = 1 (il trattino indica che l indice è centrato) δ = (N f(mo))/n = N f(mo) = (N f(mo) min )/N N f(mo) min = N f(mo). N (N/n + 1) µ 1 = 1/N n i=1 (x i µ)f i 1/N x i f i 1/Nµ f i = 0: baricentratura = qualunque sia la distribuzione è sempre 0. µ 2 = σ 2 : la varianza è il momento centrale di ordine 2. In generale, si definisce momento centrale di ordine r: µ r = 1/N n i=1 (x i µ) r f i = µ (X µ) r con r > 0

5 Il modello fondamentale proposto in letteratura per argomentazioni di natura scientifica e probabilistica (che sia rappresentato sotto forma di curve o di istogrammi costruiti con infiniti intervalli di ampiezza infinitesima) è quello della c.d. Curva Normale o di Gauss (la Gaussiana): ½[(x µ)/σ] 2 con: γ 1 = φ(x) = e con: < x < σ 2π O La simmetria/asimmetria φ(x) è simmetrica rispetto alla media se φ(µ κ) = φ(µ + κ). Come misura della asimmetria si utilizza, il 1 indice utile dispari, l indice γ 1 di Pearson: γ 1 = µ[(x µ)/σ] 3 = µ 3 / σ 3 In caso di normalità l indice di Pearson vale 0 e, per la sussistenza della condizione di simmetria, tutti i momenti centrali di ordine dispari (se esistenti) devono essere nulli. Vedere su AulaWeb la prova dell 8 Giugno La curtosi È la diversa eccedenza degli scarti assoluti dalla media (come nella differenza tra la figura tratteggiata e quella con la linea continua nel grafico di cui sopra) e si misura con l indice di curtosi di Pearson γ 2, che è come l indice γ 1, ma elevato alla 4 a anziché alla 3 a. La curtosi determina l ampiezza grafica della gaussiana. Se è=3 la distribuzione è normocurtica, se>3 leptocurtica, se<3 platicurtica. Lezione del 13/3/7 o del 15/10/07: Inizio della statistica descrittiva bidimensionale (pag. 91 libro vecchio) y 1 y 2 y j y m Tot x 1 f 11 f 12 f 1j f 1m f 1. x 2 f 21 f 22 f 2j f 2m f 2. x j f i1 f i2 f ij f im f i. x n f n1 f n2 f nj f nm f n. Tot f. 1 f. 2 f. j f. m N Momento centrale di ordine 3: µ 3 = 1/N n i=1(x i µ) 3 f i Formalizzazione di una tabella a doppia entrata: X y è la variabile condizionata e Y x la condizionante (si legge x condizionato da y o dato y). I totali delle colonne e delle righe sono dette distribuzioni marginali. Le medie saranno anche chiamate medie condizionate, le varianze varianze condizionate etc. Il termine generico è f ij. Se γ 1 = 0 simmetria se γ 1 > 0 asimmetria positiva γ 1 < 0 asimmetria negativa Scomposizione monodimensionale X f(x) Y f(x) x 1 f 1. y 1 f. 1 x 2 f 2. y 2 f. 2 x j f i. y j f. i x n f n. y m f. m N N Media di x = µ x = 1/N n i=1 x i f i. Media di y = µ y = 1/N m j=1 y j f. j Media di x condizionato y = µ (X y j ) = 1/f. j n i=1 x j f ij (per ogni j che va da 1 a m) Media di y condizionato x = µ (Y x i ) = 1/f i. m j=1 y j f ij (per ogni i che va da 1 a n) Varianze condizionate: σ 2 (X y j ) = 1/f. j n i=1 [x i µ(x y j )] 2 f ij (j=1,,m) σ 2 (Y x i ) = 1/f i. m j=1 [y j µ(y x i )] 2 f ij (i=1,,n) Ovviamente rimangono valide le scomposizioni già viste della varianza. Ricordarsi che nella bidimensionale è fondamentale riportare i pedici. Lezione del 19/3/7: L indipendenza stocastica (pag. 99 del libro vecchio) Tabella a doppia entrata (di partenza): ) verifico se c è indipendenza stocastica oppure connessione, costruendo la tabella di indipendenza stocastica: a. moltiplico tra loro le corrispondenti distribuzioni marginali e le divido per N b. il valore ottenuto è il valore di frequenza teorica che darebbe indipendenza stocastica c. lo verifico per tutte le righe e le colonne (tutti i punti) 10 * 30 / 100 = * 30 / 100 = ) sottraggo alla tabella di partenza (a doppia entrata) quella stocastica e ottengo la c.d. tabella delle contingenze: 8 3 = = = = = = = = Essa rappresenta la distanza tra la tabella reale di partenza e quella teorica di indipendenza stocastica. 3) misuro il grado di connessione: (l indice W di MORTARA dal 2007 non è più in programma) PEARSON-PIZZETTI: a. Sommo C 2 ij / Y*ij = valori delle contingenze al quadrato diviso le frequenze teoriche di indipendenza stocastica trovo χ 2 (punto 2 al quadrato fratto punto 1) 5 2 / 3 = 8,3 ( 3) 2 / 4 = 2,25 4 / 3 = 1,3 11,85 1 / 9 = 0,1 9 / 12 = 0,75 16 / 9 = 1,7 2,55 ( 6) 2 / 18 = , ,4 = χ 2

6 b. Normalizzo: i. Posso trovare χ 2 max= Nmin:[(n 1);(m 1)]N = numero minore tra numero di righe e numero di colonne 1, moltiplicato per N. In questo caso: (3 1)x100 = 200. Questo è un metodo più veloce, ma dà risultati completamente diversi da quello calcolato con la tabella di massima connessione, quindi bisogna successivamente ricordarsi di normalizzare sempre secondo questo indice. Altrimenti: ii. Trovo la tabella di massima connessione (da quest anno senza il vincolo del rispetto del segno, ma rispettando il vincolo della conservazione delle distribuzioni marginali, dando + zeri possibili): iii. Trovo χ 2 max = (Tabella di massima connessione Tabella di indipendenza stocastica) 2 Tabella di indipendenza stocastica (10 3) 2 /3 = 16, (10 12) 2 /12 = 27 9 (20 18) 2 /18 = 0,222 (10 24) 2 /24 = 8,166 (30 18) 2 /18 = 8 84,722 = χ 2 max Nota: quando c è lo zero si semplifica ed il risultato corrisponde al numero della tabella di indipendenza stocastica: (0 Tabella di indipendenza stocastica) 2 / Tabella di indipendenza stocastica = tabella di indipendenza stocastica. iv. Controllo: χ 2 max dev esser N x min [(n 1);(m 1)] v. Normalizzazione: χ 2 /χ 2 max =18,4/84,722 = 0,217 oppure: 18,4/200 = 0,092 L indipendenza in media Una variabile è indipendente in media da un altra se le sue medie condizionate sono tutte contemporaneamente uguali tra loro e quindi necessariamente uguali alla media non condizionata: µ(y x 1 ) = = µ(y x n ) = µ Y Detto in altre parole esiste indipendenza in media di Y da X se e solo se µ(y x i) µ Y = 0 (con i = 1,, n) L indipendenza in media di una variabile da una seconda non comporta necessariamente l indipendenza in media della 2 a dalla 1 a. L interindipendenza in media è la condizione di mutua indipendenza in media di una variabile dall altra. Teoremi: l interindipendenza o l indipendenza in media è condizione necessaria ma non sufficiente per quella stocastica. l interindipendenza o l indipendenza stocastica è condizione sufficiente ma non necessaria per quella in media. Si definisce grado di dipendenza in media la distanza intercorrente tra le medie condizionate e la media non condizionata, che rappresenta la condizione di indipendenza in media. Si elegge a misura del grado di dipendenza in media della Y dalla X la quantità: σ 2 Y = σ 2 [µ(y X)] Scomposizione della varianza La quantità σ 2 Y, varianza delle medie delle distribuzioni condizionate, è detta varianza spiegata. Rappresenta quella frazione della varianza totale, σ 2 Y, spiegata (cioè posseduta) dalle medie condizionate. La quantità σ *2 Y, media delle varianze delle distribuzioni condizionate, è detta varianza residua. Rappresenta quella frazione di varianza totale σ 2 Y, non spiegata dalle medie condizionate: σ *2 Y = 1/N n i=1(y x i )fi. La varianza totale è data dalla spiegata più la residua: σ 2 Y = σ 2 Y + σ *2 Y Da cui: 0 σ 2 Y σ 2 Y Il rapporto di correlazione η 2 Si usa se y è una variabile. È la normalizzazione della varianza, cioè la spiegata sulla totale. È una misura della difformità delle medie condizionate dalla loro media, ovvero una misura della dispersione della distribuzione delle medie condizionate. È = 1 se la residua = 0, infatti ciò implicherebbe che la spiegata fosse = totale. Y è indipendente in media da X se e solo se: σ 2 Y = 0 X è indipendente in media da Y se e solo se: σ 2 X = 0 È la frazione normalizzata di varianza totale spiegata delle medie condizionate. L indice γ di Gini e τ di Gini-Goodman-Kruskal (Nota: pi. = fi./n) σ 2 X σ* 2 X spiegata residua η 2 X = = 1 = = 1 σ 2 X σ 2 X totale totale Si usano se y è una mutabile. Mentre η 2 analizzava fenomeni quantitativi, allo stesso modo, con questo indice τ Y, si analizzano quelli qualitativi. Si rappresenta una misura della difformità delle distribuzioni condizionate dalla distribuzione marginale, calcolando i quadrati delle distanze intercorrenti tra le singole distribuzioni condizionate e la distribuzione marginale. Ricordiamo che, laddove non sussista dipendenza, tutte le distanze sarebbero = 0 τ = 0. Se per le variabili abbiamo utilizzato la varianza σ 2, per le mutabili utilizziamo l indice γ di Gini. Es. 3 Temi svolti: γ y = γ(y x i ) = m j=1fi/n(1 fi/n) Gini: per i caratteri qualitativi (corrisponde alla varianza per i caratteri quantitativi). Dove, a seconda che si cerchi l incidenza di X su Y o Y su X, fi può essere il totale di colonna o di riga: fi.= riga; f.j = col. γ Max = 1 1/n Gini Massimo teorico γ = γ/γ Max Gini Normalizzato γ 1, γ 2, γ 3 = γ (per colonne ) Gini per classi: difformità in dipendenza = dispersione condizionata. Uso fi. non f.j γ* y = n i=1γ(y x i )pi. Gini Residuo: è la sommatoria di tutti i Gini moltiplicati per fi/n, = γ 1 *totale col 1 /tot+ γ 2 *totale col 2 /tot quindi è la media ponderata delle misure di dispersione = dispersione residua γ y = n i=1d 2 (Y x i.y)pi. Gini Spiegato. O anche = Gini Gini residuo. γ Y γ* Y spiegato residuo L indice di Gini-Goodman-Kruskal è come il rapporto di correlazione η 2, ma per le mutabili. τ 2 X = = 1 = = 1 È dato infatti dal rapporto tra l indice di Gini residuo e l indice di Gini totale, oppure da: γ Y γ Y totale totale 1 Gini residuo/gini totale (più facile negli esercizi). Misura l intensità della dipendenza.

7 Assume, ovviamente, valore positivo in presenza di relazione diretta e negativo se inversa. La covarianza (da qui in poi tratteremo sempre variabili) Y Kg µ y Baricentro... È una misura atta a quantificare l intensità del... legame/dipendenza funzionale tra una variabile X N X Y (x i µ i)(y i µ y) XY (2-4,6)(3-10)= 18, (4-4,6)(9-10)= 0, (8-4,6)(18-10)= 27, Il coefficiente di correlazione ( rho greco ) ρ = σ xy / σ x σ y La covarianza è la media della sommatoria delle distanze delle 2 variabili dalle proprie medie, tra loro moltiplicate. Si può calcolare nei 2 seguenti modi: Il 2 metodo è più semplice: evita di 1) σ xy = 46/3 = 15,3 oppure: calcolare tutti gli scarti 2) σ xy = 186/3 30/3 x 14/3 = 15,3 dalle medie. misura l intensità del legame tra le 2 variabili: assume valori estremi in presenza di massimo legame funzionale (diretto quando ρ = 1, inverso se = -1). Detto male, è una specie di covarianza normalizzata. Facendo un esempio, 0,66 corrisponde all 85,2%, non al 66%: 85,2% Nota: se ρ = 0 non significa sempre che non ci sia dipendenza; per esempio: ,66 1 con una retta // asse x, ρ = 0, ma anche con la parabola ρ potrebbe esser = 0. La retta di regressione Nel precedente diagramma relativo alla covarianza, abbiamo aggiunto in azzurro tratteggiato la rappresentazione grafica di una possibile funzione interpolante, atta a sintetizzare la natura della dipendenza della Y dalla X, ed in verde la retta di regressione, atta a sintetizzare la natura della dipendenza in media della Y dalla X: 1Y* = a + bx (dove 1 indica il grado della funzione) è l equazione della retta di regressione, che soddisfa la condizione di accostamento dei minimi quadrati (cioè la distanza minima) d(y, Y*) = min. Applicando tale condizione in un sistema di derivate parziali, troviamo i coefficienti della retta di regressione: Si osservi, infine, che, qualora abbia senso, è possibile ricercare anche σ XY µ x σ XY X = C ed una Y. È il momento misto centrale di 2 ordine medie. Se (x i µ i )(y i µ y ) è il prodotto degli scarti tra i valori assunti da ogni unità e le rispettive medie la covarianza è: σ xy = 1/N N i=1 (x i µ i )(y i µ y ) oppure: σ xy = 1/N N i=1 x i y i µ y µ x la retta di regressione che spiega la dipendenza della X dalla Y: a = µ Y µ X b = a = σ XY / σ 2 σ 2 X σ 2 Y b = (σ XY / σ 2 Y) µ Y + µ X X Il rapporto di correlazione lineare ρ 2 Altra formulazione retta: y = µ y + ρ σ y/σ x (x µ x) (0 ρ 2 (pag. 139 libro vecchio) 1) Ci si pone ora il problema di misurare la capacità interpolativa della retta di regressione. La media dei quadrati degli scarti dei valori effettivi y i dai valori teorici 1 y* i è detta varianza residua dalla retta di regressione. Rappresenta quella frazione di varianza totale σ 2 Y non spiegata (quindi residua) dalla retta di regressione: 1σ* 2 Y = σ 2 Y σ 2 XY / σ 2 X La media dei quadrati degli scarti dei valori teorici 1 y* i dalla media µ Y è detta varianza spiegata dalla retta di regressione. Rappresenta quella frazione di varianza totale σ 2 Y spiegata (cioè posseduta) dalla retta di regressione: 1σ 2 Y = σ 2 XY / σ 2 X La retta di regressione scompone pertanto la varianza totale della variabile dipendente Y in spiegata più residua. (pag. 143 libro vecchio) Dividendo la varianza spiegata dalla retta di regressione per la varianza totale di Y si ottiene il rapporto di correlazione lineare ρ 2, frazione normalizzata di varianza totale spiegata dalla retta di regressione, che, esprimendo congiuntamente l attitudine di ognuna delle due variabili ad essere funzione lineare dell altra, rappresenta una misura dell interdipendenza lineare intercorrente tra le due variabili: ρ 2 = 1 σ 2 Confrontando il rapporto di correlazione η 2 con il rapporto di correlazione lineare ρ 2 Y / σ 2 scopriamo che: 0 ρ 2 Y η 2 Y 1 Il segno di uguale sussiste se e solo se le medie condizionate sono tutte allineate, cioè coincidono con i valori teorici corrispondenti, quindi anche la varianza spiegata dalla retta è uguale alla varianza spiegata. L indice di dipendenza lineare δ 2 y = ρ 2 y / η 2 y, frazione normalizzata di dipendenza esistente spiegata dalla retta di regressione, rapporta queste 2 grandezze e misura l attitudine del modello lineare a sintetizzare il grado di dipendenza esistente in relazione al modello funzionale rappresentato dalle medie condizionate. Se l indice è vicino allo 0, la retta di regressione non spiega sufficientemente la dipendenza, quindi bisogna passare al polinomio di grado superiore. Prima analizziamo 3 casi particolari (su 6, gli altri sono da approfondire sul libro vecchio a pag. 149): La perfetta interpolante rispetto ad y ρ 2 = η 2 y = 1 e naturalmente: 1 δ 2 Y = ρ 2 / η 2 y = 1 Esempio: La varianza residua dalle medie condizionate σ* 2 e la varianza dalla retta 1 σ* 2 Y sono = 0. Trattasi della massima efficacia di sintesi. La migliore interpolante 0 < ρ 2 = η 2 y < 1 e naturalmente: 1 δ 2 Y = ρ 2 / η 2 y = 1 (come sopra) Situazione migliorabile 0<ρ 2 <1 e η 2 Y=1 e naturalmente: 0 1 δ 2 Y = ρ 2 / η 2 y Nota: Se ρ 2 = 0 la retta è parallela all asse x con y = µ. Nota: non si interpreta così: 1/N (xy µ yµ x) Ma così: (1/N xy) µ xµ y E quindi: µ xy µ x µ y Le due varianze sono =, ma generate da concetti distinti. Le medie condizionate sono allineate (di cui la retta è la perfetta interpolante). Trattasi del caso di non migliorabilità: c è residuo ma non è eliminabile. Le medie condizionate non sono allineate. La varianza residua dalla retta è diversa da 0: 1 σ* 2 Y 0. La varianza residua dalle medie è =0: σ* 2 = 0.

8 La parabola di regressione (y = cx 2 + bx + a) La media dei quadrati degli scarti dei valori effettivi y i dai valori teorici 2 y* i è detta varianza residua dalla parabola di regressione. Rappresenta quella frazione di varianza totale σ 2 Y non spiegata (quindi residua) dalla parabola di regressione: 2σ* 2 Y = 1/N N i=1 (y i 2 y* i ) 2 Si noti che, rispetto alla definizione fornita per la retta di regressione, a parte la formula, cambia soltanto: 1 y* i 2 y* i Stesso dicasi per la varianza spiegata dalla parabola, la cui formula è: 2σ 2 Y = 1/N N i=1 (a + bx i + cx 2 i µ Y ) 2 Ancora una volta, varianza spiegata + varianza residua = varianza totale. Allo stesso modo, il rapporto di correlazione ora non è più lineare bensì parabolico: 2 η 2 y e rappresenta la frazione normalizzata di varianza totale σ 2 Y spiegata dalla parabola di regressione. Si noti, che, spiegando di più la parabola, il residuo che ne deriva è < rispetto alla retta. L indice che ora misura l attitudine della parabola a sintetizzare il grado di dipendenza è il rapporto di dipendenza parabolico (non più lineare): 2δ 2 y = 2 η 2 y / η 2 y (come sempre, se non c è residuo è = 1). Salendo ulteriormente di grado, troveremo, quindi, il valore r η 2 y detto rapporto di correlazione polinomiale di grado r. La regressione multipla lineare (pag. 171 libro vecchio) Se la parabola di regressione fornisce miglioramenti irrilevanti, lo studio della dipendenza può essere approfondito ipotizzando che la variabile Y dipenda da più di una variabile condizionante, passando al piano di regressione multipla, la cui equazione è: Y* XZ = a + bx + cz. Lo sviluppo dei rapporti tra i determinanti generati dal sistema che ne scaturisce fornisce i coefficienti: Il coefficiente a è l intercetta del piano sull asse Y; Il coefficiente b indica che, posto Z costante, all aumentare di un unità della X si riscontra un aumento medio della Y; Il coefficiente c indica che, posto X costante, all aumentare di un unità della Z si riscontra un aumento medio della Y. Il modello di grado 0 Integrazione con la lezione del 5 novembre 2007 Formula generica di polinomio: Y = f(x) = a 0 + a x + a 2 x a n x n max = n 1 (es.: se n = 3 parabola) Se il grado è 0, significa che la variabile indipendente x non è considerata: y = a 0 (ha poco senso è un caso di dottrina). (y i y* i ) 2 = min al posto di y* i sostituisco il polinomio y* i = a 0. Pertanto: (y i a 0 ) 2 = min 1) faccio la derivata y 2) la media è quella costante che rende minima la sommatoria delle distanze 0 y = µ y. µ y è il polinomio di grado 0: non spiega nulla; varianza spiegata = 0 σ 2 y = 0 è tutto residuo. x µσ* 2 y = 1/N (y i µ y* i ) 2 0σ 2 y = 1/N (y i µ y ) 2 = varianza totale: se il residuo è massimo varianza totale = varianza residua. Sappiamo che l indice di miglioramento r+1 ρ 2 Y = ( r σ* 2 y r+1 σ* 2 y)/ r σ* 2 y esprime il beneficio che si ottiene nel passare ad un polinomio di grado superiore. Nel caso del passaggio dalla retta alla parabola si passa dal grado 1 al grado 2. In questo caso si passa dal grado 0 al grado 1: ( 0 σ* 2 y 1 σ* 2 y)/ 0 σ* 2 y. Poiché abbiamo appena detto che 0 σ* 2 y = σ 2 y, (σ 2 y 1 σ* 2 y)/σ 2 y = 1 σ 2 y / σ 2 y = ρ 2 quindi ρ 2 è anche considerabile come indice di miglioramento da grado 0 a grado 1. La regressione e correlazione parziale Si definisce retta di regressione parziale la retta che spiega il legame lineare tra due variabili X e Y depurate dal legame lineare che hanno dalla Z: ZY = a + bx Z Si definisce coefficiente di correlazione parziale il coefficiente di correlazione esistente tra gli scarti che le variabili X e Y hanno dalle rette di regressione che ne spiegano la dipendenza lineare dalla variabile Z: Zρ XY = b(σ X /σ Y ) = σ XY /(σ X σ Y ) Integrazione con la lezione del 12 Novembre 2007: abbiamo studiato y in dipendenza di x e z. Ora vogliamo sapere come si comportano x e y congiuntamente se z è costante. Y = f(x, z). Che differenza c è con y = f(x)? Z viene contemplata, ma è costante. Per l orale: cosa sono i residui di x da z? Si ipotizzi di avere y*=f(z); x*=f(z). Calcolo i residui: y y*; x x* (valori teorici residui). La formula della retta di regressione parziale è: zy = µ y + b(x µ x ) b, c sono i coefficienti del piano (se siamo fortunati negli esercizi a,b,c potrebbero esser dati) xy = µ y + c(z µ Z ) y = a + bx + cz retta: y = f(x z) x = µx z = µz y = a + bx + cµz y = a + bµx + cz. È l intersezione di 2 piani è una retta. Se y = 250 7x + 4*3 = 262 7x xy = * z = z Punti che servono per gli esercizi: è come la parabola z = x 2, i calcoli sono uguali; in un caso c è una variabile al quadrato, nell altro c è una nuova variabile. Saltare le dimostrazioni delle formule. Ultimo argomento: funzioni linearizzabili Y = a + b1/x non è lineare, ma è linearizzabile 1/x = w y = a + bw lo trasformo in retta (stessa cosa se ci fosse il logaritmo naturale di x: lo pongo = w).

9 Domanda Mediana Indice di variabilità relativa Spiegare la dipendenza di Y da X. Valutare la capacità interpretativa/bontà dell interpolazione Valore medio di X che lascia invariata la quantità N i=1y i Verificare che I soddisfa le proprietà di una media analitica. Sapendo che la relazione lineare Z=f(X) spiega la dipendenza di Z da X soddisfa la condizione f(0) = 0, si individui f. Si misuri il grado di dispersione (assoluto e normalizzato) La difformità in dipendenza delle classi. Si calcoli l incidenza della Y da X. Prevedere il tasso medio di incremento e un opportuna interpolante. Costruire una situazione di perfetta dipendenza in media biunivoca Si confrontino le distribuzioni di X condizionate da Y Si valuti la dipendenza di X da Y e da Z Si calcoli σ e µ complessivi Si confronti la variabilità dei fenomeni attraverso un indice opportuno Si spieghi Y in dipendenza della variabile con cui risulta maggiormente correlata Quale variabile influisce di più sulla X? Quale modello statistico può prevedere X, con determinate Y e Z? Si confrontino le distribuzioni Si illustrino le condizioni di minima e massima connessione, sia teoricamente, sia costruendo le tabelle di frequenze Date le medie, le varianze e le covarianze X Y Z, si individui la retta di regressione, un opportuno indice di bontà Dato il piano, se ne valuti la bontà. Dato il piano, si valuti il miglioramento relativo ottenuto introducendo nel modello di regressione multipla una seconda variabile. Risposta Riordino, Posizione: (N+1)/2 se dispari, N/2 se pari C.v. = σ/µ Retta, varianza spiegata della retta ρ 2 Il vincolo della conservazione della somma è: N i=1y i = N i=1f. I dovrà soddisfare la condizione di equivalenza di Chisini. Sostituisco I ad x. Soddisfa la condizione di equivalenza di Chisini? Sì. E la condizione di internalità di Cauchy se 1 I valore max. Si trova l equazione Z = (xz/x 2 )X Indice γ di Gini. γ = γ / γ max dove γ max è il valore che assume l indice in caso di Equidistribuzione. Calcolo γ 1, γ 2, etc. La media ponderata delle misure di dispersione in ciascuna classe è una misura della dispersione residua γ*. γ = γ γ* è una misura della difformità spiegata dalle classi. Per ottenere una misura normalizzata, o l incidenza, si calcoli l indice τ di GGK Valore iniziale(1 + t) n = valore finale. Trovare t. Oppure la retta. Esiste perfetta dipendenza in media di X da Y (η 2 = 1) se ad ogni valore di Y corrisponde un solo valore di X. Affinchè η 2 x = 1 e η 2 y = 1 è necessario che tutti i dati differiscano tra loro. Se le serie condizionate di X y non sono direttamente compatibili fra loro e con la marginale in quanto sono caratterizzate da un diverso totale, la comparabilità può essere raggiunta ricorrendo alle frequenze relative. Se caratterizzate da un diverso totale, sono stocasticamente indipendenti. Uso GGK Calcolare la media totale, quindi la varianza come spiegata + residua. C.v. = σ/µ Confronto ρ 2 YX e ρ 2 YZ e trovo quella maggiormente correlata con Y. Retta di regressione. Se mi chiede il valore che prevede Y = n inserisco n nella formula. Se si ipotizza un legame lineare tra le variabili, si può analizzare la dipendenza di tipo funzionale della variabile X da ciascuna delle altre due variabili, ricorrendo al coefficiente di correlazione ρ XY e ρ XZ. Per trovarlo, si devono trovare tutte le medie µ X, µ Y, µ Z, µ XY, µ XZ e le covarianze σ XY e σ XZ e le varianze σ 2 di x, y, z. Piano di regressione multipla, con coefficienti a,b,c. Poi inserisco nella formula del piano i valori dati. Si costruiscono le distribuzioni condizionate (numero/totale colonna) e si dice su quali variabili è concentrata la distribuzione. La condizione di minima connessine è quella di indipendenza stocastica in cui le distribuzioni condizionate sono tutte, contemporaneamente, uguali fra loro (e quindi uguali alla distribuzione marginale). Le frequenze teoriche in caso di dipendenza stocastica arrivare a fare Pearson-Pizzetti. Retta, ρ 2 = σ YV 2 / (σ Y 2 σ V 2 ). Dire quanto spiega. Rapporto di correlazione lineare multipla: VW η 2 Y = 1 VW σ* 2 Y /σ 2 Y che esprime la frazione normalizzata di varianza totale di Y spiegata dal piano di regressione. Per trovare il valore della varianza residua: VW σ* 2 Y = µ 2Y aµ 2Y bµ YV cµ YW. Si utilizzano le relazioni esistenti tra momenti e momenti misti: µ 2Y = σ 2 2 Y + µ Y µ YV = σ YV + µ Y µ V µ YW = σ YW + µ Y µ W 2 Si ottiene così YW σ* Y E ottengo anche: VW η 2 Y = 1 VW σ* 2 2 Y /σ Y Indice di miglioramento multidimensionale: VW ρ 2 Y = ( V σ Y * 2 VW σ Y * 2 )/ V σ Y * 2 Poiché V σ Y * 2 = σ Y * 2 (1 ρ 2 ) si ottiene VW ρ 2 Y = ( V σ Y * 2 VW σ Y * 2 )/ V σ Y * 2 si trova una riduzione o un aumento di varianza residua.

10 Si individui la retta di regressione parziale che spiega Y in funzione di V, in costanza di W. Si valuti con opportuno indice la bontà del modello di regressione parziale. Si dia un giudizio sulla variabilità di X Data una tabella a doppia entrata, dire che valore devono assumere A, B, C, in modo che: Si stimi il dato mancante scegliendo il metodo più conveniente tra: media, mediana, interpolante di primo grado tra X e Y. Si esprima un giudizio sulla variabilità di X e di Y. Essa può essere individuata, ponendo nell equazione del piano di regressione, la µ W = w. Pertanto l equazione del piano di regressione si riduce alla retta parziale. Un opportuno indice per valutare la bontà del modello di regressione parziale è dato dal quadrato del coefficiente di correlazione parziale: W ρ 2 YV È utile calcolare la differenza quadratica media (Δ) che indica il grado di difformità tra le unità statistiche osservate. Δ = σ 2 (N/N 1) dove σ= (µ 2 µ 2 ) Si riportano le elaborazioni utili al calcolo degli operatori statistici presenti nell equazione: X, f, Xf, X 2, X 2 f. Si ottengono così: µ x, µ 2 (x), σ 2 x = µ 2 (x) µ 2 (x), σ x. Quindi ottengo Δ. Devo normalizzarlo. Per far ciò è utile costruire la tabella di massima variabilità, cioè mettendo metà delle frequenze al primo valore, l altra metà all ultimo valore e agli altri mettendo 0. Applicando ancora le formule precedenti, troviamo Δ max da cui Δ/Δ max. η 2 Y X = ρ 2 = 1 Nel primo caso, la varianza residua dalle medie condizionate [A=0,B=1,C=0] σ 2 * e la varianza residua dalla retta di regressione 1 σ 2 * sono uguali tra loro ed entrambe uguali a zero. Si è in presenza di una situazione ottima e di massima efficacia della retta di 0< η Y X 2 = ρ 2 <1 [A=1,B=0,C=1] η Y X 2 = 1 e ρ 2 <1 [A=1,B=0,C=0] Si calcoli, media, mediana, retta. regressione nel sintetizzare la distribuzione. Le due varianze residue risultano uguali, ma provengono da due concetti diversi. Le medie condizionate sono perciò uguali ai valori teorici e quindi allineate. Caso di non migliorabilità. In questo caso la varianza residua dalle medie condizionate risulta =0, mentre la varianza dalla retta è 0. Le media condizionate non sono pertanto allineate. Caso migliorabile. Normσ 2 x = σ 2 x/ max σ 2 x = σ 2 x/(µ(x 1 + x n ) x 1 x n µ 2 ). Commentare se X o Y ha dispersione >. Quale metodo è più aderente? Il metodo dell interpolante considera sia X sia Y. Si descriva, con opportuni indici, la posizione e la dispersione della distribuzione distinta per Y. Si individui la distribuzione di frequenze congiunte che esprime la condizione di massima connessione, giustificando la scelta. Si determini la quantità media nel rispetto del vincolo di conservazione della spesa complessiva del totale, riconoscendo il tipo di media. Si misuri l intensità del legame lineare presente e si individui un opportuna funzione interpolante Si effettui uno studio completo della dipendenza di Y da X e Z Calcolare la media di X nel rispetto del vincolo di conservazione del tot. Y, qualitativo ordinale, può essere sintetizzato dagli indici di posizione moda e mediana (N/2 oppure (N+1)/2). Per valutare la dispersione, possono essere calcolati l indice γ di Gini = n j=1(1 f.j/n) e l indice normalizzato γ = γ/γ max. Una misura normalizzata di mutabilità relativa alla moda è data da: δ = δ/δ max con δ = (N f(mo))/n e con δ max = (N f(mo) min )/N Vedi appunti su indipendenza e connessione (fino ad arrivare a Pearson-Pizzetti) sino ad arrivare a GGK. q = s/p. Chisini.media aritmetica ponderata (in questo caso). Una misura dell intensità e del verso (positivo o negativo) del legame è data da ρ. Retta e soliti coefficienti. ρ 2 spiega la percentuale di variabilità. Si introduce il modello del piano di regressione coi suoi coefficienti. Un indice di bontà di adattamento ai dati del piano è dato dal rapporto di correlazione multipla lineare: XZ η 2 Y =1 XZ σ 2 * Y /σ 2 Y. Poiché la varianza residua dal piano di regressione multipla è pari a XZ σ 2 * Y = µ 2 (y) aµ 2 Y bµ YX cµ YZ. Il confronto tra i valori della varianza residua dalla retta e dal piano di regressione permette di valutare il miglioramento ottenuto introducendo nel modello lineare la variabile Z. A tal fine si calcola l indice di miglioramento multidimensionale: XZ ρ 2 Y =( X σ Y * 2 XZ σ Y * 2 )/ X σ Y * 2, dove X σ Y * 2 = σ 2 Y σ 2 XY /σ 2 X. Dalla lettura dell indice di miglioramento si evince che l introduzione di Z ha portato a riduzione/aumento della varianza residua del tot%. La relazione funzionale che lega il prezzo, la Q e la spesa è: S=XY. Poiché il vincolo di conservazione della spesa totale impone che: n i=1s i = n i=1x i y i e la

11 Confrontare la variabilità delle distribuzioni di X, Y, S Stimare l eterogeneità. Configurare i casi estremi. Si valuti il tasso medio di variazione. Si spieghi ora la dipendenza attraverso un modello lineare. Si confronti la bontà dei modelli individuati. Si faccia una previsione sulla base dei 2 modelli (inserendo i numeri nelle formule). Si stimi in modo opportuno il numero di Y, valutando la bontà dell interpolante. Dopo aver calcolato le medie riferite ad ogni X, si valuti la frazione di varianza totale spiegata dalla retta. Dopo aver individuato il carattere condizionante (X) e quello condizionato (Y), effettuare uno studio completo della dipendenza di Y da X. E casi limite. Dati X, Y, X 2, Y 2, XY, X 3, X 4, X 2 Y prevedere Y dato X ricorrendo ad un modello lineare. Valutare la bontà del modello individuato. Rifare la previsione ricorrendo al modello parabolico. Valutarne la bontà. Confrontare l efficienza dei 2 modelli. condizione di equivalenza di Chisini prevede che: n i=1x i y i = n i=1iy i, il prezzo medio vale I = n i=1x i y i / n i=1y i Calcolare le medie e le varianze di X, Y e S. Per effettuare il confronto si calcano i coefficienti di variazione: CV X = σ X /µ X etc. da cui emerge la > variabilità. Per stimare l eterogeneità della mutabile si può ricorrere al calcolo dell indice di Gini considerando come frequenze il numero di addetti. Si ottiene γ. I casi estremi sono la massima concentrazione e l equi-distribuzione. Valore iniziale(1 + t) n = valore finale. Dall andamento del grafico si può capire se il valore se il valore debba esser positivo o negativo. Retta. Per effettuare il confronto, è necessario utilizzare le elaborazioni: X T, 1 X, (X T X) 2, ( 1 X X) 2. Il modello lineare risulta essere migliore se la somma degli scarti al quadrato dai valori effettivi risulta essere inferiore rispetto al modello col tasso medio. Retta e ρ 2. Occorre calcolare le medie condizionate delle Y rispetto alle X. La retta interpolante le medie condizionate ha la stessa equazione della retta di regressione: µ(y X)= µ y + σ XY /σ 2 X(X µ X ). Occorre calcolare 1 δ 2 Y = ρ 2 /η 2 y. Dove η 2 y = σ 2 Y/σ 2 Y e dove: σ 2 Y = 1/N n i=1[µ(y/x) µ Y ] 2 fi. Retta e ρ 2. I casi limite che si possono presentare sono: ρ=0, che segnala la presenza di in correlazione tra le variabili; ρ=1, che segnala la presenza di un legame diretto perfettamente lineare fra le variabili; ρ=-1, che segnala la presenza di un legame inverso perfettamente lineare tra le variabili; ρ 2 =η 2, che segnala la non migliorabilità del modello di regressione lineare semplice, in quanto le medie condizionate sono allineate lungo la retta di regressione ma esiste del residuo non eliminabile. Retta: Y=μ y (σ xy /σ 2 x)μ x + (σ xy /σ 2 x)x dove: Visto che X è dato, lo inserisco nell equazione finale e prevedo Y. Le medie sono: μ y = Y/N, μ X = X/N, μ XY = XY/N σ XY = μ XY μ X * μ Y σ 2 x = X 2 2 /N μ X Per valutare la bontà del modello si calcola il rapporto di correlazione lineare ρ 2. Ciò rende necessario calcolare anche la varianza di Y: σ 2 Y = Y 2 /N μ 2 Y. ρ 2 = σ 2 XY /( σ 2 x σ 2 Y ). Fare le solite considerazioni: spiega per il tot% etc. Parabola: si vedano le formule sul formulario. La bontà del modello è fornita dal rapporto di correlazione parabolico: 2 η 2 Y. Il confronto tra l efficienza dei 2 modelli r+1ρ 2 Y = ( r σ* 2 y r+1 σ* 2 y)/ r σ* 2 y è dato dall indice di miglioramento: dove: 1 σ* 2 y = σ 2 y (1 ρ 2 )

12 Nozioni di calcolo combinatorio (Appunti di Roberto Scarella e Davide Benza) Disposizioni semplici (D n,k ): si definiscono disposizioni semplici di n soggetti tutti distinti di classe k (scelti a k alla volta) tutti i sottoinsiemi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per la natura di almeno uno degli elementi componenti o per l ordine con cui questi si presentano. Tali disposizioni possono anche essere viste come: a partire da un gruppo n si ottengono sottogruppi di k unità e non è ammessa la ripetizione dell oggetto. In formula: D n,k = n!/(n-k)! Esempio 1: disposizione di 4 elementi a gruppi di 3 diversi tra loro per ordine o natura. D 4,3 = 4!/(4-3)! = 4!/1! = 24 gruppi Esempio 2: disposizione di 10 elementi a gruppi di 4 diversi tra loro per ordine o natura D 10,4 = 10!/(10-4)! = 10! / 6! = (10*9*8*7*6*5*4*3*2*1)/(6*5*4*3*2*1) = 10*9*8*7 = 5040 Permutazioni semplici (P n ): si definiscono permutazioni semplici di n oggetti tutti distinti (P n ) tutti i gruppi che si possono formare con gli n oggetti, in modo tale che differiscano esclusivamente per l ordine con cui questi si presentano. Pn=n! Esempio1: permutazione di 3 elementi a gruppi di 3 diversi tra loro per l ordine. Soggetti a,b,c possono formare le seguenti possibili permutazioni: (a,b,c)(a,c,b)(b,a,c)(b,c,a)(c,a,b)(c,b,a). In formula: Pn=n!=3!=6 Esempio2: ci sono 4 posti liberi al cinema, i soggetti A,B,C,D in quanti modi possono disporsi? Pongo n=4 e K=4, non avviene distinzione per natura ma solo per ordine, non ci possono essere ripetizioni, queste particolari disposizioni sono permutazioni semplici e vengono indicate con: Dn,n = Pn = n!= 4! Combinazioni semplici (C n,k ): si definiscono combinazioni semplici di n soggetti tutti distinti di classe k tutti i sottogruppi che si possono formare con k degli n elementi in maniera tale che differiscano tra di loro esclusivamente per la natura di almeno un componente. C n,k = D n,k /P k =coefficiente binomiale = n = n = n!/[k!(n-k)!] cioè: Valore sopra!. Valore sotto! * (Valore sopra Valore sotto)! Esempio 1: combinazione di 4 elementi a gruppi di 3 diversi per la loro natura. C n,k = n!/(k!(n-k)!) = 4!/(3!(4-3)!) Esempio 2: combinazione di 4 elementi a gruppi di 4 diversi per la loro natura. C n,k = 4!/(4!(4-4)!) = 4!/(4!0!)=0!=1 N.B. Con ripetizione Disposizioni con ripetizione (D r n,k): si definiscono disposizioni con ripetizione di n soggetti tutti distinti di classe k (scelti k alla volta) tutti i sottoinsiemi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per natura di almeno uno degli elementi componenti, per l ordine con cui questi si presentano o per la presenza ripetuta di qualche elemento. D r n,k = n k Esempio: 3 soggetti (a,b,c) concorrono all attribuzione di 2 ruoli non alternativi, possibili disposizioni: (a,a)(a,b)(a,c)(b,a)(b,b)(b,c)(c,a)(c,b)(c,c) = D r n,k = n k = 3 2 = 9 Combinazioni con ripetizione (C r n,k): si definiscono combinazioni con ripetizione di n soggetti tutti distinti di classe k (scelti k alla volta) tutti i gruppi che si possono formare con k degli n elementi in modo tale che differiscano tra loro per la natura di almeno uno degli elementi componenti o per la presenza ripetuta di qualche elemento. C r n,k=c n+k-1,k =n+k-1 k Esempio: 5 soggetti (a,b,c,d,e) concorrono all attribuzione di 3 ruoli senza nessuna limitazione sui ruoli occupati: C r n,k = n+k-1 = = 7! / (3!4!) = 5040/144 = 35 k 3 Permutazioni con ripetizione (P r n;k1, kh) Si definiscono permutazioni con ripetizione di n oggetti gli ordinamenti che si possono formare considerando distinti i gruppi che differiscono tra loro per la posizione d ordine di almeno un elemento: n! / k 1! * * k h! Schema riassuntivo: Conta l ordine Conta la natura Contano entrambi k n-k Qualcosa si ripete? SI (K>n) P r n,k1 kh C R n,r D R n,k NO (K n) Pn C n,k D n,k

13 Gli eventi casuali Si definisce evento casuale ogni realtà o accadimento (fisico o concettuale) incerto sia perché possibile ma relativo a una osservazione o esperimento non ancora realizzatosi, sia perché possibile ma relativo a una osservazione o esperimento realizzatisi ma di cui non si conosce il risultato, tali eventi spesso vengono definiti come eventi casuali propri. Altre definizioni: Evento casuale elementare: ogni possibile esito dell esperimento. Es: lanciando un dado che esca un numero tra 1 e 6. Evento certo (Ω): l evento che si presenta sempre qualunque sia l esito dell esperimento. Tale insieme viene anche chiamato spazio campionario in quanto è l insieme di tutti i possibili esiti. Evento impossibile ( ): l evento che comunque non può presentarsi nella realizzazione dell esperimento. Evento casuale proprio: sottoinsieme dello spazio campionario. Es: nel lancio del dado uscita dei numeri 1,3,5. Spazio degli eventi (B Ω ): collezione di tutti gli eventi possibili per un dato esperimento (lancio dado: esca da 1 a 6). Il caso del dado Il numero totale degli elementi contenuti nello spazio degli eventi relativo al lancio del dado è dato da tutti i possibili sottoinsiemi che si possono formare dall insieme Ω, comprendendo l insieme stesso e l insieme vuoto. Essi sono: 6 = 1 evento impossibile ( ) 6 = 6 eventi casuali elementari = 15 possibili coppie di eventi casuali elementari: 6 = evento certo Ω 2 (1,2)(1,3)(1,4)(1,5)(1,6)(2,3)(2,4)(2,5)(2,6)(3,4)(3,5)(3,6)(4,5)(4,6)(5,6) 6 Formula: il numero totale degli eventi generabile da uno spazio campionario finito che contiene n elementi è 2 n Operazioni tra eventi casuali 1) Unione: si definisce evento unione tra due eventi A e B, e si indica con A B, l evento che si realizza qualora si presenti indifferentemente uno degli eventi casuali elementari contenuti negli eventi A o B. L unione gode delle seguenti proprietà: o Commutativa: A B B A o Associativa: A (B C) (A B) C A B C o Di idempotenza: A A A 2) Differenza: si definisce evento differenza, tra due eventi A e B, e si indica con A B, l evento che si realizza qualora si presenti l evento A ma non l evento B. La differenza gode delle seguenti proprietà: o A B = {1} o A B = (A B) B = A (B A) 3) Intersezione: si definisce intersezione tra due eventi A e B, e si indica con A B, l evento che si realizza quando si presentano congiuntamente entrambi gli eventi componenti. L intersezione gode delle proprietà: o Commutativa: A B = B A o Associativa: A (B C) = (A B) C = A B C o Di idempotenza: A A = A o Inoltre: A (B C) = (A B) (A C) 4) Eventi incompatibili: due eventi A e B, si definiscono incompatibili quando manifestandosi l uno non si presenta l altro e viceversa. Naturalmente A B = 5) Eventi complementari: due eventi si definiscono complementari quando non presentandosi l uno si presenta l altro e viceversa. Pertanto due eventi complementari sono anche incompatibili ma non è necessariamente vero che due eventi incompatibili sono complementari. Il complementare dell insieme A si indica con A e rappresenta l insieme di tutti gli elementi che non appartengono ad A. Proprietà degli eventi complementari: o A B = Ω o A B = o A A = Ω o A = (A B) (A B) o 1 legge di De Morgan: A B=A B o 2 legge di De Morgan: A B=A B 6) Partizione dell insieme: la collezione di n eventi casuali, A 1,A 2...,A n, rappresenta una partizione dell evento certo se sono a due a due disgiunti e la loro unione è l evento certo. Proprietà della partizione degli insiemi: a. A i A J = n b. U Ai = Ω i=1 i,j = 1,2,...,n

14 7) Inclusione: un evento si dice incluso (contenuto) in A (B A) quando al verificarsi di B si presenta sempre anche A ma non viceversa. Qualunque evento A è incluso nell evento certo Ω, che viene pertanto definito inclusor maximun, e contiene l evento impossibile, che viene definito inclusus minimun, cioè: a. A Ω A Ω = Ω A Ω = A b. A Ω A = A A = c. Inoltre, se B A, allora: i. A B = A ii. A B = B iii. B A ( = contiene) 8) Alcune proprietà degli operatori: a. Transitiva: se A = B e B = C allora A = C b. Distributiva dell intersezione rispetto all unione: A (B C) = (A B) (A C) c. Distributiva dell unione rispetto all intersezione: A (B C) = (A B) (A C) L algebra degli eventi La coppia (Ω, B Ω ) viene definita spazio probabilizzabile, in cui Ω = spazio campionario e B Ω = insieme di un numero finito di n elementi da ω 1 a ω n. B Ω è una Algebra di Boole, cioè una classe che possiede le seguenti proprietà: Ω B Ω A B Ω => Ā B Ω A 1, A 2,, A n B Ω => U n i=1 A i B Ω Inoltre per la legge di De Morgan segue che: n i=1 A i B Ω Una estensione Sia Ω un insieme infinito e numerabile, valgono le stesse proprietà di cui sopra, ma con n =. Una generalizzazione Sia Ω un insieme infinito e non numerabile. È necessario restringere il campo con al più un infinità numerabile di operazioni, ottenendo la classe di Borel, formata dalla famiglia monotona delle semirette: R(x) = (-,x] con x R Ad ogni semiretta corrisponde, come controimmagine, l elemento R 1 (x) B Ω Il concetto di misura finita Una misura finita m è caratterizzata dalle seguenti proprietà: 1) È una funzione definita su un algebra (σ-algebra) di insieme B Ω 2) A B Ω => m(a) R [0, ) 3) m(0) = 0 4) m (Ω) < a < 5) è completamente additiva. Ciò si verifica se, data una sequenza di eventi disgiunti A i, m(u n i=1a i ) = i=1m(a i ) m(a Ω) si definisce misura normalizzata di A su Ω.

15 La Probabilità Il concetto di probabilità: la probabilità, intesa come misura associata ad un evento casuale, è una proprietà fisica dell evento stesso, altre considerazioni intendono la probabilità come grado di fiducia che un ricercatore, sulla base delle sue esperienze, nutre nel verificarsi dell evento in questione, si sono sviluppati diversi filoni teorici: 1) Concezione classica: se, per un determinato evento A, è possibile determinare il numero di casi favorevoli n(a) ed il numero di casi possibili n(ω) realizzabili in quella prova, nell ipotesi che siano tutti egualmente possibili si definisce probabilità dell evento P(A) la quantità: P(A) = n(a) / n(ω) 2) Concezione statistica: si definisce probabilità statistica di un evento A la quantità, se esiste finita, P (A) = lim n n(a)/n con n(a) il numero di casi in cui è stato osservato l evento A ed n il totale di osservazioni. 3) Concezione soggettiva: la probabilità di un evento è la misura del grado di fiducia che un determinato soggetto attribuisce al suo verificarsi. Il calcolo delle probabilità, gli assiomi di Kolmogorov Sia B Ω un algebra di insiemi: 1) P (A) 0 con A B Ω 2) P (Ω) = 1 3) P (A B) = P(A) + P(B) se A B = Nota bene: A B = significa che i due insiemi sono disgiunti. Solo in questo caso si può dire che (A B) = P(A) + P(B) e che (A B) = P(A)*P(B). Attenzione a non sbagliare negli esercizi! La coppia di insiemi (Ω, B Ω ) viene definita spazio probabilizzabile. Ad essa viene associata la funzione di probabilità P( ), giungendo a definire lo spazio di probabilità, (Ω, B Ω, P) in cui a ciascun evento A B Ω viene associata la probabilità P(A). Per il terzo assioma possono essere elencate le seguenti relazioni: P(Ω) = P( ) + P(Ω) P(Ω) = P(A) + P(Ā) P(A) = 1 - P(Ā) Il terzo assioma può essere così generalizzato: P [Ui(Ai)] = i P(Ai) Ai Ω Aj = i j = 1,2,... La misura di probabilità P(A) deve essere considerata una misura normalizzata di A su Ω, ottenendo così che ogni misura finita m può essere trasformata in misura di probabilità mediante la posizione P(A) = m(a Ω) = m(a) / m(ω) La formula delle probabilità totali Se A e B sono due eventi, l evento unione è scomponibile nell unione di eventi incompatibili: A B = (A (A B)) (B (B A)) (A B) per il terzo assioma si ottiene la formula delle proprietà totali: P (A B) = P (A) + P (B) P(A B) La probabilità condizionata: es: lancio di due dadi, probabilizzare i seguenti accadimenti: a. Il risultato dell esperimento è 8 (probabilità incondizionata) b. Il risultato dell esperimento è 8 nel caso in cui il primo dado ha fornito un numero pari. Soluzione caso a: i lanci favorevoli sono: P (A)= 5/36 = (2,6)(3,5)(4,4)(5,3)(6,2) Soluzione b: i lanci favorevoli sono: 3 * 6 = 18 primo lancio pari * secondo lancio, i risultati favorevoli al risultato finale sono (2,6)(4,4)(6,2) cioè l intersezione tra i due eventi A e B. Formalmente: P(A B) = 3/18, perciò: P (A B Ω) = m (A B) / m(ω) P (B) = m(b) / m(ω) P (A B) = P(A B) / P(B); è la formula delle probabilità condizionate o quarto assioma del calcolo delle probabilità. P (B A) = P(A B) / P(A) P (A B) = P(A) P(B A) = P(B) P(A B) Eventi indipendenti (domanda da orale): un evento A è indipendente da un evento B se P(A B) = P(A), ovvero se le informazioni sull evento B non alterano le probabilità associate all evento A, se A e B sono indipendenti la loro intersezione è il prodotto delle probabilità: P(A B) = P(A) P(B) Condizioni necessarie per l indipendenza sono: A B 0, A B 0, B A 0, A B, B A. Generalizzando: P[ i (A i )] = i P(A i ) P(A i A j ) = P(A i ) Teorema di Bayes, è un approfondimento della definizione di probabilità condizionata dalle relazioni: P(A B) = P(A) P(B A) Esempio N P(B) = P(A B) + P(Ā B) da cui si può dedurre: Malato 98% 3% P(A B) = P(A B) = P(A) P(B A). = P(A) P(B A). Sano 4% 97% P(B) P(A B)+P(Ā B) P(A) P(B A) + P(Ā)P(B A) (98*3)/(98*3+4*97)= = 0,431 = 43,1%

16 Tale formula è definita formula di Bayes o legge delle probabilità delle cause, consente di calcolare la probabilità che il manifestarsi di un evento sia imputabile a una specifica fra le altre possibili cause, che sono tra loro incompatibili.

17 La variabile aleatoria (v.a. o variabile casuale) La variabile aleatoria è una funzione che associa a ciascun elemento dello spazio campionario un numero: Ω R. Definizione: l applicazione X: Ω R che associa a ciascun elemento di uno spazio campionario un numero (contenuto in R) è definita variabile aleatoria se, per ogni semiretta R(x) =) definita dalla R(x) = (-,x] con x R, la sua immagine inversa A(x) = X -1 [R(x)] è contenuta in B Ω. A(x) = X -1 [R(- x)] è detta funzione di ripartizione della v.a.x. Esempio: nel lancio di monete la variabile aleatoria associa la vincita di 1 euro all uscita di testa. In questo modo probabilizzo un qualcosa di numerico, quantitativo. Non posso fare la media di testa o croce ma posso fare la media della vincita. Con la lettera maiuscola X si indica la variabile aleatoria, la lettera minuscola x indica il singolo fenomeno. La funzione che associa a ciascuna intensità della variabile aleatoria la probabilità che questa si verifichi viene definita legge di probabilità. Proprietà della legge di probabilità: La legge di probabilità è sempre positiva La somma delle singole probabilità deve dare 1 Classificazione delle variabili aleatorie: 1. v.a. binomiale Bi (n,p): conta il numero di successi in n prove indipendenti. Esempio: ho un urna con palline di colore diverso, campionamento con reinserimento, cioè estraggo guardo il colore e reinserisco la pallina nell urna. La probabilità che riesca quella stessa pallina è costante. L inserimento garantisce l indipendenza di una prova dall altra (nota: argomento spesso chiesto all orale). Esempio: un urna contiene 10 palline, di cui 4B e 6N. n = 5 estrazioni con reinserimento. Voglio ottenere 3B. P(BBBNN) = (4/10)(4/10)(4/10)(6/10)(6/10) = (4/10) 3 (6/10) 2 = Ma poiché P(BBBNN) = P(NBNBB) = P(NNBBB) =, è necessario trovare il numero di possibili esiti con questo risultato, in pratica devo tenere conto anche dell ordine. n possibili esiti: 5 = estrazioni = 5 * 4 * 3* 2! = 60/6 = 10 3 n di B che voglio ottenere 3 * 2 * (5 3)! Adesso moltiplico il numero di possibili esiti con ordine diverso per la probabilità: 10 * (4/10) 3 (6/10) 2 = 0,2304 = 23,04% Generalizzando ottengo la seguente formula: n p x q n x = estrazioni (probabilità che esca B) n di volte che esce B (probabilità che esca N) x n di B che voglio ottenere ovvero: n di prove (probabilità di successo) n di successi (probabilità di insuccessi) n di successi n di volte che esce N n di insuccessi Per calcolare la media e la varianza della v.a. binomiale Bi(n,p): a. µ x = x i ρ(x i ) µ x = n*p b. σ 2 x = (x i - µ x ) 2 ρ(x i ) = (x i 2 ρ(x i )) - µ x σ 2 = n*p*q In conclusione, se ci sono n prove indipendenti e sto contando i successi, si tratta di v.a. binomiale. 2. La v.a. Ipergeometrica H (N,n,p): in questo caso le prove non sono indipendenti (sono dipendenti), campionamento in blocco, estraggo le palline e non le reinserisco (senza reinserimento), ciascuna prova è condizionata dall esito delle prove precedenti. In formula: Riprendendo l esempio svolto per la Bi: Np Nq 4 6 n di B per differenza H(x N,n,p) = x n-x = 3 2 = 5/21 = 23,81% = n di B che voglio ottenere per differenza. N 10 tot palline n 5 tot estrazioni essendo: n-x = numero di insuccessi p = frazione di elementi favorevoli N = numero totale di elementi Np = numero elementi favorevoli Nq = numero elementi sfavorevoli q= 1-p = frazione di elementi sfavorevoli Nota: se N è molto grande e n è molto piccolo (es.: N = 100 e n = 2) => la H tende alla Bi perché reinserire una pallina o non reinserirla praticamente non cambia nulla (nota: argomento spesso chiesto all orale).

18 3. La v.a. Geometrica Ge(p): è un caso particolare della binomiale (con reinserimento) in cui l unico successo è l ultima estrazione e conta il n di prove x necessarie ad ottenere il 1 successo, essendo le prove indipendenti ed effettuate a probabilità costanti: Esempio: P(1 a B dopo 3N, cioè alla 4 a estrazione) Essendo indipendenti, calcolo la P(NNNB), ma ricordando che è = P(BNNN) = = (6/10) 3 (4/10) Ge (x p) = (1 p) (x-1) p = (1 4/10) (4 1) 4/10 = (6/10) 3 (4/10) = 216/1000*0,4 = 0,0864 Pertanto: µ x = x i p i = 1/p (risponde alla domanda: quante prove sono necessarie in media? ) σ 2 = q/p 2 4. La v.a. di Pascal (binomiale negativa) Pa(p,k): è la generalizzazione della v.a. geometrica, ma in questo caso il riferimento non è all estrazione del primo successo, ma riguarda la probabilità di estrarre la K a pallina bianca alla x a estrazione; è il verificarsi congiunto di due eventi tra loro indipendenti (con reinserimento). Esempio (con riferimento alle solite palline B e N): P (estrarre la 2 a pallina B alla 4 a estrazione) =? È l intersezione di P(NBN), in tutti gli ordini possibili, con P (pallina B alla 4 a estrazione). Pa(p,k)= x-1 p k-1 (1 p) x-k p = x 1 p k (1 p) x k = 3 (4/10) 2 (6/10) 4 2 = 0,1728 = 17,28% k-1 k 1 1 Binomiale poiché: p k-1 p = p k = 3 (4-1) 3 = 3 4 con: µ x = k/p σ 2 =kq/p 2 5. La v.a. di Poisson (λ): è un approssimazione della Binomiale, si usa quando gli eventi sono molto rari e il numero delle prove è molto alto, in formula: Po(x λ) = (λ x e -λ )/x! Dove λ = n*p µ σ 2 6. La v.a. Continua: si utilizza nel caso di una serie di valori non numerabili, in cui non ha senso calcolare la probabilità di un singolo punto (l integrale in un punto è zero per definizione), ad ogni punto assoceremo un valore che è la densità, il calcolo della probabilità sarà fatto per intervalli. Il suo spazio campionario è non numerabile. Le funzioni di ripartizione: misurano le aree delle funzioni (integrali); per tutte le variabili aleatorie, la F di ripartizione sono le da i a J che generano i valori cumulati. Cioè: per calcolare il 30% faccio la f (v.a.), mentre per calcolare 30% faccio la F (funzione di ripartizione). La funzione di densità è invece la derivata. Formule: Densità: f(x) = F (X)= df(x)/dx Media: µ x = + - x f(x) dx Varianza: + - x 2 2 f(x) dx µ x Indice di asimmetria: 1/σ (x i µ) 3 f(x) dx Indice di curtosi (è uguale a quello di asimmetria ma è alla quarta): 1/σ (x i µ) 4 f(x) dx La funzione di ripartizione è continua ovunque. Esempio: f(x) = ¼ tra 0 e 4 0 altrove Integrazione con la lezione del 3 Dicembre 07: Quando lo spazio è un insieme numerabile, si è di fronte ad una v.a. discreta, mentre quando è definito tra 2 spazi si ha una v.a. continua. Se è continua è così definita: F(X = x) = 0 - f(t) dt dove f(x) è la funzione di densità. Ha due proprietà: 1. f(x) 0 (la probabilità non può essere negativa) f(x) dx = 1 (è la probabilità dell evento certo) Esempio facile: derivata Disegno: F(x) = 0 x<0 f(x) = 0 x 0 f(x) = ¼ 0<x 4 x/4 0<x 4 ¼ 0<x 4 0 altrove 1 x>4 0 x>4 ¼ P(a<x<b) = F(b) F(a) = P(2<x<3) = F(3) F(2) = ¾ - 2/4 = ¼ Infatti: b - f(x) dx a - f(x) dx Non sempre si usano gli integrali, spesso si può evitarlo utilizzando il metodo grafico. Esempio nuovo, un po più complicato: introduciamo K. f(x) = Kx 0<x<8 1) f(x) 0 per quali valori di K succede? 0 altrove Kx 0 ma x è compreso tra 0 e 8 quindi K 0. 2) con la 2 a proprietà trovo K: + - f(x) dx = 1 = 0-0 dx (Kx) dx dx (Torr.Barr.) [Kx 2 /2] 8 0 = K8 2 /2 K0 2 /2 32K = 1 K = 1/32

19 7. La v.a. Uniforme continua (rettangolare) R(a,b): ha come parametri generici a,b che sono gli estremi in cui la variabile esiste, è un metodo grafico. µ x = (b + a)/2 σ 2 = (b a) 2 /12 (12 è un n fisso) Esempio fatto in classe il 3 Dicembre 07: 1/(b a) f(x) 1/(b a) a<x<b 0 altrove F(x) a x<a a x µx b (x a)/(b a) a x b 1 x>b 8. La v.a Normale N (µ, σ): viene anche definita variabile aleatoria gaussiana, la maggior parte della popolazione si trova intorno alla media. Questo tipo di esercizi non si risolve con calcoli numerici, ma con l utilizzo delle tavole (vedi grafico di assicurazioni, con code della distribuzione). P.to di flesso -½ [(x µ)/σ] 2 f(x) = 1 * e X~N(µ, σ) 2π σ µ µ+σ x F(x) = - f(x) dx La tavola della normale standard ha µ = 0 e σ = 1: N(0,1) Formula di standardizzazione: z = (x µ)/σ Esempio 1: X~N(µ=170, σ=5) P(x<172) Fare SEMPRE il grafico! F(172) = f(x) dx Trasformiamo x in z, utilizzando le tavole: 172 F x (172) = F x [(x µ)/σ] = ( )/5 = 0, x A questo punto cerco 0,4 sulle tavole: Intestazione di riga: 1 decimale Intestazione di col.: 2 decimale Otteniamo 0,6654 che, essendo vicini a µ -1 0 Z1 1 e avendo superato il 50% ci può stare. Esempio 1bis: Se nell esempio precedente sostituiamo P(x>163) 1 P(x<163) per la simmetria (163 dista 7 da 170 come 177) P(x<177) = 1 Fz(-1,4) = 0,9192 Esempio 2: X~N(µ=98, σ=?) Manca un parametro, ma sappiamo che il 25% > 102. P(x>102) = 0,25 Fx(102) = Fz(z 1 ) con z 1 = (102 98)/σ Procedo sulle tavole al contrario: cerco il valore più vicino a 0,75 (ho trovato riga 0,6 e colonna 0,07 0,7486) e trovo 0,67. Quindi: z 1 = 0,67 σ = (102 98)/0,67 = 5, Esempio 2bis: Se avessimo valori minori di µ, esempio: P(x<95) = 0,15 per la simmetria (95 dista 3 da 98 come 101) cerco sulle tavole (1 0,15) = 0,85 z 1 = 1,04 = (101 98)/σ σ = 2, Esempio 3 (è l esercizio più difficile, che esce spesso all esame): il 10% della produzione è > 10 ed il 20% < 9. Trovare σ e µ. P(x>10) = 0,10 P(x<9) = 0,20 20% 10% 9 µ 10 z 1 = (10 µ)/σ cerco sulle tavole (1 10%) = 0,9 z 1 = 1,28 (10 µ)/σ = 1,28 - z 2 = (9 µ)/σ cerco sulle tavole (1 20%) = 0,8 z 2 = -0,846 (9 µ)/σ = -0, µ = 1,28σ Risolvo per differenza 9 µ = -0,846σ 1 = 2,12σ σ = 1/2,12 = 0, Binomiale approssimata: Bi(n,p) N(np, npq) La binomiale è simmetrica se p = q. γ 1 = (q p)/ npq Più la p si avvicina a q, più la binomiale si avvicina alla Gaussiana. Se sono molto distanti, per compensare si deve aumentare di molto n. Attenzione! Quando l incognita è la media, non si può ragionare immediatamente per simmetria

20 Funzione di ripartizione della v.a. Normale standardizzata F(z) = P(Z<z) Nota: su internet e su altri libri si trovano tavole che tengono conto dell altra metà della Gaussiana (basta fare: -0,5).

Vedere altro