Statistica di base. Luca Mari, versione 31.12.13



Documenti analoghi
CONCETTI BASE DI STATISTICA

Statistica 1 A.A. 2015/2016

V Tutorato 6 Novembre 2014

Strumenti di indagine per la valutazione psicologica

SUCCESSIONI E SERIE NUMERICHE

Successioni. Grafico di una successione

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

Anno 5 Successioni numeriche

Metodi statistici per l analisi dei dati

STATISTICA DESCRITTIVA

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE

SUCCESSIONI NUMERICHE

Metodi statistici per l'analisi dei dati

ESERCIZI DI STATISTICA DESCRITTIVA ALCUNI TRATTI DA PROVE D ESAME DA REALIZZARE ANCHE CON L AUSILIO DI UN FOGLIO DI CALCOLO. Angela Donatiello 1

52. Se in una città ci fosse un medico ogni 500 abitanti, quale sarebbe la percentuale di medici? A) 5 % B) 2 % C) 0,2 % D) 0,5% E) 0,02%

SERIE NUMERICHE Con l introduzione delle serie vogliamo estendere l operazione algebrica di somma ad un numero infinito di addendi.

LA VERIFICA DELLE IPOTESI SUI PARAMETRI

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE

Università degli Studi di Bergamo - Corsi di laurea in Ingegneria Edile e Tessile Indici di posizione e variabilità Esercitazione 2

DISTRIBUZIONI DOPPIE

EQUAZIONI ALLE RICORRENZE

8. Quale pesa di più?

Analisi statistica dell Output

Una funzione è una relazione che ad ogni elemento del dominio associa uno e un solo elemento del codominio

Il test parametrico si costruisce in tre passi:

LA DERIVATA DI UNA FUNZIONE

STATISTICA INFERENZIALE SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA

ANALISI MATEMATICA 1 Area dell Ingegneria dell Informazione. Appello del TEMA 1. f(x) = arcsin 1 2 log 2 x.

Sintassi dello studio di funzione

Calcolo della risposta di un sistema lineare viscoso a più gradi di libertà con il metodo dell Analisi Modale

Numerazione binaria Pagina 2 di 9 easy matematica di Adolfo Scimone

SUCCESSIONI NUMERICHE

PARTE QUARTA Teoria algebrica dei numeri

Risposte. f v = φ dove φ(x,y) = e x2. f(x) = e x2 /2. +const. Soluzione. (i) Scriviamo v = (u,w). Se f(x) è la funzione richiesta, si deve avere

SUCCESSIONI e LIMITI DI SUCCESSIONI. c Paola Gervasio - Analisi Matematica 1 - A.A. 15/16 Successioni cap3b.pdf 1

Campionamento stratificato. Esempio

Esercizi riguardanti limiti di successioni

Soluzione La media aritmetica dei due numeri positivi a e b è data da M

Corso di Laurea Magistrale in Ingegneria Informatica A.A. 2014/15. Complementi di Probabilità e Statistica. Prova scritta del del

Teorema 13. Se una sere converge assolutamente, allora converge:

IMPLICAZIONE TRA VARIABILI BINARIE: L Implicazione di Gras

Principi base di Ingegneria della Sicurezza

Terzo appello del. primo modulo. di ANALISI

Campi vettoriali conservativi e solenoidali

Le carte di controllo

Foglio di esercizi N. 1 - Soluzioni

Serie numeriche: esercizi svolti

Matematica II: Calcolo delle Probabilità e Statistica Matematica

5 ln n + ln. 4 ln n + ln. 6 ln n + ln

Il confronto tra DUE campioni indipendenti

Sistemi e Tecnologie della Comunicazione

IL CALCOLO COMBINATORIO

APPUNTI DI MATEMATICA ALGEBRA \ ARITMETICA \ NUMERI NATURALI (1)

1 Limiti di successioni

Statistica I, Laurea triennale in Ing. Gestionale, a.a. 2011/12 Registro delle lezioni

Percorsi di matematica per il ripasso e il recupero

I numeri complessi. Pagine tratte da Elementi della teoria delle funzioni olomorfe di una variabile complessa

DIPENDENZA O CONNESSIONE. Ovvero quando la conoscenza della modalità di X presente su un unità è informativa della presenza della modalità di Y.

Limiti di successioni

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

Successioni ricorsive di numeri

Statistica (Prof. Capitanio) Alcuni esercizi tratti da prove scritte d esame

Elementi di matematica finanziaria

SERIE NUMERICHE Esercizi risolti. 2 b) n=1. n n 2 +n

Introduzione all assicurazione. (Dispensa per il corso di Microeconomia)

ESEMPIO 1. Immaginiamo come si distribuirebbero le stime campionarie se l operazione di campionamento venisse ripetuta più volte.

Appunti sulla MATEMATICA FINANZIARIA

5. Le serie numeriche

Random walk classico. Simulazione di un random walk

Rendita perpetua con rate crescenti in progressione aritmetica

ESERCIZI SULLE SERIE

Prova scritta di Statistica per Biotecnologie. 29 Aprile Programma Cristallo 1

LA GESTIONE DELLA QUALITA : IL TOTAL QUALITY MANAGEMENT

Corsi di Laurea in Ingegneria Edile e Architettura Prova scritta di Analisi Matematica 1 del 6/02/2010. sin( x) log((1 + x 2 ) 1/2 ) = 1 3.

Approfondimenti di statistica e geostatistica

Corso di laurea in Matematica Corso di Analisi Matematica 1-2 Dott.ssa Sandra Lucente 1 Funzioni potenza ed esponenziale.

Corso di Laurea in Ing. Edile Politecnico di Bari A.A Prof. ssa Letizia Brunetti DISPENSE DEL CORSO DI GEOMETRIA

II-9 Successioni e serie

,5 882,5 894,5 906,5 918,5 930,5 942,5 954,5

Tecnica delle misurazioni applicate Esame del 4 dicembre 2007

Calcolo Combinatorio (vers. 1/10/2014)

Random walk classico. Simulazione di un random walk

Interesse e formule relative.

Capitolo 3 CARATTERIZZAZIONE MECCANICA DELLE FIBRE

1 Successioni Limite di una successione Serie La serie armonica La serie geometrica... 6

Un problema! La letteratura riporta che i pazienti affetti da cancro. = mesi

Esercitazioni di Statistica

Le onde elettromagnetiche. Origine e natura, spettro delle onde e.m., la polarizzazione

Selezione avversa e razionamento del credito

STIME E LORO AFFIDABILITA

Serie numeriche e serie di potenze

Introduzione alla Statistica descrittiva. Definizioni preliminari. Definizioni preliminari. Fasi di un indagine statistica. Tabelle statistiche

Introduzione all assicurazione. (Dispensa per il corso di Microeconomia per manager. Prima versione, marzo 2013; versione aggiornata, marzo 2014)

STATISTICA 1 parte 2/2 STATISTICA INFERENZIALE

Successioni. Capitolo Definizione

Formula per la determinazione della Successione generalizzata di Fibonacci.

Modelli multiperiodali discreti. Strategie di investimento

Distribuzione di un carattere

CARATTERISTICHE MECCANICHE DI PIETRE NATURALI PER FACCIATE VENTILATE. Di seguito verranno utilizzati i seguenti simboli:

I appello - 29 Giugno 2007

Transcript:

Statistica di base Luca Mari, versioe 31.12.13 Coteuti Moda...1 Distribuzioi cumulate...2 Mediaa, quartili, percetili...3 Sigificatività empirica degli idici ordiali...3 Media...4 Acora sulla media...4 Ua ota sul calcolo della media... Statistiche di dispersioe...6 Variaza e deviazioe stadard...6 Deviazioe stadard...7 Disuguagliaza di Chebyshev...8 Disuguagliaza di Chebyshev: dimostrazioe...8 Disuguagliaza di Chebyshev: verifica umerica...9 Statistiche ulteriori...9 U esempio: la curva di Lorez e l idice di Gii...9 Campioi multivariati...11 Campioi bivariati...11 Distribuzioi cogiute, codizioali e margiali: dipedeza statistica...12 Covariaza e coefficiete di correlazioe campioaria...13 Correlazioe e causalità...14 Campioi di statistiche campioarie...1 Il teorema del limite cetrale...17 I pricipali cocetti itrodotti i questo capitolo aalisi bivariata...11 asimmetria...9 campioe bivariato e multivariato...11 coefficiete di correlazioe campioaria...14 covariaza campioaria...14 curtosi...9 curva di Lorez...1 deviazioe stadard campioaria...7 diagramma di dispersioe...11 dipedeza statistica...13 distribuzioe codizioale...12 distribuzioe cogiuta...12 distribuzioe cumulata...2 distribuzioe margiale...13 distribuzioe uimodale, bimodale e multimodale...2 disuguagliaza di Chebyshev...8 gradezze correlate...12 idice di Gii...1 media aritmetica... media campioaria...4 media pesata... mediaa...3 moda...1 percetile...3 quartile...3 stimatore...1 teorema del limite cetrale...17 variaza campioaria...7 Moda L iformazioe coteuta i ua distribuzioe può essere sitetizzata, i particolare mediate tre idici di posizioe : la moda, la mediaa, la media. Si chiama moda di ua distribuzioe la categoria (e o la frequeza) a cui corrispode la frequeza (assoluta o relativa) massima della distribuzioe Aalisi dei Dati Sperimetali e Statistica 1

Per esempio, la moda della distribuzioe di frequeze assolute: [ C j f j] [ = C 1 C 2 C 3 1 3 2 ] (tale duque che il campioe è costituito da 1 elemeto ella categoria C 1, 3 elemeti ella categoria C 2, 2 elemeto ella categoria C 3 ) è la categoria C 2 (corrispodete al fatto che lo studete i questioe ha preso più voti ella categoria C 2 = {22,...,2} che elle categorie C 1 = {18,...,21} e C 2 = {26,...,3}. Ua distribuzioe può avere più mode, e i tal caso si chiama multimodale (e bimodale el caso particolare di due mode); altrimeti si chiama uimodale. La moda viee idividuata semplicemete a partire dalle frequeze della distribuzioe, e quidi è sempre defiita, ache el caso i cui sull isieme delle categorie o sia presete alcua struttura algebrica (per esempio, data ua popolazioe costituita dai comui di ascita di u isieme di persoe, la moda può essere calcolata, e corrispode al comue che ha la più elevata frequeza di ascita tra le persoe i questioe, beché sull isieme dei comui o siao defiite relazioi empiricamete sigificative). D altra parte, sull isieme delle categorie è spesso presete ua struttura algebrica, e i particolare u ordie; i questi casi, proprio basadosi sull ordiameto delle categorie è possibile adottare ella sitesi degli idici più iformativi della moda. Distribuzioi cumulate Suppoiamo duque che sull isieme delle categorie sia presete ua relazioe d ordie empiricamete sigificativa, C 1 <C 2 <...; è allora sigificativo cotare il umero di elemeti della successioe fio a ua data categoria iclusa. Per esempio, categorizzado i voti presi da studeti mediate C 1 = {18,19}, C 2 = {2,21}, C 3 = {22,23}, C 4 = {24,2}, C = {26,27}, C 6 = {28,3}, tali categorie sarebbero certamete ordiate, el seso che u voto ella categoria C j è migliore di uo della categoria C i se i<j. Suppoiamo che la distribuzioe dei voti sia: [ C 1 C 2 C 3 C 4 C C 6 8 4 12 9 7 1] (e quidi la moda è la categoria C 3 ). 13 12 11 1 9 8 7 6 4 3 2 1 C1 C2 C3 C4 C C6 Grazie al fatto che le categorie soo ordiate, possiamo cocludere che 1 + 2 = 8+4 studeti hao preso u voto fio a 21, 1 + 2 + 3 = 8+4+12 u voto fio a 23 e così via. Si può allora costruire ua uova distribuzioe, chiamata cumulata, i cui per ogi categoria si cosidera la frequeza dei voti presi fio a quella categoria: [ C j ' j] [ = C 1 C 2 C 3 C 4 C C 6 8 12 24 33 4 ] o i termii di frequeze relative: [ C j f ' j] [ = C 1 C 2 C 3 C 4 C C 6,16,24,48,66,8 1 ] Aalisi dei Dati Sperimetali e Statistica 2

1.8.6.4.2 -.2 C1 C2 C3 C4 C C6 Data ua distribuzioe cumulata è facile otteere la distribuzioe di base, secodo la seguete logica: la frequeza (cosideriamo il caso delle frequeze assolute; per le frequeze relative il discorso è lo stesso) per la prima categoria è la stessa, 1 =' 1 ; la frequeza per la secoda categoria è pari alla frequeza cumulata per la secoda categoria meo la frequeza cumulata per la prima categoria, 2 = ' 2 ' 1 (ell esempio, il umero di studeti co voto 2 o 21 è pari a 12 8); i geerale, duque, j =' j ' j 1. Poiché, dato u campioe e delle categorie, è spesso più immediato ricavare la distribuzioe cumulata, co questa semplice formula si può otteere quidi la distribuzioe di base. Mediaa, quartili, percetili Si chiama mediaa di ua distribuzioe la categoria che cotiee il % della distribuzioe cumulata. La mediaa è cioè la categoria cetrale della distribuzioe ua volta che i valori i soo stati ordiati i ordie crescete: il primo % della distribuzioe sta etro la mediaa, il secodo % sta oltre la mediaa. Nell esempio precedete: [ C 1 C 2 C 3 C 4 C C 6 8 4 12 9 7 1] che cotiee voti, etro le prime 3 categorie soo coteuti 8+4+12 = 24 voti, quidi appea meo della metà: la mediaa è la categoria C 4, come è chiaro ache dalla cumulata: [ C 1 C 2 C 3 C 4 C C 6,16,24,48,66,8 1 ] Si oti perciò che la moda e la mediaa (quado esiste) di ua distribuzioe o ecessariamete coicidoo. Quado la mediaa è defiita, si possoo defiire ache altri idici di posizioe ordiale: i quartili: il primo / secodo / terzo quartile soo le categorie a cui corrispode il primo 2% / % / 7% della distribuzioe cumulata rispettivamete (e segue che la mediaa coicide co il secodo quartile); ell esempio, i quartili soo rispettivamete C 3, C 4 e C ; se il secodo quartile idica il cetro della distribuzioe, il primo e il terzo quartile foriscoo u iformazioe sulla dispersioe della distribuzioe stessa itoro a tale categoria cetrale; i percetili: il primo / secodo /... percetile è la categoria a cui corrispode il primo 1% / 2% /... della distribuzioe cumulata (e segue che la mediaa coicide co il ciquatesimo percetile). Sigificatività empirica degli idici ordiali Metre la moda di ua distribuzioe è sempre defiita, la mediaa è defiita solo se sull isieme delle categorie è presete ua relazioe d ordie empiricamete sigificativa; ma quale criterio ci cosete di stabilire se ua relazioe è, apputo, empiricamete sigificativa? Cosideriamo il caso di u esperimeto i cui u usuale dado a 6 facce è stato laciato 1 volte e i cui risultati soo stati sitetizzati i ua distribuzioe a 6 categorie, ogua corrispodete a ua faccia del dado, per esempio: [ C 1 C 2 C 3 C 4 C C 6 18 11 22 1 22 12] No ci soo problemi a idetificare la moda: è la categoria corrispodete alla faccia che è uscita co maggiore frequeza (i questo caso le categorie soo due C 3 e C : la distribuzioe è bimodale); ell ipotesi che le categorie siao ordiate, C 1 <C 2 <..., possiamo costruire la distribuzioe cumulata: [ C 1 C 2 C 3 C 4 C C 6 18 29 1 66 88 1] Aalisi dei Dati Sperimetali e Statistica 3

da cui si vede che la mediaa è C 3. Ma queste categorie soo ordiate? Apparetemete sembrerebbe di sì, dato che il umero 1 che idetifica ua faccia è miore del umero 2 che idetifica u altra faccia, e così via. Ma suppoiamo di coprire ogi faccia del dado co u etichetta colorata, usado u colore diverso per ogi faccia, e quidi di effettuare l esperimeto, otteedo la stessa distribuzioe riportata sopra (i cui, per esempio, C 1 =etichetta rossa, C 2 =etichetta verde,...); le categorie ora o soo ordiate (rosso o è é miore é maggiore di verde) e quidi la distribuzioe cumulata e la mediaa o possoo essere calcolate, beché la distribuzioe di parteza sia la stessa. L applicabilità di u idice ordiale dipede duque o dai simboli co cui si idetificao le categorie della distribuzioe ma dalla preseza di ua relazioe empirica di ordie tra le categorie. Media Isieme co moda e mediaa, u terzo idice che sitetizza l iformazioe di u campioe x i è la media campioaria m( x i ), defiita come: m x i = 1 i =1 x i La media è sigificativa solo se è empiricamete sigificativo sommare gli elemeti della successioe x i (i effetti è sufficiete ua codizioe più debole per esempio la media è sigificativa per valori di temperatura la cui somma pure o è empiricamete sigificativa ma o approfodiremo questa distizioe qui). Questa codizioe è raramete soddisfatta su categorie costituite da più elemeti dell isieme supporto A per esempio, se C 1 = {18,19} e C 2 = {2,21}, come si calcola C 1 +C 2? e quidi la media è spesso calcolata sulla partizioe più fie di A, i cui ogi categoria cotiee u solo elemeto (quidi i pratica su A stesso); data ua distribuzioe: C=[ C j f j] co N categorie C j, ogua co frequeza assoluta j, la media è allora: N m C = 1 C j f j j=1 (attezioe: N è il umero delle categorie, è il umero di elemeti del campioe) o ache, se si cosidera la distribuzioe C R delle frequeze relative r j : N m C R = C j r j j=1 Per esempio, la media del campioe di voti: x i = 26,24, 3,24,21, 2,18, 2,2,3 si può calcolare direttamete sul campioe: m x i = 1 1 26 24 3... oppure a partire dalla distribuzioe di frequeze assolute: C=[ C j f j] [ = 18 21 24 2 26 3 1 1 2 3 1 2 ] (tralasciado di idicare le categorie a frequeza ulla): m C = 1 1 18 1 21 1 24 2... oppure acora a partire dalla distribuzioe di frequeze relative: C R =[ C j r j ] [ = 18 21 24 2 26 3,1,1,2,3,1,2] si ha che: m C R =18,1 21,1 24,2... Acora sulla media La statistica: m x i = 1 i =1 x i Aalisi dei Dati Sperimetali e Statistica 4

si chiama media aritmetica. Ua versioe più geerale della media aritmetica è la media pesata: w i x i i =1 w i scritta più semplicemete come: w i x i el caso i cui: w i =1 itrodotta apputo per poter pesare i modo diverso, attraverso il vettore di pesi w i, il cotributo alla media dei vari termii x i. La media sulla distribuzioe di frequeze assolute: C=[ C j f j] è calcolata duque come: N m C = 1 C j f j j=1 (si oti il coefficiete di ormalizzazioe: è uguale al umero degli elemeti del campioe, e o al umero di categorie della distribuzioe!), metre la media sulla distribuzioe di frequeze relative: C R =[ C j r j ] è pari a: N m C R = C j r j j=1 Come si vede, tali medie possoo essere iterpretate come medie sulle categorie pesate mediate le frequeze, assolute o relative. La media è u operatore itero, cioè è sempre maggiore o uguale del valore della categoria miima e sempre miore o uguale del valore della categoria massima: C 1 m C C N Ciò forisce u criterio di validazioe (ella forma di codizioe ecessaria) del calcolo della media. Se la distribuzioe è simmetrica, vale ioltre che mediaa e media soo uguali e coicidoo co la categoria cetrale. Il cofroto tra mediaa e media è particolarmete iteressate proprio i codizioi di asimmetria della distribuzioe: metre per defiizioe la mediaa divide il campioe su cui la distribuzioe è costruita i due parti della stessa umerosità, può accadere che la gra parte degli elemeti del campioe sia sopra, o sotto, la media. Si cosideri per esempio il caso di u campioe di 1 elemeti, 99 dei quali a valore 2 e uo solo a valore 1. La media è duque 1,99 e perciò il 99% degli elemeti del campioe è sopra la media! La cosegueza è perciò evidete: se si è iteressati a ua statistica che divida il campioe i parti uguali, occorre impiegare la mediaa, e o la media. A ua coclusioe aaloga si giuge prededo i cosiderazioe u caso complemetare, i cui i u campioe di 1 elemeti 99 hao valore 1 e uo ha valore, per esempio, 1. La media è (1 99+1 1)/1=1,99, duque be superiore al valore del 99% degli elemeti del campioe, metre la mediaa (e i effetti tutti i percetili fio al ovatottesimo) rimae acorata al valore 1. Ua ota sul calcolo della media Dato u campioe x i, si vede facilmete che la media del campioe derivato ax i +b (co a e b costati, a ) si può calcolare idifferetemete come: m a x i b = 1 a x i b i =1 oppure come: a m x i b= a i =1 x i b Aalisi dei Dati Sperimetali e Statistica

La media soddisfa duque la proprietà per cui m a x i b =a m x i b, cioè è u operatore lieare. Questa proprietà forisce u utile strumeto per semplificare il calcolo della media stessa. U esempio, el caso semplice i cui si cosidera a = 1 e quidi m x i =m x i b b : per calcolare la media del campioe x i = 26,24,3, 24,22,2 si può calcolare dapprima la media del campioe derivato x i 24 = 2,, 6,, 2,1 =7/6 (duque assumedo b = 24) e quidi otteere la media del campioe iiziale da x i =7/6 24, avedo co ciò applicato la proprietà precedete come segue: dati a = 1 e b = 24, abbiamo calcolato la media di x i 24, che sappiamo essere uguale alla media di x i 24 ; ma da m x i 24 =m x i 24 si ottiee apputo che m x i =m x i 24 24. Aalogamete, si può duque facilmete mostrare che la media di u campioe somma di due campioi è uguale alla somma delle medie dei due campioi: m( x i +y i ) = m( x i )+m( y i ) Statistiche di dispersioe Moda, mediaa e media foriscoo u iformazioe, progressivamete sempre più specifica, sul baricetro della distribuzioe, ma o idicao quato i valori della distribuzioe stessa soo dispersi itoro a tale baricetro: se tra le categorie della distribuzioe o è defiito emmeo u ordie, l uica iformazioe di dispersioe che si può otteere è il umero delle categorie che cotegoo almeo u elemeto; se tra le categorie della distribuzioe è defiito u ordie ma o la somma, il primo e il terzo quartile idicao quato la distribuzioe è dispersa rispetto alla mediaa, e le categorie miima e massima che cotegoo almeo u elemeto foriscoo u idicazioe della dispersioe complessiva della distribuzioe stessa. Più iteressate è il caso di distribuzioi per cui è empiricamete sigificativo calcolare la media Per esempio le segueti tre distribuzioi (ogua di elemeti): 2 2 2 2 1 1 1 1 1 2 3 4 1 2 3 4 2 2 1 1 1 2 3 4 hao la stessa media (la categoria 3) ma soo evidetemete molto diverse. Variaza e deviazioe stadard Dato che si può calcolare lo scarto x i m di ogi elemeto x i dalla media m del campioe x i (per semplicità scriviamo m x =m x i ), come statistica di dispersioe si potrebbe pesare di adottare la media degli scarti: 1 x i m x ma o è ua buoa idea, poiché scarti positivi e egativi si compesao. Ifatti: Aalisi dei Dati Sperimetali e Statistica 6

x i m x = x i m x = x i x i / = x i x i = i =1 Si potrebbero allora predere i cosiderazioe le distaze x i m x, adottado quidi come statistica di dispersioe la media delle distaze (e quidi la distaza media), cioè: 1 x i m x ma o è la scelta abituale. Per varie ragioi (che o approfodiamo qui), gli scarti dalla media m x si cosiderao i forma quadratica, x i m x 2, e li si ormalizza dividedo per 1 ivece che per, otteedo i questo modo: s 2 x i = 1 x 1 i m x 2 chiamata variaza campioaria (ota: il fattore di ormalizzazioe è ivece 1/ el caso i cui si cosideri che x i è l itera popolazioe, ivece di u suo campioe). La variaza ha però il problema che o è dimesioalmete omogeea ai valori del campioe (per esempio, se x i, e quidi ache m x, è misurato i metri, s 2 è misurato i metri quadrati). Per questo, ivece della variaza si impiega tipicamete la sua radice quadrata: s x i = 1 1 x i m x 2 (per semplicità potremo idicare s x i ache come s x ) chiamata deviazioe stadard campioaria (o ache scarto tipo campioario). Deviazioe stadard Nel caso i cui sia data ua distribuzioe C co N categorie C j, ogua co frequeza assoluta f j, gli scarti quadratici rispetto alla media m x soo C j m x 2 ; la deviazioe stadard si calcola allora: N s C = 1 1 f j C j m 2 j=1 Riprededo l esempio precedete, per le tre distribuzioi: 2 2 2 2 2 2 1 1 1 1 1 1 1 2 3 4 1 2 3 4 1 2 3 4 la deviazioe stadard è rispettivamete: 22 1 1 2 2 2 1 1 2 2 2 =1,11 1,43 2,2 49 Si oti che, a differeza della media, la deviazioe stadard o è u operatore lieare, e quidi i geerale: s a x i b a s x i b Poiché, d altra parte: x i m x i 2 = x i b m x i b 2 cioè gli scarti dalla media soo ivariati per traslazioe del campioe, ache la deviazioe stadard è ivariate per traslazioe del campioe: s x i b =s x i No è poi difficile dimostrare che, per a>: s a x i =as x i (e quidi ache che per la variaza: s 2 a x i =a 2 s 2 x i ). E immediato verificare che la deviazioe stadard è u operatore o egativo, cioè: s x Aalisi dei Dati Sperimetali e Statistica 7

e i particolare che s x = el caso i cui gli elemeti del campioe hao tutti lo stesso valore. Si oti ifie che la deviazioe stadard di u campioe somma di due campioi, s( x i +y i ), i geerale o è uguale alla somma delle deviazioi stadard dei due campioi, s( x i )+s( y i ): come vedremo, per il calcolo di s( x i +y i ) occorre teer coto ache della relazioe che itercorre tra i due campioi. Disuguagliaza di Chebyshev L importaza della deviazioe stadard è tale che la si usa spesso come uità di misura della dispersioe itoro alla media, per esempio riportado i risultati di misurazioi ella forma m x ±s x o, più i geerale, m x ±k s x, per k positivo (e geeralmete maggiore o uguale di 1). Al proposito è rilevate l'iformazioe circa quati elemeti del campioe x i stao etro k, k>, deviazioi stadard dalla media, cioè quati elemeti soo coteuti ell itervallo m x ks x, m x ks x. Ua soluzioe a questo problema è data dalla fodametale disuguagliaza di Chebyshev. Sia dato u campioe x i di elemeti, co media m x e deviazioe stadard s x. Sia: S k ={x i : x i m x ks x } l isieme degli elemeti del campioe che distao dalla media etro k deviazioi stadard, e sia # S k la cardialità (cioè il umero degli elemeti) dell isieme S k. La disuguagliaza di Chebyshev idica allora che la frazioe # S k / ha u valore miimo (e quidi, iversamete, che la frazioe degli elemeti che distao più di k deviazioi stadard da m x ha u valore massimo), che dipede solo da k, e i particolare: # S k 1 1 k 2 Per esempio, etro 2s x dalla media è coteuto almeo il 7% (1 1/4 = 3/4) degli elemeti del campioe, ed etro 3s x almeo l 89% (1 1/9 = 8/9 = 89%) degli elemeti. Nota: poiché il rapporto # S k / è u umero o egativo, la disuguagliaza di Chebyshev è sigificativa solo per k>1. Il fatto importate di questa disuguagliaza è che essa si applica a ogi possibile campioe, a prescidere dalla forma della distribuzioe (come si vedrà el seguito trattado di particolari distribuzioi, cooscedo la forma della distribuzioe tipicamete la disuguagliaza può essere resa più strigete: i particolare per campioi che seguoo la distribuzioe gaussiaa, etro 1s x dalla media è coteuto il 68% del campioe, e i questo caso la disuguagliaza di Chebyshev o forisce alcu limite, ed etro 2s x e 3s x soo coteuti il 9% e il 99,7% rispettivamete, be più elevati del 7% e 89% che si ottegoo dalla disuguagliaza di Chebyshev). Disuguagliaza di Chebyshev: dimostrazioe La dimostrazioe di questo teorema è semplice, e merita di essere studiata. Riprededo la defiizioe di variaza, si ha che: 1 s x 2 = x i m x 2 La somma a destra può essere divisa i due parti: x i m x 2 = x i m x 2 x i m x 2 x i S k x i S k etrambe o egative, e quidi tralasciado il primo termie si ottiee: 1 s 2 x x i m x 2 x i S k Poiché questa somma è calcolata sugli elemeti della popolazioe che distao dalla media almeo k deviazioi stadard, per ogi termie vale che: x i m x 2 k 2 2 s x e quidi vale a maggior ragioe che: 1 s 2 x k 2 2 s x x i S k e poiché la somma viee ripetuta # S k volte: 1 s x 2 k 2 s x 2 # S k Dividedo etrambi i termii per s x 2 k 2 si ottiee: Aalisi dei Dati Sperimetali e Statistica 8

1 k 2 # S k da cui: 1 k 2 1 k 2 1 # S k e ifie: # S k 1 1 k 2 1 k 2 1 1 k 2 che è quato si voleva dimostrare. Disuguagliaza di Chebyshev: verifica umerica Per u campioe x i dato, la verifica della validità della disuguagliaza di Chebyshev per u certo valore di k, k>1, richiede duque i segueti passi: calcolare la media m x del campioe; calcolare la deviazioe stadard s x del campioe; calcolare gli estremi dell itervallo m x ks x e m x ks x ; calcolare il umero # S k degli elemeti del campioe ell itervallo dato, cioè tali che m x ks x x i m x ks x ; cofrotare # S k / co 1 1/k 2, per verificare apputo che # S k / 1 1/ k 2. Nota: la validità della disuguagliaza di Chebyshev è dimostrata (i pratica: tale disuguagliaza è la tesi di u teorema), e duque questa verifica umerica o può fallire (o, detto altrimeti: se fallisce, cioè se risulta falso che # S k / 1 1/ k 2 per qualche k, ciò sigifica che soo stati compiuti degli errori i uo o più dei passi idicati). Statistiche ulteriori I aggiuta a media e deviazioe stadard, altre due statistiche vegoo spesso impiegate per caratterizzare la forma delle distribuzioi. La asimmetria (i iglese skewess) campioaria: 1 = 1 2 x 3 i m x s tale che: 1 = se la distribuzioe è simmetrica; 1 se la distribuzioe ha la coda siistra più luga (e quidi è più orietata verso i valori miori della media); 1 se la distribuzioe ha la coda destra più luga (e quidi è più orietata verso i valori maggiori della media). La curtosi (i iglese kurtosis) campioaria: 1 2 = 1 2 3 x i m x s 4 3 1 2 2 3 tale che: 2 = se la distribuzioe è gaussiaa; 2 se la distribuzioe è meo cocetrata itoro alla media di ua gaussiaa (e quidi ha u picco meo stretto, come el caso della distribuzioe uiforme); 2 se la distribuzioe è più cocetrata itoro alla media di ua gaussiaa (e quidi ha u picco più stretto, come el caso di ua distribuzioe i cui quasi tutti i valori soo cocetrati i ua sola categoria). U esempio: la curva di Lorez e l idice di Gii Dato u campioe x i, che suppoiamo ordiato, e duque x 1 x 2... x (ipotizziamo ache x i ), è iteressate valutare il grado di uiformità degli elemeti del campioe, ell ipotesi che: Aalisi dei Dati Sperimetali e Statistica 9

si ha uiformità massima quado tutti gli elemeti del campioe soo uguali; si ha uiformità miima quado i primi 1 elemeti del campioe soo uguali e l -esimo elemeto è diverso, e molto maggiore, degli 1 precedeti (u campioe del geere si chiama sigoletto, i iglese sigleto). U modo per rappresetare graficamete questa iformazioe è mediate la cosiddetta curva di Lorez, defiita avedo come valori i ascissa: z =, z i =i/,,..., e i ordiata: L(z )=, L( z i )= i x j j=1 x j j=1 e duque tale che sia gli argometi z i sia i valori L(z i ) soo ell itervallo [,1]. Tre esempi di questa curva soo: 1..8.6.4.2. -.2 1..8.6.4.2. -.2 1..8.6.4.2. -.2 curva α: uiformità massima curva β: uiformità miima curva γ: uiformità itermedia corrispodeti rispettivamete a ua codizioe di uiformità massima (curva α: u campioe di 2 elemeti tutti uguali), a ua di uiformità miima (curva β: i primi 24 elemeti hao valore, il veticiquesimo ha valore 1), e ifie a ua uiformità itermedia (curva γ: x i =i). L iformazioe su questo cocetto di grado di uiformità può essere sitetizzata i ua statistica ota come idice di Gii. Poedo ello stesso grafico le tre curve precedeti: 1..8.6.4.2. -.2 allo scopo di aalizzare il campioe rappresetato dalla curva γ rispetto alle due codizioi estreme, rappresetate dalle curve α e β, si può cofrotare l area delimitata dalle curve α e γ rispetto all area delimitata dalle curve α e β; se tale rapporto è: pari a, cioè γ=α, il campioe i esame è massimamete uiforme; pari a 1, cioè γ=β, il campioe i esame è miimamete uiforme; maggiore di e miore di 1, il campioe i esame ha u uiformità itermedia, ed è tato più uiforme quato miore è tale rapporto. L idice di Gii può essere calcolato co la seguete formula: Aalisi dei Dati Sperimetali e Statistica 1

1 2 G x i = 1 1 i x i x i Campioi multivariati Le etità che si cosiderao, e da cui si ottegoo i dati che soo oggetto dell aalisi statistica, soo geeralmete caratterizzate da più gradezze (el caso di oggetti fisici potrebbero essere lughezza, massa, carica elettrica,...), a ogua delle quali è applicabile quato abbiamo discusso fiora: ogi gradezza ha u isieme supporto A, per ogi gradezza si può otteere u campioe, cioè ua successioe x i di valori, oguo apparteete ad A, e tale campioe può essere quidi descritto mediate ua distribuzioe e sitetizzato co la moda ed evetualmete la mediaa, la media e la deviazioe stadard. I questo modo, le gradezze si cosiderao idipedetemete le ue dalle altre. I certi casi, si è però iteressati alla relazioe tra le gradezze: al variare di ua gradezza X come varia ua secoda gradezza Y? Se X cresce, cresce ache Y? oppure si riduce? oppure la variazioe di Y o porta alcua iformazioe sulla variazioe di X? Quado gli idividui che si predoo i esame soo caratterizzati oguo da ua k-upla di valori, k 2, e quidi u campioe è ua successioe di k-uple, il campioe stesso si chiama multivariato, e bivariato el caso particolare i cui le gradezze i esame soo 2. Se le gradezze fossero k = 3, lughezza, massa, carica elettrica, e gli idividui del campioe fossero = 4, il campioe stesso potrebbe essere l i, m i, q i = 1,2,3, 4,,6, 8,6,4, 4,7,2, a idicare che, per esempio, la massa del secodo idividuo vale e la carica elettrica del terzo idividuo vale 4. Itroduciamo qui alcui pricipi di base dell aalisi bivariata, co cui si studiao le relazioi campioarie tra coppie di gradezze, duque el caso k = 2. Campioi bivariati Cosideriamo due gradezze, X e Y, che possoo essere cotemporaeamete valutate su u isieme di etità, e sia x i, y i il campioe bivariato otteuto, essedo x i il sottocampioe dei valori di X e y i il sottocampioe dei valori di Y. Ipotizzado che gli isiemi supporto per X e Y siao almeo ordiati, ogi coppia x i, y i può essere appropriatamete rappresetata come u puto su u piao X Y. Cosiderado solo le prime due gradezze el campioe dell esempio precedete, si otterrebbe u grafico come quello seguete, che si chiama diagramma di dispersioe (i iglese scatter diagram; ei fogli di calcolo ache diagramma X-Y ): 8 7 6 4 3 2 1 1 2 3 4 6 7 8 9 U caso molto semplice di relazioe tra X e Y si preseta quado ogi valore x i è legato al corrispodete valore y i attraverso u espressioe della forma y i =a x i b co a, corrispodete el diagramma di dispersioe a ua retta di pedeza crescete se a> o decrescete se a<: è questa ua situazioe di relazioe determiistica tra le due gradezze, el seso che il valore x i determia il valore y i (e viceversa, data l ivertibilità della fuzioe). Più iteressate dal puto di vista statistico è ua situazioe come quella illustrata i questo diagramma: Aalisi dei Dati Sperimetali e Statistica 11

6 4 3 2 1 1 2 3 4 6 i cui si mostra acora la preseza di ua relazioe tra le due gradezze al crescere di ua, cresce, geeralmete, ache l altra ma seza che ciò sia strettamete determiistico: i puti si dispogoo itoro a ua retta, ma o su di essa. Potrebbe essere, per esempio, il caso della relazioe tra altezza e peso di u isieme di persoe: beché o i modo determiistico, all aumetare dell altezza aumeta geeralmete ache il peso. I casi di questo geere si può duque cercare di valutare o solo se le due gradezze hao ua relazioe, ma ache, e più specificamete, come e quato, i seso statistico, soo i relazioe l ua co l altra, i breve quato soo correlate. La preseza di correlazioe forisce u iformazioe di carattere statistico: la coosceza del valore di X forisce u iformazioe almeo parziale sul valore di Y. Distribuzioi cogiute, codizioali e margiali: dipedeza statistica Quato cosiderato a proposito della relazioe tra campioi e distribuzioi el caso uivariato si applica ache a campioi bivariati: per ogua delle due gradezze X e Y si può defiire u isieme di categorie, {X j } e {Y k }, così che ogi elemeto x i, y i appartiee a ua e ua sola coppia di categorie X j,y k. La distribuzioe che si ottiee corrispode a ua tabella del tipo (el caso di frequeze assolute): Y Y 1... Y k... X X 1 1,1 1,k... X j j,1 j,k...... i cui j,k è il umero di elemeti del campioe bivariato tali che x i appartiee alla categoria X j e y i appartiee alla categoria Y k. Questa tabella descrive la distribuzioe cogiuta delle gradezze X e Y rispetto alle categorie date. La geerica riga j-esima della tabella cotiee la distribuzioe dei valori di Y calcolata sulle sole coppie i cui il valore di X appartiee alla categoria X j, e chiamata perciò distribuzioe codizioale di Y data la categoria X j, scritto i breve distribuzioe di Y X j, dove duque il simbolo è da leggere dato, cioè apputo codizioato a : Y Y 1... Y k... X X 1 1,1 1,k... X j j,1... j,k...... Aalogamete per ogi categoria Y k si può cosiderare la distribuzioe codizioale di X Y k : Y Y 1... Y k... Aalisi dei Dati Sperimetali e Statistica 12

X X 1 1,1 1,k...... X j j,1 j,k...... Acora a partire da questa tabella si possoo poi itrodurre i totali parziali per ogi riga e per ogi coloa: Y Y 1... Y k... Σ X 1 1,1 1,k Σ k 1,k X...... X j j,1 j,k Σ k j,k...... Σ Σ j j,1... Σ j j,k... Si ottegoo le distribuzioi margiali per X (ultima coloa) e per Y (ultima riga). Data la distribuzioe cogiuta di XY, le distribuzioi codizioali e le distribuzioi margiali cosetoo di comiciare a studiare la possibile dipedeza tra la gradezza X e la gradezza Y. L idea è semplice. Suppoiamo di voler ivestigare se per esempio i valori di Y dipedoo dai valori di X, cioè, cocretamete, se la coosceza del fatto che u certo idividuo ha u certo valore X j per X porta iformazioe sul valore che quello stesso idividuo ha per Y: se la risposta fosse positiva dovremmo osservare che le distribuzioi di Y X j e Y (opportuamete ormalizzate) soo diverse tra loro. I tal caso si dice che Y ha ua dipedeza statistica da X j. Viceversa, se le distribuzioi di Y X j e Y soo uguali allora sapere che X vale X j o è iformativo relativamete a Y, e perciò Y è idipedete statisticamete da X j. Covariaza e coefficiete di correlazioe campioaria Al fie di giugere a caratterizzare quatitativamete il grado di correlazioe tra due gradezze X e Y, che cotiuiamo a supporre essere più che solo ordiali, calcoliamoe i valori medi, m x e m y (il rombo rosso el diagramma sotto), e cosideriamo gli scarti x i m x y i m y : se x i m x e y i m y oppure x i m x e y i m y (cioè se il puto x i, y i sta ei quadrati 1 o 3), il prodotto è positivo; se ivece i segi soo discordi, x i m x e y i m y oppure x i m x e y i m y (cioè se il puto x i, y i sta ei quadrati 2 o 4), il prodotto è egativo. 6. 4. 4 3. 3 2 1 2. 2 1. 3 4 Prediamo ora i esame la somma: 1.. 1 1. 2 2. 3 3. 4 4.. Aalisi dei Dati Sperimetali e Statistica 13

x i m x y i m y : se, come i questo caso, i puti si addesao ei quadrati 1 e 3, tale somma è positiva e si dice che c è correlazioe positiva tra le gradezze X e Y del campioe: al crescere di ua, cresce ache l altra; se i puti si addesao ei quadrati 2 e 4, la somma è egativa e si dice che c è correlazioe egativa tra le gradezze X e Y del campioe: al crescere di ua, l altra decresce; se ifie i puti soo più o meo omogeeamete sparsi ei quattro quadrati, la somma cotiee termii positivi e termii egativi, che si compesao e quidi producoo u valore vicio all origie del grafico, e i tal caso si dice che c è correlazioe bassa, e al limite ulla, tra le gradezze X e Y del campioe. La statistica che si ottiee se si ormalizza la somma precedete dividedola per 1: x i m x y i m y cov x i, y i = 1 si chiama covariaza campioaria, i aalogia co la variaza campioaria, che ifatti può essere scritta: x i m x x i m x s 2 x = 1 Si oti che la covariaza campioaria ha uità di misura uguale al prodotto delle uità di misura di X e Y. Dividedo acora per il prodotto delle deviazioi stadard campioarie s x e s y, si ottiee perciò u coefficiete adimesioale: ( x i m x )( y i m y ) i= 1 R( x i, y i )=R x, y = = cov( x i, y i ) ( 1)s x s y s x s y chiamato coefficiete di correlazioe campioaria, che assume valori tra 1 (completa correlazioe lieare egativa: i puti del campioe bivariato soo disposti lugo ua retta a pedeza egativa) e 1 (completa correlazioe lieare positiva: i puti del campioe bivariato soo disposti lugo ua retta a pedeza positiva), co il valore cetrale,, che corrispode all asseza di correlazioe. Ifie, come avevamo mostrato che la media di u campioe somma di due campioi è uguale alla somma delle medie dei due campioi: m( x i +y i ) = m( x i )+m( y i ) possiamo chiederci a questo puto come si possa calcolare la deviazioe stadard di u campioe somma di due campioi, s( x i +y i ). Al proposito vale l iteressate risultato: s 2 ( x i +y i ) = s 2 ( x i )+s 2 ( y i )+2cov( x i,y i ) (aturalmete, per poter sommare gli elemeti di due campioi essi devoo avere la stessa uità di misura, e quidi la formula risulta corretta dal puto di vista dimesioale). Duque, quado i due campioi hao covariaza ulla la variaza di u campioe somma di due campioi è uguale alla somma delle variaze dei due campioi; el caso geerale, occorre ivece teer coto ache delle relazioi tra i due campioi, formalizzate apputo mediate la covariaza. Correlazioe e causalità Nell aalisi della correlazioe tra gradezze è ecessario evitare di cofodere correlazioe e causalità; date due gradezze X e Y: se X implica Y (cioè il valore di X determia il è causa del valore di Y) allora c è correlazioe tra X e Y D altra parte: se c è correlazioe tra X e Y, o ecessariamete X implica Y o Y implica X (la situazioe di correlazioe seza causalità potrebbe essere dovuta a ciò che a volte si chiama semplice coicideza ma cosa soo le coicideze?, oppure per esempio al fatto che sia X sia Y soo gli effetti di ua stessa causa, che duque determia la loro correlazioe seza rederli causalmete dipedeti). La differeza tra questi due cocetti si ota ache dal fatto che: la correlazioe è simmetrica (se X è correlato co Y allora Y è ugualmete correlato co X, poiché R x, y =R y, x ); Aalisi dei Dati Sperimetali e Statistica 14

la causalità è atisimmetrica (se X è causa di Y allora Y o può essere causa di X). Si oti che questa cosiderazioe si applica ache al caso determiistico i cui R x, y =1, situazioe che o implica che tra X e Y ci sia ua relazioe causale. Qualche esempio (da wikipedia). Qual è l errore? Si osserva che c è ua forte correlazioe tra umero di pompieri dedicati a spegere u icedio e dimesioi dell icedio, e se e coclude che il umero di pompieri dedicati determia le dimesioi degli icedi. Si osserva che c è ua forte correlazioe tra dormire co le scarpe ai piedi e svegliarsi co il mal di testa, e se e coclude che dormire co le scarpe ai piedi causa il mal di testa. Si osserva che c è ua forte correlazioe tra umero di gelati veduti e umero di morti per aegameto, e se e coclude che i gelati soo u importate causa di aegameto. Si osserva che c è ua forte correlazioe iversa tra umero di assalti di pirati a avi ed effetti del riscaldameto globale, e se e coclude che la macaza di pirati causa riscaldameto globale.... e come iterpretare i termii causali le relazioe (di correlazioe determiistica) tra pressioe e temperatura i u gas perfetto? Campioi di statistiche campioarie Suppoiamo che almeo i liea di pricipio l itera popolazioe di riferimeto x i, costituita da elemeti, sia dispoibile e che duque, sempre almeo i liea di pricipio, sia possibile calcolare su di essa le statistiche di base, e i particolare la media m x. Suppoiamo ioltre che per qualche ragioe (per esempio per ridurre i costi di acquisizioe dei dati) si cosideri opportuo operare o sull itera popolazioe, ma solo su uo o più suoi campioi y i j, oguo di 1, 1 1, elemeti. Le statistiche calcolate su tali campioi foriscoo u iformazioe sulle corrispodeti statistiche, igote, della popolazioe. I particolare, di ogi campioe è possibile calcolare la media, m j ; il problema che ci poiamo è allora: che relazioe c è tra le medie campioarie m j e la media della popolazioe m x? La risposta ei due casi estremi è semplice: se 1 = (cioè se il campioe coicide co la popolazioe), m j = m x ; se 1 = 1 (cioè se il campioe coicide co u sigolo elemeto dell isieme supporto), m j o porta alcua iformazioe diversa dal campioe stesso. Nei casi itermedi, 1< 1 <, m j porta u iformazioe su m x pur seza coicidere, i geerale, co m x stessa: se il campioe y i j è costituito di elemeti scelti seza alcu criterio defiito (e quidi si potrebbe dire: i modo casuale, beché cosa ciò sigifichi o sia così chiaro) dalla popolazioe x i, allora al variare del campioe ache la media campioaria m j varierà i modo casuale itoro a m x, e quato maggiore è la umerosità 1 del campioe tato più sarà stabile, cioè tato meo varierà, m j. I geerale, si dice a questo proposito che m j è uo stimatore di m x (che tradizioalmete verrebbe chiamata la media vera ), e che è i geerale uo stimatore tato migliore (el seso di: tato più stabilmete vicio a m x ) quato maggiore è il umero 1 di elemeti del campioe. E fodametale otare qui che, dato il fatto che ogi campioe y i j è otteuto i modo casuale, le medie dei vari campioi, m 1, m 2,... o coiciderao, pur essedo tutte stimatori della stessa media della popolazioe m x. Si geera i questo modo u campioe m j di medie campioarie. Questa situazioe può essere formalizzata i modo elegate come segue. Suppoiamo che dalla popolazioe x i siao otteuti 2 campioi y i j oguo costituito da 1 elemeti (duque,..., 1 e j=1,..., 2 ), ua situazioe sitetizzabile ella tabella: campioe 1... campioe j... campioe 2 elemeto 1 y 1,1 y 1,j y 1,2... elemeto i y i,1 y i,j y i,2... elemeto 1 y 1,1 y 1,j y 1,2 media campioaria m 1 m j m 2 Aalisi dei Dati Sperimetali e Statistica 1

Cosideriamo, iazitutto, u geerico campioe y i, duque ua coloa della tabella: si può supporre che oguo dei suoi elemeti, y 1,..., y 1 sia il valore assuto da ua variabile casuale (o ache: variabile aleatoria ), Y 1,..., Y 1 ; i simboli: Y i = y i (si oti la otazioe, abituale i statistica: la lettera maiuscola idica ua variabile potrebbe essere per esempio ua gradezza fisica, metre la lettera miuscola idica u valore della variabile). Allora l ipotesi che tutti gli elemeti del campioe y i siao otteuti, seza polarizzazioe, dalla stessa popolazioe corrispode all ipotesi che tutte le variabili casuali Y i abbiao la stessa distribuzioe. Ne segue duque che se si ripete l operazioe di campioameto, e quidi si ottegoo 2 campioi y i 1,..., y i 2, ogi 2 -upla y i,1,..., y i,2 cotiee 1 valori della stessa variabile casuale Y i. Ogi media campioaria m j è perciò uo stimatore della variabile (Y 1 +...+Y 1 )/ 1. Che dire allora di m( m j ) = m m, cioè la media del campioe delle medie campioarie? Per defiizioe: m m =m Y 1... Y 1 1 Per la liearità della media: m Y 1... Y 1 1 = m 1... m 1 1 e per l ipotesi che le variabili casuali Y i abbiao la stessa distribuzioe, e quidi m 1 = m 2 =... m x : m 1... m 1 = 1m x =m x 1 1 La media delle medie campioarie approssima ( stima apputo) la media della popolazioe: al crescere della cardialità 1 dei campioi y i j, la media delle medie m m è sempre più simile a m x. Riprededo i cosiderazioe il campioe delle medie campioarie m j, si può studiare ora la sua deviazioe stadard, s( m j ) = s m, per chiedersi i particolare se essa coicida, a meo di approssimazioe, co la deviazioe stadard campioaria s j dei campioi y i j. Secodo la formalizzazioe appea itrodotta, si tratta duque di studiare: s m =s Y 1... Y 1 1 Si può dimostrare 2 che, el caso i cui le 1 variabili casuali Y i abbiao correlazioe ulla, vale che: s 2 m =s Y 1... Y 1 1 = s 2 2 1... s 1 2 1 e poiché si assume che le variabili casuali Y i abbiao la stessa distribuzioe: s 2 m = 2 1 s x = s 2 x 1 2 1 Ricordado poi che la deviazioe stadard s x della popolazioe è stimata dalle deviazioi stadard campioarie, cioè s x s j, vale allora che: s m s j 1 Il campioe delle medie campioarie ha ua deviazioe stadard approssimativamete pari alla deviazioe stadard di u geerico campioe divisa per la radice quadrata del umero degli elemeti del campioe stesso. Mettiamo alla prova questo risultato fodametale co u esempio. Suppoiamo che la distribuzioe della popolazioe x i sia (a meo di approssimazioi) uiforme, cioè che le frequeze delle categorie siao almeo approssimativamete uguali, e che i campioi y i j siao scelti i modo da seguire ach essi ua distribuzioe uiforme (è quello che ci si aspetta, i questo caso, da u campioameto casuale, che o produca distorsioi): a causa della maggiore stabilità del campioe m j rispetto a oguo dei campioi y i j, si può costatare che il campioe m j o è più uiforme, ma ha ua forma a campaa (chiamata gaussiaa o ache ormale ), simmetrica e cetrata i m x. Aalisi dei Dati Sperimetali e Statistica 16

Per esempio, da ua popolazioe di = 1 valori scelti uiformemete ell itervallo [,1] (istogramma a siistra) è otteuto u certo umero di campioi y i j, oguo di 1 = valori, e se e ricava la distribuzioe delle medie campioarie m j (a destra): 16 2 11 1 6 1 1-4.2.4.6.8 1.1.3..7.9.2.4.6.8 1.1.3..7.9 Come si vede, il campioe m j è molto più cocetrato itoro a m x di quato o lo siao la popolazioe x i e quidi i campioi y i j : ci si può duque aspettare che la deviazioe stadard del campioe delle medie campioarie, s m, sia miore delle deviazioi stadard dei campioi, s j. Il teorema del limite cetrale Il fatto che i codizioi come quelle specificate per l esempio precedete le medie campioarie (e quidi ache le somme di elemeti di campioi) siao approssimativamete distribuite secodo ua gaussiaa è u caso particolare di u risultato più geerale, formalizzato el teorema del limite cetrale: la somma di k variabili casuali idipedeti otteute da ua stessa distribuzioe, co media m x e deviazioe stadard s x, approssima sempre meglio, al crescere di k, ua distribuzioe gaussiaa, e ciò idipedetemete dalla forma della distribuzioe da cui le variabili casuali soo otteute; tale distribuzioe gaussiaa attrattore ha media km x e deviazioe stadard k s x / k= k s x. I cosegueza, se ivece della somma delle k variabili casuali si cosidera la loro media, la distribuzioe gaussiaa attrattore ha media m x e deviazioe stadard s x / k, esattamete come otteuto sopra. Questo teorema rede coto del fatto che i molte situazioi sperimetali le distribuzioi soo approssimabili mediate gaussiae, e quidi giustifica la scelta già citata di chiamare ache ormali tali distribuzioi. Aalisi dei Dati Sperimetali e Statistica 17