Tiziano Vargiolu. Elementi di Probabilità e Statistica

Tiziano Vargiolu Elementi di Probabilità e Statistica

Ristampa: marzo 2014 ISBN 978 88 7178 349 9 ISBN 88 7178 349 2 2002 by CLEUP sc Coop. Libraria Editrice Università di Padova via Belzoni 118/3 Padova (t. +39 049 8753496) www.cleup.it - www.facebook.com/cleup Tutti i diritti di traduzione, riproduzione e adattamento, totale o parziale, con qualsiasi mezzo (comprese le copie fotostatiche e i microfilm) sono riservati. Grafica di copertina: Carlo Fumian

Indice Introduzione vii 1 Statistica descrittiva ed inferenziale 1 1.1 Statistica descrittiva.............................. 1 1.1.1 Media.................................. 2 1.1.2 Variabilità................................ 3 1.1.3 La distribuzione normale....................... 3 1.1.4 Percentili................................ 4 1.2 Statistica inferenziale.............................. 7 2 Elementi di Calcolo delle Probabilità 13 2.1 Esperimento aleatorio............................. 13 2.2 Operazioni con eventi e variabili aleatorie.................. 15 2.3 Probabilità di un evento............................ 16 2.3.1 Proprietà delle probabilità....................... 18 2.4 Legge di una variabile aleatoria........................ 19 2.5 Funzione di ripartizione di una variabile aleatoria.............. 21 2.6 Probabilità condizionata............................ 23 2.6.1 Formula della probabilità totale.................... 24 2.6.2 Formula di Bayes............................ 24 2.7 Indipendenza.................................. 25 2.7.1 Variabili aleatorie binomiali...................... 28 2.8 Speranza e varianza.............................. 30 2.8.1 Le leggi gaussiane........................... 33 2.9 Teoremi di limite................................ 35 2.9.1 Variabili aleatorie di Poisson..................... 37 3 Stime e test 47 3.1 Statistica descrittiva.............................. 47 3.1.1 Media e varianza............................ 47 3.1.2 Percentili e quantili.......................... 48 3.2 Statistica inferenziale.............................. 52 3.3 Quantili della distribuzione normale N(0, 1)................. 64

iv INDICE 4 Test di Student 65 4.1 Variabile aleatoria t di Student........................ 66 4.2 Test di Student................................. 67 4.3 Errori di prima e seconda specie....................... 71 4.4 Test unilateri.................................. 71 4.5 Test sulla media................................ 73 4.6 Il valore P.................................... 74 4.7 Quantili della distribuzione t(n) di Student................. 78 5 Analisi della varianza 79 5.1 La variabile aleatoria χ 2............................ 81 5.2 Variabile aleatoria F di Fischer........................ 81 5.3 Il test t è una analisi della varianza...................... 83 5.4 Un altro esempio................................ 84 5.5 Uso del test t per isolare differenze tra gruppi................ 86 5.6 Quantili della distribuzione F di Fischer, α = 0.95............. 97 5.7 Quantili della distribuzione F di Fischer, α = 0.99............. 98 6 Errori di prima e di seconda specie 99 6.1 Errore di seconda specie............................ 99 6.2 Potenza di un test............................... 102 6.3 Cosa determina la potenza di un test?.................... 103 6.3.1 La probabilità α di fare un errore di prima specie.......... 103 6.3.2 La differenza che si vuole misurare.................. 105 6.3.3 La taglia del campione......................... 107 6.3.4 Riassunto................................ 109 6.4 Problemi pratici relativi alla potenza..................... 110 6.5 Approssimazione normale........................... 111 7 Intervalli di confidenza 115 7.1 Un esempio................................... 116 7.2 Che significa confidenza............................ 118 7.3 Uso degli intervalli di confidenza per test di ipotesi............. 120 7.4 Intervalli di confidenza per la media..................... 121 8 Statistica discreta 127 8.1 Torniamo su Marte............................... 127 8.2 Stimare le proporzioni dai campioni..................... 128 8.3 Test di ipotesi per le proporzioni....................... 131 8.3.1 Mortalità associata all anestesia.................... 132 8.4 Un altro approccio: analisi delle tabelle di contingenza........... 132 8.4.1 Il test χ 2................................ 133 8.5 Il test χ 2 per più di due gruppi o risultati.................. 134 8.5.1 Suddividere le tabelle di contingenza................. 135 8.6 Test per un singolo campione......................... 136

INDICE v 8.7 Intervalli di confidenza per differenze di proporzioni............ 138 8.8 Intervalli di confidenza per proporzioni.................... 139 8.9 Quantili della distribuzione χ 2........................ 154 9 Regressione lineare 155 9.1 Come stimare i parametri da un campione.................. 157 9.2 Variabilità intorno alla retta di regressione.................. 161 9.3 Errori standard dei coefficienti di regressione................ 163 9.3.1 Intervalli di confidenza e test di ipotesi sui coefficienti di regressione164 9.4 Un altro esempio................................ 165 9.5 Previsione nella regressione lineare...................... 168 9.5.1 Previsione della media......................... 169 9.5.2 Previsione della singola misurazione................. 169 A Teoria della probabilità secondo Kolmogorov 181 A.1 Esperimento aleatorio............................. 181 A.2 Eventi legati ad un esperimento aleatorio.................. 182 A.3 Probabilità di un evento............................ 183 A.3.1 Proprietà delle misure di probabilità................. 184 A.4 Variabili aleatorie................................ 185 A.5 Funzione di ripartizione di una variabile aleatoria.............. 187 A.6 Speranza matematica.............................. 188 A.7 Conclusione................................... 189

Introduzione Questo libro è la seconda edizione di un libro tratto dalle dispense che avevo scritto per il corso di Istituzioni di Matematiche II per Biotecnologie nell anno accademico 1999/2000. Tuttavia, rispetto alla prima edizione, ho cambiato completamente l approccio con cui presentare la probabilità (e di conseguenza la statistica). Seguendo l esempio di un altro libro di matematica per non matematici [14], ho scritto due introduzioni: una per gli studenti, e una per i miei colleghi docenti. Introduzione per gli studenti Dopo un capitolo introduttivo su statistica descrittiva ed inferenziale, ho scelto di presentare subito le basi teoriche sia della probabilità che della statistica. Questo per due motivi: far vedere che le procedure statistiche più usate in pratica (test t, regressione lineare, ecc.) non sono una serie di formulette da imparare a memoria che funzionano per qualche specie di magia, ma hanno delle giustificazioni teoriche; ho preferito mostrare brevemente a cosa può servire la statistica, prima di partire con la teoria; una volta fatta la teoria, poi, si riesce a capire molto meglio parecchie cose usate in pratica. Una parola va spesa per il formalismo matematico. Probabilmente il rigore utilizzato soprattutto nei Capitoli 2 e 3 può apparire eccessivo per una cosa che poi avrà delle applicazioni pratiche. Tuttavia, in matematica ogni parola o simbolo usato ha il suo preciso significato, e il più piccolo cambiamento può portare a stravolgimenti di senso. Questo fatto è molto ben esemplificato da un esempio non matematico fatto da un matematico (Freddie Delbaen): Perfino l ordine con cui si dicono le cose ha la sua importanza. Se dico: per ogni uomo esiste una donna, voi vi immaginate una certa situazione. Se invece dico: esiste una donna per ogni uomo, voi vi immaginate una situazione completamente diversa. Naturalmente questo tipo di donne esiste... ma non ha una reputazione molto buona!. Seguendo questo spirito, nei Capitoli 2 e 3 ho usato una struttura teorema-dimostrazione (quando è stato possibile fornire una dimostrazione breve e comprensibile); nei capitoli seguenti, la struttura si fa più discorsiva, ma sono sempre specificate le ipotesi sotto cui si può utilizzare la procedura statistica sotto esame.

viii INTRODUZIONE Inoltre, in tutto il libro capita di dare delle definizioni: il nome dell oggetto definito viene usualmente indicato in grassetto, e consiglio vivamente di usare quel nome e non dei sinonimi, a meno di essere veramente sicuri di ciò che si sta facendo. La scelta degli argomenti è poi caduta su quelli svolti tradizionalmente in un corso di statistica elementare. Ogni argomento é svolto tenendo d occhio una situazione pratica in cui si applica o si potrebbe applicare la procedura utilizzata. Alcuni esempi sono stati volutamente scelti fuori dal comune: ho infatti notato che l effetto finale degli esempi è che gli studenti sono interessati dalla situazione strana e alla fine comprendono meglio la procedura statistica. Ogni capitolo termina con degli esercizi risolti, alcuni dei quali sono testi di esami precedenti. La mia raccomandazione è che lo studente, dopo aver letto il capitolo, tenti di fare l esercizio senza guardare la soluzione, poi confronti la propria soluzione con quella del libro. In questo modo si imparano molte più cose che leggendo semplicemente la soluzione, secondo il noto principio per cui si impara di più facendo che guardando gli altri fare. Introduzione per i docenti Nello scrivere la prima edizione di questo libro, avevo perseguito due obbiettivi: il rigore formale e la presentazione di applicazioni concrete, il tutto cercando di non sacrificare la comprensibilità. Infatti, mentre l insegnamento dell Analisi non ci sono molte differenze nel rigore formale tra un corso di laurea in Matematica e un qualsiasi altro corso (le definizioni di intorno, di funzione continua, di limite ecc. sono sempre le stesse), per quanto riguarda la Probabilità mi sembra che essa soffra di una specie di complesso di inferiorità (o di superiorità) non appena esce dal corso di laurea in Matematica: infatti mi sembra che si tema di fare teoria perché non verrebbe capita, e ci si accontenta di presentare solo i risultati utili per la statistica, quasi senza giustificazione. Avevo quindi cercato, dopo una breve parte in cui si presentano le idee intuitive della Statistica, di fornire le basi teoriche della Probabilità e della Statistica (secondo l approccio di Kolmogorov), cercando di dimostrare tutto il possibile, compatibilmente al fatto che il tipico lettore di questo libro non conosce (né sarà tenuto a farlo) la Teoria della Misura. Durante gli anni (non molti) in cui ho usato questo testo, però, mi sono accorto che alcune cose non venivano capite dagli studenti non tanto per troppa astrazione, ma perchè non comprendevano gli scopi pratici. Le principali obiezioni risultavano essere all additività numerabile (soprattutto da studenti che ormai, dopo innumerevoli tagli ai programmi, non vedono più una serie numerica nè al liceo nè all università) e alla costruzione delle variabili aleatorie, che sembrano cadere dal cielo. Mentre affrontavo queste difficoltà, mi è capitato di interessarmi all approccio di De Finetti. Dopo un periodo di digestione, ho deciso di adottarlo, poichè risolve in modo stupefacente i due problemi di cui sopra: la teoria viene sviluppata fin da subito supponendo solo l additività finita (questo perchè lo stesso De Finetti ritiene l additività numerabile una proprietà troppo forte e che di fatto tradisce il legame della probabilità con le applicazioni), e facendo a meno della struttura di spazio probabilizzato sottostante la teoria, ma che di

ix fatto non viene utilizzata quasi mai in applicazioni statistiche (e sicuramente non per quanto riguarda quanto esposto qui). Come per la prima edizione, molti fatti sono dati per veri senza accennare a dimostrazioni, soprattutto nei Capitoli 2 e 3. I più rilevanti nella prima edizione (di cui una traccia si può vedere in Appendice) erano l esistenza dei boreliani e della misura di Lebesgue, insieme a quasi ogni enunciato sulle variabili aleatorie continue (ho scelto di omettere assolutamente perché per un lettore che non conosce la Teoria della Misura non si capisce rispetto a cosa siano assolutamente continue ). In questa edizione ho sorvolato sul fatto che non ci sono contraddizioni se si definisce la probabilità in modo che valga l additività finita e poi si compiono operazioni su un insieme infinito (numerabile o meno) di eventi (una sorta di teorema di compattezza logica), e sul fatto che la speranza matematica di variabili aleatorie non limitate in realtà è indeterminato, e quello che si usa nel libro è solo una delle infinite possibili specificazioni del risultato (che comunque rimane coerente sia al suo interno che coi teoremi di limite presentati alla fine del Capitolo 2). Dopo la parte teorica, ho lasciato alle applicazioni tutto lo spazio che meritano in un corso che di fatto dovrà dare le basi quantitative ad un futuro scienziato che tipicamente non sarà un matematico: molti tests (sia col metodo del valore critico che usando gli intervalli di confidenza) e molti esempi pratici; ogni capitolo poi termina con alcuni esercizi risolti. A questo proposito devo dire che per essere pienamente coerente avrei dovuto essere bayesiano, e presentare da subito la statistica bayesiana. Ma questa edizione nasce come esperimento, e in questo momento non voglio mettere troppa carne sul fuoco: ho preferito quindi attenermi ad un approccio più classico nei corsi di Statistica per biologia, anche per il fatto che è l approccio seguito nella maggior parte della letteratura scientifica. Ho poi voluto tenere il numero di pagine basso, in modo che il libro contenesse ciò che ragionevolmente si può fare in un corso annuale: d altronde esistono già dei libri che si possono assumere come testi di referenza, e cercare di esaurire tutti gli argomenti svolti da questi avrebbe voluto dire sacrificare sia la leggibilità che la precisione. Ringraziamenti Desidero poi ringraziare gli studenti del primo anno di Biotecnologie dell Università di Padova dell anno accademico 1999/2000 per i numerosi errori trovati nella prima edizione di questo manoscritto, e Gino Favero per alcuni consigli sull edizione finale. Sicuramente altri errori sono stati introdotti poi, e me ne scuso con i lettori. Padova, 26 aprile 2005 Tiziano Vargiolu