LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ Prof. Francesco Tottoli Versione 3 del 20 febbraio 2012 DEFINIZIONE È una scienza giovane e rappresenta uno strumento essenziale per la scoperta di leggi e relazioni tra fenomeni, intervenendo in tutte le situazioni nelle quali occorre assumere decisioni in condizioni di incertezza. 2 1
DEFINIZIONE La statistica è un metodo di studio di caratteri variabili rilevabili su collettività, avente lo scopo di sintetizzare le informazioni disponibili e di estendere induttivamente i risultati a casi più generali 3 DEFINIZIONE Caratteri: aspetti della realtà osservabili (es. lo stato di una spiaggia, la professione di una persona che lavora ) Variabili: possono assumere valori diversi (es. la spiaggia può essere pulita, ordinata, sporca, grande, piccola ). Unità statistiche:sono i casi individuali oggetto di osservazione Collettivo statistico: è l insieme di più unità statistiche Fenomeni collettivi: quei fenomeni naturali o sociali la cui conoscenza o misura richiede l osservazione delle diverse unità statistiche che fanno parte del collettivo statistico 4 2
DEFINIZIONE La statistica si occupa quindi dei modi di raccogliere e analizzare dati relativi a un certo insieme di persone o di oggetti, per trarne conclusioni e fare previsioni. Noi ci occuperemo della statistica descrittiva: è la parte di statistica che, data una serie di dati, trae da questi ultimi delle informazioni. 5 STATISTICA DESCRITTIVA Qualunque indagine statistica deve essere riferita a un gruppo di elementi. A questo gruppo si dà il nome di popolazione. Una parte della popolazione prende il nome di campione. Si chiama caratteristica la qualità che studiamo negli elementi del campione 6 3
STATISTICA DESCRITTIVA Facciamo un esempio: Voglio fare una indagine statistica sugli allievi iscritti ai CFP della provincia di Brescia. Gli allievi iscritti nei CFP rappresentano la popolazione statistica. Il campione sarà rappresentato dagli iscritti al nostro CFP. Le caratteristiche che andremo a studiare statisticamente saranno ad esempio l età, la media dei voti, l altezza ecc 7 STATISTICA DESCRITTIVA Le caratteristiche che possono essere studiate sono di due tipologie: VARIABILI QUANTITATIVE: valori che possono essere misurati come il peso, l età, l altezza ecc. Le variabili quantitative possono essere di due tipologie: Continue: possono assumere qualunque valore. Discrete: assumono solo determinati valori. VARIABILI QUALITATITE: valori che non possono essere misurati come il colore dei capelli o degli occhi ecc. 8 4
I DATI I dati rappresentano l insieme di numeri o categorie osservati nell indagine statistica. I dati possono essere subito disponibili per lo studio oppure, è necessario estrapolare l informazione necessaria attraverso una loro analisi (registrazione dei dati). 9 ESERCIZIO 1 10 5
ESERCIZIO 2 11 RILEVAMENTO DEI DATI Abbiamo detto che la statistica è una scienza che ragiona partendo dai dati, dove i dati sono l insieme di numeri o categorie registrati per le unità di osservazione del campione della popolazione che si sta analizzando. 12 6
Proviamo a rilevare dai dati 13 Proviamo a rilevare dai dati 14 7
Ora analizziamo i dati raccolti Le informazioni raccolte sono di vario tipo: Le variabili quantitative misurano caratteristiche numeriche: per esempio l età, l altezza, in numero di CD. Le variabili qualitative misurano delle qualità come, per esempio, il tipo di mezzo utilizzato per raggiungere la scuola. 15 Due osservazioni N.B. 1: una variabile che assume valori numerici corrispondenti a codici (es. il CAP) è qualitativa. N.B. 2: Le variabili qualitative con due sole modalità si dicono variabili dicotomiche (es. la variabile genere assume le modalità maschio e femmina). 16 8
Le domande nell indagine statistica Durante il questionario sono state fatte due tipologie di domande: 17 Rappresentazione dei DATI Lo scopo principale della statistica è quello di sintetizzare e descrivere i dati attraverso tre possibili rappresentazioni: Tabelle Grafici (diagrammi a barre, a torta ecc.) Indici che riassumo gli aspetti più importanti La media La varianza 18 9
La rappresentazione tabellare Per ottenere la sintesi dei dati ci viene in aiuto la rappresentazione tabellare che prende il nome di matrice dei dati. I dati sono di solito raccolti in forma rettangolare in una tabella che presenta: Su ogni riga una unità di osservazione Su ogni colonna una variabile di studio 19 La matrice dei dati 20 10
La matrice dei dati 21 Passiamo all analisi: distribuzione di frequenza Dopo avere raccolto i dati, dalla matrice si ricava la tabella delle frequenze. La tabella delle frequenze si ottiene individuando per ogni variabile l insieme dei valori assunti da tale variabile e la frequenza con cui ogni valore si presenta tra le unità di osservazione. Si parla anche di frequenza assoluta. 22 11
Esempio: frequenza della variabile battiti cardiaci 23 La frequenza relativa La tabella è completata con una colonna: la colonna della frequenza relativa. Tale parametro si calcola nel seguente modo: frequenza variabile 100 frequenza relativa totale osservazioni 24 12
Esempio: frequenza relativa della variabile battiti cardiaci 25 Battiti cardiaci Frequenza assoluta Frequenza relativa [%] 66 2 13,33 67 4 26,67 68 3 20,00 69 3 20,00 70 1 6,67 71 0 0 72 2 13,33 totale 15 100,00 Frequenza assoluta e frequenza relativa Riassumendo: La frequenza assoluta (f A ) è il numero di volte che si manifesta la modalità di una variabile. La frequenza relativa (f R ) consiste nel numero di volte in cui una osservazione si ritrova all interno della classificazione stessa, rappresenta come una porzione del numero totale di osservazioni. 26 13
Gli indici Gli indici sono degli elementi che ci permettono di riassumere le informazioni raccolte tramite le tabelle. In particolare vedremo i seguenti indici statistici: La media aritmetica La moda La mediana 27 La media aritmetica La media aritmetica costituisce la miglior stima possibile per la grandezza in esame. Tale indice si applica a dati che si possono considerare equivalenti. Si calcola secondo la seguente formula: x x1 x2 x3... x N N i 1 N N x i 28 14
La media aritmetica: esempio Calcoliamo la media aritmetica dei seguenti campioni: 3, 5, 6, 2, 1, 0, 7, 4, 2 x 9 x i i 1 9 3 5 6 2 1 0 7 4 2 9 3,33 29 La moda La moda è il valore più probabile che una variabile può assumere. È il valore più comune del campione che stiamo studiando. Ad esempio la moda del mezzo di trasporto utilizzato è il mezzo che presenta la frequenza relativa più alta, quindi nel nostro caso è 30 15
La mediana La mediana è quel valore corrispondente al quale i valori letti sono divisi in due gruppi costituiti dallo stesso numero di campioni. In pratica, il numero di dati che sta alla destra della mediana (quelli maggiori) è uguale al numero di dati alla sinistra della mediana (quelli minori). 31 La mediana: esempio Consideriamo l insieme dei dati, per esempio, dell ora in cui i compagni vanno a letto. Il valore che divide in due la tabella è quello delle 23:20. Tale valore rappresenta la mediana. 32 16
ESERCIZIO 1 33 ESERCIZIO 2 34 17
I GRAFICI L indagine statistica ha come ultime fasi la presentazione grafica e l interpretazione dei dati: La presentazione è l esposizione dei dati statistici in forma chiara e compatta con tabelle e grafici L interpretazione è lo studio dei dati attraverso gli indici statistici. 35 Tipologie di Grafici I grafici più utilizzati sono i seguenti: 1. Areogramma 2. Diagramma a punti 3. Diagramma a barre 4. Istogramma 36 18
Tipologie di Grafici: AREOGRAMMA Un areogramma è un diagramma a torta e rappresenta i dati sotto forma di fette o sezioni di un cerchio. Ogni fetta rappresenta una categoria e la dimensione della fetta è proporzionale alla frequenza relativa della categoria 37 Tipologie di Grafici: AREOGRAMMA 38 19
Tipologie di Grafici: AREOGRAMMA 39 Tipologie di Grafici: Diagramma a punti Un diagramma a punti è un grafico usato per piccole quantità di dati in cui ogni osservazione è indicata da un punto su un singolo asse orizzontale. L asse del grafico è suddiviso in modo tale che ogni punto, rappresentante i dati, occupi un posto univoco sull asse. Quando più d una osservazione presenta lo stesso valore, i punti vengono impilati l uno sopra l altro. 40 20
Tipologie di Grafici: Diagramma a punti 41 Tipologie di Grafici: Diagramma a barre Un diagramma a barre rappresenta la frequenza o la frequenza relativa di una tabella sotto forma di un rettangolo, oppure barra o colonna. Si usa per le distribuzioni di frequenza semplici. 42 21
Tipologie di Grafici: Diagramma a barre 43 Tipologie di Grafici: Istogramma 44 Un istogramma, anche se ha l aspetto molto simile ad un diagramma a barre, è molto diverso in quanto è un metodo areale: si utilizza un poligono chiuso che mantiene nell informazione grafica, cioè nella superficie della barra, i dati relativi all estensione. L istogramma può essere considerato il grafico più rappresentativo della statistica. L istogramma è una figura geometrica piana formata da rettangoli accostati aventi come base i singoli intervalli e come altezza la densità di frequenza. 22
Tipologie di Grafici: Istogramma 45 Tipologie di Grafici: Istogramma 46 23
ESERCIZIO 1 47 ESERCIZIO 2 48 24
ESERCIZIO 3 49 Il calcolo delle probabilità:termini di base La probabilità studia i fenomeni casuali che prendono il nome di fenomeni aleatori. Il calcolo delle probabilità tratta di esperimenti aleatori, cioè esperimenti, che possono essere anche solo concettuali, il cui esito è imprevedibile. Lo scopo del calcolo delle probabilità è di attribuire un grado di aspettativa (un numero, quindi) ad un evento. La probabilità di un evento è un numero reale, positivo o nullo compreso tra 0 e 1 ( 0 p 1). Se un evento è impossibile la sua probabilità è zero: p=0. 50 25
La probabilità teorica e la probabilità empirica 51 Si dice probabilità teorica di un evento il valore dato dal rapporto tra il numero di esiti positivi che realizzano l evento stesso (k) e il numero degli elementi che rappresenta l insieme degli esiti possibili (n): k p n Esempio: consideriamo l esperimento del lancio di un dado. Qual è la probabilità di ottenere 5? Gli eventi possibili (n) sono 6, e solo uno è l evento positivo (k). La probabilità richiesta è quindi: 1 p 6 La probabilità teorica e la probabilità empirica Si assume come probabilità empirica di un evento, che si ripete nel tempo, la sua frequenza relativa osservata. Esempio: qual è la probabilità empirica di subire un furto d auto per due proprietari di automobili che vivono, rispettivamente, in Toscana e in Trentino? Rubate Circolanti Rub./Circ. Toscana 3823 2192040 0,17% Trentino A. A. 376 512152 0,07% 52 Considerando la tabella, la probabilità che un auto venga rubata in Toscana è pari a p=0,17%. 26
La legge dei grandi numeri La legge dei grandi numeri o legge empirica del caso dice che, in una serie di prove ripetute un numero abbastanza grande di volte, un evento si manifesta con una frequenza relativa che tende, al crescere del numero delle prove, a coincidere col valore teorico della sua probabilità. 53 Metodi risolutivi per il calcolo delle probabilità Spesso uno stesso problema relativo a questioni di calcolo delle probabilità può essere affrontato con più metodi. METODO DELL EVENTO COTRARIO: l evento almeno una pallina estratta è gialla può essere considerato come l evento contrario nessuna pallina estratta è gialla. Esempio: se la probabilità di estrarre una pallina gialla è p=0,4, la probabilità di estrarre una pallina non gialla sarà p=1-0,4=0,6. METODO DELLA SOMMA: estraggo due palline. Se p 1 è la probabilità di estrarre una sola pallina gialla e p 2 è la probabilità di estrarre entrambe le palline gialle allora, la probabilità di estrarre una pallina gialla è: p= p 1 + p 2 54 27
Esercizi Calcolare la probabilità che lanciando due volte una moneta esca: croce entrambe le volte; la prima volta croce e la seconda testa; almeno una volta testa. [ 1/4; 1/4; 3/4 ] 55 Da un sacchetto che contiene 20 palline colorate si effettuano 500 estrazioni casuali, sempre con reinserimento. Si registra 119 volte pallina rossa. Quante sono, presumibilmente, le palline rosse nell urna? [5] Esercizi A una cena tra medici partecipano 3 chirurghi, 2 pediatri e 4 internisti. Il cameriere sceglie a caso uno dei medici e ipotizza sia un chirurgo. Qual è la probabilità che si sbagli? [ 2/3 ] Uno scaffale contiene libri di 5 diverse case editrici: 20 della De Agostini, 15 della Mondadori, 10 della Rizzoli, 8 della Zanichelli e 5 della Garzanti. Si prende a caso un libro, senza guardare. Qual è la probabilità che il libro non sia né della Mondadori né della Garzanti? [ 19/29 ] 56 28
Esercizi La probabilità di estrarre uno dei quattro assi da un mazzo di carte è 1/13. Quante carte ha quel mazzo? [ 52 ] Si estrae una pallina da un urna che ne contiene 20 bianche, 15 verdi, 10 rosse e 30 di altri colori. Calcola la probabilità che essa: sia o bianca o rossa; non sia né bianca né rossa; non sia verde [ 2/5, 3/5, 4,5 ] 57 Esercizi Se lanci contemporaneamente due dadi, qual è la probabilità che la somma dei due numeri che sortiscono sia pari o di valore tre? [ 5/9 ] Calcola la probabilità che lanciando due dadi si abbiano due facce con numeri consecutivi. [ 5/18 ] 58 29