Scuola media G. Ungaretti Elementi di statistica Prof. Enrico Castello
Ti insegnerò a conoscere i criteri organizzatori di una tabella di dati distinguere frequenze assolute e frequenze percentuali determinare indici centrali e di variabilità formulare ipotesi intuitive su eventuali relazioni tra i dati descritti in una tabella o in un grafico
Quindi saprai individuare le informazioni in una rappresentazione statistica (diagrammi e tabelle) usare e interpretare misure di centralità e di dispersione confrontare diverse distribuzioni con lo stesso carattere individuare relazioni tra le variabili rappresentate per descrivere il fenomeno ed effettuare previsioni
STATISTICA E FENOMENI COLLETTIVI La STATISTICA si occupa dello studio dei FENOMENI COLLETTIVI. Un fenomeno collettivo è un insieme di fenomeni singoli, tutti dello stesso tipo. Un fenomeno singolo costituisce una unità statistica ESEMPIO L altezza di un alunno in una classe costituisce un FENOMENO SINGOLO. L altezza di tutti gli alunni in una classe costituisce un FENOMENO COLLETTIVO
L INDAGINE STATISTICA Fenomeno collettivo Esempio: situazione occupazionale nella provincia di Cosenza Popolazione Residenti nella Provincia in un certo periodo Unità statistiche Singoli individui Caratteri (modalità) Sesso (M o F), età, stato civile, condizione professionale, Osservazione Registrazione delle risposte ad un questionario Aspetti del fenomeno - Quota disoccupati - Quota disoccupazione giovanile - Durata di disoccupazione - Relazione tra occupazione, disoccupazione e sesso -
L INDAGINE STATISTICA E LE SUE FASI Per INDAGINE STATISTICA si intende un insieme di attività finalizzate ad approfondire la conoscenza di un fenomeno. Le sue FASI sono: 1) IMPOSTAZIONE DELL INDAGINE STATISTICA ) RACCOLTA DATI 3) SPOGLIO E TRASCRIZIONE DEI DATI 4) ELABORAZIONE DATI
1) IMPOSTAZIONE DELL INDAGINE STATISTICA In questa prima fase occorre precisare: LO SCOPO DELLA RICERCA GLI OBIETTIVI CHE SI VOGLIONO RAGGIUNGERE LE UNITÀ STATISTICHE OGGETTO DI INDAGINI
) RACCOLTA DEI DATI In questa seconda fase occorre stabilire in modo preciso quali sono i dati da rilevare NATURA DEI DATI I dati raccolti possono essere di natura QUANTITATIVA oppure QUALITATIVA I dati qualitativi sono rappresentati da aggettivi (nazionalità, religione, ecc) I dati quantitativi sono espressi da numeri (altezza, peso, ecc.) METODI DI RACCOLTA DEI DATI La raccolta dei dati può essere GLOBALE oppure a CAMPIONE La raccolta globale riguarda tutte le unità statistiche che compongono il fenomeno collettivo La raccolta a campione riguarda solo una parte delle unità statistiche che compongono il fenomeno collettivo
TECNICA DI RACCOLTA DEI DATI Tecnicamente,la raccolta dei dati può essere fatta in modi diversi, tuttavia la raccolta più seguita è quella dell INTERVISTA DIRETTA o INDIRETTA L intervista diretta prevede domande poste direttamente dall intervistatore L intervista indiretta prevede il riempimento di un questionario che l intervistato deve riempire in tutte le sue parti ORGANI PREPOSTI ALLA RACCOLTA DEI DATI La raccolta dei dati può essere fatta da CHIUNQUE abbia interesse a fare una ricerca statistica. In Italia l organo più importante che si occupa della raccolta dei dati e della loro successiva elaborazione è L ISITUTO CENTRALE DI STATISTICA (sigla ISTAT)
3) SPOGLIO E TRASCRIZIONE DEI DATI Tale fase comporta: ENUMERAZIONE DEI DATI L enumerazione dei dati avviene scrivendo materialmente un numero progressivo (001, 00, ecc.) su ogni questionario allo scopo di effettuare un controllo sul numero delle unità statistiche effettivamente prese in considerazione CLASSIFICAZIONE DEI DATI IN GRUPPI I dati raccolti, dopo essere stati enumerati vengono CLASSIFICATI in GRUPPI ossia suddivisi in classi omogenee TRASCRIZIONE IN TABELLE Una volta enumerati e classificati, i dati vengono trascritti in TABELLE. Si distinguono diversi tipi di TABELLE
RAPPRESENTAZIONE NUMERICA 1) TABELLA SEMPLICE ESEMPIO: Riportiamo in una TABELLA SEMPLICE i DATI riguardanti le TEMPERATURE registrate durante una giornata autunnale ad intervalli di sei ore:1)h=0;t= c )h=6;t= C 3)h=1;T=11 C 4)h=18;T=8 C 5)h=4;T=4 C dati tabella semplice Orario (h) Temperatura ( C) 0 6 1 11 18 8 4 4
RAPPRESENTAZIONE NUMERICA ) TABELLA COMPOSTA ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI riguardanti le ALTEZZE (h) ed i PESI (P) di una famiglia di quattro persone: 1) Padre; h = 175 cm; p = 80 kg 3) Figlio h = 180 cm; p = 74 kg ) Madre: h = 170 cm; p = 64 kg 4) Figlia h = 173 cm; p = 60 kg dati Componente nucleo altezza h = cm peso P = kg tabella composta Padre 175 80 Madre 170 64 Figlio 180 74 Figlia 173 60
TRASCRIZIONE DEI DATI PER CLASSI La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI, si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI per una rappresentazione ponderata E S E M P I O Rappresentazione ponderata PESO (Kg) N STUDENTI (termini) (frequenze) 5 1 54 1 55 60 1 63 1 68 69 3 71 1 73 1 75 1 TOTALE 14 Rappresentazione per classi di peso CLASSI DI PESO (termini) N STUDENTI (frequenze) 50 60 Kg 4 60 70 Kg 7 70 80 Kg 3 totale 14 L informazione, diviene meno precisa nel caso di una distribuzione per classi, tuttavia la visione della distribuzione diventa più semplice e rapida
4) ELABORAZIONE DEI DATI In questa fase i dati vengono sottoposti ad una elaborazione matematica il cui scopo è quello di esprimere i risultati dell indagine in modo sintetico Alcune forme di elaborazione dei dati statistici sono: 1) LE FREQUENZE ASSOLUTE E RELATIVE ) LA MEDIA ARITMETICA 3) LA MEDIA PONDERATA 4) GLI SCARTI DALLA MEDIA ARITMETICA 5) LA VARIANZA 6) LO SCARTO QUADRATICO MEDIO 7) LA MODA 8) LA MEDIANA
FREQUENZE ASSOLUTE La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ di un CARATTERE si ripete carattere Colore capelli (carattere) N persone (frequenza assoluta) modalità Neri 10 Castani 6 Rossi 1 biondi 5 totale Frequenze assolute
FREQUENZE RELATIVE Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche della stessa specie, non sono confrontabili in quanto si riferiscono, in generale, ad un diverso numero di casi complessivi. Questo inconveniente viene superato introducendo il concetto di FREQUENZA RELATIVA La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi; se è percentuale il valore va moltiplicato per 100: frequenza relativa frequenza relativa_ % frequenza assoluta frequenza totale frequenza assoluta 100 frequenza totale OSSERVAZIONE: Le frequenze relative % non sono altro che RAPPORTI PERCENTUALI
CALCOLO DELLE FREQUENZE RELATIVE Consideriamo i dati presenti nella seguente tabella Colore capelli (carattere) frequenze assolute neri 10 castani 6 rossi 1 biondi 5 TOTALE Calcolo FREQUENZE RELATIVE % 10 100 45,45 1 100 4,54 6 100 7,7 5 100,7 Colore capelli frequenze assolute frequenze relative % neri 10 45,46 castani 6 7,7 rossi 1 4,55 biondi 5,7 TOTALE 100
Gli indici di posizione centrale MEDIA ARITMETICA SEMPLICE Consideriamo una distribuzione di DATI DIVERSI UNO DALL ALTRO: a a... 1 M a n La MEDIA ARITMETICA SEMPLICE è uguale alla somma dei dati divisa per n, cioè: a a a... a 1 3 n n
Gli indici di posizione centrale MEDIA ARITMETICA SEMPLICE Esempio di calcolo Un alunno nei tre compiti di matematica ha riportato i voti presenti in tabella. Calcolare la MEDIA ARITMETICA dei voti. COMPITO VOTO N 1 7 N 8 N 3 6 TOTALE 1 a a n a M 1 3 786 1 M 7 3 3 Dove: 1 = somma dei voti 3 = numero dei voti 7 = MEDIA ARITMETICA dei voti
Gli indici di posizione centrale MEDIA ARITMETICA PONDERATA Se i dati si presentano con una certa FREQUENZA o PESO allora il calcolo della media deve essere effettuato sommando ogni termine tante volte quante indica la sua frequenza Supponiamo che: Il termine a 1 si presenta con frequenza p 1 Il termine a si presenta con frequenza p Il termine a n si presenta con frequenza p n Il calcolo della MEDIA PONDERATA si effettua con la relazione: a Mp 1 p 1 a p 1 p p a p 3 3 p 3... a... p n n p n
Gli indici di posizione centrale MEDIA ARITMETICA PONDERATA Esempio di calcolo 0 Studenti di una classe, hanno ottenuti in matematica i voti riportati in tabella Calcolare la MEDIA PONDERATA dei voti. Voto in Matematica Numero studenti 4 5 3 6 8 7 5 8 totale 0 a Mp 1 p 1 a p p 1 p a 3 p p 3 3 a p 4 4 p p 4 5 a 5 p 45368758 1 Mp 61, 385 0 Dove: 1 = somma dei voti 0 = numero di studenti 6,1 = MEDIA PONDERATA dei voti 5
Gli indici di posizione centrale MEDIA PONDERATA NEL CASO DI UNA DISTRIBUZIONE DI DATI PER CLASSI In questo caso ad ogni classe, viene sostituito il TERMINE CENTRALE, calcolato mediante la semisomma dei termini estremi della classe (X1-X) I termini centrali così ottenuti costituiscono i termini a 1 ; a ; a 3 ; ecc. della distribuzione classe frequenza X 1 -X p 1 X -X 3 p X 3 -X 4 p 3 ecc. ecc. Infine la media ponderata si calcola con la relazione SEMISOMME x x a 1 1 x x a 3 a Mp 1 p 1 a p 1 p p Termine centrale frequenze a 1 p 1 a p a 3 p 3 ecc. ecc. a p 3 3 p 3... a... p n n p n
Gli indici di posizione centrale MEDIA PONDERATA DI UNA DISTRIBUZIONE DI DATI PER CLASSI Esempio di calcolo Si fa riferimento ai dati della tabella 1 Classi di età (anni) n persone (Frequenze) 0-0 35 0-40 4 40-60 1 totale 40 CALCOLO valori centrali a a 1 00 0 10 040 60 30 termini centrali n persone (Frequenze) a 1 = 10 P 1 = 35 a = 30 P = 4 a 3 = 50 P 3 = 1 totale 40 Calcolo della media ponderata a p a p a p Mp 1035304501 50 p p p 40 40 1 1 3 3 1 3 Età media = 13 anni 13
Gli indici di posizione centrale MEDIANA Si definisce MEDIANA il termine che occupa il POSTO CENTRALE di una distribuzione di dati ordinati in modo crescenti ESEMPIO: Determinare la MEDIANA della seguente distribuzione di voti: VOTO FREQUENZA 5 4 6 8 7 4 8 9 1 Si ordinano i dati in maniera crescente 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9 Il TERMINE CENTRALE è il 6, infatti è quello che lascia alla sua destra e alla sua sinistra un eguale numero di termini, pertanto si ha: MEDIANA = 6 Se i dati sono in numero pari, allora si hanno due termini centrali, in tal caso come mediana si prende la loro media aritmetica
Gli indici di posizione centrale MODA Si definisce MODA di una distribuzione di dati il termine corrispondente alla MASSIMA FREQUENZA. In sostanza si tratta del termine più comune ESEMPIO: Determinare la MODA della seguente distribuzione di voti: VOTO FREQUENZA 5 4 6 8 7 4 8 Il termine che corrisponde alla massima frequenza (8) è il 6, pertanto: MODA = 6 9 1
VARIABILITA DI UN FENOMENO STATISTICO Per comprendere cos è la VARIABILITA di un fenomeno statistico consideriamo la tabella che segue, nella quale vengono indicati quanti televisori sono stati venduti da un commerciante nei primi tre mesi del 003 e 004 mese 003 004 Gennaio 30 40 febbraio 30 0 marzo 30 30 totale 90 90 Dalla tabella si nota che nel 003 la vendita mensile dei televisori risulta COSTANTE (30-30-30), mentre nel 004 essa subisce una VARIAZIONE (40-0-30) Pertanto: 1) NON SI HA VARIABILITÀ nelle Vendite del 003 ) SI HA VARIABILITÀ nelle vendite del 004 Si ha VARIABILITA quando i dati relativi ad un fenomeno statistico non sono tutti uguali
SCARTI DALLA MEDIA ARITMETICA Si definiscono SCARTI DALLA MEDIA ARITMETICA le Differenze fra ciascun TERMINE e la MEDIA ARITMETICA Data la seguente distribuzione di dati a 1 ; a ; a 3 ;.; a n Sia M la loro media aritmetica, gli SCARTI sono: (a 1 -M); (a -M); (a 3 -M); ( ); (a n -M) Gli scarti possono essere POSITIVI e NEGATIVI, tuttavia la loro SOMMA è SEMPRE UGUALE A ZERO S = (a 1 -M) + (a -M) + (a 3 -M) + ( ) + (a n -M) = 0
VARIANZA (σ ) La VARIANZA serve per valutare la VARIABILITÀ di un fenomeno statistico La VARIANZA è la media aritmetica degli scarti al quadrato, si indica con il simbolo σ ( si legge sigma al quadrato) e si calcola con la relazione: a M a M... a M 1 n n 1) La VARIANZA è sempre POSITIVA: infatti i termini (a-m) sono tutti positivi ) La VARIANZA è uguale a ZERO se la VARIABILITÀ è nulla 3) La VARIANZA è tanto più ALTA quanto più alta è la VARIABILITÀ
CALCOLO DELLA VARIANZA I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano secondo i dati riportati in tabella. Stabilire in base al calcolo della VARIANZA quale dei due prodotti ha subito una maggiore variazione di prezzo. giorno 1 Kg di Ciliegie 1 Kg di Angurie Scarto ciliegie Scarto al quadrato Scarto angurie Scarto al quadrato Lunedì 5,00 1,00-0,5 0,065 + 0,5 0,065 Martedì 5,10 1,00-0,15 0,05 + 0,5 0,065 Mercoledì 5,0 0,80-0,05 0,005 + 0,05 0,005 Giovedì 5,30 0,70 + 0,05 0,005-0,05 0,005 Venerdì 5,40 0,50 + 0,15 0,05-0,5 0,065 Sabato 5,50 0,50 + 0,5 0,065-0,5 0,065 MEDIA 5,5 0,75 Somma= 0 Somma = 0,175 Somma = 0 Somma = 0,5 Per le angurie si ha: M = 0,75 e σ = 0,5/6 = 0,04 Per le ciliegie si ha: M = 5,5 e σ = 0,175/6 = 0,03 Essendo la VARIANZA delle angurie (0,04), maggiore della VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha subito una variazione maggiore rispetto al prezzo delle ciliegie
SCARTO QUADRATICO MEDIO (σ) A volte per misurare il grado di VARIABILITÀ di una distribuzione di dati, si preferisce ricorrere allo SCARTO QUADRATICO MEDIO cioè alla RADICE QUADRATA della VARIANZA varianza L IMPORTANZA dello scarto quadratico medio risiede nel fatto che esso permette di giungere al concetto di NORMALITA nel campo statistico
NORMA e FUORI NORMA Un CARATTERE su cui si indaga si dice compreso NELLA NORMA quando esso non differisce dal CARATTERE MEDIO di più o di meno tre volte lo SCARTO QUADRATICO MEDIO. Un CARATTERE che va fuori tali limiti si dice FUORI NORMA Esempio: Se una popolazione evidenzia un ALTEZZA MEDIA H = 175 cm con uno SCARTO QUADRATICO MEDIO σ = 5 cm, possiamo dire che Un ALTEZZA rientra NELLA NORMA se compresa tra: H 3 σ = 175 3 x 5 = 160 cm H + 3 σ = 175 + 3 x 5 = 190 cm ALTEZZE fuori da tale intervallo (160;190cm) sono FUORI NORMA
Prova tu Esercizio individuale per il 7 maggio Lanciando due dadi, si sono registrati i seguenti punteggi totali: 10 9 8 11 5 4 10 4 7 7 9 10 4 6 8 9 6 5 6 8 7 10 9 5 6 3 8 7 5 7 11 1. organizza i dati in una tabella di frequenza. qual è il dato con la maggior frequenza 3. sono usciti più frequentemente risultati dispari o pari? 4. sono usciti più frequentemente risultati maggiori o minori di 7? 5. qual è la frequenza percentuale del punteggio 6? 6. Determina la MODA e la MEDIANA
LAVORO DI GRUPPO (entro mercoledì 9 maggio): INDAGINE STATISTICA Questionario voi e lo sport Dati specifici 1 Pratichi uno sport? SI NO Dati generali 1 Cittadinanza... Sesso M F 3 Età... 4 Peso... 5 Altezza... Se sì: calcio? SI NO 3 Se sì: nuoto/pallanuoto? SI NO 4 Se sì: danza/ginnastica? SI NO 5 Se sì: pallavolo? SI NO 6 Se sì: pallacanestro? SI NO 7 Se sì: arti marziali? SI NO 8 Se sì: tennis? Si NO 9 Se sì: altro? SI NO