Esercitazione di riepilogo 23 Aprile 2013
Grafici Grafico a barre Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete. Grafico a settori circolari (torta) Si usano quando si vuole evidenziare come il fenomeno viene suddiviso tra le varie modalità che lo compongono. Istogramma Vengono utilizzati per rappresentare distribuzioni di variabili quantitative continue, rappresentate in classi Diagramma cartesiano Si usa quando si vuole rappresentare l andamento di un fenomeno (serie statistica), che varia in funzione di un parametro. Diagramma di dispersione Si usano nel caso di una statistica doppia, in cui entrambi i caratteri sono delle variabili Serve per osservare la dispersione ossia la vicinanza o distanza tra le unità statistiche Altri diagrammi (diagramma logaritmico, di Pareto, scatola e baffi)
Istogramma Vengono utilizzati per rappresentare distribuzioni di variabili quantitative continue, rappresentate in classi Classi di uguale ampiezza Rettangoli con - stessa base -altezza proporzionale alla frequenza area dei rettangoli = frequenza totale moltiplicato l ampiezza della classe Classi di ampiezza diversa Rettangoli con -Base proporzionali all ampiezza della classe -Altezza proporzionale alla densità di frequenza (freq. diviso ampiezza della classe) Area dei rettangoli = frequenza della classe
Automaticamente Usando Analisi dei dati : Istogramma dà automaticamente classi, frequenze e relativo istogramma. Eventualmente raffinare le classi.
Manualmente Calcola l ampiezza delle classi Calcola la densità di frequenza (frequenza/ampiezza) Sulle ascisse rappresenta le classi Si innalzano i rettangoli di base due valori successivi delle ascisse, e per altezze le densità
Frequenza Come estrarre queste frequenze con Excel? 1. Considerare solo la colonna dei tempi 2. Individuare il valore minimo e il valore massimo (funzioni) 3. Preparare la colonna delle classi di singolo valore, a partire dal minimo fino al massimo. Usare il Riempimento (Home) e incremento di 1. Abbiamo creato quindi le classi di ampiezza 1. Vogliamo ora calcolare le frequenze di ogni singolo valore (queste sono le nostre classi).
Frequenza Come estrarre queste frequenze con Excel? La funzione FREQUENZA ha bisogno di una matrice dati (quindi selezionare la colonna dei tempi) e di una matrice delle classi (quindi selezionare quella appena creata). Attenzione: affinché sia riportata la frequenza per ogni valore della classe, occorre che la formula sia in forma di matrice. Occorre quindi, PRIMA di richiamare la funzione evidenziare la colonna in cui andrà il risultato (tante celle quante sono le classi +1) Quando poi, dalla finestra di dialogo della funzione FREQUENZA, si immette la matrice delle classi, non premere INVIO ma premere CTRL+MAIUSC+INVIO. Se non si fa così, si visualizza un solo valore.
Esercizio Esercizio 1 (Istogramma delle frequenze) La tabella disponibile nel file EsameIstogrammaGeyser.xlsx fornisce un campione di 24 misurazioni dei tempi di attesa per l eruzione successiva (in minuti). a) Fornire un istogramma delle frequenze dei tempi di eruzione del geyser scegliendo opportunamente le classi in modo che rappresentino in maniera significativa il fenomeno, utilizzando lo strumento Analisi dei dati. b) Ripetere l esercizio (di cui al punto a)) senza far uso dello strumento Analisi dei dati, ma calcolando i valori necessari (frequenze, etc.) con le opportune funzioni di Excel, in modo che l istogramma risultante sia identico a quello fornito al punto a). Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b).
Altri grafici 2.7 Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute Diagramma di Pareto: serve per rappresentare la perdita economica (difettosità e loro costi). Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo)
Diagramma logaritmico Esempio 2.11 Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute. Si usa la scala logaritmica per rappresentare le ordinate Esempio 2.11. La tabella mostra il traffico dei passeggeri negli aeroporti italiani nel periodo 1948-1983. Anni Passeggeri (migliaia) 1948 212 1953 324 1958 922 1963 2855 1968 5612 1973 10171 1978 12842 1983 14864
Diagramma logaritmico Anni Passeggeri (migliaia) 1948 212 1953 324 1958 922 1963 2855 1968 5612 1973 10171 1978 12842 1983 14864 Passeggeri (migliaia) 16000 14000 12000 10000 100000 10000 Passeggeri (migliaia) 8000 6000 4000 Passeggeri (migliaia) 1000 100 Passeggeri 2000 0 1948 1953 1958 1963 1968 1973 1978 1983 10 1 19481953195819631968197319781983 Diagramma cartesiano Diagramma logaritmico
Esempio 2.11 Usiamo la scala logaritmica (valori molto distanti tra loro ) Creiamo il foglio con i dati Scegliamo il grafico Logaritmico PROVIAMO Nella casella Serie e Etichette X indicare le celle relative agli anni Nella etichetta Serie e Valori indicare le celle con i valori del traffico Se non c è questa opzione, fare clic sul grafico. Formato Selezione corrente : fare clic sulla freccia accanto alla casella Area del grafico e quindi su Asse verticale (valori). Doppi click su Formato Selezione : Opzioni assi: per modificare l'asse dei valori in logaritmico, selezionare la casella di controllo Scala logaritmica.
Diagramma di Pareto Diagrammi di Pareto: servono per rappresentare la perdita economica (difettosità e loro costi). Ordinate: frequenza di ciascun tipo di difetto riscontrato Ascisse: tipologie di difetto in ordine di frequenza decrescente Curva cumulativa: rappresenta i valori cumulativi per ciascun tipo di difetto è possibile valutare quanto siano pesanti i primi difetti rispetto alla globalità dei difetti
Esempio 2.12 La tabella seguente riporta la distribuzione, per tipologia di difetto, di 200 pezzi meccanici. Graficare l andamento della difettosità. Tipo di difetto Numero di difetti deformazione 104 foro 42 graffio 20 giuoco 14 rottura 10 macchia 7 altri 3 Riportare i dati nel foglio excel. Ordinare i dati in senso decrescente (dati, ordina), in un nuovo foglio. Aggiungere C1 totale cumulato ; in C3 inserire =B3 e poi in C4 inserire =B4+C3 e poi trascinare. Per le percentuali cumulate, nella cella D3 digitare =C3/$C$9 e poi trascinamento (formattare celle come percentuali )
Tipo di difetto Numero di Totale Percentuale difetti cumulato cumulata deformazione 104 104 52,00% foro 42 146 73,00% graffio 20 166 83,00% giuoco 14 180 90,00% rottura 10 190 95,00% macchia 7 197 98,50% altri 3 200 100,00% Ora dobbiamo inserire il grafico. Selezioniamo le celle B1:B9 e D1:D9; selezioniamo Grafico Istogramma Serie, Etichette asse X: selezionare A3:A10 Valori: B3:B9 Selezionare la parte di istogramma che riguarda la percentuale cumulata e cambiare il grafico (a linee). Poi, selezionare la serie percentuale cumulata (formato, elementi grafico menu sinistra) e formato selezione. Opzioni serie traccia la serie lungo asse secondario.
Diagramma di Pareto Tipo di difetto Numero di Totale Percentuale difetti cumulato cumulata deformazione 104 104 52,00% foro 42 146 73,00% graffio 20 166 83,00% giuoco 14 180 90,00% rottura 10 190 95,00% macchia 7 197 98,50% altri 3 200 100,00% 120 120,00% 100 100,00% 80 80,00% 60 60,00% 40 40,00% Numero di difetti Percentuale 20 20,00% 0 0,00%
Diagramma a scatola e baffi (box-plot) Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo) Internamente alla scatola sono rappresentati: mediana e media aritmetica Le linee esterne rappresentano il I e il III quartile (la distanza misura la dispersione della distribuzione) La distanza tra ciascun quartile e la mediana rappresenta la forma della distribuzione Se è diversa, la distribuzione è asimmetrica Se la distribuzione è normale, media e mediana coincidono; le distanze tra I quartile e mediana e tra mediana e III quartile coincidono, così come minimo e I quartile, III quartile e massimo. In generale, queste distanze danno informazioni sulla forma della coda della distribuzione
Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base (inserire la formula relativa alla macchina A, poi fare il trascinamento). PROVIAMO
Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base (inserire la formula relativa alla macchina A, poi fare il trascinamento). PROVIAMO Dobbiamo inserire il grafico. Selezioniamo le celle F2:I8 e inseriamo il grafico a linee (con indicatori). Cambiare l opzione di Selezionata dati Scambia colonne/righe PROVIAMO
Esempio 2.14 Le 3 osservazioni sono unite da linee che non ci interessano. Per rimuoverle, nel menù Formato selezionare nel menù a tendina a sinistra la serie dei dati selezionati, per es. Serie I quartile, doppio click su Formato selezione, selezionare la linea, Colore Linea nessuna ; Nel menù Layout, selezionare Analisi; poi indicare Linee Linee di Min- Max e poi Barre Barre Crescenti-decrescenti PROVIAMO
Diagramma boxplot 74,04 74,03 74,02 74,01 74 73,99 73,98 73,97 73,96 I quartile valore minimo media mediana valore massimo III quartile 73,95 73,94 73,93 Macchina A Macchina B Macchina C
Sintesi dei dati in una tabella Spesso si vuole effettuare una sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti. Indici di posizione / misure di tendenza centrale: medie, mediana, quartili, percentili e moda (cap. 3) Indici di variabilità: range, varianza, scarto quadratico medio (cap. 4) Indici di forma: asimmetria e curtosi (cap.5)
di di forma di dispersione di posizione Indici: Schema riassuntivo x media: i i x N moda: punto di max della distribuzione mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) varianza deviazione standard range 2 s skewness (coeff. di asimmetria) x 2 i x N 1 curtosi: misura quanto la distribuzione è appuntita s R i x max x min > 0 più appuntita < 0 meno appuntita >0 coda a ds <0 coda a sin =0 simmetrica
Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Siano x x x n osservazioni numeriche,,..., n 1 2 di posizione MODA MEDIANA MEDIA QUARTILI E PERCENTILI INDICI di dispersione di forma SCARTO QUADRATICO MEDIO VARIANZA RANGE ERRORE STANDARD ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS)
Errore standard Sebbene lo strumento di statistica descrittiva negli strumenti di analisi è in grado di generare un report che include l'errore standard della media, non esiste alcuna funzione in Microsoft Excel per calcolare automaticamente il valore di per sé. Per calcolare l'errore standard della media, si può utilizzare = DEV.ST(matrice)/SQRT(Conteggio)
Più piccolo/grande(k) Per calcolare il minimo, il secondo minimo, e in genere il k-esimo elemento più piccolo, si usa: PICCOLO(matrice; k) Analogamente per il k-esimo elemento più grande GRANDE(matrice; k)
Statistica descrittiva (cap.6) Molti indici trattati finora sono generati automaticamente da Excel, usando Statistica descrittiva del menù Analisi dei dati. Proviamo Etichette nella prima riga/etichette nella prima colonna: deselezionarle se l intervallo non contiene etichette (altrimenti selezionare quella appropriata, come nell esempio 6.3)
Esempio 6.1 La tabella seguente riporta il peso in grammi di un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche Media 99,79652336 Errore standard 0,010062453 Mediana 99,79312502 Moda #N/D Deviazione standard 0,100624532 Varianza campionaria 0,010125296 Curtosi 0,083114239 Asimmetria 0,069723767 Intervallo 0,484818884 Minimo 99,55261744 Massimo 100,0374363 Somma 9979,652336 Conteggio 100 Più grande(1) 100,0374363 Più piccolo(1) 99,55261744 Non esistono duplicati
Funzioni del Riepilogo statistiche Manualmente: Riepilogo statistiche Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(2) Più piccolo(3) =MEDIA(A2:A101) =DEV.ST(A2:A101)/RADQ(G14) =MEDIANA(A2:A101) =MODA(A2:A101) =DEV.ST(A2:A101) =VAR(A2:A101) =CURTOSI(A2:A101) =ASIMMETRIA(A2:A101) =MAX(A2:A101)-MIN(A2:A101) =MIN(A2:A101) =MAX(A2:A101) =SOMMA(A2:A101) =CONTA.NUMERI(A2:A101) =GRANDE(A2:A101;2) =PICCOLO(A2:A101;3) Non hanno funzione esplicita
Esercizio Esercizio 2 (Riepilogo statistiche) La tabella nel file Esempio 6.1 alla pagina http://www.di.unisa.it/professori/anselmo/labpixbio.htm, riporta il peso in grammi di un campione di 100 tavolette di cioccolato. a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella tabella, che contenga, oltre alle statistiche standard (media, mediana, ) anche il Secondo più grande e il Terzo più piccolo, utilizzando la funzione Riepilogo statistiche. b) Ripetere l esercizio (di cui al punto a)) senza far uso della funzione Riepilogo statistiche, ma calcolando i valori necessari (media, mediana, etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia identica a quello fornita al punto a). Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b).