ELEMENTI DI STATISTICA DESCRITTIVA



Похожие документы
Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Grafici delle distribuzioni di frequenza

Elementi di Psicometria con Laboratorio di SPSS 1

Metodi statistici per le ricerche di mercato

Corso di. Dott.ssa Donatella Cocca

Relazioni statistiche: regressione e correlazione

Indici di dispersione

Statistica descrittiva

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Capitolo 12 La regressione lineare semplice


Prova di autovalutazione Prof. Roberta Siciliano

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

Il concetto di valore medio in generale

Statistica descrittiva

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Analisi della performance temporale della rete

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Dott.ssa Caterina Gurrieri

Facciamo qualche precisazione

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Misure della dispersione o della variabilità

Statistica descrittiva: prime informazioni dai dati sperimentali

Statistica. Lezione 6

SPC e distribuzione normale con Access

LEZIONE n. 5 (a cura di Antonio Di Marco)

11. Analisi statistica degli eventi idrologici estremi

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

Metodi Matematici e Informatici per la Biologia Maggio 2010

Capitolo 11 Test chi-quadro

Inferenza statistica. Statistica medica 1

La distribuzione Normale. La distribuzione Normale

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

STATISTICA IX lezione

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

PRODUZIONE DI LENTI A CONTATTO

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Lineamenti di econometria 2

matematica probabilmente

Analisi e diagramma di Pareto

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Corso di Psicometria Progredito

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Capitolo 2 Distribuzioni di frequenza

Elementi di Psicometria con Laboratorio di SPSS 1

1. Distribuzioni campionarie

ESAME DI STATISTICA Nome: Cognome: Matricola:

VERIFICA DELLE IPOTESI

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

PROGRAMMA SVOLTO NELLA SESSIONE N.

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Rapporto dal Questionari Insegnanti

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

DISTRIBUZIONI DI PROBABILITÀ

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Regressione Mario Guarracino Data Mining a.a. 2010/2011

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Elementi di Psicometria con Laboratorio di SPSS 1

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Statistica. Le rappresentazioni grafiche

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Ricerca di outlier. Ricerca di Anomalie/Outlier

Slide Cerbara parte1 5. Le distribuzioni teoriche

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Analisi di dati di frequenza

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in

ELEMENTI DI STATISTICA

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Metodi statistici per le ricerche di mercato

Matematica e Statistica

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

LE CARTE DI CONTROLLO (4)

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

La distribuzione Gaussiana

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Brugnaro Luca Boscaro Gianni (2009) 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

UNIVERSITÀ DEGLI STUDI DI TERAMO

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Il confronto fra proporzioni

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Statistiche campionarie

Temi di Esame a.a Statistica - CLEF

INDICE PREFAZIONE VII

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Транскрипт:

Metodi Statistici e Probabilistici per l Ingegneria ELEMENTI DI STATISTICA DESCRITTIVA Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail: livio.corain@unipd.it Home page: www.gest.unipd.it/~livio/corso_civile.html ELEMENTI DI STATISTICA DESCRITTIVA 1 SOMMARIO Statistica descrittiva vs. Statistica inferenziale Gli aspetti della statistica descrittiva descrizione e forma della distribuzione posizione o tendenza centrale variabilità o dispersione Gli strumenti della statistica descrittiva tabelle e grafici indici di sintesi Statistica descrittiva per serie temporali Statistica descrittiva per i dati multivariati ELEMENTI DI STATISTICA DESCRITTIVA 2

STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE La statistica descrittiva è un insieme di tecniche usate per descrivere le caratteristiche di base dei dati raccolti in un esperimento/studio. Esse forniscono una sintesi semplice del campione e delle misure raccolte. Insieme alla semplice analisi grafica, costituisco la base iniziale di partenza di qualsivoglia analisi quantitativa dei dati. Mentre con le statistiche descrittive si sta semplicemente descrivendo ciò che si osserva o ciò che i dati evidenziano nei loro tratti essenziali, con la statistica inferenziale, si tenterà di raggiungere conclusioni che si estendono oltre i dati raccolti nel loro immediato e che possono essere valide e riferibili ad un contesto più ampio rispetto a quello dei dati di quel singolo esperimento/studio. ELEMENTI DI STATISTICA DESCRITTIVA LA STATISTICA DESCRITTIVA: DEFINIZIONE Con il termine statistica descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati della Statistica: descrivere, rappresentare e sintetizzare in maniera opportuna un insieme o campione di dati relativamente ad un problema (popolazione) di interesse. Per popolazione si intende la totalità dei casi, ovvero delle unità sulle quali e possibile rilevare una variabile di interesse, ad esempio i provini ottenuti da una miscela cemento/calcestruzzo su cui si esegue una prova di compressione allo scopo di misurare il carico di rottura. Per estensione, con popolazione si intende anche il prodotto/processo/fenomeno oggetto di indagine. Per campione si intende invece un insieme finito di n unità che si può ritenere rappresentativo dell intera popolazione (che per definizione ha invece numerosità infinita). ELEMENTI DI STATISTICA DESCRITTIVA 4

STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Mentre la statistica descrittiva si occupa di rappresentare l informazione contenuta in un dato insieme o campione di dati, la statistica inferenziale utilizza tale informazione per fare delle affermazioni più generali riguardanti i parametri (solitamente µ e σ) della popolazione, da cui il campione è stato estratto. Le affermazioni della statistica inferenziale sono di due tipi: STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una delle 2 forme: 1. un valore ben definito (STIMA PUNTUALE) 2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE) VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare ELEMENTI DI STATISTICA DESCRITTIVA 5 STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Si noti la netta distinzione concettuale tra parametri (solitamente µ e σ) della popolazione: si tratta di quantità non osservabili (ma stimabili); stime dei parametri (media e deviazione standard campionaria): si tratta di valori plausibili per un parametro della popolazione e che possiamo calcolare attraverso i dati campionari. Assunto un modello di probabilità rappresentativo della popolazione, attraverso le stime dei parametri possiamo inoltre: stimare il profilo della distribuzione della popolazione; costruire degli intervalli di confidenza per i parametri. Si noti che l assunzione che un data distribuzione di probabilità sia rappresentativa della popolazione non assicura affatto che tale distribuzione rappresenti il vero modello della popolazione. ELEMENTI DI STATISTICA DESCRITTIVA 6

LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI Per descrivere e sintetizzare l informazione campionaria di un fenomeno numerico di interesse, la statistica descrittiva si focalizza su 3 principali aspetti: 1. la descrizione e la forma della distribuzione 2. la posizione o tendenza centrale 3. la variabilità o dispersione Gli strumenti messi a disposizione dalla statistica descrittiva possono essere sia di tipo grafico sia numerico. In questo ultimo caso si tratta di opportuni indici di sintesi, che in unico valore esprimono una specifica caratteristica della distribuzione dei dati: la tendenza centrale, la variabilità e la forma della distribuzione. ELEMENTI DI STATISTICA DESCRITTIVA 7 LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI Grafici: Dotplot (tabella ed) istogramma di frequenza frequenza assoluta, frequenza relativa frequenza, frequenza cumulata boxplot probability plot Indici di sintesi: indici di posizione o tendenza centrale media, mediana, moda indici di variabilità o dispersione varianza, deviazione standard (scarto quadr. medio) range, range interquartile indice di asimmetria ELEMENTI DI STATISTICA DESCRITTIVA 8

UN ESEMPIO: SPESSORE DI UNA LASTRA In uno studio sugli spessori di una lastra nervata in fibrocemento si sono effettuate delle misurazioni (mm), in corrispondenza a 30 posizioni della lastra. ELEMENTI DI STATISTICA DESCRITTIVA 9 UNA PRIMA RAPPRESENTAZIONE GRAFICA Una prima sintetica rappresentazione grafica dei dati è fornita dal dotplot, dove ogni distinto valore osservato corrisponde ad un pallino: Dotplot dello della lastra (mm) Osserviamo che la maggior parte dei dati tende a addensarsi attorno ad un valore centrale (6 mm). 5.7 5.8 5.9 6.0 6.1 (mm) 6.2 6.3 6.4 Possiamo inoltre notare che i dati cadono in un range (intervallo) di 0.8 mm, calcolato come differenza tra il valore massimo (6.4) e minimo (5.6) osservato. ELEMENTI DI STATISTICA DESCRITTIVA 10

LA TABELLA E L ISTOGRAMMA DI FREQUENZA Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo 5.6, dividiamo l intervallo di osservazione dei dati (di ampiezza 0.8 mm) in 8 intervalli di uguale ampiezza pari a 0.1 mm: [5.6, 5.7[, [5.7, 5.8[,..., [6.3, 6.4[. Se contiamo il numero di unità che cadano all interno di ciascun intervallo, otteniamo la tabella ed il corrispondente istogramma di frequenza (assoluta o relativa). Conteggio Frequenza Assoluta Relativa 5.6-5.7 1 3.3% 5.7-5.8 0 0.0% 5.8-5.9 7 23.3% 5.9-6.0 9 30.0% 6.0-6.1 8 26.7% 6.1-6.2 2 6.7% 6.2-6.3 2 6.7% 6.3-6.4 1 3.3% TOTALE 30 100.0% Freqequenza relativa percentuale 30 25 20 15 10 Istogramma della frequenza relativa dello 5 0 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 ELEMENTI DI STATISTICA DESCRITTIVA 11 LA TABELLA E L ISTOGRAMMA DI FREQUENZA Con il termine frequenza assoluta si intende il numero/conteggio di unità che cadano in una determinata classe (intervallo). La frequenza assoluta somma ad n. Con il termine frequenza relativa si intende la frazione (o la percentuale) di unità (rispetto al numero totale di unità) cadano in una determinata classe (intervallo). La frequenza relativa somma ad 1 (o 100%). Per frequenza cumulata si intende invece il numero di unità che sono inferiori ad una data soglia (appartengono all intervallo [, soglia[). La frequenza cumulata può essere sia assoluta sia relativa. ELEMENTI DI STATISTICA DESCRITTIVA 12

LA FREQUENZA CUMULATA Se sommiamo via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che ci dice quante osservazioni cadono fino ad una certa soglia. Per costruzione, il valore della frequenza cumulata rispetto all ultima soglia sarà il numero totale di osservazioni o il valore 100% rispettivamente per la frequenza cumulata assoluta o relativa. Conteggio Frequ. comulata Assoluta Relativa <5.7 1 3.3% <5.8 1 3.3% <5.9 8 26.7% <6.0 17 56.7% <6.1 25 83.3% <6.2 27 90.0% <6.3 29 96.7% <6.4 30 100.0% Istogramma della frequenza relativa cumulata dello Freqequenza relativa percentuale cumulata 100 80 60 40 20 0 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 ELEMENTI DI STATISTICA DESCRITTIVA 13 LA DEFINIZIONE DEGLI INTERVALLI Nella definizione degli intervalli è utile seguire alcune semplici regole empiriche: porre il limite inferiore della prima classe leggermente al di sotto del valore minimo osservato, preferibilmente individuando un valore di riferimento che faciliti l interpretazione dei dati scegliere un numero di intervalli da un minimo di 4-5 ad un massimo di 14-15; in base al numero di intervalli calcolare la corrispondente ampiezza in alternativa, scegliere una ampiezza opportuna dell intervallo, preferibilmente in modo che il numero di classi sia coerente con il punto precedente ELEMENTI DI STATISTICA DESCRITTIVA 14

LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE In un analisi statistica siamo talvolta interessati a esaminare il comportamento simultaneo di due variabili qualitative: per esempio ci possiamo chiedere se esiste un legame fra il livello delle acque ed un particolare bacino idrico, sulla base ad es. delle osservazioni mensili negli ultimi 10 anni. La tabella di contingenza è una tabella a doppia entrata in cui le osservazioni relative a due variabili categoriali vengono rappresentate/sintetizzate simultaneamente. LIVELLO DELLE ACQUE BACINO IDRICO DEL BACINO A B C Totale Basso 40 19 25 84 Medio 10 11 20 41 Alto 70 90 75 235 Totale 120 120 120 360 ELEMENTI DI STATISTICA DESCRITTIVA LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE Al fine di analizzare la possibile associazione esistente fra le due variabili qualitative, è opportuno convertire le frequenze congiunte assolute in frequenze relative (o percentuali). Questa operazione può essere realizzata riferendosi (condizionandosi) alternativamente al: 1. totale complessivo (rappresentato nel nostro caso dalle 360 osservazioni mensili) 2. totale di riga (rispetto al numero totale di mesi per altezza del livello delle acque) 3. totale per colonna (rispetto al numero totale di mesi di osservazione per ciascun bacino) Il risultato e l informazione che se ne ottiene dipende dallo specifico totale che viene scelto a riferimento. ELEMENTI DI STATISTICA DESCRITTIVA

LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE Ad esempio, per analizzare lo stato di salute del livello idrico rispetto a ciascuna area, è opportuno riferirsi alla tabella di frequenza condizionata al totale di colonna. LIVELLO DELLE ACQUE BACINO IDRICO DEL BACINO A B C Totale Basso 33.3% 15.8% 20.8% 23.3% Medio 8.3% 9.2% 16.7% 11.4% Alto 58.3% 75.0% 62.5% 65.3% Totale 100.0% 100.0% 100.0% 100.0% Frequenza nel livello delle acque per bacino idrico 80.0% Frequenza 70.0% 60.0% 50.0% 40.0% 30.0% Livello delle acque Basso Medio Alto 20.0% 10.0% 0.0% A B C Bacino ELEMENTI DI STATISTICA DESCRITTIVA MEDIANA E QUARTILI: DEFINIZIONE Oltre ai valori massimo e minimo, altri indici statistici di posizione possono fornirci informazioni importanti di sintesi sulla distribuzione dei dati. Se ordiniamo i dati, dal più piccolo al più grande: Posizione ordinata 1 2... 8... 15 16... 23... 29 30 5.69 5.81... 5.89... 5.97 5.98... 6.04... 6.24 6.37 Dato ordinato 5.69 5.89 5.975 6.04 6.37 Indice MIN Q1 MEDIANA (Q2) Q3 MAX la media dei due valori nella posizione centrale ((30+1)/2=15.5, cioè 15 e 16 ) definisce la MEDIANA il valore più vicino alla posizione ¼ ((30+1)/4=7.75 quindi l 8 dato della serie ordinata) definisce Q1 (primo QUARTILE) il valore più vicino alla posizione ¾ ( (30+1)*3/4=23.25 quindi il 23 dato) definisce Q3 (terzo QUARTILE) ELEMENTI DI STATISTICA DESCRITTIVA 18

IL BOXPLOT La rappresentazione grafica dei 5 numeri di sintesi: MIN, Q1, MEDIANA, Q3 e MAX, restituisce il cosiddetto BOXPLOT. Per costruzione, all interno della scatola è contenuto il 50% dei dati osservati. MIN 5.7 5.8 5.9 ELEMENTI DI STATISTICA DESCRITTIVA Boxplot dello 6.0 La posizione, dimensione e forma della scatola (cioè la distanza tra i due quartili e la mediana) ed il modo in cui si allungano i tratti laterali ( baffi ) danno un indicazione rispettivamente: della tendenza centrale, della variabilità ( intensità della dispersione) e della simmetria della distribuzione. Si noti che il boxplot può essere visto come una rappresentazione stilizzata della distribuzione dei dati. Q1 Q3 MEDIANA 6.1 6.2 MAX 6.3 19 MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI Sia n il numero di osservazioni del campione di dati. In base al fatto che n sia pari o dispari e che sia divisibile per 4, la mediana ed i quartili vengono così definiti: MEDIANA: se n è dispari, la mediana è il valore della serie ordinata nella posizione (n+1)/2, mentre se n è pari, la mediana è la media aritmetica dei due valori della serie ordinata nelle posizioni n/2 e n/2+1 Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4, mentre se n+1 non è divisibile per 4, se (n+1)/4 e (n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e 94.5) allora Q1 e Q3 sono definiti dalla media aritmetica dei due valori adiacenti della serie ordinata (es. 31-32 e 94-95), altrimenti sono definiti come i valore che sta nella posizione corrispondente al valore (n+1)/4 e (n+1)*3/4 una volta arrotondato all intero più vicino ELEMENTI DI STATISTICA DESCRITTIVA 20

IL BOXPLOT MODIFICATO Se nella costruzione del boxplot, MIN e MAX sono sostituiti o MIN*=max{MIN,Q1-1.5*(Q3-Q1)} o MAX*= min{max,q3+1.5*(q3-q1)} otteniamo il cosiddetto boxplot modificato. In questo caso, se sono presenti alcuni valori che oltrepassano le soglie MIN* e MAX*, essi sono indicati con un asterisco, ad indicare che si potrebbe considerare come dati anomali (outlier) nel campione di dati. 5.6 MIN 5.7 5.8 Boxplot dello 5.9 6.0 6.1 MAX* 6.2 outlier 6.3 6.4 ELEMENTI DI STATISTICA DESCRITTIVA 21 IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI Boxplot (e dotplot) sono particolarmente efficaci nella confronto tra due o più serie di dati, per la comparazione tra tendenza centrale, variabilità e forma della distribuzione. Ad es., per confrontare i Ad es., per analizzare la valori di indice di rimbalzo di tensione di rottura di barre prove sclerometriche per d acciaio di 3 differenti accertare la stima speditiva diametri (12,14,16) via prova della resistenza meccanica di trazione. di due colonne (A/B). Boxplot dell'indice di rimbalzo per Colonna Boxplot della Rottura per 36 34 630 620 Indice di rimbalzo 32 30 28 26 24 Rottura 610 600 590 580 570 560 22 A Colonna B 550 12 14 16 ELEMENTI DI STATISTICA DESCRITTIVA 22

LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI Anche la frequenza può essere utilizzata a scopi comparativi, per evidenziare differenze ad analogie in diverse serie di dati. Una curva più a destra o sotto/a destra rispetto ad un altra, rispettivamente per la frequenza o frequenza cumulata, indica che la corrispondente serie di dati è distribuita su valori tendenzialmente più elevati. Frequenza della Rottura Frequenza cumulata della Rottura Frequenza Percentuale 50 40 30 20 10 12 14 16 Frequenza Cumulata Percentuale 100 80 60 40 20 12 14 16 0 560 580 600 620 0 560 580 600 620 Rottura Rottura ELEMENTI DI STATISTICA DESCRITTIVA 23 IL PROBABILITY PLOT Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull asse verticale e a ciascuna di esse viene fatto corrispondere sull asse orizzontale il relativo quantile di una distribuzione di probabilità (normale, log-normale,ecc.). Se i punti del grafico si trovano approssimativamente su una linea retta immaginaria inclinata positivamente, allora possiamo affermare che i dati osservati si distribuiscono approssimativamente secondo una determinata legge di distribuzione di probabilità. ELEMENTI DI STATISTICA DESCRITTIVA 24

IL PROBABILITY PLOT Probability Plot of Normal - 95% CI Percent 99 95 90 80 70 60 50 40 30 20 Mean 5.991 StDev 0.1412 N 30 AD 0.557 P-Value 0.137 10 5 1 5.5 5.6 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 Probability Plot of Indice di rimbalzo Normal - 95% CI Probability Plot of Rottura Normal - 95% CI Percent 99 95 90 80 70 60 50 40 30 Colonna A B Mean StDev N AD P 30.5 2.838 10 0.167 0.912 27.5 3.689 10 0.245 0.682 Percent 99 95 90 80 70 60 50 40 30 12 14 16 Mean StDev N AD P 589.3 27.67 8 0.419 0.243 595.1 14.36 8 0.126 0.972 610.9 14.93 8 0.443 0.209 20 20 10 10 5 5 1 15 20 25 30 35 Indice di rimbalzo 40 1 500 550 600 Rottura 650 700 ELEMENTI DI STATISTICA DESCRITTIVA 25 INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE La posizione o tendenza centrale di una serie di dati può essere utilmente rappresentata da un unico valore di sintesi come la mediana. Si noti che la mediana non è influenzata dalla presenza di dati anomali e per questo è detta essere un indicatore robusto. Una alternativa è data dalla media campionaria dei valori n osservati ovvero xi x1+ x2 +... + x n i= 1 x = = n n La media campionaria è una sorta di baricentro dei dati e, a differenza della mediana, tende ad essere trascinata verso i dati anomali. Un ulteriore alternativa (poco usata) è la moda, definita come il valore più frequente in una serie di dati. ELEMENTI DI STATISTICA DESCRITTIVA 26

INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE La variabilità o dispersione dei dati indica il grado di oscillazione o variazione dei valori rispetto alla loro tendenza centrale, misurata ad esempio con la media campionaria. L indice statistico s 2, definito come n 2 ( xi x) 2 i= 1 s = n 1 è detto varianza campionaria. Dato che s 2 è definito nel quadrato della unità di misura di X, per facilità di interpretazione si preferisce usare la 2 deviazione standard o scarto quadratico medio s= s. Per comparare la variabilità di X e Y, se misurati su unità di misura diverse si utilizza il coefficiente di variazione: CV = s / x ELEMENTI DI STATISTICA DESCRITTIVA 27 INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE Se in luogo della media campionaria, consideriamo come indice di posizione la mediana, la variabilità dei dati può essere misura dal Range Interquartile definito come IQR = Q3-Q1 si noti che, per costruzione, tale indice di dispersione è sempre 0, risultando tanto più grande quanto più i dati sono variabili rispetto alla mediana. Una ulteriore alternativa è fornita dal Range, ovvero Range= MAX MIN Tale indice tuttavia è di scarso rilievo data la sua evidente dipendenza dalla presenza di eventuali dati anomali. ELEMENTI DI STATISTICA DESCRITTIVA 28

INDICI STATISTICI DI SIMMETRIA Confrontando i due indici di tendenza centrale media campionaria e mediana è possibile trarre delle indicazioni in merito alla simmetria della distribuzione dei dati: media < mediana: asimmetria negativa o distribuzione obliqua a sinistra media = mediana: simmetria media > mediana: asimmetria positiva o distribuzione obliqua a destra Una indicazione più precisa è data dall indice di asimmetria (skewness), che in base al valore assunto, positivo o negativo, ci indica l intensità ed il tipo dell eventuale asimmetria. ELEMENTI DI STATISTICA DESCRITTIVA 29 INDICI STATISTICI DI SINTESI Summary dello Anderson-Darling Normality Test A-Squared 0.56 P-Value 0.137 Mean 5.9913 StDev 0.1412 Variance 0.0199 Sk ewness 0.638190 Kurtosis 0.953411 N 30 5.7 5.8 5.9 6.0 6.1 6.2 6.3 6.4 Minimum 5.6900 1st Quartile 5.8900 Median 5.9750 3rd Quartile 6.0450 Maximum 6.3700 95% Confidence Interval for Mean 5.9386 6.0441 Mean 95% Confidence Intervals 95% Confidence Interval for Median 5.9046 6.0277 95% Confidence Interval for StDev Median 0.1125 0.1898 5.900 5.925 5.950 5.975 6.000 6.025 6.050 ELEMENTI DI STATISTICA DESCRITTIVA 30

INDICI STATISTICI DI SINTESI Summary for Indice di rimbalzo Colonna = A Anderson-Darling Normality Test A-Squared 0.17 P-Value 0.912 Mean 30.500 StDev 2.838 Variance 8.056 Sk ewness 0.091120 Kurtosis -0.761950 N 10 Minimum 26.000 22 24 26 28 30 32 34 1st Quartile 28.000 Median 30.500 3rd Quartile 32.500 Maximum 35.000 95% Confidence Interval for Mean Mean Median 28 95% Confidence Intervals 29 30 31 32 33 28.470 32.530 95% Confidence Interval for Median 28.000 32.685 95% Confidence Interval for StDev 1.952 5.182 Summary for Indice di rimbalzo Colonna = B Anderson-Darling Normality Test A-Squared 0.24 P-Value 0.682 Mean 27.500 StDev 3.689 Variance 13.611 Sk ewness 0.08298 Kurtosis -1.24255 N 10 Minimum 22.000 22 24 26 28 30 32 34 1st Quartile 24.000 Median 27.000 3rd Quartile 30.500 Maximum 33.000 95% Confidence Interval for Mean Mean 95% Confidence Intervals 24.861 30.139 95% Confidence Interval for Median 24.000 30.685 Median 95% Confidence Interval for StDev 24.0 25.5 27.0 28.5 30.0 31.5 2.538 6.735 ELEMENTI DI STATISTICA DESCRITTIVA 31 CONFRONTO TRA INDICI STATISTICI L informazione che si può desumere dagli indici statistici di sintesi può essere particolarmente apprezzata in caso di comparazione tra più serie di dati, come risulta chiaramente dall esempio tensione di rottura di barre d acciaio di 3 differenti diametri. Indice di posizione Media Mediana Skewness 12 589.25 587.5 0.24 14 595.13 596-0.02 16 610.88 612-0.19 Indice di variabilità Dev.std IQR 12 27.7 50.25 14 14.4 25.75 16 14.9 30.75 ELEMENTI DI STATISTICA DESCRITTIVA 32

STATISTICA DESCRITTIVA PER SERIE TEMPORALI Spostiamo ora l attenzione su alcune tecniche descrittive utilizzate per identificare eventuali pattern nei dati provenienti da serie temporali, ovvero sequenze di misure di uno stesso fenomeno/variabile di interesse e che seguono prefissato ordine non casuale (es. il livello delle piogge, maree, la pendenza di un campanile, ecc. misurate ad intervalli di ogni ora, giorno, ecc.). A differenza delle analisi dei campioni di dati che sono discussi nel contesto della maggior parte delle tecniche statistiche descrittive, l'analisi delle serie temporali si basa sul presupposto che i valori successivi nel set di dati rappresentano delle misurazioni, rilevate successivamente una altra in una ben determinata sequenza e ad intervalli di tempo equidistanti. ELEMENTI DI STATISTICA DESCRITTIVA 33 STATISTICA DESCRITTIVA PER SERIE TEMPORALI Ci sono due obiettivi principali nell analisi delle serie temporali: 1. Identificare la natura del fenomeno rappresentato dalla sequenza di osservazioni, e 2. Forecasting: prevedere valori futuri della serie temporale Entrambi questi obiettivi richiedono che un modello esplicativo alla base dei dati della serie temporale osservata sia identificato e descritto più o meno formalmente. Una volta che il modello viene stabilito, siamo in grado di interpretare e integrare con altri dati, con l'obiettivo di estrapolare il modello individuato per predire eventi futuri. Dal punto di vista descrittivo questo può essere fatto mediante un approccio di tipo grafico e per mezzo di due strumenti: trend analysis e smoothing. ELEMENTI DI STATISTICA DESCRITTIVA 34

STATISTICA DESCRITTIVA PER SERIE TEMPORALI Trend Analysis Plot della Precipitazione annua (Grandi Laghi) Quadratic Trend Model Yt = 31.0169-0.0235468*t + 0.000777357*t**2 Variable 40.0 Actual Fits 37.5 Accuracy Measures MA PE 6.04344 MAD 1.92261 35.0 MSD 5.85462 32.5 30.0 Precipitazione Trend analysis mediante trend quadratico 27.5 25.0 1900 1908 1917 1926 1935 1944 1953 1962 1971 1980 Anno Smoothing Esponenziale Precipitazione annua (Grandi Laghi) 40.0 Variable Actual Fits 37.5 Smoothing Constant A lpha 0.104448 Lisciamento mediante Precipitazione 35.0 32.5 30.0 Accuracy Measures MAPE 6.21611 MAD 2.00235 MSD 6.55249 smoothing 27.5 esponenziale 25.0 1900 1908 1917 1926 1935 1944 1953 1962 Anno 1971 1980 ELEMENTI DI STATISTICA DESCRITTIVA 35 STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI Quando sulla stessa unità od oggetto vengono rilevati contemporaneamente due o più variabili numeriche, si parla di dati bi- o multi-variati. In questo caso può essere di interesse studiare il modo in cui queste variabili sono eventualmente legate tra loro. Ad esempio possiamo considerare la Resistenza a compressione (Rc), la Prova di compressione edometrica (Ed) e la Resistenza a trazione indiretta (Rt) misurate sugli stessi provini, ottenuti da scarti provenienti da lavorazioni siderurgiche per la realizzazione di rilevati stradali. Il diagramma di dispersione per una coppia di variabili numeriche X e Y, può fornire una prima chiave di lettura dell eventuale legame esistente tra le variabili. Infatti, a seconda di come si dispone la nuvola di punti, possiamo ritenere plausibile un eventuale legame tra le due variabili. ELEMENTI DI STATISTICA DESCRITTIVA 36

MATRIX PLOT Se consideriamo una serie di diagrammi di dispersione per ogni possibile coppia di variabili, otteniamo il cosiddetto matrix-plot, che può fornire una prima chiave lettura del legame esistente tra le variabili. Possiamo dedurre alcune chiare indicazioni: 1. tutte le tre misure 0 10000 20000 4 8 12 prestazionali sono 10.0 7.5 Rc correlate 5.0 positivamente, 2000 2. il legame più forte si Ed 1000 osserva tra Rt e Ed 0 Matrix Plot di Rc; Ed; Rt mentre quello più Rt debole tra Ed e Rc. ELEMENTI DI STATISTICA DESCRITTIVA 37 IL COEFFICIENTE DI CORRELAZIONE Un modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra coppie di variabili consiste nel calcolare l indice di correlazione (lineare) campionaria: r = n ( x x)( y y) i i i= 1 n n 2 2 ( xi x) ( yi y) i= 1 i= 1 Rc Ed Ed 0.45 Rt 0.82 0.65 La correlazione, varia tra -1 e +1, indicando r = 1 (+1): perfetta correlazione negativa (positiva) 1 < r < 0.7 (+ 1 < r < + 0.7): forte correlazione negativa (positiva) 0.7 < r < 0.3 (+ 0.7 < r < + 0.3): debole correlazione negativa (positiva) 0.3 < r < + 0.3: assenza di correlazione ELEMENTI DI STATISTICA DESCRITTIVA 38