Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

Documenti analoghi
Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Metodologie statistiche per l analisi del rischio IL RUOLO DELLA STATISTICA NELL ANALISI QUANTITATIVA DEL RISCHIO

Teoria e tecniche dei test. Concetti di base

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Statistica di base per l analisi socio-economica

Nozioni di statistica

ELEMENTI DI STATISTICA DESCRITTIVA

Elementi di Probabilità e Statistica

Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

Esplorazione dei dati

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Capitolo 6. La distribuzione normale

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Lezione 4 a - Misure di dispersione o di variabilità

tabelle grafici misure di

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

2. Variabilità mediante il confronto di valori caratteristici della

Dispensa di Statistica

Una statistica è una quantità numerica il cui valore è determinato dai dati.

Capitolo 6 La distribuzione normale

Statistica descrittiva II

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Esercitazioni di statistica

INDICATORI DI TENDENZA CENTRALE

STATISTICA DESCRITTIVA (variabili quantitative)

INDICATORI DI TENDENZA CENTRALE

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Scale di Misurazione Lezione 2

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

IL RUOLO DEI METODI STATISTICI NELL INGEGNERIA

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

Misure di dispersione (o di variabilità)

INDICATORI DI TENDENZA CENTRALE

STATISTICHE DESCRITTIVE Parte II

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Tutorato di Chimica Analitica 2016/2017

1/55. Statistica descrittiva

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche


Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

MISURE DI SINTESI 54

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

Metodologie statistiche per l analisi del rischio ELEMENTI DI PROBABILITÀ PER L ANALISI DEL RISCHIO

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Statistica Un Esempio

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Compiti tematici dai capitoli 2,3,4

Statistica. Alfonso Iodice D Enza

Esercitazioni di Metodi Statistici per la Biologia

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Coincide con la media aritmetica degli n dati nel campione

STATISTICA 1 ESERCITAZIONE 6

Istituzioni di Statistica e Statistica Economica

Statistica Sociale - modulo A

Elementi di Statistica

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Statistica. Alfonso Iodice D Enza

STATISTICHE DESCRITTIVE

Statistica descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Gli indici di variabilità

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Tipi di variabili. Indici di tendenza centrale e di dispersione

Settimana 2. G. M. Marchetti. 4 Marzo 2017

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Corso di Psicometria Progredito

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

STATISTICA AZIENDALE Modulo Controllo di Qualità

Principi di Statistica Descrittiva (3)

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

Regressione Lineare Semplice e Correlazione

Andrea Bonanomi Università Cattolica del Sacro Cuore. Principi di Statistica Descrittiva. Milano, 9 gennaio 2015 Camera di Commercio

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Indici di Dispersione

Test per la correlazione lineare

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

STATISTICA Disciplina scien tifica che fornisce strumenti per l interpretazione delle informazioni contenute in insiemi di dati relativi a

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

LABORATORIO-MINITAB N. 2-3 VARIABILI QUANTITATIVE

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Q1 = /4 0 4 = Me = /2 4 = 3

REGRESSIONE E CORRELAZIONE

Elementi di Psicometria con Laboratorio di SPSS 1

CURVE DI DURATA: Introduzione e Rappresentazione analitica

Transcript:

Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO Facoltà di Medicina Veterinaria, Università di Padova Docente: Dott. L. Corain SOMMARIO Definizione di statistica descrittiva Statistica descrittiva vs. Statistica inferenziale Gli aspetti della statistica descrittiva descrizione e forma della distribuzione posizione o tendenza centrale variabilità o dispersione Gli strumenti della statistica descrittiva tabelle e grafici indici di sintesi Statistica descrittiva per i dati multivariati 2

LA STATISTICA DESCRITTIVA: DEFINIZIONE Con il termine statistica descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati della Statistica: descrivere, rappresentare e sintetizzare in maniera opportuna un campione di dati relativo ad un problema (popolazione) di interesse. Per popolazione si intende la totalità dei casi, ovvero delle unità statistiche, sulle quali e possibile rilevare il fenomeno di interesse, ad esempio la prevalenza di colonie batteriche in un certo alimento. In questo caso, la popolazione è la totalità dei campioni (vetrini, piastre, ecc.) che sono riferibili alle condizioni produttive (o di conservazione, trasporto, ecc.) dell alimento. 3 STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Mentre la statistica descrittiva si occupa di rappresentare l informazione contenuta in un dato insieme o campione di dati, la statistica inferenziale utilizza tale informazione per fare delle affermazioni più generali riguardanti i parametri (solitamente µ e σ) della popolazione, da cui il campione è stato estratto. Le affermazioni della statistica inferenziale sono di due tipi: STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una delle 2 forme:. un valore ben definito (STIMA PUNTUALE) 2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE) VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare 4 2

STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Si noti la netta distinzione concettuale tra parametri (solitamente µ e σ) della popolazione: si tratta di quantità non osservabili, ma stimabili attraverso i dati campionari. stime dei parametri (media e deviazione standard campionaria): si tratta di valori plausibili di un parametro della popolazione che possiamo calcolare attraverso i dati campionari. Assunto un modello di probabilità di rappresentazione della popolazione, attraverso le stime dei parametri possiamo stimare anche la distribuzione della popolazione stessa. Si noti che l assunzione di un modello di probabilità non assicura affatto che tale modello sia il vero della distribuzione della popolazione. 5 LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI Per descrivere e sintetizzare l informazione campionaria di un fenomeno numerico di interesse, la statistica descrittiva si focalizza su 3 principali aspetti:. la descrizione e la forma della distribuzione 2. la posizione o tendenza centrale 3. la variabilità o dispersione Gli strumenti messi a disposizione dalla statistica descrittiva possono essere sia di tipo grafico che numerico. In questo ultimo caso si tratta di opportuni indici di sintesi, che in unico valore esprimono una specifica caratteristica della distribuzione dei dati: la tendenza centrale, la variabilità e la forma della distribuzione. 6 3

LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI Grafici: Dotplot (tabella ed) istogramma di frequenza frequenza assoluta, frequenza relativa frequenza, frequenza cumulata boxplot probability plot Indici di sintesi: indici di posizione o tendenza centrale media, mediana, moda indici di variabilità o dispersione varianza, deviazione standard (scarto quadr. medio) range, range interquartile indice di asimmetria 7 UN ESEMPIO: L ACQUA EROGATA DA UNA PIPETTA Una pipetta è stato usata per trasferire cm 3 di acqua distillata in una provetta tarata per la pesatura. L'esperimento è stato replicato 50 volte....... 8 4

UNA PRIMA RAPPRESENTAZIONE GRAFICA Una prima sintetica rappresentazione grafica dei dati è fornita dal dotplot, dove ogni distinto valore osservato corrisponde ad un pallino: Dotplot del Peso dell'acqua erogata dalla pipetta Osserviamo che la maggior parte dei dati tende a addensarsi attorno ad un valore centrale (che però è 0.94 0.96 0.98.00.02.04.06.08.0 inferiore a gr). Peso Possiamo inoltre notare che i dati cadono in un range (intervallo) di 0.4 gr, calcolato come differenza tra il valore massimo (.0) e minimo (0.94) osservato. 9 LA TABELLA E L ISTOGRAMMA DI FREQUENZA Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo di 0.94, dividiamo l intervallo di osservazione dei dati (di ampiezza 0.4 gr) in 5 intervalli di uguale ampiezza pari a 0.0: [0.94, 0.95[, [0.95, 0.96[,..., [.08,.09[. Se contiamo il numero di unità che cadano all interno di ciascun intervallo, otteniamo la tabella ed il corrispondente istogramma di frequenza. Conteggio di Peso Frequenza Intervallo Assoluta Relativa 0.94-0.95 3 6% 0.95-0.96 4 8% 0.96-0.97 2 24% 0.97-0.98 8 6% 0.98-0.99 9 8% 0.99-.00 4 8%.00-.0 2 4%.0-.02 3 6%.02-.03 2 4%.03-.04 0 0%.04-.05 0 0%.05-.06 2%.06-.07 2%.07-.08 0 0%.08-.09 2% Totale 50 00% Frequency 2 0 0 0.94 0.95 0.96 0.97 0.98 0.99.00.0.02.03.04.05.06.07.08.09.0 Peso 8 6 4 2 Histogram of Peso 0 5

LA FREQUENZA CUMULATA Se sommiamo via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che ci dice quante osservazioni cadono fino ad una certa soglia. Per costruzione, il valore della frequenza cumulata rispetto all ultima soglia sarà il numero totale di osservazioni o il valore 00% rispettivamente per la frequenza cumulata assoluta o relativa. Conteggio di Peso Frequ. comulata Intervallo Assoluta Relativa < 0.95 3 6% < 0.96 7 4% < 0.97 9 38% < 0.98 27 54% < 0.99 36 72% <.00 40 80% <.0 42 84% <.02 45 90% <.03 47 94% <.04 47 94% <.05 47 94% <.06 48 96% <.07 49 98% <.08 49 98% <.09 50 00% Cumulative Percent 00 80 60 40 20 0 Distribuzione relativa cumulata del Peso 0.95 0.96 0.97 0.98 0.99.00.0.02.03.04.05.06.07.08.09 Peso LA DEFINIZIONE DEGLI INTERVALLI Nella definizione degli intervalli è utile seguire alcune semplici regole empiriche: porre il limite inferiore della prima classe leggermente al di sotto del valore minimo osservato, preferibilmente individuando un valore di riferimento che faciliti l interpretazione dei dati scegliere un numero di intervalli da un minimo di 4-5 ad un massimo di 4-5; in base al numero di intervalli calcolare la corrispondente ampiezza in alternativa, scegliere una ampiezza opportuna dell intervallo, preferibilmente in modo che il numero di classi sia coerente con il punto precedente 2 6

MEDIANA E QUARTILI: DEFINIZIONE Oltre ai valori massimo e minimo, altri indici statistici di posizione possono fornirci informazioni importanti di sintesi sulla distribuzione dei dati. Se ordiniamo i dati, dal più piccolo al più grande Posizione ordinata 2... 2... 25 26... 38... 49 50 Peso 0.945 0.946... 0.962... 0.977 0.977... 0.994....063.085 Indice 0.945 0.962 0.977 0.994.085 MIN Q MEDIANA (Q2) Q3 MAX la media dei due valori nella posizione centrale ((50+)/2=25.5, cioè 25 e 26 ) definisce la MEDIANA il valore più vicino alla posizione ¼ ((50+)/4=2.75 quindi il 3 dato) definisce Q (primo QUARTILE) il valore più vicino alla posizione ¾ ( (50+)*3/4=38.25 quindi il 38 dato) definisce Q3 (terzo QUARTILE) 3 MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI Sia n il numero di osservazioni del campione di dati. In base al fatto che n sia pari o dispari e che sia divisibile per 4, la mediana ed i quartili vengono così definiti: MEDIANA: se n è dispari, la mediana è il valore della serie ordinata nella posizione (n+)/2, mentre se n è pari, la mediana è la media aritmetica dei due valori della serie ordinata nelle posizioni n/2 e n/2+ Q e Q3: se n+ è divisibile per 4, Q e Q3 sono i valori della serie ordinata nelle posizioni (n+)/4 e (n+)*3/4, mentre se n+ non è divisibile per 4, se (n+)/4 e (n+)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e 94.5) allora Q e Q3 sono definiti dalla media aritmetica dei due valori adiacenti della serie ordinata (es. 3-32 e 94-95), altrimenti sono definiti come i valore che sta nella posizione corrispondente al valore (n+)/4 e (n+)*3/4 una volta arrotondato all intero più vicino 4 7

IL BOXPLOT La rappresentazione grafica dei 5 numeri di sintesi: MIN, Q, MEDIANA, Q3 e MAX, forniscono il cosiddetto BOXPLOT. Per costruzione, all interno della scatola è contenuto il 50% dei dati osservati. MIN Q Q3 MEDIANA MAX La forma della scatola (rispetto alla mediana) ed il modo in cui si allungano i tratti laterali ( baffi ) danno un indicazione sia della tendenza centrale, che sulla variabilità ( intensità della dispersione) che sulla simmetria della distribuzione. 5 IL BOXPLOT MODIFICATO Se nella costruzione del boxplot, MIN e MAX sono sostituiti o MIN*=max{MIN,Q-.5*(Q3-Q)} o MAX*= min{max,q3+.5*(q3-q)} otteniamo il cosiddetto boxplot modificato. In questo caso, se sono presenti alcuni valori che oltrepassano le soglie MIN* e MAX*, essi sono indicati MIN con un asterisco, ad indicare che si potrebbe considerare come dati anomali (outlier) 0.950 0.975 nel campione di dati..000 Boxplot of Peso MAX*.025 Peso.050 outliers.075.00 6 8

A B A B IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI Boxplot e dotplot sono particolarmente efficaci nella confronto tra più serie di dati, per la comparazione tra tendenza centrale, variabilità e forma della distribuzione. Ad esempio, considerati 3 impianti A,B,C, possiamo confrontare un campione di valori di produzione per ciascuno dei tre impianti. Dotplots of Produzione by Impianto Boxplots of Produzione by Impianto 5 5 0 0 05 05 Produzione 00 95 Produzione 00 95 90 90 85 85 80 80 Impianto C Impianto C 7 LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI Anche la frequenza può essere utilizzata a scopi comparativi, per evidenziare differenze ad analogie in diverse serie di dati. Una curva più a destra o sotto/a destra rispetto ad un altra, rispettivamente per la frequenza o frequenza cumulata, indica che la corrispondente serie di dati è distribuita su valori tendenzialmente più elevati. Frequenza assoluta, per impianto Frequenza assoluta cumulata, per impianto Frequency 0 9 8 7 6 5 4 3 2 A B C Cumulative Frequency 25 20 5 0 5 A B C 0 0 80 85 90 95 00 05 Produzione 0 5 20 80 85 90 95 00 05 Produzione 0 5 20 8 9

IL PROBABILITY PLOT Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull asse verticale e a ciascuna di esse viene fatto corrispondere sull asse orizzontale il relativo quantile di una distribuzione di probabilità (normale, log-normale,ecc.). Se i punti del grafico si trovano approssimativamente su una linea retta immaginaria inclinata positivamente, allora possiamo affermare che i dati osservati si distribuiscono approssimativamente secondo la legge della distribuzione di probabilità in questione. 9 IL PROBABILITY PLOT Probability Plot of Peso Lognormal - 95% CI Percent 99 95 90 80 70 60 50 40 30 20 Loc -0.0753 Scale 0.02857 N 50 A D.592 P-Value <0.005 0 5 0.90 0.95.00 Peso.05.0 Probability Plot of Peso Normal - 95% CI 99 95 90 Mean 0.9830 StDev 0.02868 N 50 AD.768 P-Value <0.005 80 70 Percent 60 50 40 30 20 0 5 0.90 0.95.00 Peso.05.0 20 0

INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE La posizione o tendenza centrale di una serie di dati può essere utilmente rappresentata da un unico valore di sintesi come la mediana. Si noti che la mediana non è influenzata dalla presenza di dati anomali e per questo è detta essere un indicatore robusto. Una alternativa è data dalla media campionaria dei valori n osservati ovvero xi x+ x2 +... + x n i= x = = n n La media campionaria è una sorta di baricentro dei dati e, a differenza della mediana, tende ad essere trascinata verso i dati anomali. Un ulteriore alternativa (poco usata) è la moda, definita come il valore più frequente in una serie di dati. 2 INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE La variabilità o dispersione dei dati indica il grado di oscillazione o variazione dei valori rispetto alla loro tendenza centrale, misurata ad esempio con la media campionaria. L indice statistico s 2, definito come n 2 ( xi x) 2 i= s = n è detto varianza campionaria. Dato che s 2 è definito nel quadrato della unità di misura di X, per facilità di interpretazione si preferisce usare la 2 deviazione standard o scarto quadratico medio s= s. Per comparare la variabilità di X e Y, se misurati su unità di misura diverse si utilizza il coefficiente di variazione: CV = s / x 22

INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE Se in luogo della media campionaria, consideriamo come indice di posizione la mediana, la variabilità dei dati può essere misura dal Range Interquartile definito come IQR = Q3-Q si noti che, per costruzione, tale indice di dispersione è sempre 0, risultando tanto più grande quanto più i dati sono variabili rispetto alla mediana. Una ulteriore alternativa è fornita dal Range, ovvero Range= MAX MIN Tale indice tuttavia è di scarso rilievo data la sua evidente dipendenza dalla presenza di eventuali dati anomali. 23 INDICI STATISTICI DI SIMMETRIA Confrontando i due indici di tendenza centrale media campionaria e mediana è possibile trarre delle indicazioni in merito alla simmetria della distribuzione dei dati: media < mediana: asimmetria negativa o distribuzione obliqua a sinistra media = mediana: simmetria media > mediana: asimmetria positiva o distribuzione obliqua a destra Una indicazione più precisa è data dall indice di asimmetria (skewness), che in base al valore assunto, positivo o negativo, ci indica l intensità ed il tipo dell eventuale asimmetria. 24 2

INDICI STATISTICI DI SINTESI Summary for Peso Anderson-Darling Normality Test A-Squared.77 P-Value < 0.005 Mean 0.98302 StDev 0.02868 V ariance 0.00082 Skew ness.6433 Kurtosis 3.20499 N 50 0.96 0.98.00.02.04.06.08 Minimum 0.94500 st Q uartile 0.96275 Median 0.97700 3rd Q uartile 0.99425 Maximum.08500 95% C onfidence Interval for Mean 95% Confidence Intervals 0.97487 0.997 95% C onfidence Interv al for Median 0.96867 0.98500 95% C onfidence Interv al for StDev 0.02396 0.03574 Mean Median 0.970 0.975 0.980 0.985 0.990 25 CONFRONTO TRA INDICI STATISTICI L informazione che si può desumere dagli indici statistici di sintesi può essere particolarmente apprezzata in caso di comparazione tra più serie di dati, come risulta chiaramente dall esempio della produzione dei tre impianti. Impianto Indice di posizione Media Mediana Skewness A 00. 00.0-0.50 B 96. 95.7 0.03 C 9.5 89.8.09 Indice di dispersione Varianza DevStd IQR A 29.0 5.4 5.7 B 78.8 8.9 8.2 C 62.6 7.9.8 26 3

STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI Quando sulla stessa unità od oggetto vengono rilevati contemporaneamente due o più variabili numeriche, si parla di dati bi- o multi-variati. In questo caso è di interesse studiare il modo in cui queste variabili sono eventualmente associate tra loro. Ad esempio possiamo considerare il volume di produzione, il ciclo temporale e la temperatura media, di un certo processo industriale. Il diagramma di dispersione per una coppia di variabili numeriche X e Y, può fornire una prima chiave lettura del legame esistente tra le variabili. Infatti, a seconda di come si dispone la nuvola di punti, possiamo ritenere plausibile un eventuale legame tra le due variabili. 27 MATRIX PLOT Se consideriamo una serie di diagrammi di dispersione per ogni possibile coppia di variabili, otteniamo il cosiddetto matrix-plot, che può fornire una prima chiave lettura del legame esistente tra le variabili. Possiamo dedurre una chiara indicazione che VOL_PROD 24.925 22.375 TEMPO TEMPER 3.46 2.68 3.66 3.42 22.375 24.925 VOL_PROD 2.68 3.46 TEMPO 3.42 3.66 TEMPER. tempo e volume di produzione sono correlati positivamente, 2. temperatura - tempo e temperatura - volume di produzione sono invece correlati negativamente. 28 4

IL COEFFICIENTE DI CORRELAZIONE Un modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra coppie di variabili consiste nel calcolare l indice di correlazione (lineare) campionaria: r = n ( x x)( y y) i i i= n n 2 2 ( xi x) ( yi y) i= i= Correlations: VOL_PROD; TEMPO; TEMPER VOL_PROD TEMPO TEMPO 0.908 TEMPER -0.95-0.990 Cell Contents: Pearson correlation La correlazione, varia tra - e +, indicando r = (+): perfetta correlazione negativa (positiva) < r < 0.7 (+ < r < + 0.7): forte correlazione negativa (positiva) 0.7 < r < 0.3 (+ 0.7 < r < + 0.3): debole correlazione negativa (positiva) 0.3 < r < + 0.3: assenza di correlazione 29 5