Esplorazione grafica di dati multivariati N. Del Buono
Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable) Variabile suscettibile (response variable) Associazione positiva trend in salita Associazione negativa trend in discesa Nessun trend mancanza di associazione
Scatterplot Un insiemedidatimultivariaticon piùdidue variabili gli scatter plot possono essere ottenuti da ciascuna coppia di variabili Si ottiene cosi la matrice degli scatterplot matrice simmetrica pxp di scatterplot bivariati le p righe e p colonne corrispondono a ciascuna variabile Lo scatterplot è simmetrico rispetto la diagonale, quindi nella cella ij la variabile j è disegnata rispetto la variabile i. La stessa variabile compare nella cella ji in cui gli assi x ed y sono scambiati
Esempio di utilizzo del toolbox Scatterplot: IRIS data L esempio riguarda la classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica
Esempio di utilizzo del toolbox Scatterplot: IRIS data Il dataset è costituito da 150 esempi di iris catalogati in base ad una analisi di 4 attributi (variabili di input): Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore). Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica): Esempio di pattern (campione): attributi dei fiori (input) classe (output) 5.4 3.9 1.7 0.4 Iris-virginica
Scatterplot: IRIS data Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)
Scatterplot matrix: IRIS data
Box-and-Whisker Plots (boxplot) Un metodo per rappresentare un insieme di dati multivariati è quello di utilizzare un box-and-whisker plot. Box-and-whisker plots sono utili per interpretare la possibile distribuzione dei dati. I grafici Box-and-whisker utilizzano : Mediana : separa i dati in due parti uguali Quartili: separano i dati in 4 parti uguali primo quartile la mediana della parte inferiore dei dati Secondo quartile equivalente alla mediana Terzo quartile la mediana della parte superiore dei dati
Costruire un box-and-whisker plot Variabile: punteggi studenti dati: 80, 75, 90, 95, 65, 65, 80, 85, 70, 100 Ordinare i dati in ordine crescente Determinare il primo quartile, la mediana, il terzo quartile, il più grande ed il più piccolo valore: median = 80 first quartile = 70 third quartile = 90 smallest value = 65 largest value = 100
Costruire un box-and-whisker plot 65, 65, 70, 75,80, 80, 85, 90, 95,100 Primo quartile Mediana (secondo quartile) Terzo quartile 65 70 75 80 85 90 95 100
Outlier: Casi Speciali
Box-and-whisker plot: IRIS data
Co-plot Un grafici di tipo conditioning (coplot) è un metodo di visualizzazione grafica che permette di evidenziare come una response variable dipende da una explanatory variable date altre variabili descrittive. Coplot sono formati da un insieme di scatter plot di una variabile suscettibile rispetto una singola variabile descrittiva Ciascun scatterplot corrisponde ad un particolare range di valori di una seconda variabile descrittiva
Co-plot I grafici sono organizzati in diversi modi Frequentemente si visualizzano utilizzando: Given panels: intervalli di variabilità della variabile descrittiva condizionata Dependence panels: scatterplot bivariati della variabile suscettibile rispetto le restanti variabili descrittive
Co-plot e diagrammi di Trellis I co-plot sono degli esempi di visualizzazioni grafiche più generali note come diagrammi di Trellis. Diagrammi (o grafici) di Trellis permettono di esaminare visualmente l esistenza di strutture nei dati mediante l utilizzo di grafici 1D,2D o 3D. I diagrammi di Trellis permettono di visualizzare le relazioni all interno di larghi dataset distinguendo diversi gruppi.
Diagrammi di Trellis Multipanel conditioning Visualizzazione di come le relazioni tra due variabili cambiano in funzione di una o più variabili condizionate Rappresentazione di diversi tipi di grafici per un range di valori di variabili scelte.
Diagramma di Trellis: Iris Data Esempio di diagramma di Trellis Grafico 3D lunghezza dei sepali (asse x), larghezza dei sepali (asse y) larghezza dei petali (asse z) Condizionato alla: Lunghezza dei petali Specie di fiore
Diagramma di Trellis: Iris Data setosa setosa Petal L.: [1.0 4.4] Petal L.: [4.4 7.1] versicolor versicolor Petal L.: [1.0 4.4] Petal L.: [4.4 7.1]