Esplorazione grafica di dati multivariati. N. Del Buono

Documenti analoghi
Esplorazione grafica di dati multivariati. N. Del Buono

Introduzione al KDD. Il processo KDD I metodi di DM

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Laboratorio di dati e sistemi multimediali

MISURE DI SINTESI 54

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Statistica Sociale - modulo A

Elementi di Psicometria con Laboratorio di SPSS 1

Introduzione al KDD. Il processo KDD I metodi di DM

Esercitazioni di statistica

7. ANALISI DISCRIMINANTE

Analisi delle corrispondenze

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Esplorazione dei dati

Statistica descrittiva

I grafici parlano. Principali rappresentazioni grafiche per le distribuzioni doppie rispetto a caratteri di qualsiasi natura.

Esercitazioni di Statistica per Biotecnologie. Francesca Pizzorni Ferrarese

Statistica di base per l analisi socio-economica

Scale di Misurazione Lezione 2

Generazione di Numeri Casuali- Parte 2

Statistica descrittiva con R

Analisi delle corrispondenze

Statistica. Alfonso Iodice D Enza

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Teoria e tecniche dei test. Concetti di base

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

LABORATORIO-MINITAB N. 2-3 VARIABILI QUANTITATIVE

Q1 = /4 0 4 = Me = /2 4 = 3

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Indici di variabilità relativa

Statistica. Alfonso Iodice D Enza

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Statistica descrittiva: misure di associazione

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

PSICOMETRIA Voto X frequenza

Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Nozioni di statistica

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

LEZIONI DI STATISTICA MEDICA

Questionario 1. Sono assegnati i seguenti dati

Regressione lineare semplice

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Statistica descrittiva con R

STATISTICA A K (63 ore)

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica.

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

Esercitazione 6 marzo 2014

Data set relativo a 40 titolari di esercizi commerciali. Durata del percorso casa lavoro (in minuti) Numero dipendenti che lavorano nel negozio

STATISTICA PER LA DIGITAL ECONOMY 2017

Scanned by CamScanner

Capitolo 2. Organizzazione dei dati in forma tabellare e grafica. Statistica. Levine, Krehbiel, Berenson

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

Università di Cassino Corso di Statistica 1 Esercitazione del 15/10/2007 Dott. Alfonso Piscitelli. Esercizio 1

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Analisi Discriminante Canonica con R

Statistica. Campione

Associazione tra caratteri quantitativi: gli indici di correlazione

ESERCIZIO /03/ :23:20

Distribuzione di frequenza e rappresentazioni grafiche

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

STATISTICA 1 ESERCITAZIONE 6

Fonte:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Calcolatrice Casio FX-CG50

ISTITUTO COMPRENSIVO DI DONGO curricolo verticale per la scuola primaria Area di apprendimento: MATEMATICA

Statistica multivariata Donata Rodi 21/11/2016

Quadrato Magico. Fondamenti di Programmazione

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

STATISTICA DESCRITTIVA - SCHEDA N. 2 VARIABILI QUANTITATIVE Rappresentazioni grafiche e quantili

1/55. Statistica descrittiva

Esercitazioni di statistica

Statistica. Lezione 1

STATISTICA DESCRITTIVA - SCHEDA N. 2 VARIABILI QUANTITATIVE (RAPPRESENTAZIONI GRAFICHE E QUANTILI)

Confronto tra più di due campioni

Statistica multivariata 27/09/2016. D.Rodi, 2016

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

x i. Δ x i

Graphical Tools - Analizzare i dati graficamente

Grafi e Funzioni di Costo ESERCIZI

1) Calcolare l indice di eterogeneità di Gini per i caratteri Qualifica Funzionale e Regime di Impiego.

Le disequazioni di primo grado. Prof. Walter Pugliese

Statistica A-K (anno 2014) Lucidi sui NI proiettati a lezione non presenti nel libro di testo

La gestione dei risultati della valutazione. Claudio Mantovani

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

Casa dello Studente. Casa dello Studente

Corso di laurea in Ostetricia A.A. 2016/17. 3 anno. Corso integrato di Metodologia della ricerca, deontologia professionale

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

ANALISI DEI DATI PER IL MARKETING 2014

Transcript:

Esplorazione grafica di dati multivariati N. Del Buono

Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable) Variabile suscettibile (response variable) Associazione positiva trend in salita Associazione negativa trend in discesa Nessun trend mancanza di associazione

Scatterplot Un insiemedidatimultivariaticon piùdidue variabili gli scatter plot possono essere ottenuti da ciascuna coppia di variabili Si ottiene cosi la matrice degli scatterplot matrice simmetrica pxp di scatterplot bivariati le p righe e p colonne corrispondono a ciascuna variabile Lo scatterplot è simmetrico rispetto la diagonale, quindi nella cella ij la variabile j è disegnata rispetto la variabile i. La stessa variabile compare nella cella ji in cui gli assi x ed y sono scambiati

Esempio di utilizzo del toolbox Scatterplot: IRIS data L esempio riguarda la classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica

Esempio di utilizzo del toolbox Scatterplot: IRIS data Il dataset è costituito da 150 esempi di iris catalogati in base ad una analisi di 4 attributi (variabili di input): Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore). Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica): Esempio di pattern (campione): attributi dei fiori (input) classe (output) 5.4 3.9 1.7 0.4 Iris-virginica

Scatterplot: IRIS data Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)

Scatterplot matrix: IRIS data

Box-and-Whisker Plots (boxplot) Un metodo per rappresentare un insieme di dati multivariati è quello di utilizzare un box-and-whisker plot. Box-and-whisker plots sono utili per interpretare la possibile distribuzione dei dati. I grafici Box-and-whisker utilizzano : Mediana : separa i dati in due parti uguali Quartili: separano i dati in 4 parti uguali primo quartile la mediana della parte inferiore dei dati Secondo quartile equivalente alla mediana Terzo quartile la mediana della parte superiore dei dati

Costruire un box-and-whisker plot Variabile: punteggi studenti dati: 80, 75, 90, 95, 65, 65, 80, 85, 70, 100 Ordinare i dati in ordine crescente Determinare il primo quartile, la mediana, il terzo quartile, il più grande ed il più piccolo valore: median = 80 first quartile = 70 third quartile = 90 smallest value = 65 largest value = 100

Costruire un box-and-whisker plot 65, 65, 70, 75,80, 80, 85, 90, 95,100 Primo quartile Mediana (secondo quartile) Terzo quartile 65 70 75 80 85 90 95 100

Outlier: Casi Speciali

Box-and-whisker plot: IRIS data

Co-plot Un grafici di tipo conditioning (coplot) è un metodo di visualizzazione grafica che permette di evidenziare come una response variable dipende da una explanatory variable date altre variabili descrittive. Coplot sono formati da un insieme di scatter plot di una variabile suscettibile rispetto una singola variabile descrittiva Ciascun scatterplot corrisponde ad un particolare range di valori di una seconda variabile descrittiva

Co-plot I grafici sono organizzati in diversi modi Frequentemente si visualizzano utilizzando: Given panels: intervalli di variabilità della variabile descrittiva condizionata Dependence panels: scatterplot bivariati della variabile suscettibile rispetto le restanti variabili descrittive

Co-plot e diagrammi di Trellis I co-plot sono degli esempi di visualizzazioni grafiche più generali note come diagrammi di Trellis. Diagrammi (o grafici) di Trellis permettono di esaminare visualmente l esistenza di strutture nei dati mediante l utilizzo di grafici 1D,2D o 3D. I diagrammi di Trellis permettono di visualizzare le relazioni all interno di larghi dataset distinguendo diversi gruppi.

Diagrammi di Trellis Multipanel conditioning Visualizzazione di come le relazioni tra due variabili cambiano in funzione di una o più variabili condizionate Rappresentazione di diversi tipi di grafici per un range di valori di variabili scelte.

Diagramma di Trellis: Iris Data Esempio di diagramma di Trellis Grafico 3D lunghezza dei sepali (asse x), larghezza dei sepali (asse y) larghezza dei petali (asse z) Condizionato alla: Lunghezza dei petali Specie di fiore

Diagramma di Trellis: Iris Data setosa setosa Petal L.: [1.0 4.4] Petal L.: [4.4 7.1] versicolor versicolor Petal L.: [1.0 4.4] Petal L.: [4.4 7.1]