Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Documenti analoghi
Statistica descrittiva: misure di associazione

Esplorazione dei dati

Statistica descrittiva

Statistica descrittiva

Esplorazione dei dati

Statistica di base per l analisi socio-economica

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Teoria e tecniche dei test. Concetti di base

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Nozioni di statistica

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

MISURE DI SINTESI 54

ESERCIZI DI RIEPILOGO 1

STATISTICA DESCRITTIVA (variabili quantitative)

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Dispensa di Statistica

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Regressione Lineare Semplice e Correlazione

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Elementi di Probabilità e Statistica

docente: J. Mortera/P. Vicard Nome

SCOPO DELL ANALISI DI CORRELAZIONE

Settimana 2. G. M. Marchetti. 4 Marzo 2017

Esempio sulla media geometrica

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Statistica descrittiva

CAPITOLO 11 ANALISI DI REGRESSIONE

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Elementi di Psicometria con Laboratorio di SPSS 1

Ringraziamenti dell Editore

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Esercitazione del

Statistica Compito A

Statistica. Alfonso Iodice D Enza

Coincide con la media aritmetica degli n dati nel campione

Esercitazioni di Metodi Statistici per la Biologia

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

1) Calcolare l indice di eterogeneità di Gini per i caratteri Qualifica Funzionale e Regime di Impiego.

Esempio sulla media geometrica

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Esercitazioni di statistica

Compiti tematici dai capitoli 2,3,4

Indici di Dispersione

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

PROBABILITÀ ELEMENTARE


Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Tipi di variabili. Indici di tendenza centrale e di dispersione

Istituzioni di Statistica

Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

Statistica Sociale - modulo A

Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

Presentazione dell edizione italiana

Esercizi riepilogativi (dai compiti dell A.A. 2001/02 IV canale)

Statistica Un Esempio

Q1 = /4 0 4 = Me = /2 4 = 3

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

Statistica multivariata Donata Rodi 17/10/2016

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

SCHEDA DIDATTICA N 7

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

Test per la correlazione lineare

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

MISURE DI DISPERSIONE

Esercitazioni. Es 1. Dato il seguente dataset

Esercitazione di Statistica Indici di associazione

Statistica. Alfonso Iodice D Enza

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

viii Indice generale

1/55. Statistica descrittiva

INFORMATICA APPLICATA AI PROCESSI BIOTECNOLOGICI

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Esercitazione: La distribuzione NORMALE

INDICI DI FORMA: L ASIMMETRIA

2. Variabilità mediante il confronto di valori caratteristici della

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Statistica A-K (anno 2014) Lucidi sui NI proiettati a lezione non presenti nel libro di testo

Note. Comportamento in laboratorio. Ulteriori Conoscenze di Informatica e Statistica. Piano della lezione

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

La sintesi delle distribuzioni

Confronto tra due popolazioni Lezione 6

tabelle grafici misure di

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Distribuzioni di probabilità

Prefazione Ringraziamenti

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Transcript:

Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione della popolazione rispetto ad una sua variabile/attributo. Abbiamo fin qui visto: indicatori di centralità: media aritmetica, moda, mediana; Indicatori di dispersione: range, deviazione media, MAD; indicatori di variabilita`: varianza, deviazione standard. Oggi vedremo: indicatori di posizionamento: quartili, z-indice.; indicatori di di asimmetria e curtosi; diagrammi scatter, covarianza e correlazione.

Identificazione degli oulier Il teorema di Tchebysheff ha una semplice ed immediata applicazione per identificare gli outlier. Definiamo lo z-indice di una generica osservazione x i : Possiamo ritenere x i sospetto outlier z i ind > 3

Diagrammi box&whiskers Il box si estende tra i due quartili inferiore e superiore. La linea centrale è la mediana I baffi sono il minimo e massimo valore in (q L 1.5D q, q U +1.5D q ) D q =q U -q L (dispersione dei dati) I valori esterni ai baffi sono outlier Disponibile nello statistics toolbox del Matlab >> load carsmall >> boxplot(mpg, Origin)

Asimmetria della curva di densità Momento terzo campionario: Indice di asimmetria (skewness): Misura la mancanza di simmetria

Curtosi della curva di densità Momento quarto campionario: Indice di curtosi: In Matlab, kurtosis() L indice di curtosi misura la pesantezza delle code : I curt >0 : meno valori agli estremi di quanto aspettato Minore dispersione I curt <0 : più valori agli estremi di quanto aspettato. Maggiore dispersione

Analisi bivariata L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (es. i valori di due attributi di un campione) alla ricerca di associazioni. Per esempio possiamo usare l analisi di regressione per determinare se: le spese in pubblicità sono associate con le vendite il fumo è associato con le malattie cardiache la dieta mediterranea è associata con la durata della vita

Scatter plots Un primo approccio all analisi di regressione è la creazione di uno scatter plot, che mostra su un piano XY un punto per ogni coppia di valori In Matlab, scatter(). Per esempio se abbiamo un campione che riporta per ciascuna famiglia le entrate mensili, le spese per attività culturali, le spese per attività sportive ecc., possiamo creare uno scatter plot che usa le coppie entrate-spese culturali per indagare l esistenza di una relazione

Esempio: entrate e spese familiari A partire dal file http://www.di.unipi.it/~turini/analisi%20dei%20dati/dati/expenses.xls trovare: l associazione tra entrate e spese per cultura l associazione tra entrate e spese per sport l associazione tra spese per sport e spese per cultura

Covarianza La covarianza quantifica la forza della relazione tra due insiemi di valori, ovvero misura quanto lineare è la dipendenza tra i due attributi; La covarianza è la media del prodotto delle deviazioni dei valori dalla media degli insiemi dei dati In Matlab cov() un valore positivo indica una variazione di X e Y nella stessa direzione, un valore negativo l opposto

Correlazione Un limite della covarianza è la sua dipendenza dall unità di misura. Per esempio possiamo aumentare il fattore covarianza di 1000, semplicemente usando come unità di misura in luogo di K Nel caso le unità siano appropriate La misura di correlazione risolve il problema producendo un risultato indipendente dalle unità di misura e compreso tra 1 e 1

Correlazione Un valore della correlazione è vicino a 1 indica che i due insiemi di valori tendono a variare in senso opposto Un valore della correlazione vicino a +1 indica che i due insiemi di valori tendono a variare nello stesso senso Una indipendenza nelle variazioni dei due valori produce un indice di correlazione uguale a 0 L indice di correlazione è rilevante solo per relazioni lineari L indice può risultare vicino a 0 anche se esiste una relazione non lineare tra i due insiemi di valori.

Serie temporali Una serie temporale è una tabella in cui una delle variabili è una variabile che assume valori su una scala temporale in modo regolare, ovvero a intervalli fissi. Una serie temporale può essere rappresentata con uno scatter plot con il tempo sull asse orizzontale e la variabile di cui studiare l andamento sull asse verticale. Osservando la serie temporale è possibile rispondere a domande come: i dati hanno un andamento regolare? ci sono schemi ricorrenti (es. le vendite hanno un andamento stagionale?) Esempio: http://www.di.unipi.it/~turini/analisi%20dei%20dati/dati/toys.xls

Esercitazione (1) Esempio: calcolare il valore di asimmetria per la distribuzione dei tempi di interarrivo in banca (http://www.di.unipi.it/~turini/analisi%20dei%20dati/dati/bank.xls) Usando il file http://www.di.unipi.it/~turini/analisi%20dei%20dati/dati/actors.xls 1. Calcolare la distribuzione su salary 2. Costruire un istogramma diviso per categorie tenendo conto del sesso Usando il file http://www.di.unipi.it/~turini/analisi%20dei%20dati/dati/homedata.xls 1. Calcolare la distribuzione dei prezzi delle case 2. Costruire l istogramma della distribuzione tenendo conto della posizione (NE_sector) 3. Calcolare gli indici di asimmetria e di curtosi 4. Calcolare i quartili

Esercitazione (2) Il responsabile del personale della Beta Tecnologies Inc. sta cercando di individuare la variabile che meglio spiega le variazioni di stipendio degli impiegati usando un campione che riporta i dati di 52 impiegati a tempo pieno. I dati sono nel file http://www.di.unipi.it/~turini/analisi%20dei%20dati/dati/impiegati.xls. Si generino diagrammi XY per determinare quale delle seguenti variabili ha la relazione lineare più forte con lo stipendio annuale: sesso età numero di anni di esperienza lavorativa prima dell assunzione in azienda numero di anni di impiego in azienda numero di anni di educazione post-secondaria.

Esercitazione (3) Usando il file http://www.di.unipi.it/~turini/analisi%20dei%20dati/dati/beer.xls che riporta i dati di produzione negli anni 1980-1991 di una anonima fabbrica di birra Studiare l andamento temporale della produzione, sia a livello annuale che a livello mensile.