Esplorazione grafica di dati multivariati. N. Del Buono

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Esplorazione grafica di dati multivariati. N. Del Buono"

Transcript

1 Esplorazione grafica di dati multivariati N. Del Buono

2 Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable) Variabile suscettibile (response variable) Associazione positiva trend in salita Associazione negativa trend in discesa Nessun trend mancanza di associazione

3 Scatterplot Un insiemedidatimultivariaticon piùdidue variabili gli scatter plot possono essere ottenuti da ciascuna coppia di variabili Si ottiene cosi la matrice degli scatterplot matrice simmetrica pxp di scatterplot bivariati le p righe e p colonne corrispondono a ciascuna variabile Lo scatterplot è simmetrico rispetto la diagonale, quindi nella cella ij la variabile j è disegnata rispetto la variabile i. La stessa variabile compare nella cella ji in cui gli assi x ed y sono scambiati

4 Esempio di utilizzo del toolbox Scatterplot: IRIS data L esempio riguarda la classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica

5 Esempio di utilizzo del toolbox Scatterplot: IRIS data Il dataset è costituito da 150 esempi di iris catalogati in base ad una analisi di 4 attributi (variabili di input): Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore). Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica): Esempio di pattern (campione): attributi dei fiori (input) classe (output) Iris-virginica

6 Scatterplot: IRIS data Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)

7 Scatterplot matrix: IRIS data

8 Box-and-Whisker Plots (boxplot) Un metodo per rappresentare un insieme di dati multivariati è quello di utilizzare un box-and-whisker plot. Box-and-whisker plots sono utili per interpretare la possibile distribuzione dei dati. I grafici Box-and-whisker utilizzano : Mediana : separa i dati in due parti uguali Quartili: separano i dati in 4 parti uguali primo quartile la mediana della parte inferiore dei dati Secondo quartile equivalente alla mediana Terzo quartile la mediana della parte superiore dei dati

9 Costruire un box-and-whisker plot Variabile: punteggi studenti dati: 80, 75, 90, 95, 65, 65, 80, 85, 70, 100 Ordinare i dati in ordine crescente Determinare il primo quartile, la mediana, il terzo quartile, il più grande ed il più piccolo valore: mediana = 80 primo quartile = 70 terzo quartile = 90 Valore minimo = 65 Valore massimo = 100

10 Costruire un box-and-whisker plot 65, 65, 70, 75,80, 80, 85, 90, 95,100 Primo quartile Mediana (secondo quartile) Terzo quartile

11 Outlier: Casi Speciali

12 Box-and-whisker plot: IRIS data

13 Co-plot Un grafici di tipo conditioning (coplot) è un metodo di visualizzazione grafica che permette di evidenziare come una response variable dipende da una explanatory variable date altre variabili descrittive. Coplot sono formati da un insieme di scatter plot di una variabile rispetto una singola variabile descrittiva Ciascun scatterplot corrisponde ad un particolare range di valori di una seconda variabile descrittiva

14 Co-plot I grafici sono organizzati in diversi modi Frequentemente si visualizzano utilizzando: Given panels: intervalli di variabilità della variabile descrittiva condizionata Dependence panels: scatterplot bivariati della variabile suscettibile rispetto le restanti variabili descrittive

15 Co-plot e diagrammi di Trellis I co-plot sono degli esempi di visualizzazioni grafiche più generali note come diagrammi di Trellis. Diagrammi (o grafici) di Trellis permettono di esaminare visualmente l esistenza di strutture nei dati mediante l utilizzo di grafici 1D,2D o 3D. I diagrammi di Trellis permettono di visualizzare le relazioni all interno di larghi dataset distinguendo diversi gruppi.

16 Diagrammi di Trellis Multipanel conditioning Visualizzazione del cambiamento delle relazioni tra due variabili in funzione di una o più variabili condizionate Rappresentazione di diversi tipi di grafici in un range di valori relativo alle variabili selezionate.

17 Diagramma di Trellis: Iris Data Esempio di diagramma di Trellis Grafico 3D lunghezza dei sepali (asse x), larghezza dei sepali (asse y) larghezza dei petali (asse z) Condizionato alla: Lunghezza dei petali Specie di fiore

18 Diagramma di Trellis: Iris Data setosa setosa Petal L.: [ ] Petal L.: [ ] versicolor versicolor Petal L.: [ ] Petal L.: [ ]

19 Analisi delle componenti principali (Applicazione al dataset degli Iris)

20 Principal component analysis (PCA) L idea principale su cui si basa l PCA è quella di rappresentare un insieme di dati multivariati con un numero inferiore di variabili non correlate che siano ottenute da una particolare combinazione lineare delle variabili originali e che riassumano le caratteristiche dei dati La riduzione di dimensionalità genera inevitabilmente una perdita di informazioni Generalmente si associa tale perdita con il rumore racchiuso nei dati il cui contenuto informativo è trascurabile Il metodo PCA cerca di proiettare dei dati multidimensionali in uno spazio di dimensione minore conservando al massimo la variazione dei dati originali

21 Quando utilizzare la PCA PCA è utilizzata in più modi all interno di un processo di data mining: Può costituire (in alcuni casi) una tecnica di data-mining; È utilizzata come metodo di interpretazione e visualizzazione grafica (specialmente se si riduce la dimensionalità a 2 o 3) per scoprire ed evidenziare strutture nei dati; Utilizzata nella fase di pre-processing per trasformare i dati originali in nuovi dati di input per altre tecniche di datamining Il numero delle variabili descrittive (explanatory) è elevato rispetto al numero dei campioni. Le variabili descrittive sono altamente correlate. PCA è una tecnica per ridurre la dimensionalità dei dati

22 Matrici di Covarianza e Correlazione Sia X la matrice dei dati strutturati di dimensione nxp X = x... x 11 n x x 1p... np La matrice di Covarianza è data da: S = n 1 1 X T X = n i= 1 n i = 1 x i1... x ip x x i1 i n i = 1 n i= 1 x... x i1 ip x x ip ip = s... s 11 p s... s 1 p pp

23 Matrici di Covarianza e Correlazione La matrice di Correlazione: s1 p 1... s11s pp 1/ 2 1/ 2 R = = ( diag ( S)) S( diag ( S)) s p s11s pp La matrice di correlazione si ottiene dalla matrice di covarianza normalizzata tramite I sui elementi diagonali Le matrici S ed R sono simmetriche definite non-negative

24 PCA: Iris dataset cov (X) = [ ] corrcoeff (X) = [ ]

25 PCA: Iris dataset [PC, LATENT, EXPLAINED] = pcacov (S) PC componenti principali (autovettori di S) LATENT autovalori di S EXPLAINED percentuale della varianza totale Matrice di covarinza dei dati autovalori % % % % percentuale della varianza

26 PCA: Iris dataset scree plot

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Introduzione al KDD. Il processo KDD I metodi di DM

Introduzione al KDD. Il processo KDD I metodi di DM Introduzione al KDD Il processo KDD I metodi di DM Introduzione al KDD Knowledge Discovery in Databases (KDD): processo automatico di esplorazione dei dati allo scopo di identificare pattern validi, utili,

Dettagli

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Esplorazione dei dati Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi Analisi mono e bivariata Si utilizzano indicatori sintetici che individuano, con un singolo valore, proprieta`

Dettagli

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della

Dettagli

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

Statistica multivariata Donata Rodi 21/11/2016

Statistica multivariata Donata Rodi 21/11/2016 Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Sintesi a cinque e misure di variabilità rispetto ad un centro Una catena di fast-food ha selezionato

Dettagli

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012 Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme

Dettagli

Laboratorio di dati e sistemi multimediali

Laboratorio di dati e sistemi multimediali Laboratorio di dati e sistemi multimediali Scienze e tecnologie Multimediale Prof. Christian Micheloni Introduzione Nel corso di questa lezione faremmo uso dell iris data set per introdurre i concetti

Dettagli

Analisi delle Componenti Principali con R

Analisi delle Componenti Principali con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi delle Componenti

Dettagli

Introduzione al KDD. Il processo KDD I metodi di DM

Introduzione al KDD. Il processo KDD I metodi di DM Introduzione al KDD Il processo KDD I metodi di DM Introduzione al KDD Knowledge Discovery in Databases (KDD): processo automatico di esplorazione dei dati allo scopo di identificare pattern validi, utili,

Dettagli

Il Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento)

Il Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento) Il Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento) Se all interno di un insieme di informazioni articolato in una matrice di dati X si

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 6-Altre tecniche per descrivere insiemi di dati (vers. 1.0c, 27 marzo 2017) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università

Dettagli

Confronto tra più di due campioni

Confronto tra più di due campioni Confronto tra più di due campioni La matrice dei dati Quando si esaminano più di due popolazioni, le informazioni sono u- sualmente organizzate sotto forma di matrice.,,, n ( ω ω ω ) 1 2 Pino, Maria,,Giacomo

Dettagli

Istruzioni per l analisi in componenti principali con R

Istruzioni per l analisi in componenti principali con R Istruzioni per l analisi in componenti principali con R Vi ricordo che in nero sono state inserite le note e in rosso le istruzioni da digitare sulla console di R Importare il dataset gelati

Dettagli

Generazione di Numeri Casuali- Parte 2

Generazione di Numeri Casuali- Parte 2 Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali

Dettagli

Tecniche di proiezione

Tecniche di proiezione Tecniche di proiezione Obiettivo delle tecniche di proiezione è trovare il miglior sottospazio in cui proiettare i dati. Questo sottospazio è quello che dà origine alla migliore approssimazione della configurazione

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Analisi in Componenti Principali (ACP)

Analisi in Componenti Principali (ACP) Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

Analisi Discriminante Canonica con R

Analisi Discriminante Canonica con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi Discriminante

Dettagli

Statistica descrittiva: misure di associazione

Statistica descrittiva: misure di associazione Statistica descrittiva: misure di associazione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.

Dettagli

MISURE DI SINTESI 54

MISURE DI SINTESI 54 MISURE DI SINTESI 54 MISURE DESCRITTIVE DI SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ 30 0 µ Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità. 30 0 Le due

Dettagli

Statistica Sociale - modulo A

Statistica Sociale - modulo A Statistica Sociale - modulo A e-mail: stella.iezzi@uniroma2.it i quartili IL TERZO QUARTILE per un carattere diviso in classi ESEMPIO: il boxplot I QUARTILI I quartili sono tre indici che dividono la distribuzione

Dettagli

7. ANALISI DISCRIMINANTE

7. ANALISI DISCRIMINANTE 7. ANALISI DISCRIMINANTE 7. Introduzione Uno tra i primi a parlare di analisi discriminante (AD) fu Fisher, con riferimento all'attribuzione di alcuni reperti fossili alla categoria dei primati o a quella

Dettagli

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Il e Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 21 Outline Il e 1 2 3 Il 4 e 5 () Statistica 2 / 21 Il e Due distribuzioni aventi stessa posizione

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

Associazione tra caratteri quantitativi: gli indici di correlazione

Associazione tra caratteri quantitativi: gli indici di correlazione Associazione tra caratteri quantitativi: gli indici di correlazione Per correlazione si intende una relazione tra due variabili tale che a ciascun valore della prima variabile corrisponda con una certa

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva Caso di 1 variabile: i dati si presentano in una tabella: Nome soggetto Alabama Dato 11.6.. Per riassumere i dati si costruisce una distribuzione delle frequenze. 1 Si determina

Dettagli

Analisi in Componenti Principali

Analisi in Componenti Principali Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,

Dettagli

TECNICHE DI POSIZIONAMENTO

TECNICHE DI POSIZIONAMENTO TECNICHE DI POSIZIONAMENTO Discriminant analysis: definizione di n (generalmente 2) funzioni lineari discriminanti, basate su valutazioni quantitative di attributi, utilizzate per posizionare oggetti (marche,

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2016-2017 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI

Dettagli

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 LA RAPPRESENTAZIONE E LA SINTESI

Dettagli

Esercitazioni di statistica

Esercitazioni di statistica Esercitazioni di statistica Boxplot e numeri indici Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 14 Ottobre 014 Stefania Spina Esercitazioni di statistica 1/37 Definizioni La

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Il e Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 19 Outline Il e 1 2 3 Il 4 e 5 () Statistica 2 / 19 Il e Due distribuzioni aventi stessa posizione

Dettagli

Analisi delle componenti principali

Analisi delle componenti principali Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste

Dettagli

PSICOMETRIA Voto X frequenza

PSICOMETRIA Voto X frequenza 1) Data la seguente distribuzione dei voti di laurea: PSICOMETRIA 2011-4 Voto X 100 101 102 103 104 105 106 107 108 109 110 frequenza 15 17 20 19 23 25 18 14 12 9 5 media = 104,32 e s 2 = 6.56 calcolare

Dettagli

I grafici parlano. Principali rappresentazioni grafiche per le distribuzioni doppie rispetto a caratteri di qualsiasi natura.

I grafici parlano. Principali rappresentazioni grafiche per le distribuzioni doppie rispetto a caratteri di qualsiasi natura. I grafici parlano Livello scolare: 2 biennio Abilità interessate Selezionare, produrre ed usare appropriate rappresentazioni grafiche delle distribuzioni doppie. Conoscenze Principali rappresentazioni

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

Esercitazioni di Statistica per Biotecnologie. Francesca Pizzorni Ferrarese

Esercitazioni di Statistica per Biotecnologie. Francesca Pizzorni Ferrarese Esercitazioni di Statistica per Biotecnologie Francesca Pizzorni Ferrarese Esercitazione I Statistica descrittiva Es.1 Rilevando con uno strumento di misurazione il numero di particelle cosmiche in 40

Dettagli

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl 1/4 Capitolo 4 La variabilità di una distribuzione Intervalli di variabilità Box-plot Indici basati sullo scostamento dalla media Confronti di variabilità Standardizzazione Statistica - Metodologie per

Dettagli

Statistica multivariata

Statistica multivariata Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire

Dettagli

Statistica Descrittiva III

Statistica Descrittiva III Serie Bi-variate Statistica Descrittiva III Definizioni Serie statistiche bi-variate Rappresentazioni tabellari e grafiche Indici di posizione e di variabilità Dipendenza lineare: retta di regressione

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

Analisi della correlazione canonica

Analisi della correlazione canonica Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di

Dettagli

STATISTICA PER LA DIGITAL ECONOMY 2017

STATISTICA PER LA DIGITAL ECONOMY 2017 STATISTICA PER LA DIGITAL ECONOMY 2017 Marco Riani mriani@unipr.it http://www.riani.it INFORMAZIONI SUL CORSO Orario MER 11.00-13.00 (frontale) GIO 9.00-11.00 (frontale) VEN 11.00-13.00 (laboratorio) Ricevimento

Dettagli

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 3 Esercizi: 5, 6 Docente: Alessandra Durio 1 Contenuti I quantili nel caso dei dati raccolti in classi

Dettagli

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Capitolo 3 Sintesi e descrizione dei dati quantitativi Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA

Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA Background:Richiami di nozioni statistiche multivariate Spazio degli osservabili ogni misurazione multivariata è rappresentata da un

Dettagli

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione

Dettagli

I Dati: aspetti da considerare

I Dati: aspetti da considerare I Dati: aspetti da considerare!! Tipo!! Quantitativi, qualitativi, serie temporali,!! Qualità!! I dati non sono mai perfetti!! Mancanti, inconsistenti, duplicati, errati!! Outliers!! Piccola parte di dati

Dettagli

Statistica descrittiva con R

Statistica descrittiva con R Statistica descrittiva con R Silvia Parolo 21 Novembre 2014 Sintesi dei dati Le votazioni in matematica di 20 studenti della Yale University sono state le seguenti: 68 84 75 82 68 90 62 88 76 93 73 79

Dettagli

Esercitazione 6 marzo 2014

Esercitazione 6 marzo 2014 Esercitazione marzo 04 Esercizio dal tema d esame 0.0.04 (parte prima) Il gestore di un'azienda ha approvato il finanziamento di una medesima campagna pubblicitaria nei due stati europei in cui distribuisce

Dettagli

ESERCIZI DI RIEPILOGO 1

ESERCIZI DI RIEPILOGO 1 ESERCIZI DI RIEPILOGO 1 ESERCIZIO 1 La tabella seguente contiene la distribuzione di frequenza della variabile X = età (misurata in anni) per un campione casuale di bambini: x i 4.6 8 3.2 3 5.4 6 2.6 2

Dettagli

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul 1 Introduzione alla Teoria della Probabilità... 1 1.1 Introduzione........................................ 1 1.2 Spazio dei Campioni ed Eventi Aleatori................ 2 1.3 Misura di Probabilità... 5

Dettagli

Esercitazione di Statistica Indici di associazione

Esercitazione di Statistica Indici di associazione Esercitazione di Statistica Indici di associazione 28/10/2015 La relazione tra caratteri Indipendenza logica Quando si suppone che tra due caratteri non ci sia alcuna relazione di causa-effetto. Indipendenza

Dettagli

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale delle sui delle Analisi statistica e matematico-finanziaria II Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale sulle particolari ali dei dati Outline

Dettagli

Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato

Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato Statistica descrittiva con fogli di calcolo Stoianov, Ceccato Distribuzioni di probabilità empirica 1) OSSERVAZIONI campione X: N osservazioni {x 1,x 2 x N } scala di misura Y K livelli [y 1 y K ] Esempio:

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Riduzione Dimensionalità

Riduzione Dimensionalità Introduzione Definizioni PCA vs LDA Principal Component Analysis (PCA) Linear Discriminant Analysis (LDA) t-sne 1 Definizioni Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction)

Dettagli

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle

Dettagli

Q1 = /4 0 4 = Me = /2 4 = 3

Q1 = /4 0 4 = Me = /2 4 = 3 Soluzioni Esercizi Capitolo - versione on-line Esercizio.: Calcoliamo le densità di frequenza x i x i+1 n i N i a i l i F i 0 1 4 4 1 4/1=4 4/10 = 0.4 1 5 6 4 /4=0.5 6/10 = 0.6 5 10 4 10 5 4/5=0.8 10/10

Dettagli

Analisi in componenti principali

Analisi in componenti principali Capitolo 2 Analisi in componenti principali 2.1 Introduzione L analisi in componenti principali è una tecnica di analisi multivariata tra le più diffuse. Viene utilizzata quando nel dataset osservato sono

Dettagli

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi

Dettagli

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010. Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010 Statistica Esercitazione 4 12 maggio 2010 Dipendenza in media. Covarianza e

Dettagli

Analisi delle Componenti Principali

Analisi delle Componenti Principali Struttura e proprietà degli alimenti Analisi delle Componenti Principali Dott. Rossella Di Monaco Dipartimento di Scienza degli Alimenti CORSO di LAUREA MAGISTRALE in SCIENZE E TECNOLOGIE ALIMENTARI La

Dettagli

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A) Prova scritta di STATISTICA CDL Biotecnologie (Programma di Massimo Cristallo - A) 1. Un associazione di consumatori, allo scopo di esaminare la qualità di tre diverse marche di batterie per automobili,

Dettagli

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza

Dettagli

JMP 10 Student Edition: Guida rapida

JMP 10 Student Edition: Guida rapida JMP 10 Student Edition: Guida rapida Queste istruzioni presuppongono una tabella di dati aperta, le impostazioni delle preferenze predefinite, e le variabili di interesse con l appropriato tipo di modellazione.

Dettagli

Il modello lineare misto

Il modello lineare misto Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING febbraio I

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING febbraio I COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING febbraio 2008 - I 1) Per un insieme di modelli di smartphone si sono costruiti i boxplot degli scostamenti standardizzati del prezzo e del peso ed

Dettagli

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Applicazioni statistiche e utilizzo del package statistico Spss - 7 Applicazioni statistiche e utilizzo del package statistico Spss - 7 CISI 27 gennaio 2005 ricercapsicologica@tiscali.it Illustrare le principali statistiche mono e bivariate. Valutare quando è opportuno

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

Indici di variabilità relativa

Indici di variabilità relativa Fonti e strumenti statistici per la comunicazione Prof.ssa Isabella Mingo A.A. 2014-2015 Indici di variabilità relativa Consentono di effettuare confronti sulla variabilità di fenomeni che presentano unità

Dettagli

DIARIO DEL CORSO DI GEOMETRIA E ALGEBRA LINEARE

DIARIO DEL CORSO DI GEOMETRIA E ALGEBRA LINEARE DIARIO DEL CORSO DI GEOMETRIA E ALGEBRA LINEARE DOCENTI: S. MATTAREI (TITOLARE), G. VIGNA SURIA, D. FRAPPORTI Prima settimana. Lezione di martedí 23 febbraio 2010 Introduzione al corso: applicazioni dell

Dettagli

Analisi della correlazione canonica

Analisi della correlazione canonica Capitolo 8 Analisi della correlazione canonica Si supponga che su un collettivo di unità statistiche si siano osservati due gruppi di k ed m variabili corrispondenti ad altrettanti aspetti di un fenomeno

Dettagli

Sistemi lineari. 2x 1 + x 2 x 3 = 2 x 1 x 2 + x 3 = 1 x 1 + 3x 2 2x 3 = 0. x 1 x 2 x 3

Sistemi lineari. 2x 1 + x 2 x 3 = 2 x 1 x 2 + x 3 = 1 x 1 + 3x 2 2x 3 = 0. x 1 x 2 x 3 Sistemi lineari 2x 1 + x 2 x 3 = 2 x 1 x 2 + x 3 = 1 x 1 + 3x 2 2x 3 = 0 2 1 1 1 1 1 1 3 2 x 1 x 2 x 3 = 2 1 0 n j=1 a i,jx j = b i, i = 1,, n Ax = b A = (a i,j ) R n n matrice invertibile (det(a) 0) b

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione/popolazione rispetto

Dettagli

Risposta in vibrazioni libere di un sistema lineare viscoso a più gradi di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1

Risposta in vibrazioni libere di un sistema lineare viscoso a più gradi di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1 Risposta in vibrazioni libere di un sistema lineare viscoso a più gradi di libertà Prof. Adolfo Santini - Dinamica delle Strutture 1 Vibrazioni libere non smorzate 1/6 Le equazioni del moto di un sistema

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it TIPI DI MEDIA: GEOMETRICA, QUADRATICA, ARMONICA Esercizio 1. Uno scommettitore puntando una somma iniziale

Dettagli

Statistiche e relazioni

Statistiche e relazioni tatistiche descrittive per frequenze e misure Frequenze e misure Per le frequenze e le misure, molte di queste statistiche perdono senso. In compenso, esistono indici appropriati, inutilizzabili per i

Dettagli

Nozioni di statistica

Nozioni di statistica Nozioni di statistica Distribuzione di Frequenza Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). Una distribuzione può essere

Dettagli

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio ITCS Erasmo da Rotterdam Anno Scolastico 014/015 CLASSE 4^ M Costruzioni, ambiente e territorio INDICAZIONI PER IL LAVORO ESTIVO DI MATEMATICA e COMPLEMENTI di MATEMATICA GLI STUDENTI CON IL DEBITO FORMATIVO

Dettagli

Riduzione di dimensionalità

Riduzione di dimensionalità Riduzione di dimensionalità SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it

Dettagli

Presentazione dell edizione italiana

Presentazione dell edizione italiana 1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli

Dettagli