La statistica multivariata



Похожие документы

Conoscenza. Metodo scientifico

CENNI DI METODI STATISTICI

Statistica inferenziale

Relazioni statistiche: regressione e correlazione

Pro e contro delle RNA

PROGRAMMA SVOLTO NELLA SESSIONE N.

General Linear Model. Esercizio

Facoltà di Psicologia - Corso FSE gennaio febbraio Marco Vicentini info@marcovicentini.it

Dimensione di uno Spazio vettoriale

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Principi di analisi causale Lezione 2

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Statistica multivariata 27/09/2016. D.Rodi, 2016

La categoria «ES» presenta (di solito) gli stessi comandi

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Corso di. Dott.ssa Donatella Cocca

Contabilità generale e contabilità analitica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

La Qualità il Controllo ed il Collaudo della macchina utensile. Dr. Giacomo Gelmi

La suite Pentaho Community Edition

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Automazione Industriale (scheduling+mms) scheduling+mms.

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Analisi e diagramma di Pareto

La distribuzione Normale. La distribuzione Normale

Il concetto di valore medio in generale

Corso di laurea in Scienze Motorie. Corso di Statistica. Docente: Dott.ssa Immacolata Scancarello Lezione 2: Misurazione, tabelle

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

LEZIONE n. 5 (a cura di Antonio Di Marco)

DI IDROLOGIA TECNICA PARTE III

Ricerca di outlier. Ricerca di Anomalie/Outlier

Capitolo 2 Distribuzioni di frequenza

PIANO DI LAVORO ANNUALE

Organizzazione degli archivi

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

LE ASSUNZIONI DELL'ANOVA

STUDIO DI SETTORE SG42U

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Capitolo 13: L offerta dell impresa e il surplus del produttore

Gestione della politica monetaria: strumenti e obiettivi corso PAS. Mishkin, Eakins, Istituzioni e mercati finanziari, 3/ed.

5A un multiplo di 3 5B una potenza di 5 5C divisibile per 7 e per 11 5D. D. 6 Le soluzioni dell equazione 1 + 3x 2x 2 = 0 sono 3 ± 17 6D 3 ± 17

Grandezze fisiche e loro misura

STATISTICA IX lezione

LA RETTA. Retta per l'origine, rette orizzontali e verticali

LEZIONE 31. B i : R n R. R m,n, x = (x 1,..., x n ). Allora sappiamo che è definita. j=1. a i,j x j.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Sistema Informativo Geografico:

Sistemi Informativi Territoriali. Map Algebra

E naturale chiedersi alcune cose sulla media campionaria x n

Amministrazione, finanza e marketing - Turismo Ministero dell Istruzione, dell Università e della Ricerca PROGRAMMAZIONE DISCIPLINARE PER U. di A.

lezione 18 AA Paolo Brunori

Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Processi casuali A.A Alberto Perotti, Roberto Garello

Database. Si ringrazia Marco Bertini per le slides

TECNICHE DI SIMULAZIONE

MATEMATICA 5 PERIODI

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Laboratorio di Pedagogia Sperimentale. Indice

La variabile casuale Binomiale

Facciamo qualche precisazione

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

I database relazionali sono il tipo di database attualmente piu diffuso. I motivi di questo successo sono fondamentalmente due:

Statistiche campionarie

Casi concreti PREMESSA casi concreti completa e dettagliata documentazione nessun caso concreto riportato è descritto più di una volta

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI

IL SISTEMA INFORMATIVO

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Lezione 1. Concetti Fondamentali

Corso di Analisi Statistica per le Imprese (9 CFU) Prof. L. Neri a.a

SPC e distribuzione normale con Access

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

ESERCIZI EVENTI E VARIABILI ALEATORIE

Elementi di Psicometria con Laboratorio di SPSS 1

Slide Cerbara parte1 5. Le distribuzioni teoriche

OSSERVAZIONI TEORICHE Lezione n. 4

Programmazione Disciplinare: Calcolo Classe: Quarte - Quinte

Indici di dispersione

PROBABILITA MISURARE L INCERTEZZA Lanciamo due dadi, facciamo la somma dei punteggi ottenuti. Su quale numero mi conviene scommettere?

OFFERTA FORMATIVA SU: RAMS, FMEA, FMECA, HAZOP, FTA, ETA, RBD, MARKOV

Project Cycle Management

Indice. 1 Il settore reale

G3. Asintoti e continuità

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

La Programmazione Lineare

Esercizi di Probabilità e Statistica

ESAME DI STATISTICA Nome: Cognome: Matricola:

Corso di Psicometria Progredito

Calcolo delle probabilità

Appendice III. Competenza e definizione della competenza

RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007

ALLEGATO 7. Nota Tecnica e Metodologica SK16U

Sistemi di misurazione e valutazione delle performance

LA SEGMENTAZIONE DEL MERCATO

Транскрипт:

Cenni di Statistica Multivariata Dr Corrado Costa

La statistica multivariata La statistica multivariata è quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno due componenti, il che è il caso di gran lunga più frequente nell'ambito di scienze quali la medicina, psicologia, sociologia, ecologia, biologia ed ingegneria.

Panoramica delle tecniche La statistica inferenziale(inferenza = trarre delle conclusioni logiche a partire dai dati disponibili) ha come obiettivo quello di stabilire delle caratteristiche dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di errore predeterminata. Le inferenze possono riguardare la natura teorica (legge probabilistica) del fenomeno che si osserva. La conoscenza di questa natura permetterà poi di fare una previsione (si pensi, ad esempio, che quando si dice che l inflazione il prossimo anno avrà una certa entità deriva dal fatto che esiste un modello dell'andamento dell'inflazione derivato da tecniche inferenziali). La statistica inferenziale è fortemente legata alla teoria della probabilità. Sotto questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri di media o valore atteso e varianza.

Panoramica delle tecniche Le tecniche di ordinamentocercano di rappresentare il campione e le relazioni tra variabili il più fedelmente possibile in un spazio dimensionale ridotto al fine di rappresentare i dati in un grafico, ordinare gli oggetti, ottenere una matrice con un minor numero di variabili riducendo al minimo la perdita di informazioni. Le tecniche di clusteringconsistono nel suddividere i dati in gruppi (clusters) in modo tale che gli oggetti dello stesso gruppo si somiglino e gli oggetti di gruppi diversi siano dissimili, al fine di formare gruppi omogenei di entità (osservazioni, campioni, siti, specie, etc.) e/o identificare discontinuità (nello spazio, nel tempo).

Panoramica delle tecniche Le tecniche di classificazioneclassificano un oggetto (campione per l analisi, individuo,..) in una tra le nclassi previste dal problema. Ovviamente si applicano quando il problema prevede almeno due categorie. Essi forniscono la risposta alla domanda A quale delle categorie è probabile che appartenga l oggetto da classificare?. Le tecniche dimodellamentosi applicano anche quando vi è una sola categoria. Essi forniscono la risposta alla domanda L oggetto ha caratteristiche compatibili con quelle tipiche della categoria modellata?. Le tecniche dipredizionederivano da quelle di regressione e servono per predire un evento a partire un modello basato su variabili quantitative definite.

Il dataset multivariato Un dataset multivariato è composto da un insieme di informazioni ripartite in righe e colonne inserite un una matrice. Sulle righe (di solito) sono rappresentate le osservazioni, sulle colonne le variabili Variabili Osservazioni

Il dataset multivariato Le variabili Le variabili possono essere qualitativeo quantitative. Una variabile si dice quantitativase è una grandezza misurabile. Per esempio: il peso,l altezza, il reddito, la temperatura, etc Variabili Osservazioni

La Principal Component Analysis (PCA) L'Analisi delle Componenti Principali è la tecnica di ordinamento più semplice, nel senso che essa opera esclusivamente una rotazione rigida degli assi dello spazio multidimensionale dei dati in modo tale da orientarli in maniera coerente con i pattern di dispersione dei dati stessi. Ciò consente di rappresentare un insieme di dati in maniera più efficace anche in un numero ridotto di dimensioni, cioè in un sistema di assi ortogonali (le Componenti Principali) definiti come combinazioni lineari dei descrittori originali. Inoltre, è possibile ottenere anche una rappresentazione delle relazioni fra i descrittori stessi e fra questi ultimi e le Componenti Principali.

Utilizzi Può anche essere utilizzata per la data reduction fornendo variabili indipendenti (es. trasmissione del segnale, imaging) Attenzione! La PCA lavora solo su variabili quantitative

La Principal Component Analysis (PCA) La PCA è una rotazione rigida degli assi: non cambia le posizioni degli oggetti nel loro spazio, ma ridefinisce il sistema di coordinate. Nella PCA gli assi sono definiti in modo che le distanze di ciascun oggetto dagli assi sia minimizzata (come nel caso dell asse maggiore). Da Scardi, 2009