Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA"

Transcript

1 Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA

2 Background:Richiami di nozioni statistiche multivariate Spazio degli osservabili ogni misurazione multivariata è rappresentata da un vettore in uno spazio m dimensionale (feature) m numero di feature che caratterizza una osservazione n numero di campioni delle osservazioni la distribuzione statistica dei punti (vettori) definisce le proprietà dell intero dataset

3 Background Ogni grandezza multivariata rappresentabile in uno spazio vettoriale m-dimensionale definisce una PDF multivariata Ipotesi importante: osservazioni che descrivono campioni simili sono rappresentate da punti vicini Esistenza di un relazione tra distanza reciproca e similitudine tra campioni (ipotesi del pattern recognition)

4 Statistica descrittiva multivariata Descrittori fondamentali di una distribuzione univariata (statistiche del primo e secondo ordine): Media (scalare) Varianza o momento secondo (scalare) definisce la ampiezza della distribuzione stessa, cioè il range di valori della variabile che hanno una probabilità reale di essere osservati Per una distribuzione multivariata valgono gli stessi concetti media di ogni feature (vettore delle medie sulle caratteristiche) varianza di ogni feature e covarianza tra le varie feature (matrice di covarianza) definisce l ampiezza della PDF e il grado di correlazione tra le variabili stesse

5 Matrice di covarianza Consideriamo una matrice dei dati X (matrice degli osservabili) di dimensione n m m feature di tipo quantitativo pseudoinversa di X fornisce una stima delle variabili aleatorie reali studio delle relazioni fra i fenomeni si può ottenere considerando ciascuna delle possibili coppie di variabili X i e X j valori della covarianza tra ciascuna delle coppie di variabili si scrivono in forma compatta utilizzando la matrice di covarianza dei dati, di dimensioni m m

6 Matrice di covarianza = ), cov ( ) ( var ), cov( ), cov ( ), cov( ) ( var m m X X X X X X X X X X X S M O M M L L ) ( var ), cov ( ), cov( 2 1 m m m X X X X X L Matrice simmetrica, semi-definita positiva Elementi diagonali sono i valori delle varianze delle m variabili trace(s X ) rappresenta la varianza totale varianza totale

7 Matrice di correlazione Osserviamo che Conoscere la matrice di covarianza consente di calcolare la matrice di correlazione ) var( ) var( ), cov( v s v s sv X X X X r = L = L M O M M L L p p p p X r r r r r r R Matrice simmetrica (r ij = r ji ), semidefinita positiva Elementi diagonali uguali a 1 Evidenzia le relazioni lineari tra le coppie di variabili

8 Matrice di correlazione Riferendoci alle sole relazioni bidimensionali, la matrice di correlazione permette di conoscere: le coppie di variabili che forniscono informazioni pressoché ripetitive (coefficiente di correlazione in modulo vicino a 1) le coppie di variabili non correlate linearmente (coefficiente di correlazione pari a 0)

9 Matrici di covarianza e correlazione X = x x M xn x x x M n2 L L O L x x x 1m 2m M nm Vettore delle medie delle feature X c = X µ X 1 Matrice centrata sulla media (matrice degli scarti dalla media) 1 S X C = n 1 RX C X T X 1 2 = ( diag( S)) S( diag( S)) 1 2 Matrice di covarianza Matrice di correlazione

10 Matrice di covarianza e PCA Per rimuovere la correlazione tra le varie feature si deve ridurre la matrice di covarianza dei dati in forma diagonale introducendo delle nuove variabili latenti forma diagonale ottenibile mediante un adeguato cambiamento del sistema di riferimento nuovo sistema di riferimento corrisponde agli autovettori della matrice di covarianza, cioè agli assi principali dell ellisse costruita come forma quadratica dalla matrice di covarianza stessa PCA

11 Matrice di covarianza e PCA La diagonalizzazione della matrice di covarianza dei dati rende le feature scorrelate la PDF multivariata prodotto di PDF univariate Le nuove feature non sono più degli osservabili fisici (oggetto di misurazioni), ma sono combinazioni lineari di queste. le nuove variabili si chiamano Componenti Principali

12 Principal Component Analysis L'analisi delle componenti principali (PCA) appare in molti campi della matematica computazionale con diversi nomi: Trasformazione sugli assi principali in geometria, trasformazione di Karhunen-Loeve (KL) in ingegneria e nella teoria del riconoscimento delle forme e nell'elaborazione delle immagini, analisi spettrale in fisica e analisi matematica (esempio problemi agli autovalori per equazioni differenziali), Analisi fattoriale in psicologia (anche se con questo termine spesso si associano obiettivi più ambiziosi della sola riduzione delle dimensioni). Metodo preliminare ad altri metodi della statistica multivariata, quali l'analisi dei raggruppamenti e la ricerca di funzioni discriminanti

13 Principal Component Analysis PCA tecnica di estrazione di feature basata sul criterio dell errore quadratico medio tecnica non supervisionata (unsupervised statistical learning) metodo classico orientato alla riduzione della dimensionalità e alla separazione di sorgenti Metodo di rappresentazione di segnali PCA esprime un dato segnale come somma di componenti ortonormali e scorrelate

14 PCA e BSS Problema di BSS (blind signal separation, o blind source separation) BSS separare un insieme di segnali da un insieme di segnali combinati senza alcuna informazione sulle sorgenti o sul processo di combinazione X formato da m feature combinazioni lineari di sorgenti s 1, s 2,, s m che supponiamo indipendenti. sorgenti indipendenti sono anche scorrelate

15 PCA e BSS PCA approccio più semplice per la soluzione di un problema BSS (Blind Source Separation) Sfrutta l informazione di scorrelazione fra le sorgenti, generando cioè un insieme di m feature scorrelate Y 1,Y 2,,Y m (stime delle sorgenti) a partire dalle m feature generiche X 1,X 2,,X m

16 PCA e BSS PCA genera (al massimo) m feature (trasformate fra loro) e scorrelate. Le nuove feature sono ordinate in modo decrescente rispetto agli autovalori della matrice di covarianza dei dati a 1 direzione lungo cui si ha la massima dispersione a m direzione lungo cui la dispersione è più bassa La PCA per la BSS fornisce intrinsecamente un ordinamento (ranking) delle sorgenti estratte.

17 PCA e BSS Assunzione fondamentale: potere informativo di una feature legato alla sua varianza gli ultimi autovalori sono molto piccoli, le corrispondenti feature trasformate possono essere considerare poco significative Se le sorgenti sono gaussiane, allora la PCA fornisce una stima di massima verosimiglianza delle sorgenti [Schölkopf et al., 1998, Prior knowledge in support vectors kernels. Advances in Neural Information Processing Systems].

18 Scopo della PCA Se le variabili di un fenomeno multivariato hanno un certo grado di correlazione, allora i vettori rappresentativi del fenomeno tenderanno a occupare solo una porzione dello spazio degli osservabili Lo scopo della PCA è quello di rappresentare un insieme di dati con matrice di covarianza non diagonale e di dimensione m in uno spazio di dimensione minore di m in cui gli stessi dati siano rappresentati da una matrice di covarianza diagonale

19 Scopo della PCA La diagonalizzazione si ottiene con una rotazione delle coordinate nella base degli autovettori (componenti principali). A ogni autovettore è associato un autovalore a cui corrisponde la varianza della componente principale Correlazione parziale tra le feature originarie si riflette in autovalori con valori trascurabili. autovettori corrispondenti ad autovalori piccoli possono essere trascurati e limitare la rappresentazione solo agli autovettori con gli autovalori più grandi Poiché la matrice di covarianza nella nuova base delle componenti principali è diagonale, la varianza totale è la somma delle varianze delle singole componenti principali.

20 PCA e riduzione di dimensionalità PCA meccanismo per la riduzione della dimensionalità proiezione ortogonale dallo spazio originale allo spazio delle componenti principali i cui autovalori associati siano quelli di valore maggiore Proiezione degli n punti in un sottospazio di dimensioni ridotte in modo che la nuvola di punti sia deformata il meno possibile Metodo del secondo ordine: sia le nuove coordinate che il criterio per la riduzione delle dimensioni si basano unicamente sulle proprietà della matrice di covarianza

21 PCA e distribuzione normale Ipotesi operativa della PCA: le variabili in X sono distribuite normalmente La media è in genere resa nulla (considerando la matrice dei dati centrata sulla madia) tutta l informazione statistica è contenuta nella matrice di covarianza In questo caso le componenti principali saranno indipendenti e la probabilità multivariata diventa il prodotto delle probabilità univariate Se l ipotesi di normale distribuzione cade si ottiene unicamente la scorrelazione delle componenti principali

22 Determinazione analitica della PCA Passaggi analitici spiegati alla lavagna

23 Determinazione del numero delle componenti principali Quante componenti principali?

24 PCA Jolliffe (ix, 9) The central idea of principal component analysis is to reduce the dimensionality of a data set in which there are a large number of interrelated variables, while retaining as much as possible of the variation present in the data set... Computation of the principal components reduces to the solution of an eigenvalueeigenvector problem for a positive- semidenite symmetric matrix. Thus, the definition and computation of principal components are straightforward but, as will be seen, this apparently simple technique has a wide variety of different applications, as well as a number of different derivations... Despite the apparent simplicity of the technique, much research is still being done in the general area of PCA, and it is very widely used

25 Calcolo PCA: riepilogo La prima componente principale si determina risolvendo un problema di massimo vincolato T max{ a1 S X a1} a T a = 1 1 a 1 Calcolo punti stazionari della lagrangiana: L( a1, λ1 ) = a1s X a1 λ1 ( a1 a1 1) Calcolo dell autocoppia dominante della matrice di covarianza dei dati Prima componente principale: y 1 = Xa 1 T

26 Calcolo PCA: riepilogo La seconda componente, i cui pesi sono contenuti nel vettore a 2, massimizza la varianza residua sotto il vincolo di ortonormalità, cioè: max{ a a T 2 a 2 T 2 ( S X = 1, a T 2 λ a a a = 0 T 1 ) a 2 }

27 Calcolo della PCA: riepilogo Le rimanenti componenti si determinano seguendo lo stesso ragionamento (fino ad ottenere p componenti). PCA permette di ottenere una rappresentazione della matrice dei dati X in un sottospazio ortogonale (iperpiano) a p < m dimensioni. Le coordinate dei punti nel sottospazio di proiezione sono contenute in una matrice di Y (variabili artificiali) di dimensione n p

28 Calcolo della PCA: riepilogo Le nuove variabili artificiali Y=XA m ottenute come combinazione lineare delle variabili iniziali Loadings: coefficienti della combinazione lineare vettori colonna della matrice A m (dimensione m m) forniscono il peso assegnato alle variabili originarie costituiscono un insieme di vettori ortonormali (A mt A m = I). var(y j ) = var(a jt S X a j ) =λ j Funzione funzione della varianza delle variabili di partenza cov(y i,y j )=0 La matrice di covarianza di Y =diag(λ 1, λ p )

29 Quante PCs considerare? Le PCs sono scorrelate e hanno varianza lambda_i La varianza totale delle m PCs risulta: m λi = trace( SY ) = i= 1 var( X Per determinare il numero minimo di PCs sufficienti per ottenere una descrizione sintetica della matrice dei dati, X, si utilizzano diversi criteri i )

30 Percentuale cumulativa della varianza totale Criterio più facile da adottare Scegliere il numero dell PCs in modo che la somma delle varianze rappresenti una alta percentuale della varianza totale (80-90%) Il numero delle PCs è il più piccolo valore k per cui si supera la percentuale scelta Definiamo il significato di percentuale della varianza

31 Percentuale cumulativa della varianza totale PCs scelte successivamente per massimizzare la varianza Definiamo la percentuale della varianza mantenuta dalle prime k PCs t k k i = 1 i k λi i = 1 i= 1 = 100 = 100 m trace λ λ i ( S X )

32 Percentuale cumulativa della varianza totale Scegliendo un valore di soglia t*(cut-off) tra il 70% e il 90% si considerano le prime k PCs tali che: k = arg min( k > 1 t k > t*)

33 Percentuale cumulativa della varianza totale Valore usuale del cut-off tra 70% e 90% più alto o più basso a seconda del dataset cut-off >90% Appropriato quando 1-2 PCs sono dominanti e rappresentano la maggiore varianza cut-off< 70% Se le PCs sono elevate in numero rendendo inutile l analisi

34 Caso 2D: rapporto di varianza Un indice della bontà statistica della proiezione 2-dimensionale sui primi due assi principali è definito dal rapporto (cumulativo) di varianza: λ 1 λ1 + λ λ m Interpretazione da effettuare con cautela, soprattutto quando si confrontano standardizzazioni diverse.

35 Caso 2D: rapporto di varianza La differenza: 1 λ 1 λ1 + λ λ misura la profondità dei dati; a profondità maggiore corrisponde un rischio maggiore che punti vicini nella proiezione sul piano siano invece lontani nella realtà (cioè in R m ) m

36 Scree Plot Scree-plot: grafico degli autovalori della matrice di covarianza rispetto al numero d ordine della componente Introdotto da Cattel nel 1966 Grafico con ripida pendenza per le prime componenti e comportamento asintotico per le restanti componenti Scelta del valore k in corrispondenza del punto in cui il grafico presenta un gomito

37 Gomito

38 Diagramma LEV Diagramma LEV o diagramma logeigenvalue: grafico dei logaritmi degli autovalori della matrice di covarianza rispetto al numero d ordine della componente alternativo allo scree-plot sviluppato nell ambito dell analisi di dati atmosferici Scelta del valore k in corrispondenza del punto in cui il grafico diventa approssimativamente una linea retta

39 Criterio di Kaiser Criterio di Kaiser: si calcola la media delle varianze (ovvero l autovalore medio) si sceglie il numero k come il più grande valore per cui le prime k PCs hanno varianza superiore alla media m 1 k = arg min( λ > = k λ ), λ λi k > 1 m i= 1

40 Criteri più complessi Tecniche più avanzate per la scelta del numero di PCs da conservare sono basate su: Test delle ipotesi Meccansimi di cross-validation

41 Criterio di cross-validation Si rimuove un valore della matrice dei dati Si usano un certo numero di PCs per predirlo Se l aggiunta di una PCs non migliora la predizione allora la componente può essere rimossa Errore di predizione PRESS (PREdiction Sum of Squares) calcolato usando le prime p PCs PRESS ( p) = 1 / ( xˆ ij x i j ij Si calcola il valore w p =(PRESS(p-1)-PRESS(p))/PRESS(p) Se w p è vicino a 1, si selezionano solo p-1 componenti np ) 2

42 Scelta dell unità di misura I risultati della PCA dipendono dall unità di misura adottata per le variabili Esempio: cambiando la lunghezza da metri a centimetri si alterano le PCs Gli autovalori di una matrice dipendono da fattori di scala La modifica di una X i per un fattore di scala s aumenta la var(x i ) di un fattore s 2 La variabile dominerà la matrice di covarianza e quindi le autocoppie

43 Scelta dell unità di misura Risoluzione di alcuni problemi di scaling Pre-processing dei dati Utilizzo della matrice di correlazione invece della matrice di covarianza L analisi si conduce sulle variabili standardizzate La matrice di covarianza delle matrici standardizzate coincide con la matrice di correlazione Lavorare con R X invece che con S X comporta una arbitraria decisione di rendere tutte le variabili ugualmente importanti Le autocoppie di R saranno diverse da quelle di S Le PCs standardizzate sono la migliore approssimazione nella distanza di Mahalanobis

44 Interpretazione delle PCs PCA cerca di approssimare le sorgenti (variabili latenti) non direttamente osservabili PCs approssimazione di tali sorgenti nascoste (capacità sportive, intelligenza, ecc) PCA utilizzata per riassumere i dati a disposizione Problema: assegnare un significato semantico alle variabili artificiali PCs Capacità del ricercatore, esperienza, sensibilità elementi non formalizzabili

45 Interpretazione delle PCs Strumenti su cui basare l interpretazione Y j è combinazione lineare delle X 1, X 2,, X m mediante i coefficienti a 1j,a 2j,, a mj Interpretazione in base ai coefficienti a ij Interpretazione in base alla correlazione tra le variabili originarie X e le PCs Y

46 Interpretazione delle PCs I coefficienti a hj prossimi allo zero corrispondono a variabili in X che non contribuiscono in maniera rilevante alla determinazione delle variabili in Y Il generico coefficiente a hj rappresenta il peso che la variabile X h ha nel determinare Yj Più grande è a hj maggiore sarà il peso che i valori x ih avranno nel determinare le componenti di Yj I coefficienti a hj conferiscono una semantica alla PCs Yj La PCs Yj è caratterizzata dalle feature corrispondenti a coefficienti più grandi in valore assoluto

47 Interpretazione delle PCs Calcolo dei coefficienti di correlazione tra le PCs e le variabili originarie Una componente che risulta marcatamente correlata con - per esempio - due delle k variabili originarie, misura, in modo più sintetico, il fenomeno descritto da quelle due variabili. Interpretazione facilitata se una componente è correlata solo con alcune variabili che, a loro volta, non sono correlate con le altre componenti.

48 Interpretazione delle PCs Le variabili originali sono poco importanti (significative) se fortemente correlate con le PCs scartate (quelle che hanno associata una varianza bassa) non sono correlate con nessuna delle PCs scelte

49 Interpretazione delle PCs Cerchio delle correlazioni: cerchio unitario nel piano delle prime due PCs Si calcolano r XiY1 =corr(xi,y1) r XiY2 =corr(xi,y2) Si rappresentano le variabili Xi nel cerchio delle correlazioni come punti di coordinate (r XiY1, r XiY2 ) Si ottiene una rappresentazione grafica di quali variabili determinano maggiormente l una o l altra PCs, e delle correlazioni positive e negative

50 PCA per la selezione di variabili Le prime PCs forniscono informazioni riassuntive sul dataset originario Utile in diverse applicazioni poter determinare un sottoinsieme di dati originali virtualmente contenente tutte le informazioni racchiuse nel dataset PCA come metodo per la selezione delle variabili

51 PCA per la selezione delle variabili Determinare il numero k di PCs da considerare k indica effettiva dimensionalità dei dati k fornisce la dimensione del sottoinsieme di variabili originali da estrarre Selezionare, per ogni PCs, il più alto punteggio (componente) in valore assoluto Indice corrispondente al più alto punteggio fornisce la posizione della colonna dei dati originali da selezionare

52 PCA applicazioni a diversi dataset Sperimentazione ottenuta con il software Matlab (ver 7.0)

53 IRIS data L esempio riguarda la classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica

54 IRIS data Il dataset è costituito da 150 esempi di iris catalogati in base ad una analisi di 4 attributi (variabili di input): Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore). Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica): Esempio di pattern (campione): attributi dei fiori (input) classe (output) Iris-virginica

55 Scatterplot: IRIS data Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)

56 Scattermatrix: IRIS data

57 PCA: Iris dataset cov (X) =[ ] corrcoeff(x)= [ ]

58 PCA: Iris dataset A Y [λ 1, λ 2 λ m ] Matrice dei dati [COEFF, SCORE, LATENT] = PRINCOMP(X) COEFF autovettori della matrice di covarianza dei dati SCORE componenti principali (Proiezione della matrice dei dati nello spazio delle componenti principali) LATENT autovalori della matrice di covarianza dei dati (ciascuno indica la percentuale della varianza rappresentata dalla corrispondente PCs)

59 PCA: Iris dataset COEFF= LATENT =

60 PCA: Iris dataset scree plot

61 PCA: Iris dataset LEV-diagram

62 Diabete indiani Pima Il dataset è costituito da 768 esempi pazienti affetti da disturbi di fegato catalogati in base a una analisi di 8 attributi (variabili di input): Features: 1. Numero di gravidanze 2. Concentrazione di glucosio nel sangue (test orale di tolleranza al glucosio) 3. Pressione sanguigna (diastolica) (mm Hg) 4. Spessore della cute (Triceps skin fold thickness (mm)) 5. Insulina (valori su 2 ore) (mu U/ml) 6. Indice di massa corporea (peso in kg/(altezza in m)^2) 7. Funzione di familiarità al diabete 8. Età (anni) 9. Variabile di classe (0 or 1) (da eliminare in una analisi di tipo unsupervised)

63 Diabete Indiani PIMA Scree-plot Percentuale cumulativa della varianza

64 Diabete Indiani PIMA Per conoscere la percentuale cumulativa della varianza conservata dalle prime k componenti principali si può utilizzate il comando [COEFF, LATENT, EXPLAINED] = PCACOV(S) (S matrice di covarianza dei dati) COEFF componenti principali LATENT autovalori della matrice di covarianza dei dati EXPLAINED percentuale cumulativa della varianza conservata dalle prime k PCs

65 Sintesi di punteggi in indagine di customer satisfaction Dati relativi a un indagine di customer satisfaction condotta su un campione di 2000 utenti del Servizio Sanitario, con riferimento a 20 strutture sanitarie in una specifica regione (Emilia Romagna) Questionario contenente 6 quesiti relativi ad altrettanti aspetti del servizio, ai quali l intervistato assegnava un punteggio da 1 (per nulla soddisfatto) a 10 (completamente soddisfatto), su una scala discreta

66 Sintesi di punteggi in indagine di Variabili considerate customer satisfaction Cortesia del personale (X 1 ) Chiarezza nella comunicazione (X 2 ) Competenza del personale (X 3 ) Stato della struttura (X 4 ) Tempestività negli appuntamenti (X 5 ) Orari di apertura (X 6 )

67 H G F E D C B A orari Tempestività stato Competenza Chiarezza Cortesia Struttura Punteggi medi ottenuti con riferimento alle 20 strutture V U T S R Q P O N M L I

68 Sintesi di punteggi in indagine di customer satisfaction L obiettivo principale dell indagine: ottenere giudizi sintetici sulle 20 strutture (al limite un unico giudizio). Informazioni sui dati (per decidere se la PCA va condotta su matrice di covarianza o correlazione): variabili misurate come punteggi da 1 a 10 espresse nella stessa unità di misura controllo delle varianze (statistiche descrittive dei dati) Cortesia N 20 MIN 3 MAX 7 MEDIA 4.8 DEV. STD 1.11 VARIANZA Chiarezza Competenza Stato Tempestività Orari

69 Sintesi di punteggi in indagine di customer satisfaction Varianze piuttosto diverse la varianza di X 4 è circa 3 volte quella di X 2 la varianza di X 4 è circa e circa 6 volte quella di X 6. PCA su matrice di covarianza: se le varianze rispettano l'ordine di importanza che noi vogliamo attribuire alle variabili Nel caso in esame: nessuna gerarchia tra le variabili osservate. Analisi da condurre: PCA su matrice di correlazione si vuole attribuire la medesima importanza a tutte le variabili

70 Sintesi di punteggi in indagine di customer satisfaction Calcolo della matrice di correlazione dei dati R= - comando Matlab: corrcoef

71 Sintesi di punteggi in indagine di customer satisfaction Autovec= autval = %var = varcum =

72 Consideriamo solo le prime due PCs

73 Sintesi di punteggi in indagine di customer satisfaction Coeff. correlazione tra i dati e le PCs dati Le variabili: cortesia, chiarezza, competenza presentano una correlazione elevata e negativa con la prima PCs Le variabili: stato struttura, tempestività servizio, orari di apertura, presentano una correlazione elevata e positiva con la seconda PCs

74 Sintesi di punteggi in indagine di customer satisfaction Le variabili sintetizzate dalla prima PCs principale riguardano il personale. Interpretazione: indice sintetico delle performance del personale Le variabili sintetizzate dalla seconda PCs principale riguardano la struttura interpretazione tale componente come indice sintetico delle prestazioni della struttura

75 Cerchio delle correlazioni

76 PCA/SVD e sue applicazioni Analisi di alcuni lavori apparsi in letteratura

77 Analisi di dati biochimici SVD-based principal component analysis of geochimical data Autore: Petr Praus Pubblicato su: Central European Journal of Chemistry, Volume 3, Number 4, , Springer, 2005

78 Analisi di dati biochimici Dati chimici reali: Affetti da rumore Lontani dalla normalità, molte variabili correlate Possono contenere outliers (da eliminare) PCA: modello chemometrico per la determinazione della riduzione di dimensionalità dei dati

79 Analisi di dati biochimici Data matrix N=52 esempi di carbone derivanti dal Bacino Carbonifero della Slesia Superiore Analisi dei dati effettuata con tecniche standard di raccolta e conservazione (boh!) Le caratteristiche dei campioni sono state scelte per permettere di classificare i tipi di carbone alterato

80 Analisi di dati biochimici Feature: Contenuto di cenere Umidità (moisture) Sostanze volatili Acido umico (composto organico, generato dalla decomposizione di materiali organici quali foglie, ecc, altamente ossidato, che ricopre i giacimenti di carbone) Contenuto calorifero (combustion heat) Riflettanza media della vitrinite (componente organica del carbone) Concentrazione di alcuni elementi (non-metalli) Carbonio (C) Idrogeno (H) Ossigeno (O) Azoto (N)

81 Analisi di dati biochimici Contenuto di cenere Umidità Sostanze volatili Acido umico Contenuto calorif ero Riflettanza vitrinit e Concentrazioni non metalli

82 Analisi di dati biochimici Scree-plot Varianza Varianza cumulativa

83 Analisi di dati biochimici Relazione reciproca tra acido umico, contenuto di cenere e ossigeno Cerchio delle correlazioni Relazione reciproca tra idrogeno e riflettanza e carbonio Acido umico Umidità Sostanze volatili Forte relazione tra umidità e contenuto calorifero Contenuto calorif ero Relazione tra contenuto di cenere, contenuto calorifero e ossigeno Forte relazione tra riflettanza e carbonio Riflettanza vitrinite Contenuto di cenere

84 Analisi di dati biochimici Riduzione della concentrazione di idrogeno associata con un incremento della concentrazione di carbonio Alto valore di riflettanza è un effetto dell ossidazione del carbone a alte temperature Composizione chimica del carbone termicamente alterato senza alcuna influenza dell ossigeno caratterizzata da alta concentrazione dell idrogeno Le variabili: concentrazione di carbonio, di idrogeno e riflettanza media del vinitre indice dell intensità dei cambi termici nel carbone

85 Analisi di dati biochimici Le variabili: contenuto di cenere, concentrazione di ossigeno, contenuto calorifero e umidità indice del processo di ossidazione del carbone Forte relazione tra contenuto calorifero e umidità Alta umidità causata da produzione di prodotto ossidativi gassosi

86 Analisi di dati biochimici Acido umico e acqua prodotti dal processo di ossidazione di carbone alterato. Relazione reciproca tra concentrazione di Relazione reciproca tra concentrazione di ossigeno, potere calorifero e acido umico.

87 Analisi di dati biochimici Analisi dei fattori per confermare la relazione tra le variabili Tavola dei primi tre assi principali Contenuto di cenere Umidità Sostanze volatili Acido umico Contenuto calorifero Riflettanza vitrinite PCs1 indicatore di alterazione termica del carbone PCs2 indicatore di alterazione ossidativa del carbone PCs3 prodotto della ossidazione del carbone

88 PCA per analisi di DNA-microarray Pricipal Components Analysis to summarize microarray experiments: application to sporulation time series Autori: S. Raychaudhuri, J. M. Stuart, R. B. Altman Pubblicato su Pacific Symposium on Biocomputing 5: (2000)

89 PCA per analisi di DNA-microarray Microarray di DNA utilizzati per esaminare il profilo di espressione di un gene Identificare la presenza di un gene o di una breve sequenza di geni all interno di migliaia di geni PCA su microarray di DNA: sia i geni che gli esperimenti possono essere considerati feature del problema geni come variabili principal gene components indicano le caratteristiche dei geni che permettono di spiegare le risposte sperimentali prodotte Esperimenti come variabili principal experiment components indicano le caratteristiche dell esperimento che meglio esplicitano il comportamento di un gene

90 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Dati: 6118 campioni di espressini di geni noti della Saccharomyces cerevisiae organismo unicellulare appartenete al regno dei funghi, specie di lievito che si riproduce per sporulazione utilizzato nella produzione di birra e vino per ogni gene i dati sono stati raccolti, durante la sporulazione, in 7 diversi istanti temporali (0h, 0.5h, 2h, 5h, 7h, 9h, 11.5h) Matrice dei dati 6118 righe di geni e 7 colonne di condizioni (feature) corrispondenti a ciascun istante temporale

91 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Statistiche elementari dei dati

92 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae

93 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Le prime 2 PCs conservano il 90% della varianza totale, includendo la terza PCs si raggiunge il 95%.

94 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Prima PCs rappresenta una media pesata e permette di distinguere i geni dalla loro espressività media Espressività o grado di manifestazione equivale all intensità con cui un gene si manifesta a livello fenotipico Prima PCs: espressività media pesata dal contenuto informativo del particolare esperimento Geni con coefficienti positivi lungo il primo asse principale sono upregulated durante la sporulazione Geni con coefficienti negativi sono down-regulated

95 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Seconda PCs rappresenta una misura del cambio di espressività di un gene Un gene represso in un istante iniziale viene attivato negli istanti finali Un gene attivato in un istante iniziale, viene represso negli istanti finali

96 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae La terza PCs cattura le informazioni circa l andamento nel tempo della concavità del pattern di espressività gene attivi solo all inizio e alla fine delle osservazioni avranno un profilo di espressività con concavità verso l alto geni attivi durante un periodo intermedio saranno caratterizzati da un profilo di espressività con concavità verso il basso

97 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae

98 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae L applicazione della PCA alle serie temporali è controversa Contro: diverse problematiche: Intervalli non uniformi dipendenza dei dati (relazione tra esperimenti precedenti e successivi) Pro: evidenza di pattern temporali quali la grandezza, la variazione e la concavità della curva di espressività genica aiuto nella visualizzazione dei dati meccanismo di preprocessing per un successivo clustering

99 SVD/PCA approccio pratico per l analisi di Microarray Singular value decomposition and principal analysis. In A Practical approach to Microarray Data Analysis, in D.P. Berrar, W. Dubitzky, M. Granzow, eds. pp , Kluwer: Norwell, MA (2003). LANL LA-UR Autori: M.E Wall, A Rechtsteineir, L.M. Rocha

100 SVD/PCA approccio pratico per l analisi di Microarray SVD per la visualizzazione di dati di espressività genetica Rappresentazione di dati utilizzando un piccolo numero di nuove variabili Individuazione di pattern in dati di espressività genica affetti da rumore Descrizione della relazione tra SVD e PCA, quando la PCA è calcolata utilizzando la matrice di covarianza dei dati.

101 SVD/PCA approccio pratico per l analisi di Microarray Significato biologico della SVD/PCA Considerazione di due classi di esperimenti systems biology applications diagnostic applications Dati: matrice della espressività genica n colonne corrispondenti agli esperimenti m righe corrispondenti ai geni SVD della matrice dei dati produce Base per lo spazio della risposta transcrizionale di un gene (vettori singolari destri, V T ) v k eigengenes Base per il profilo di espressività in ciascun esperimento (vettori singolari sinistri, U) u k eigenassays (nella terminologia della PCA, component)

102 SVD/PCA approccio pratico per l analisi di Microarray Applicazioni diagnostiche Classificare esempi di tessuti di individui con e senza una certa malattia eigenassay più significanti Applicazioni a sistemi biologici eigengene più significativi

103 SVD/PCA approccio pratico per l analisi di Microarray

104 SVD/PCA approccio pratico per l analisi di Microarray La visualizzazione grafica come strumento fondamentale per interpretare i risultati dell applicazione della SVD/PCA a dati di espressività genica Grafici ottenuti applicando la SVD/PCA a un dataset relativo al ciclo cellulare di un lievito nascente circa geni del lievito 17 istanti temporali uniformemente spaziati(con intervalli di 10 minuti) in cui sono state monitorare l espressività dei geni

105 SVD/PCA approccio pratico per l analisi di Microarray

106 SVD/PCA approccio pratico per l analisi di Microarray Eigengenes Nel caso in cui gli esperimenti corrispondono a un campionamento di una variabile continua (tempo, concentrazione ecc,) un grafico degli elementi degli eigengenes {vk} potrebbe rivelare pattern riconoscibili Esempio su dati sintetici

107 SVD/PCA approccio pratico per l analisi di Microarray Eigengene Rappresentazione grafica degli elementi della matrice U Ogni u ij è rappresentato come un pixel di una immagine, di colore verde se il valore è negativo, rosso se è positivo L intensità del colore fornisce la grandezza del valore u ij Le righe sono ordinate utilizzando la correlazione tra gli eigengene Maggiori approfondimenti : leggere i lavori

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

Analisi delle componenti principali

Analisi delle componenti principali Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste

Dettagli

Analisi in Componenti Principali (ACP)

Analisi in Componenti Principali (ACP) Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

Statistica multivariata Donata Rodi 21/11/2016

Statistica multivariata Donata Rodi 21/11/2016 Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Capitolo 6. La distribuzione normale

Capitolo 6. La distribuzione normale Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

Capitolo 6 La distribuzione normale

Capitolo 6 La distribuzione normale Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci

Dettagli

Analisi in componenti principali

Analisi in componenti principali Capitolo 2 Analisi in componenti principali 2.1 Introduzione L analisi in componenti principali è una tecnica di analisi multivariata tra le più diffuse. Viene utilizzata quando nel dataset osservato sono

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in Scienze e Tecnologie Alimentari Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa

Dettagli

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi

Dettagli

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della

Dettagli

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012 Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Analisi della correlazione canonica

Analisi della correlazione canonica Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di

Dettagli

tabelle grafici misure di

tabelle grafici misure di Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

Riduzione di dimensionalità

Riduzione di dimensionalità Riduzione di dimensionalità SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it

Dettagli

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel: UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 2 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione

Dettagli

SCHEDA DIDATTICA N 7

SCHEDA DIDATTICA N 7 FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti

Dettagli

Apprendimento Automatico (Feature Selection e Kernel Learning)

Apprendimento Automatico (Feature Selection e Kernel Learning) Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

Analisi in Componenti Principali

Analisi in Componenti Principali Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Matematica con Elementi di Statistica a.a. 2015/16 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

Reti Neurali in Generale

Reti Neurali in Generale istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono

Dettagli

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI

Dettagli

P S I C O M T R I A Marcello Gallucci. Analisi Fattoriale. Esempi. Milano-Bicocca. Lezione: 20

P S I C O M T R I A Marcello Gallucci. Analisi Fattoriale. Esempi. Milano-Bicocca. Lezione: 20 Analisi Fattoriale Esempi P S I C O M T R I A Marcello Gallucci Milano-Bicocca Lezione: 20 Esempio Descrizione della ricerca Un ricercatore intende stabilire se una manipolazione sperimentale basata sulla

Dettagli

Differenze tra metodi di estrazione

Differenze tra metodi di estrazione Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori

Dettagli

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75 00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei

Dettagli

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it RIPASSO SULLE MATRICI 1 Addizione tra matrici Moltiplicazione Matrice diagonale Matrice identità Matrice trasposta

Dettagli

Statistica multivariata

Statistica multivariata Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire

Dettagli

Metodi computazionali per i Minimi Quadrati

Metodi computazionali per i Minimi Quadrati Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe

Dettagli

Generazione di Numeri Casuali- Parte 2

Generazione di Numeri Casuali- Parte 2 Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione. Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful

Dettagli

TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI

TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI TEORIA DEI SISTEMI Laurea Specialistica in Ingegneria Meccatronica Laurea Specialistica in Ingegneria Gestionale Indirizzo Gestione Industriale TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI Ing. Cristian

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

L Analisi in Componenti Principali (S. Terzi)

L Analisi in Componenti Principali (S. Terzi) L Analisi in Componenti Principali (S. Terzi) Data una matrice dei dati riferiti ad n individui e k variabili quantitative, si sintetizzano i dati nel senso di pervenire ad una riduzione delle colonne

Dettagli

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE

Dettagli

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi: DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme

Dettagli

GENETICA QUANTITATIVA

GENETICA QUANTITATIVA GENETICA QUANTITATIVA Caratteri quantitativi e qualitativi I caratteri discontinui o qualitativi esibiscono un numero ridotto di fenotipi e mostrano una relazione genotipo-fenotipo semplice I caratteri

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare

Dettagli

A.A. 2014/2015 Corso di Algebra Lineare

A.A. 2014/2015 Corso di Algebra Lineare A.A. 2014/2015 Corso di Algebra Lineare Stampato integrale delle lezioni Massimo Gobbino Indice Lezione 01: Vettori geometrici nel piano cartesiano. Operazioni tra vettori: somma, prodotto per un numero,

Dettagli

Maria Prandini Dipartimento di Elettronica e Informazione Politecnico di Milano

Maria Prandini Dipartimento di Elettronica e Informazione Politecnico di Milano Note relative a test di bianchezza rimozione delle componenti deterministiche da una serie temporale a supporto del Progetto di Identificazione dei Modelli e Analisi dei Dati Maria Prandini Dipartimento

Dettagli

CURVE DI DURATA: Introduzione e Rappresentazione analitica

CURVE DI DURATA: Introduzione e Rappresentazione analitica CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d

Dettagli

Stima dei parametri di un sistema di ODE

Stima dei parametri di un sistema di ODE Stima dei parametri di un sistema di ODE May 22, 2007 Questi appunti sono ispirati al Cap. 3 del libro Metodi Numerici e Statistici per le Scienze Applicate del Prof. V. Comincioli, disponibile all indirizzo

Dettagli

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti

Dettagli

Genetica dei caratteri quantitativi

Genetica dei caratteri quantitativi PAS Percorsi Abilitanti Speciali Classe di abilitazione A057 Scienza degli alimenti Tracciabilità genetica degli alimenti Genetica dei caratteri quantitativi 1 Concetti di base in genetica L informazione

Dettagli

Autovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti)

Autovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti) Autovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti) April 14, 2011 (alcune note non complete sugli argomenti trattati: eventuali completamenti saranno aggiunti)

Dettagli

X ~ N (20, 16) Soluzione

X ~ N (20, 16) Soluzione ESERCIZIO 3.1 Il tempo di reazione ad un esperimento psicologico effettuato su un gruppo di individui si distribuisce normalmente con media µ = 20 secondi e scarto quadratico medio σ = 4 secondi: X ~ N

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

4 Autovettori e autovalori

4 Autovettori e autovalori 4 Autovettori e autovalori 41 Cambiamenti di base Sia V uno spazio vettoriale tale che dim V n Si è visto in sezione 12 che uno spazio vettoriale ammette basi distinte, ma tutte con la medesima cardinalità

Dettagli

RENATO LEONI. Esempi numerici riguardanti l'analisi della correlazione canonica

RENATO LEONI. Esempi numerici riguardanti l'analisi della correlazione canonica RENATO LEONI Esempi numerici riguardanti l'analisi della correlazione canonica UNIVERSITÀ DI FIRENZE DIPARTIMENTO DI STATISTICA "G. PARENTI" FIRENZE, 27 Questo lavoro è destinato a un uso personale e ne

Dettagli

Statistica descrittiva in due variabili

Statistica descrittiva in due variabili Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con

Dettagli

Argomenti della lezione:

Argomenti della lezione: Lezione 13 L analisi della Varianza (ANOVA): il modello lineare Argomenti della lezione: Modello lineare Disegni a una via L Analisi della Varianza (ANOVA): Esamina differenze tra le medie di due o più

Dettagli

Il campionamento e l inferenza. Il campionamento e l inferenza

Il campionamento e l inferenza. Il campionamento e l inferenza Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento

Dettagli

Laboratorio di dati e sistemi multimediali

Laboratorio di dati e sistemi multimediali Laboratorio di dati e sistemi multimediali Scienze e tecnologie Multimediale Prof. Christian Micheloni Introduzione Nel corso di questa lezione faremmo uso dell iris data set per introdurre i concetti

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

Riduzione Dimensionalità

Riduzione Dimensionalità Introduzione Definizioni PCA vs LDA Principal Component Analysis (PCA) Linear Discriminant Analysis (LDA) t-sne 1 Definizioni Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction)

Dettagli

I VETTORI GAUSSIANI E. DI NARDO

I VETTORI GAUSSIANI E. DI NARDO I VETTOI GAUSSIANI E. DI NADO. L importanza della distribuzione gaussiana I vettori di v.a. gaussiane sono senza dubbio uno degli strumenti più utili in statistica. Nell analisi multivariata, per esempio,

Dettagli

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI

Dettagli

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y ) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni

Dettagli

II ESERCITAZIONE ESERCIZIO

II ESERCITAZIONE ESERCIZIO II ESERCITAZIONE ESERCIZIO 1 Quale percentuale di osservazioni sotto la curva normale standardizzata cade nell'intervallo compreso tra i valori z=-1 e z=+1? a) 66% circa b) 70,2% circa c) 68,2% circa d)

Dettagli

Matematica per Analisi dei Dati,

Matematica per Analisi dei Dati, Matematica per Analisi dei Dati, 230209 1 Spazio vettoriale R n Sia n un intero positivo fissato Lo spazio vettoriale R n e l insieme delle n ple ordinate di numeri reali, che rappresenteremo sempre come

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle

Dettagli

Facoltà di Giurisprudenza

Facoltà di Giurisprudenza Facoltà di Giurisprudenza METODOLOGIE STATISTICHE UTILIZZATE PER L ANALISI DELLA SODDISFAZIONE DEGLI STUDENTI FREQUENTANTI A.A. 2010-2011 NUCLEO DI VALUTAZIONE DI ATENEO MILANO PIACENZA - CREMONA ROMA

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Variabili aleatorie. Variabili aleatorie e variabili statistiche

Variabili aleatorie. Variabili aleatorie e variabili statistiche Variabili aleatorie Variabili aleatorie e variabili statistiche Nelle prime lezioni, abbiamo visto il concetto di variabile statistica : Un oggetto o evento del mondo reale veniva associato a una certa

Dettagli

Metodi di riduzione del modello dinamico Dott. Lotti Nevio

Metodi di riduzione del modello dinamico Dott. Lotti Nevio 1. Metodi di riduzione del modello dinamico Nel mettere insieme modelli dinamici di elementi diversi di una struttura (come avviene nel caso di un velivolo e del suo carico utile, ma anche per i diversi

Dettagli

SPAZI EUCLIDEI, APPLICAZIONI SIMMETRICHE, FORME QUADRATICHE

SPAZI EUCLIDEI, APPLICAZIONI SIMMETRICHE, FORME QUADRATICHE SPAZI EUCLIDEI, APPLICAZIONI SIMMETRICHE, FORME QUADRATICHE. Esercizi Esercizio. In R calcolare il modulo dei vettori,, ),,, ) ed il loro angolo. Esercizio. Calcolare una base ortonormale del sottospazio

Dettagli

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. Esercizio 1 Un chimico che lavora per una fabbrica di batterie, sta cercando una batteria

Dettagli

Esercitazione di Analisi Matematica II

Esercitazione di Analisi Matematica II Esercitazione di Analisi Matematica II Barbara Balossi 06/04/2017 Esercizi di ripasso Esercizio 1 Sia data l applicazione lineare f : R 3 R 3 definita come f(x, y, z) = ( 2x + y z, x 2y + z, x y). a) Calcolare

Dettagli

Reti Neurali (Parte I)

Reti Neurali (Parte I) Reti Neurali (Parte I) Corso di AA, anno 2017/18, Padova Fabio Aiolli 30 Ottobre 2017 Fabio Aiolli Reti Neurali (Parte I) 30 Ottobre 2017 1 / 15 Reti Neurali Artificiali: Generalità Due motivazioni diverse

Dettagli

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Serie storiche Introduzione Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi. I modelli di analisi delle serie storiche si

Dettagli

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo. Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente

Dettagli

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Esercitazione: La distribuzione NORMALE

Esercitazione: La distribuzione NORMALE Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle

Dettagli

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale delle sui delle Analisi statistica e matematico-finanziaria II Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale sulle particolari ali dei dati Outline

Dettagli

Statistica descrittiva: misure di associazione

Statistica descrittiva: misure di associazione Statistica descrittiva: misure di associazione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.

Dettagli

Istruzioni per l analisi in componenti principali con R

Istruzioni per l analisi in componenti principali con R Istruzioni per l analisi in componenti principali con R Vi ricordo che in nero sono state inserite le note e in rosso le istruzioni da digitare sulla console di R Importare il dataset gelati

Dettagli

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le

Dettagli

La notazione usata è quella usuale nel caso scalare, ed è estesa al caso generale. Consideriamo una forma quadratica:

La notazione usata è quella usuale nel caso scalare, ed è estesa al caso generale. Consideriamo una forma quadratica: . SU ALCUNI OPERAORI DI DERIVAZIONE Alcune operazioni tipiche dell analisi matematica hanno un diretto riscontro in termini matriciali. Consideriamo ad esempio una forma lineare: f() l l + l +..l n n ;

Dettagli

Esercitazione ENS su processi casuali (13 e 14 Maggio 2008)

Esercitazione ENS su processi casuali (13 e 14 Maggio 2008) Esercitazione ES su processi casuali ( e 4 Maggio 2008) D. Donno Esercizio : Calcolo di autovalori e autovettori Si consideri un processo x n somma di un segnale e un disturbo: x n = Ae π 2 n + w n, n

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli