Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA
|
|
- Evangelista Fantoni
- 6 anni fa
- Visualizzazioni
Transcript
1 Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA
2 Background:Richiami di nozioni statistiche multivariate Spazio degli osservabili ogni misurazione multivariata è rappresentata da un vettore in uno spazio m dimensionale (feature) m numero di feature che caratterizza una osservazione n numero di campioni delle osservazioni la distribuzione statistica dei punti (vettori) definisce le proprietà dell intero dataset
3 Background Ogni grandezza multivariata rappresentabile in uno spazio vettoriale m-dimensionale definisce una PDF multivariata Ipotesi importante: osservazioni che descrivono campioni simili sono rappresentate da punti vicini Esistenza di un relazione tra distanza reciproca e similitudine tra campioni (ipotesi del pattern recognition)
4 Statistica descrittiva multivariata Descrittori fondamentali di una distribuzione univariata (statistiche del primo e secondo ordine): Media (scalare) Varianza o momento secondo (scalare) definisce la ampiezza della distribuzione stessa, cioè il range di valori della variabile che hanno una probabilità reale di essere osservati Per una distribuzione multivariata valgono gli stessi concetti media di ogni feature (vettore delle medie sulle caratteristiche) varianza di ogni feature e covarianza tra le varie feature (matrice di covarianza) definisce l ampiezza della PDF e il grado di correlazione tra le variabili stesse
5 Matrice di covarianza Consideriamo una matrice dei dati X (matrice degli osservabili) di dimensione n m m feature di tipo quantitativo pseudoinversa di X fornisce una stima delle variabili aleatorie reali studio delle relazioni fra i fenomeni si può ottenere considerando ciascuna delle possibili coppie di variabili X i e X j valori della covarianza tra ciascuna delle coppie di variabili si scrivono in forma compatta utilizzando la matrice di covarianza dei dati, di dimensioni m m
6 Matrice di covarianza = ), cov ( ) ( var ), cov( ), cov ( ), cov( ) ( var m m X X X X X X X X X X X S M O M M L L ) ( var ), cov ( ), cov( 2 1 m m m X X X X X L Matrice simmetrica, semi-definita positiva Elementi diagonali sono i valori delle varianze delle m variabili trace(s X ) rappresenta la varianza totale varianza totale
7 Matrice di correlazione Osserviamo che Conoscere la matrice di covarianza consente di calcolare la matrice di correlazione ) var( ) var( ), cov( v s v s sv X X X X r = L = L M O M M L L p p p p X r r r r r r R Matrice simmetrica (r ij = r ji ), semidefinita positiva Elementi diagonali uguali a 1 Evidenzia le relazioni lineari tra le coppie di variabili
8 Matrice di correlazione Riferendoci alle sole relazioni bidimensionali, la matrice di correlazione permette di conoscere: le coppie di variabili che forniscono informazioni pressoché ripetitive (coefficiente di correlazione in modulo vicino a 1) le coppie di variabili non correlate linearmente (coefficiente di correlazione pari a 0)
9 Matrici di covarianza e correlazione X = x x M xn x x x M n2 L L O L x x x 1m 2m M nm Vettore delle medie delle feature X c = X µ X 1 Matrice centrata sulla media (matrice degli scarti dalla media) 1 S X C = n 1 RX C X T X 1 2 = ( diag( S)) S( diag( S)) 1 2 Matrice di covarianza Matrice di correlazione
10 Matrice di covarianza e PCA Per rimuovere la correlazione tra le varie feature si deve ridurre la matrice di covarianza dei dati in forma diagonale introducendo delle nuove variabili latenti forma diagonale ottenibile mediante un adeguato cambiamento del sistema di riferimento nuovo sistema di riferimento corrisponde agli autovettori della matrice di covarianza, cioè agli assi principali dell ellisse costruita come forma quadratica dalla matrice di covarianza stessa PCA
11 Matrice di covarianza e PCA La diagonalizzazione della matrice di covarianza dei dati rende le feature scorrelate la PDF multivariata prodotto di PDF univariate Le nuove feature non sono più degli osservabili fisici (oggetto di misurazioni), ma sono combinazioni lineari di queste. le nuove variabili si chiamano Componenti Principali
12 Principal Component Analysis L'analisi delle componenti principali (PCA) appare in molti campi della matematica computazionale con diversi nomi: Trasformazione sugli assi principali in geometria, trasformazione di Karhunen-Loeve (KL) in ingegneria e nella teoria del riconoscimento delle forme e nell'elaborazione delle immagini, analisi spettrale in fisica e analisi matematica (esempio problemi agli autovalori per equazioni differenziali), Analisi fattoriale in psicologia (anche se con questo termine spesso si associano obiettivi più ambiziosi della sola riduzione delle dimensioni). Metodo preliminare ad altri metodi della statistica multivariata, quali l'analisi dei raggruppamenti e la ricerca di funzioni discriminanti
13 Principal Component Analysis PCA tecnica di estrazione di feature basata sul criterio dell errore quadratico medio tecnica non supervisionata (unsupervised statistical learning) metodo classico orientato alla riduzione della dimensionalità e alla separazione di sorgenti Metodo di rappresentazione di segnali PCA esprime un dato segnale come somma di componenti ortonormali e scorrelate
14 PCA e BSS Problema di BSS (blind signal separation, o blind source separation) BSS separare un insieme di segnali da un insieme di segnali combinati senza alcuna informazione sulle sorgenti o sul processo di combinazione X formato da m feature combinazioni lineari di sorgenti s 1, s 2,, s m che supponiamo indipendenti. sorgenti indipendenti sono anche scorrelate
15 PCA e BSS PCA approccio più semplice per la soluzione di un problema BSS (Blind Source Separation) Sfrutta l informazione di scorrelazione fra le sorgenti, generando cioè un insieme di m feature scorrelate Y 1,Y 2,,Y m (stime delle sorgenti) a partire dalle m feature generiche X 1,X 2,,X m
16 PCA e BSS PCA genera (al massimo) m feature (trasformate fra loro) e scorrelate. Le nuove feature sono ordinate in modo decrescente rispetto agli autovalori della matrice di covarianza dei dati a 1 direzione lungo cui si ha la massima dispersione a m direzione lungo cui la dispersione è più bassa La PCA per la BSS fornisce intrinsecamente un ordinamento (ranking) delle sorgenti estratte.
17 PCA e BSS Assunzione fondamentale: potere informativo di una feature legato alla sua varianza gli ultimi autovalori sono molto piccoli, le corrispondenti feature trasformate possono essere considerare poco significative Se le sorgenti sono gaussiane, allora la PCA fornisce una stima di massima verosimiglianza delle sorgenti [Schölkopf et al., 1998, Prior knowledge in support vectors kernels. Advances in Neural Information Processing Systems].
18 Scopo della PCA Se le variabili di un fenomeno multivariato hanno un certo grado di correlazione, allora i vettori rappresentativi del fenomeno tenderanno a occupare solo una porzione dello spazio degli osservabili Lo scopo della PCA è quello di rappresentare un insieme di dati con matrice di covarianza non diagonale e di dimensione m in uno spazio di dimensione minore di m in cui gli stessi dati siano rappresentati da una matrice di covarianza diagonale
19 Scopo della PCA La diagonalizzazione si ottiene con una rotazione delle coordinate nella base degli autovettori (componenti principali). A ogni autovettore è associato un autovalore a cui corrisponde la varianza della componente principale Correlazione parziale tra le feature originarie si riflette in autovalori con valori trascurabili. autovettori corrispondenti ad autovalori piccoli possono essere trascurati e limitare la rappresentazione solo agli autovettori con gli autovalori più grandi Poiché la matrice di covarianza nella nuova base delle componenti principali è diagonale, la varianza totale è la somma delle varianze delle singole componenti principali.
20 PCA e riduzione di dimensionalità PCA meccanismo per la riduzione della dimensionalità proiezione ortogonale dallo spazio originale allo spazio delle componenti principali i cui autovalori associati siano quelli di valore maggiore Proiezione degli n punti in un sottospazio di dimensioni ridotte in modo che la nuvola di punti sia deformata il meno possibile Metodo del secondo ordine: sia le nuove coordinate che il criterio per la riduzione delle dimensioni si basano unicamente sulle proprietà della matrice di covarianza
21 PCA e distribuzione normale Ipotesi operativa della PCA: le variabili in X sono distribuite normalmente La media è in genere resa nulla (considerando la matrice dei dati centrata sulla madia) tutta l informazione statistica è contenuta nella matrice di covarianza In questo caso le componenti principali saranno indipendenti e la probabilità multivariata diventa il prodotto delle probabilità univariate Se l ipotesi di normale distribuzione cade si ottiene unicamente la scorrelazione delle componenti principali
22 Determinazione analitica della PCA Passaggi analitici spiegati alla lavagna
23 Determinazione del numero delle componenti principali Quante componenti principali?
24 PCA Jolliffe (ix, 9) The central idea of principal component analysis is to reduce the dimensionality of a data set in which there are a large number of interrelated variables, while retaining as much as possible of the variation present in the data set... Computation of the principal components reduces to the solution of an eigenvalueeigenvector problem for a positive- semidenite symmetric matrix. Thus, the definition and computation of principal components are straightforward but, as will be seen, this apparently simple technique has a wide variety of different applications, as well as a number of different derivations... Despite the apparent simplicity of the technique, much research is still being done in the general area of PCA, and it is very widely used
25 Calcolo PCA: riepilogo La prima componente principale si determina risolvendo un problema di massimo vincolato T max{ a1 S X a1} a T a = 1 1 a 1 Calcolo punti stazionari della lagrangiana: L( a1, λ1 ) = a1s X a1 λ1 ( a1 a1 1) Calcolo dell autocoppia dominante della matrice di covarianza dei dati Prima componente principale: y 1 = Xa 1 T
26 Calcolo PCA: riepilogo La seconda componente, i cui pesi sono contenuti nel vettore a 2, massimizza la varianza residua sotto il vincolo di ortonormalità, cioè: max{ a a T 2 a 2 T 2 ( S X = 1, a T 2 λ a a a = 0 T 1 ) a 2 }
27 Calcolo della PCA: riepilogo Le rimanenti componenti si determinano seguendo lo stesso ragionamento (fino ad ottenere p componenti). PCA permette di ottenere una rappresentazione della matrice dei dati X in un sottospazio ortogonale (iperpiano) a p < m dimensioni. Le coordinate dei punti nel sottospazio di proiezione sono contenute in una matrice di Y (variabili artificiali) di dimensione n p
28 Calcolo della PCA: riepilogo Le nuove variabili artificiali Y=XA m ottenute come combinazione lineare delle variabili iniziali Loadings: coefficienti della combinazione lineare vettori colonna della matrice A m (dimensione m m) forniscono il peso assegnato alle variabili originarie costituiscono un insieme di vettori ortonormali (A mt A m = I). var(y j ) = var(a jt S X a j ) =λ j Funzione funzione della varianza delle variabili di partenza cov(y i,y j )=0 La matrice di covarianza di Y =diag(λ 1, λ p )
29 Quante PCs considerare? Le PCs sono scorrelate e hanno varianza lambda_i La varianza totale delle m PCs risulta: m λi = trace( SY ) = i= 1 var( X Per determinare il numero minimo di PCs sufficienti per ottenere una descrizione sintetica della matrice dei dati, X, si utilizzano diversi criteri i )
30 Percentuale cumulativa della varianza totale Criterio più facile da adottare Scegliere il numero dell PCs in modo che la somma delle varianze rappresenti una alta percentuale della varianza totale (80-90%) Il numero delle PCs è il più piccolo valore k per cui si supera la percentuale scelta Definiamo il significato di percentuale della varianza
31 Percentuale cumulativa della varianza totale PCs scelte successivamente per massimizzare la varianza Definiamo la percentuale della varianza mantenuta dalle prime k PCs t k k i = 1 i k λi i = 1 i= 1 = 100 = 100 m trace λ λ i ( S X )
32 Percentuale cumulativa della varianza totale Scegliendo un valore di soglia t*(cut-off) tra il 70% e il 90% si considerano le prime k PCs tali che: k = arg min( k > 1 t k > t*)
33 Percentuale cumulativa della varianza totale Valore usuale del cut-off tra 70% e 90% più alto o più basso a seconda del dataset cut-off >90% Appropriato quando 1-2 PCs sono dominanti e rappresentano la maggiore varianza cut-off< 70% Se le PCs sono elevate in numero rendendo inutile l analisi
34 Caso 2D: rapporto di varianza Un indice della bontà statistica della proiezione 2-dimensionale sui primi due assi principali è definito dal rapporto (cumulativo) di varianza: λ 1 λ1 + λ λ m Interpretazione da effettuare con cautela, soprattutto quando si confrontano standardizzazioni diverse.
35 Caso 2D: rapporto di varianza La differenza: 1 λ 1 λ1 + λ λ misura la profondità dei dati; a profondità maggiore corrisponde un rischio maggiore che punti vicini nella proiezione sul piano siano invece lontani nella realtà (cioè in R m ) m
36 Scree Plot Scree-plot: grafico degli autovalori della matrice di covarianza rispetto al numero d ordine della componente Introdotto da Cattel nel 1966 Grafico con ripida pendenza per le prime componenti e comportamento asintotico per le restanti componenti Scelta del valore k in corrispondenza del punto in cui il grafico presenta un gomito
37 Gomito
38 Diagramma LEV Diagramma LEV o diagramma logeigenvalue: grafico dei logaritmi degli autovalori della matrice di covarianza rispetto al numero d ordine della componente alternativo allo scree-plot sviluppato nell ambito dell analisi di dati atmosferici Scelta del valore k in corrispondenza del punto in cui il grafico diventa approssimativamente una linea retta
39 Criterio di Kaiser Criterio di Kaiser: si calcola la media delle varianze (ovvero l autovalore medio) si sceglie il numero k come il più grande valore per cui le prime k PCs hanno varianza superiore alla media m 1 k = arg min( λ > = k λ ), λ λi k > 1 m i= 1
40 Criteri più complessi Tecniche più avanzate per la scelta del numero di PCs da conservare sono basate su: Test delle ipotesi Meccansimi di cross-validation
41 Criterio di cross-validation Si rimuove un valore della matrice dei dati Si usano un certo numero di PCs per predirlo Se l aggiunta di una PCs non migliora la predizione allora la componente può essere rimossa Errore di predizione PRESS (PREdiction Sum of Squares) calcolato usando le prime p PCs PRESS ( p) = 1 / ( xˆ ij x i j ij Si calcola il valore w p =(PRESS(p-1)-PRESS(p))/PRESS(p) Se w p è vicino a 1, si selezionano solo p-1 componenti np ) 2
42 Scelta dell unità di misura I risultati della PCA dipendono dall unità di misura adottata per le variabili Esempio: cambiando la lunghezza da metri a centimetri si alterano le PCs Gli autovalori di una matrice dipendono da fattori di scala La modifica di una X i per un fattore di scala s aumenta la var(x i ) di un fattore s 2 La variabile dominerà la matrice di covarianza e quindi le autocoppie
43 Scelta dell unità di misura Risoluzione di alcuni problemi di scaling Pre-processing dei dati Utilizzo della matrice di correlazione invece della matrice di covarianza L analisi si conduce sulle variabili standardizzate La matrice di covarianza delle matrici standardizzate coincide con la matrice di correlazione Lavorare con R X invece che con S X comporta una arbitraria decisione di rendere tutte le variabili ugualmente importanti Le autocoppie di R saranno diverse da quelle di S Le PCs standardizzate sono la migliore approssimazione nella distanza di Mahalanobis
44 Interpretazione delle PCs PCA cerca di approssimare le sorgenti (variabili latenti) non direttamente osservabili PCs approssimazione di tali sorgenti nascoste (capacità sportive, intelligenza, ecc) PCA utilizzata per riassumere i dati a disposizione Problema: assegnare un significato semantico alle variabili artificiali PCs Capacità del ricercatore, esperienza, sensibilità elementi non formalizzabili
45 Interpretazione delle PCs Strumenti su cui basare l interpretazione Y j è combinazione lineare delle X 1, X 2,, X m mediante i coefficienti a 1j,a 2j,, a mj Interpretazione in base ai coefficienti a ij Interpretazione in base alla correlazione tra le variabili originarie X e le PCs Y
46 Interpretazione delle PCs I coefficienti a hj prossimi allo zero corrispondono a variabili in X che non contribuiscono in maniera rilevante alla determinazione delle variabili in Y Il generico coefficiente a hj rappresenta il peso che la variabile X h ha nel determinare Yj Più grande è a hj maggiore sarà il peso che i valori x ih avranno nel determinare le componenti di Yj I coefficienti a hj conferiscono una semantica alla PCs Yj La PCs Yj è caratterizzata dalle feature corrispondenti a coefficienti più grandi in valore assoluto
47 Interpretazione delle PCs Calcolo dei coefficienti di correlazione tra le PCs e le variabili originarie Una componente che risulta marcatamente correlata con - per esempio - due delle k variabili originarie, misura, in modo più sintetico, il fenomeno descritto da quelle due variabili. Interpretazione facilitata se una componente è correlata solo con alcune variabili che, a loro volta, non sono correlate con le altre componenti.
48 Interpretazione delle PCs Le variabili originali sono poco importanti (significative) se fortemente correlate con le PCs scartate (quelle che hanno associata una varianza bassa) non sono correlate con nessuna delle PCs scelte
49 Interpretazione delle PCs Cerchio delle correlazioni: cerchio unitario nel piano delle prime due PCs Si calcolano r XiY1 =corr(xi,y1) r XiY2 =corr(xi,y2) Si rappresentano le variabili Xi nel cerchio delle correlazioni come punti di coordinate (r XiY1, r XiY2 ) Si ottiene una rappresentazione grafica di quali variabili determinano maggiormente l una o l altra PCs, e delle correlazioni positive e negative
50 PCA per la selezione di variabili Le prime PCs forniscono informazioni riassuntive sul dataset originario Utile in diverse applicazioni poter determinare un sottoinsieme di dati originali virtualmente contenente tutte le informazioni racchiuse nel dataset PCA come metodo per la selezione delle variabili
51 PCA per la selezione delle variabili Determinare il numero k di PCs da considerare k indica effettiva dimensionalità dei dati k fornisce la dimensione del sottoinsieme di variabili originali da estrarre Selezionare, per ogni PCs, il più alto punteggio (componente) in valore assoluto Indice corrispondente al più alto punteggio fornisce la posizione della colonna dei dati originali da selezionare
52 PCA applicazioni a diversi dataset Sperimentazione ottenuta con il software Matlab (ver 7.0)
53 IRIS data L esempio riguarda la classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica
54 IRIS data Il dataset è costituito da 150 esempi di iris catalogati in base ad una analisi di 4 attributi (variabili di input): Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore). Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica): Esempio di pattern (campione): attributi dei fiori (input) classe (output) Iris-virginica
55 Scatterplot: IRIS data Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)
56 Scattermatrix: IRIS data
57 PCA: Iris dataset cov (X) =[ ] corrcoeff(x)= [ ]
58 PCA: Iris dataset A Y [λ 1, λ 2 λ m ] Matrice dei dati [COEFF, SCORE, LATENT] = PRINCOMP(X) COEFF autovettori della matrice di covarianza dei dati SCORE componenti principali (Proiezione della matrice dei dati nello spazio delle componenti principali) LATENT autovalori della matrice di covarianza dei dati (ciascuno indica la percentuale della varianza rappresentata dalla corrispondente PCs)
59 PCA: Iris dataset COEFF= LATENT =
60 PCA: Iris dataset scree plot
61 PCA: Iris dataset LEV-diagram
62 Diabete indiani Pima Il dataset è costituito da 768 esempi pazienti affetti da disturbi di fegato catalogati in base a una analisi di 8 attributi (variabili di input): Features: 1. Numero di gravidanze 2. Concentrazione di glucosio nel sangue (test orale di tolleranza al glucosio) 3. Pressione sanguigna (diastolica) (mm Hg) 4. Spessore della cute (Triceps skin fold thickness (mm)) 5. Insulina (valori su 2 ore) (mu U/ml) 6. Indice di massa corporea (peso in kg/(altezza in m)^2) 7. Funzione di familiarità al diabete 8. Età (anni) 9. Variabile di classe (0 or 1) (da eliminare in una analisi di tipo unsupervised)
63 Diabete Indiani PIMA Scree-plot Percentuale cumulativa della varianza
64 Diabete Indiani PIMA Per conoscere la percentuale cumulativa della varianza conservata dalle prime k componenti principali si può utilizzate il comando [COEFF, LATENT, EXPLAINED] = PCACOV(S) (S matrice di covarianza dei dati) COEFF componenti principali LATENT autovalori della matrice di covarianza dei dati EXPLAINED percentuale cumulativa della varianza conservata dalle prime k PCs
65 Sintesi di punteggi in indagine di customer satisfaction Dati relativi a un indagine di customer satisfaction condotta su un campione di 2000 utenti del Servizio Sanitario, con riferimento a 20 strutture sanitarie in una specifica regione (Emilia Romagna) Questionario contenente 6 quesiti relativi ad altrettanti aspetti del servizio, ai quali l intervistato assegnava un punteggio da 1 (per nulla soddisfatto) a 10 (completamente soddisfatto), su una scala discreta
66 Sintesi di punteggi in indagine di Variabili considerate customer satisfaction Cortesia del personale (X 1 ) Chiarezza nella comunicazione (X 2 ) Competenza del personale (X 3 ) Stato della struttura (X 4 ) Tempestività negli appuntamenti (X 5 ) Orari di apertura (X 6 )
67 H G F E D C B A orari Tempestività stato Competenza Chiarezza Cortesia Struttura Punteggi medi ottenuti con riferimento alle 20 strutture V U T S R Q P O N M L I
68 Sintesi di punteggi in indagine di customer satisfaction L obiettivo principale dell indagine: ottenere giudizi sintetici sulle 20 strutture (al limite un unico giudizio). Informazioni sui dati (per decidere se la PCA va condotta su matrice di covarianza o correlazione): variabili misurate come punteggi da 1 a 10 espresse nella stessa unità di misura controllo delle varianze (statistiche descrittive dei dati) Cortesia N 20 MIN 3 MAX 7 MEDIA 4.8 DEV. STD 1.11 VARIANZA Chiarezza Competenza Stato Tempestività Orari
69 Sintesi di punteggi in indagine di customer satisfaction Varianze piuttosto diverse la varianza di X 4 è circa 3 volte quella di X 2 la varianza di X 4 è circa e circa 6 volte quella di X 6. PCA su matrice di covarianza: se le varianze rispettano l'ordine di importanza che noi vogliamo attribuire alle variabili Nel caso in esame: nessuna gerarchia tra le variabili osservate. Analisi da condurre: PCA su matrice di correlazione si vuole attribuire la medesima importanza a tutte le variabili
70 Sintesi di punteggi in indagine di customer satisfaction Calcolo della matrice di correlazione dei dati R= - comando Matlab: corrcoef
71 Sintesi di punteggi in indagine di customer satisfaction Autovec= autval = %var = varcum =
72 Consideriamo solo le prime due PCs
73 Sintesi di punteggi in indagine di customer satisfaction Coeff. correlazione tra i dati e le PCs dati Le variabili: cortesia, chiarezza, competenza presentano una correlazione elevata e negativa con la prima PCs Le variabili: stato struttura, tempestività servizio, orari di apertura, presentano una correlazione elevata e positiva con la seconda PCs
74 Sintesi di punteggi in indagine di customer satisfaction Le variabili sintetizzate dalla prima PCs principale riguardano il personale. Interpretazione: indice sintetico delle performance del personale Le variabili sintetizzate dalla seconda PCs principale riguardano la struttura interpretazione tale componente come indice sintetico delle prestazioni della struttura
75 Cerchio delle correlazioni
76 PCA/SVD e sue applicazioni Analisi di alcuni lavori apparsi in letteratura
77 Analisi di dati biochimici SVD-based principal component analysis of geochimical data Autore: Petr Praus Pubblicato su: Central European Journal of Chemistry, Volume 3, Number 4, , Springer, 2005
78 Analisi di dati biochimici Dati chimici reali: Affetti da rumore Lontani dalla normalità, molte variabili correlate Possono contenere outliers (da eliminare) PCA: modello chemometrico per la determinazione della riduzione di dimensionalità dei dati
79 Analisi di dati biochimici Data matrix N=52 esempi di carbone derivanti dal Bacino Carbonifero della Slesia Superiore Analisi dei dati effettuata con tecniche standard di raccolta e conservazione (boh!) Le caratteristiche dei campioni sono state scelte per permettere di classificare i tipi di carbone alterato
80 Analisi di dati biochimici Feature: Contenuto di cenere Umidità (moisture) Sostanze volatili Acido umico (composto organico, generato dalla decomposizione di materiali organici quali foglie, ecc, altamente ossidato, che ricopre i giacimenti di carbone) Contenuto calorifero (combustion heat) Riflettanza media della vitrinite (componente organica del carbone) Concentrazione di alcuni elementi (non-metalli) Carbonio (C) Idrogeno (H) Ossigeno (O) Azoto (N)
81 Analisi di dati biochimici Contenuto di cenere Umidità Sostanze volatili Acido umico Contenuto calorif ero Riflettanza vitrinit e Concentrazioni non metalli
82 Analisi di dati biochimici Scree-plot Varianza Varianza cumulativa
83 Analisi di dati biochimici Relazione reciproca tra acido umico, contenuto di cenere e ossigeno Cerchio delle correlazioni Relazione reciproca tra idrogeno e riflettanza e carbonio Acido umico Umidità Sostanze volatili Forte relazione tra umidità e contenuto calorifero Contenuto calorif ero Relazione tra contenuto di cenere, contenuto calorifero e ossigeno Forte relazione tra riflettanza e carbonio Riflettanza vitrinite Contenuto di cenere
84 Analisi di dati biochimici Riduzione della concentrazione di idrogeno associata con un incremento della concentrazione di carbonio Alto valore di riflettanza è un effetto dell ossidazione del carbone a alte temperature Composizione chimica del carbone termicamente alterato senza alcuna influenza dell ossigeno caratterizzata da alta concentrazione dell idrogeno Le variabili: concentrazione di carbonio, di idrogeno e riflettanza media del vinitre indice dell intensità dei cambi termici nel carbone
85 Analisi di dati biochimici Le variabili: contenuto di cenere, concentrazione di ossigeno, contenuto calorifero e umidità indice del processo di ossidazione del carbone Forte relazione tra contenuto calorifero e umidità Alta umidità causata da produzione di prodotto ossidativi gassosi
86 Analisi di dati biochimici Acido umico e acqua prodotti dal processo di ossidazione di carbone alterato. Relazione reciproca tra concentrazione di Relazione reciproca tra concentrazione di ossigeno, potere calorifero e acido umico.
87 Analisi di dati biochimici Analisi dei fattori per confermare la relazione tra le variabili Tavola dei primi tre assi principali Contenuto di cenere Umidità Sostanze volatili Acido umico Contenuto calorifero Riflettanza vitrinite PCs1 indicatore di alterazione termica del carbone PCs2 indicatore di alterazione ossidativa del carbone PCs3 prodotto della ossidazione del carbone
88 PCA per analisi di DNA-microarray Pricipal Components Analysis to summarize microarray experiments: application to sporulation time series Autori: S. Raychaudhuri, J. M. Stuart, R. B. Altman Pubblicato su Pacific Symposium on Biocomputing 5: (2000)
89 PCA per analisi di DNA-microarray Microarray di DNA utilizzati per esaminare il profilo di espressione di un gene Identificare la presenza di un gene o di una breve sequenza di geni all interno di migliaia di geni PCA su microarray di DNA: sia i geni che gli esperimenti possono essere considerati feature del problema geni come variabili principal gene components indicano le caratteristiche dei geni che permettono di spiegare le risposte sperimentali prodotte Esperimenti come variabili principal experiment components indicano le caratteristiche dell esperimento che meglio esplicitano il comportamento di un gene
90 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Dati: 6118 campioni di espressini di geni noti della Saccharomyces cerevisiae organismo unicellulare appartenete al regno dei funghi, specie di lievito che si riproduce per sporulazione utilizzato nella produzione di birra e vino per ogni gene i dati sono stati raccolti, durante la sporulazione, in 7 diversi istanti temporali (0h, 0.5h, 2h, 5h, 7h, 9h, 11.5h) Matrice dei dati 6118 righe di geni e 7 colonne di condizioni (feature) corrispondenti a ciascun istante temporale
91 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Statistiche elementari dei dati
92 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae
93 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Le prime 2 PCs conservano il 90% della varianza totale, includendo la terza PCs si raggiunge il 95%.
94 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Prima PCs rappresenta una media pesata e permette di distinguere i geni dalla loro espressività media Espressività o grado di manifestazione equivale all intensità con cui un gene si manifesta a livello fenotipico Prima PCs: espressività media pesata dal contenuto informativo del particolare esperimento Geni con coefficienti positivi lungo il primo asse principale sono upregulated durante la sporulazione Geni con coefficienti negativi sono down-regulated
95 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Seconda PCs rappresenta una misura del cambio di espressività di un gene Un gene represso in un istante iniziale viene attivato negli istanti finali Un gene attivato in un istante iniziale, viene represso negli istanti finali
96 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae La terza PCs cattura le informazioni circa l andamento nel tempo della concavità del pattern di espressività gene attivi solo all inizio e alla fine delle osservazioni avranno un profilo di espressività con concavità verso l alto geni attivi durante un periodo intermedio saranno caratterizzati da un profilo di espressività con concavità verso il basso
97 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae
98 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae L applicazione della PCA alle serie temporali è controversa Contro: diverse problematiche: Intervalli non uniformi dipendenza dei dati (relazione tra esperimenti precedenti e successivi) Pro: evidenza di pattern temporali quali la grandezza, la variazione e la concavità della curva di espressività genica aiuto nella visualizzazione dei dati meccanismo di preprocessing per un successivo clustering
99 SVD/PCA approccio pratico per l analisi di Microarray Singular value decomposition and principal analysis. In A Practical approach to Microarray Data Analysis, in D.P. Berrar, W. Dubitzky, M. Granzow, eds. pp , Kluwer: Norwell, MA (2003). LANL LA-UR Autori: M.E Wall, A Rechtsteineir, L.M. Rocha
100 SVD/PCA approccio pratico per l analisi di Microarray SVD per la visualizzazione di dati di espressività genetica Rappresentazione di dati utilizzando un piccolo numero di nuove variabili Individuazione di pattern in dati di espressività genica affetti da rumore Descrizione della relazione tra SVD e PCA, quando la PCA è calcolata utilizzando la matrice di covarianza dei dati.
101 SVD/PCA approccio pratico per l analisi di Microarray Significato biologico della SVD/PCA Considerazione di due classi di esperimenti systems biology applications diagnostic applications Dati: matrice della espressività genica n colonne corrispondenti agli esperimenti m righe corrispondenti ai geni SVD della matrice dei dati produce Base per lo spazio della risposta transcrizionale di un gene (vettori singolari destri, V T ) v k eigengenes Base per il profilo di espressività in ciascun esperimento (vettori singolari sinistri, U) u k eigenassays (nella terminologia della PCA, component)
102 SVD/PCA approccio pratico per l analisi di Microarray Applicazioni diagnostiche Classificare esempi di tessuti di individui con e senza una certa malattia eigenassay più significanti Applicazioni a sistemi biologici eigengene più significativi
103 SVD/PCA approccio pratico per l analisi di Microarray
104 SVD/PCA approccio pratico per l analisi di Microarray La visualizzazione grafica come strumento fondamentale per interpretare i risultati dell applicazione della SVD/PCA a dati di espressività genica Grafici ottenuti applicando la SVD/PCA a un dataset relativo al ciclo cellulare di un lievito nascente circa geni del lievito 17 istanti temporali uniformemente spaziati(con intervalli di 10 minuti) in cui sono state monitorare l espressività dei geni
105 SVD/PCA approccio pratico per l analisi di Microarray
106 SVD/PCA approccio pratico per l analisi di Microarray Eigengenes Nel caso in cui gli esperimenti corrispondono a un campionamento di una variabile continua (tempo, concentrazione ecc,) un grafico degli elementi degli eigengenes {vk} potrebbe rivelare pattern riconoscibili Esempio su dati sintetici
107 SVD/PCA approccio pratico per l analisi di Microarray Eigengene Rappresentazione grafica degli elementi della matrice U Ogni u ij è rappresentato come un pixel di una immagine, di colore verde se il valore è negativo, rosso se è positivo L intensità del colore fornisce la grandezza del valore u ij Le righe sono ordinate utilizzando la correlazione tra gli eigengene Maggiori approfondimenti : leggere i lavori
Esplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliEsplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
DettagliAnalisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
DettagliAnalisi in Componenti Principali (ACP)
Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliBLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliStatistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliLa matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
DettagliCapitolo 6. La distribuzione normale
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliCapitolo 6 La distribuzione normale
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliMetodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci
DettagliAnalisi in componenti principali
Capitolo 2 Analisi in componenti principali 2.1 Introduzione L analisi in componenti principali è una tecnica di analisi multivariata tra le più diffuse. Viene utilizzata quando nel dataset osservato sono
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliCapitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"
Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa
DettagliSperimentazioni di Fisica I mod. A Statistica - Lezione 2
Sperimentazioni di Fisica I mod. A Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica G. Galilei, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi
DettagliANALISI MULTIDIMENSIONALE DEI DATI (AMD)
ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della
DettagliProva scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012
Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliAnalisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di
Dettaglitabelle grafici misure di
Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata tabelle grafici misure di posizione dispersione associazione Misure di posizione Forniscono indicazioni sull ordine
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliRiduzione di dimensionalità
Riduzione di dimensionalità SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it
DettagliUNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:
UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 2 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione
DettagliSCHEDA DIDATTICA N 7
FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti
DettagliApprendimento Automatico (Feature Selection e Kernel Learning)
Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliCapitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset
Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra
DettagliElementi di Statistica
Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica
DettagliAnalisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
DettagliStatistica. Matematica con Elementi di Statistica a.a. 2015/16
Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliReti Neurali in Generale
istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono
DettagliProgrammazione con Foglio di Calcolo Cenni di Statistica Descrittiva
Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI
DettagliP S I C O M T R I A Marcello Gallucci. Analisi Fattoriale. Esempi. Milano-Bicocca. Lezione: 20
Analisi Fattoriale Esempi P S I C O M T R I A Marcello Gallucci Milano-Bicocca Lezione: 20 Esempio Descrizione della ricerca Un ricercatore intende stabilire se una manipolazione sperimentale basata sulla
DettagliDifferenze tra metodi di estrazione
Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori
DettagliIndice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75
00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei
DettagliESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it RIPASSO SULLE MATRICI 1 Addizione tra matrici Moltiplicazione Matrice diagonale Matrice identità Matrice trasposta
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliMetodi computazionali per i Minimi Quadrati
Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe
DettagliGenerazione di Numeri Casuali- Parte 2
Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliOld Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.
Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful
DettagliTEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI
TEORIA DEI SISTEMI Laurea Specialistica in Ingegneria Meccatronica Laurea Specialistica in Ingegneria Gestionale Indirizzo Gestione Industriale TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI Ing. Cristian
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliL Analisi in Componenti Principali (S. Terzi)
L Analisi in Componenti Principali (S. Terzi) Data una matrice dei dati riferiti ad n individui e k variabili quantitative, si sintetizzano i dati nel senso di pervenire ad una riduzione delle colonne
DettagliLezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
Dettaglile scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme
DettagliGENETICA QUANTITATIVA
GENETICA QUANTITATIVA Caratteri quantitativi e qualitativi I caratteri discontinui o qualitativi esibiscono un numero ridotto di fenotipi e mostrano una relazione genotipo-fenotipo semplice I caratteri
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliUniversità del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
DettagliA.A. 2014/2015 Corso di Algebra Lineare
A.A. 2014/2015 Corso di Algebra Lineare Stampato integrale delle lezioni Massimo Gobbino Indice Lezione 01: Vettori geometrici nel piano cartesiano. Operazioni tra vettori: somma, prodotto per un numero,
DettagliMaria Prandini Dipartimento di Elettronica e Informazione Politecnico di Milano
Note relative a test di bianchezza rimozione delle componenti deterministiche da una serie temporale a supporto del Progetto di Identificazione dei Modelli e Analisi dei Dati Maria Prandini Dipartimento
DettagliCURVE DI DURATA: Introduzione e Rappresentazione analitica
CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d
DettagliStima dei parametri di un sistema di ODE
Stima dei parametri di un sistema di ODE May 22, 2007 Questi appunti sono ispirati al Cap. 3 del libro Metodi Numerici e Statistici per le Scienze Applicate del Prof. V. Comincioli, disponibile all indirizzo
DettagliAnalisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca
Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti
DettagliGenetica dei caratteri quantitativi
PAS Percorsi Abilitanti Speciali Classe di abilitazione A057 Scienza degli alimenti Tracciabilità genetica degli alimenti Genetica dei caratteri quantitativi 1 Concetti di base in genetica L informazione
DettagliAutovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti)
Autovalori e autovettori, matrici simmetriche e forme quadratiche (cenni) (prof. M. Salvetti) April 14, 2011 (alcune note non complete sugli argomenti trattati: eventuali completamenti saranno aggiunti)
DettagliX ~ N (20, 16) Soluzione
ESERCIZIO 3.1 Il tempo di reazione ad un esperimento psicologico effettuato su un gruppo di individui si distribuisce normalmente con media µ = 20 secondi e scarto quadratico medio σ = 4 secondi: X ~ N
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Dettagli4 Autovettori e autovalori
4 Autovettori e autovalori 41 Cambiamenti di base Sia V uno spazio vettoriale tale che dim V n Si è visto in sezione 12 che uno spazio vettoriale ammette basi distinte, ma tutte con la medesima cardinalità
DettagliRENATO LEONI. Esempi numerici riguardanti l'analisi della correlazione canonica
RENATO LEONI Esempi numerici riguardanti l'analisi della correlazione canonica UNIVERSITÀ DI FIRENZE DIPARTIMENTO DI STATISTICA "G. PARENTI" FIRENZE, 27 Questo lavoro è destinato a un uso personale e ne
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con
DettagliArgomenti della lezione:
Lezione 13 L analisi della Varianza (ANOVA): il modello lineare Argomenti della lezione: Modello lineare Disegni a una via L Analisi della Varianza (ANOVA): Esamina differenze tra le medie di due o più
DettagliIl campionamento e l inferenza. Il campionamento e l inferenza
Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento
DettagliLaboratorio di dati e sistemi multimediali
Laboratorio di dati e sistemi multimediali Scienze e tecnologie Multimediale Prof. Christian Micheloni Introduzione Nel corso di questa lezione faremmo uso dell iris data set per introdurre i concetti
DettagliLa statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci
La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni
DettagliRiduzione Dimensionalità
Introduzione Definizioni PCA vs LDA Principal Component Analysis (PCA) Linear Discriminant Analysis (LDA) t-sne 1 Definizioni Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction)
DettagliI VETTORI GAUSSIANI E. DI NARDO
I VETTOI GAUSSIANI E. DI NADO. L importanza della distribuzione gaussiana I vettori di v.a. gaussiane sono senza dubbio uno degli strumenti più utili in statistica. Nell analisi multivariata, per esempio,
DettagliPrefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
Dettaglix, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
DettagliII ESERCITAZIONE ESERCIZIO
II ESERCITAZIONE ESERCIZIO 1 Quale percentuale di osservazioni sotto la curva normale standardizzata cade nell'intervallo compreso tra i valori z=-1 e z=+1? a) 66% circa b) 70,2% circa c) 68,2% circa d)
DettagliMatematica per Analisi dei Dati,
Matematica per Analisi dei Dati, 230209 1 Spazio vettoriale R n Sia n un intero positivo fissato Lo spazio vettoriale R n e l insieme delle n ple ordinate di numeri reali, che rappresenteremo sempre come
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)
ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle
DettagliFacoltà di Giurisprudenza
Facoltà di Giurisprudenza METODOLOGIE STATISTICHE UTILIZZATE PER L ANALISI DELLA SODDISFAZIONE DEGLI STUDENTI FREQUENTANTI A.A. 2010-2011 NUCLEO DI VALUTAZIONE DI ATENEO MILANO PIACENZA - CREMONA ROMA
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione
DettagliVariabili aleatorie. Variabili aleatorie e variabili statistiche
Variabili aleatorie Variabili aleatorie e variabili statistiche Nelle prime lezioni, abbiamo visto il concetto di variabile statistica : Un oggetto o evento del mondo reale veniva associato a una certa
DettagliMetodi di riduzione del modello dinamico Dott. Lotti Nevio
1. Metodi di riduzione del modello dinamico Nel mettere insieme modelli dinamici di elementi diversi di una struttura (come avviene nel caso di un velivolo e del suo carico utile, ma anche per i diversi
DettagliSPAZI EUCLIDEI, APPLICAZIONI SIMMETRICHE, FORME QUADRATICHE
SPAZI EUCLIDEI, APPLICAZIONI SIMMETRICHE, FORME QUADRATICHE. Esercizi Esercizio. In R calcolare il modulo dei vettori,, ),,, ) ed il loro angolo. Esercizio. Calcolare una base ortonormale del sottospazio
DettagliN.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. Esercizio 1 Un chimico che lavora per una fabbrica di batterie, sta cercando una batteria
DettagliEsercitazione di Analisi Matematica II
Esercitazione di Analisi Matematica II Barbara Balossi 06/04/2017 Esercizi di ripasso Esercizio 1 Sia data l applicazione lineare f : R 3 R 3 definita come f(x, y, z) = ( 2x + y z, x 2y + z, x y). a) Calcolare
DettagliReti Neurali (Parte I)
Reti Neurali (Parte I) Corso di AA, anno 2017/18, Padova Fabio Aiolli 30 Ottobre 2017 Fabio Aiolli Reti Neurali (Parte I) 30 Ottobre 2017 1 / 15 Reti Neurali Artificiali: Generalità Due motivazioni diverse
DettagliSerie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Serie storiche Introduzione Per alcuni dataset, l attributo target è soggetto ad un evoluzione temporale e risulta associato ad istanti di tempo successivi. I modelli di analisi delle serie storiche si
DettagliReti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.
Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliEsercitazione: La distribuzione NORMALE
Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle
DettagliAnalisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale
delle sui delle Analisi statistica e matematico-finanziaria II Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale sulle particolari ali dei dati Outline
DettagliStatistica descrittiva: misure di associazione
Statistica descrittiva: misure di associazione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.
DettagliIstruzioni per l analisi in componenti principali con R
Istruzioni per l analisi in componenti principali con R Vi ricordo che in nero sono state inserite le note e in rosso le istruzioni da digitare sulla console di R Importare il dataset gelati
DettagliLa variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le
DettagliLa notazione usata è quella usuale nel caso scalare, ed è estesa al caso generale. Consideriamo una forma quadratica:
. SU ALCUNI OPERAORI DI DERIVAZIONE Alcune operazioni tipiche dell analisi matematica hanno un diretto riscontro in termini matriciali. Consideriamo ad esempio una forma lineare: f() l l + l +..l n n ;
DettagliEsercitazione ENS su processi casuali (13 e 14 Maggio 2008)
Esercitazione ES su processi casuali ( e 4 Maggio 2008) D. Donno Esercizio : Calcolo di autovalori e autovettori Si consideri un processo x n somma di un segnale e un disturbo: x n = Ae π 2 n + w n, n
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
Dettagli