Statistica multivariata con R
|
|
- Marina Fede
- 8 anni fa
- Visualizzazioni
Transcript
1 Statistica multivariata con R Sergio Polini 4 novembre 2009 Indice 1 Prime sintesi dei dati Tabelle di contingenza Matrici di percentuali Matrice degli scarti Matrice degli scarti standardizzati Matrice di codevianza Matrice di covarianza Matrice di correlazione Varianza totale Varianza generalizzata di Wilks Analisi delle componenti principali Il punto di vista geometrico Segnale e rumore Variabili omogenee La prima componente Le componenti successive Variabili eterogenee Scelta e valutazione delle componenti principali La matrice Factor Pattern Scelta delle componenti Valutazione delle variabili Valutazione delle unità statistiche Valutazione congiunta Indici di contribuzione relativa L ACP con R La funzione ACP() La funzione prcomp() La funzione princomp() Appendici Notazioni di calcolo differenziale Scomposizione ai valori singolari Scomposizione di matrici standardizzate Scomposizione di matrici centrate Il codice delle funzioni ACP() e acp.*() La funzione ACP() La funzione acp.screeplot() La funzione acp.corrplot() La funzione acp.unitplot()
2 1 Prime sintesi dei dati Data una matrice X n,k, contenente la rilevazione delle modalità di k caratteri su n unità statistiche, le prime sintesi consistono o nella costruzione di una tabella di contingenza, o nella costruzione di altre matrici contenenti trasformazioni dei dati. 1.1 Tabelle di contingenza Nel caso alcuni dei k caratteri siano qualitativi, si possono distinguere due casi: a) se le modalità di un carattere sono solo due, si attua la codifica binaria assegnando 0 ad una modalità è 1 all altra; b) se le modalità sono più di due, si attua la codifica disgiuntiva completa, che consiste nello scomporre il carattere in tanti caratteri con le due modalità sì/no, quindi 1/0, quante sono le modalità originarie; ad esempio: Regione N C C S N diventa: N ord Centro Sud Può tuttavia convenire la codifica disgiuntiva completa anche nel caso di un carattere con due sole modalità, scomponendolo in due caratteri con modalità sì/no. Così facendo, infatti, si trattano nello stesso modo i caratteri con due o più di due modalità e, anche se aumenta il numero dei caratteri, si perviene facilmente ad una tabella di contingenza. Ad esempio, se si rilevano su n unità statistiche due caratteri qualitativi, il primo con due modalità ed il secondo con tre, con la codifica disgiuntiva completa si arriva a due matrici le cui colonne contengono solo 0 e 1: X 1 n,2 non è altro che il prodotto: X 1 X 2 = A 2,n n,3 2,3 Infatti, ipotizzando un caso in cui n sia pari a 5: X 1 5, = e X 3 n,3 X 2 5,3. La relativa tabella di contingenza = Il prodotto X 1 X 2 è: 2,5 5, ( ) = ( 1 0 )
3 cdc <- function(x, names=null) { if (!is.vector(x)) stop(" x deve essere un vettore") if (!is.factor(x)) x <- factor(x) n <- length(levels(x)) m <- NULL for (i in 1:n) { yes <- levels(x)[i] v <- as.numeric(x == yes) if (is.null(m)) { m <- v } else { m <- cbind(m,v) } } if (is.null(names)) { colnames(m) <- levels(x) } else { colnames(m) <- names } m } Figura 1. Funzione R per la codifica disgiuntiva completa di un carattere. Si vede che l elemento a 11 della matrice prodotto è 1 perché nell esecuzione del prodotto righe per colonne capita una sola volta che si abbia un risultato non nullo (solo i primi elementi della prima riga di X 1 e della prima colonna di X 2 sono entrambi pari a 1), l elemento a 12 è 0 perché non capita mai, l elemento a 1,3 è 2 perché capita due volte (il secondo ed il quarto elemento sia della prima riga di X 1 che della terza colonna di X 2). Gli elementi della matrice prodotto sono quindi frequenze congiunte. R calcola le tabelle di contingenza con la funzione table(), ma, se si volesse comunque procedere alla codifica disgiuntiva completa per i singoli caratteri, si potrebbe utilizzare una funzione cdc() come quella riportata nella figura 1 che, dato in input un carattere (un vector o un factor), restituisce una matrice le cui colonne, contenenti solo 0 e 1, sono le modalità del carattere. Il parametro opzionale names consente di attribuire espressamente nomi ai nuovi caratteri così ottenuti: > regioni <- c("n","c","c","s","n") > cdc(regioni) C N S [1,] [2,] [3,] [4,]
4 [5,] Esempio 1.1. Il comunicato ISTAT sulle forze di lavoro al 2 trimestre riporta, tra l altro, i dati destagionalizzati relativi alla ripartizione di occupati e persone in cerca di occupazione nel nord, nel centro e nel sud d Italia. I dati possono essere immessi in R come segue: > occupati <- factor(c(rep(1,11996),rep(0,612),rep(1,4853),rep(0,353), + rep(1,6318),rep(0,874))) > regioni <- factor(c(rep("n",12608),rep("c",5206),rep("s",7192))) Si assegnano così al vettore occupati, nell ordine, occupati (modalità 1) e persone in cerca di lavoro (modalità 0) nel nord, occupati e persone in cerca di lavoro nel centro, occupati e persone in cerca di lavoro nel sud; al vettore regioni le forze di lavoro, rispettivamente, del nord, del centro e del sud. La funzione table() consente di costruire subito una tabella di contingenza: > table(occupati, regioni) regioni occupati C N S Si può ottenere lo stesso risultato con la codifica disgiuntiva completa. Nel caso del carattere regioni, le colonne della matrice ottenuta con cdc() avranno come nomi le modalità ( C, N e S ); nel caso del carattere occupati, essendo le modalità 0/1, conviene assegnare espressamente i nomi di colonna, indicando come primo nome quello per la colonna relativa allo stato 0 (in questo caso si potrebbe usare D per disoccupato, ovvero persona in cerca di occupazione) e come secondo quello per l altra (in questo caso O per occupato): > X1 <- cdc(occupati, names=c("d","o")) > X2 <- cdc(regioni) La tabella di contingenza può ora essere ottenuta col prodotto: che in R si esegue con: > t(x1) %*% X2 C N S D O X 1 X 2 = A 2,n n,3 2,3 (t(x1) rende la trasposta di X1, l operatore %*% esegue il prodotto righe per colonne di matrici). Va notato che si può procedere alla codifica disgiuntiva completa anche nel caso di dati quantitativi, dopo averli raggruppari in classi. In questo caso, una colonna verrà trasformata in tante colonne quante sono le classi
5 1.2 Matrici di percentuali Le matrici di percentuali sono matrici in cui l originaria matrice dei dati X n,k viene trasformata sostituendo i suoi elementi x ij con percentuali rispetto ad un totale: a) matrice di percentuali sul totale, t P n,k : se le colonne sono omogenee (stesso carattere, stessa unità di misura), si sostituiscono i singoli dati con le loro percentuali sull ammontare totale del carattere: t p ij = x ij ni=1 kj=1 x ij 100 t P n,k = 100 ni=1 kj=1 x ij X n,k si tratta quindi di moltiplicare la matrice dei dati per la costante 100 ammontare totale in R, se X è la matrice dei dati, il comando sum(x) restituisce il totale dei suoi elementi, quindi è sufficiente: P.tot <- X / sum(x) * 100 b) matrici di percentuali per riga, r P n,k : se le colonne sono omogenee, come sopra, si sostituiscono i singoli dati con le loro percentuali sui totali di riga: r p ij = x ij kj=1 x ij 100 r P n,k = r D n,n X n,k 100 dove r D è una matrice diagonale n n avente come elementi non nulli gli n reciproci dei totali di riga; 2 infatti premoltiplicando una matrice per una matrice diagonale si ottiene una matrice in ciascuna riga della quale compaiono i prodotti dei corrispondenti elementi della stessa riga della matrice data per l unico elemento non nullo della stessa riga della matrice diagonale; in R le matrici diagonali si ottengono con la funzione diag() in vari modi, anche semplicemente passando il vettore degli elementi della diagonale principale, che in questo caso saranno i reciproci delle somme per riga della matrice dei dati: P.row <- ( diag(1/rowsums(x)) %*% X) * 100 c) matrici di percentuali per colonna, c P: i singoli dati vengono sostituiti con le loro n,k percentuali sui totali di colonna (non è quindi necessario che le colonne siano tra loro omogenee): c p ij = x ij ni=1 x ij 100 c P = 100 X cd n,k n,k k,k dove c D è una matrice diagonale k k avente come elementi non nulli i k reciproci dei totali di colonna; 3 infatti postmoltiplicando una matrice per una matrice diagonale si ottiene una matrice in ciascuna colonna della quale compaiono i prodotti dei corrispondenti elementi della stessa colonna della matrice data per l unico elemento non nullo della stessa colonna della matrice diagonale; in R: 2 Può essere anche intesa come l inversa di una matrice diagonale avente come elementi non nulli i totali di riga. 3 Può essere anche intesa come l inversa di una matrice diagonale avente come elementi non nulli i totali di colonna. 5
6 P.col <- (X %*% diag(1/colsums(x))) * 100 Esempio 1.2. Costruiamo una matrice X prendendo dalla contabilità nazionale i dati in milioni di euro relativi a produzione ai prezzi base, importazioni cif, imposte nette e margini distributivi (tre caratteri quantitativi omogenei) relativi alle unità statistiche costituite dai tre settori agricoltura, industria e servizi: 4 > Rpa <- matrix(c(47133, , , 9258, , 40804, , , ), nrow=3) > rownames(rpa) <- c("agricoltura", "Industria", "Servizi") > colnames(rpa) <- c("produzione pb", "Import. cif", "Imposte e margini") > Rpa Produzione pb Import. cif Imposte e margini Agricoltura Industria Servizi Per ricavare la matrice delle percentuali sull ammontare totale (che è il totale delle risorse ai prezzi di acquisto): > P.tot <- Rpa / sum(rpa) * 100 > P.tot Produzione pb Import. cif Imposte e margini Agricoltura Industria Servizi Matrice degli scarti In una matrice degli scarti, S n,k, i dati della matrice dei dati vengono sostituiti con i loro scarti dalle medie di colonna: 5 s ij = x ij x j S = X 1 n x n,k n,k n,1 1,k dove 1 n è un vettore colonna contenente tutti 1 e x è un vettore riga contenente le medie di colonna; il loro prodotto è una matrice n k in cui la riga i-esima contiene le medie delle k colonne. Ad esempio: 1 x 1 x 2 x 3 1 ) x (x 1 1 x 2 x 3 = 1 x 2 x 3 x 1 x 2 x 3 1 x 1 x 2 x 3 Si deve notare che la matrice degli scarti opera una semplice traslazione: la nuvola dei punti di R k, vettori i cui componenti sono le modalità dei caratteri quantitativi, viene 4 Tabella 4.2, pag. 9; da notare che i totali non sembrano esatti (ci sono alcune differenze sull ultima cifra) in quanto i dati sono arrotondati. 5 Nel teso di Zani-Cerioli la matrice degli scarti è indicata con X. 6
7 spostata in modo che il suo baricentro coincida con l origine del sistema di coordinate, ma la variabilità rimane immutata. Con R si potrebbero facilmente costruire i vettori 1 n e x ed il prodotto 1 n x, ad esempio, se n è il numero di righe della matrice di dati X > u <- rep(1,n) > x.mean <- colmeans(x) > u %*% t(x-mean) ma si può usare anche la funzione sweep() che toglie valori (in inglese to sweep vuol dire spazzare via ) dalle righe o dalle colonne di matrice; il suo secondo argomento è 1 nel primo caso, 2 nel secondo. In particolare, se X è un dataframe la funzione mean() fornisce un vettore delle medie di colonna, se invece X è una matrice si usa colmeans(), che può peraltro essere usato anche con i dataframe. Quindi, per ottenere a X una matrice degli scarti dalla media: > x.mean <- colmeans(x) > sweep(x, 2, x.mean) Esempio 1.3. Il testo di Zani-Cerioli 6 contiene diverse matrici di dati. La tabella 1.1, a pag. 8, contiene la matrice dei dati relativi a 25 modelli di home theatre per i quali si sono rilevati sette caratteri; vi sono tre caratteri quantitativi: 1) PREZZO (in euro); 2) POTENZA (in watt); 3) CASSE (numero); e quattro caratteri qualitativi in codifica binaria: 4) DVDREC (presente la funzione recorder per i DVD); 5) WIRELESS (possibili collegamenti senza fili); 6) DVX (capacità di leggere i DVX); 7) RDS (presenza di Radio Data System). I dati si possono caricare in R come dataframe col comando: 7 > H <- read.csv("tab0101.csv", row.names=1) > H PREZZO POTENZA CASSE DVDREC WIREL DVX RDS Akai Hitachi K Sony RH Yamaha YHT Per ottenere la matrice degli scarti limitatamente alle prime tre colonne: 6 Sergio Zani e Andrea Cerioli, Analisi dei dati e data mining per le decisioni aziendali, Giuffré, Milano, La tabella 1.1 può essere scaricata da tab0101.csv. 7
8 > h.mean <- colmeans(h[,1:3]) > h.mean PREZZO POTENZA CASSE > sweep(h[,1:3], 2, h.mean) PREZZO POTENZA CASSE Akai Hitachi K Sony RH Yamaha YHT Matrice degli scarti standardizzati In una matrice degli scarti standardizzati, Z n,k, ciascun dato è sostituito dal rapporto tra il suo scarto dalla media di colonna e lo scostamento quadratico medio di colonna: z ij = s ij σ j Z = S σd n,k n,k k,k dove S è la matrice degli scarti e σ D è una matrice diagonale k k i cui elementi non nulli sono i reciproci degli scostamenti quadratici medi di colonna. In R, se X è la matrice dei dati: > S <- sweep(x, 2, colmeans(x)) > D <- diag(1/sd(x)) > Z <- S %*% D Si deve notare che la matrice degli scarti standardizzati non opera una semplice traslazione dei dati, come la matrice degli scarti dalle medie di colonna, ma deforma la nuvola dei punti; diminuisce infatti la variabilità dei caratteri con σ > 1, aumenta quella dei caratteri con σ < 1. Esempio 1.4. Nell esempio 1.3 H è un dataframe; per usare il prodotto righe per colonne di matrici si può convertire H in matrice, oppure si può convertire la sola matrice degli scarti; limitandosi alle prime tre colonne (quelle relative ai caratteri quantitativi): > S <- as.matrix(sweep(h[,1:3], 2, colmeans(h[,1:3]))) > D <- diag(1/sd(h[,1:3])) > Z <- S %*% D > colnames(z) <- colnames(h[,1:3]) > Z PREZZO POTENZA CASSE Akai Hitachi K Sony RH Yamaha YHT
9 var2 <- function(x, def = NROW(x), w = NULL) { if (!is.vector(x)) stop(" x deve essere un vettore") if (is.null(w)) v <- sum((x-mean(x))^2) / def else { n <- length(x) if (length(w)!= n) stop(" x e w devono avere uguale lunghezza") if (any(w < 0) (s <- sum(w)) == 0) stop("i pesi devono essere non negativi e non tutti nulli") w <- w / s w.mean <- weighted.mean(x, w) v <- sum((x-w.mean)^2*w) } v } Figura 2. Funzione R per il calcolo della varianza con un prefissato numero di gradi di libertà oppure su dati ponderati. I risultati possono essere confrontati con quelli riportati dallo Zani-Cerioli nella tabella 1.4, a pag. 21. In R la funzione sd() ritorna la radice quadrata della varianza come calcolata con var(), la quale a sua volta ritorna la somma dei quadrati degli scarti dalla media divisa per n 1 (i gradi di libertà nel caso più frequente). A volte risulta necessario sia dividere per un diverso numero di gradi di libertà, sia usare gli scarti da medie ponderate; può quindi essere opportuno definire funzioni più generali. La funzione var2() (figura 2) calcola la varianza di un vettore di dati; per default, calcola la somma dei quadrati degli scarti dalla media aritmetica divisa per n, ma si può dividere per il numero di gradi di libertà che interessa usando il parametro def (degrees of freedom). Si può anche indicare un vettore di pesi e, in questo caso, si procede in modo diverso. La varianza usata nella statistica descrittiva è definita da: Var(x) = n i=1 1 n (x i x) 2 Si calcola quindi la somma dei quadrati degli scarti dalla media aritmetica e ogni quadrato è diviso per n, cioè moltiplicato per il peso 1/n, uguale per tutti. La somma degli n pesi è ovviamente uguale ad 1. Usando un vettore di pesi la cui somma sia sempre 1, si ottiene: n Var(x, p) = (x i x) 2 p i i=1 dove p i è il peso, compreso tra 0 e 1, dell elemento x i. 9
10 sd2 <- function(x, def = NROW(x), w = NULL) { if (is.matrix(x)) apply(x, 2, sd2, def = def, w = w) else if (is.vector(x)) sqrt(var2(x, def = def, w = w)) else if (is.data.frame(x)) sapply(x, sd2, def = def, w = w) else sqrt(var2(as.vector(x), def = def, w = w)) } Figura 3. Funzione R per il calcolo dello scarto quadratico medio con un prefissato numero di gradi di libertà oppure su dati ponderati. Usando la funzione var2() si può passare un vettore di pesi non normalizzati; in questo caso, i pesi vengono automaticamente divisi per il loro totale. È solo necessario che i pesi siano non negativi e non tutti nulli. Da notare che la funzione var() di R opera anche su matrici, restituendo in tal caso la matrice di covarianza, mentre var2() opera solo su vettori (per la matrice di covarianza v. sez. 1.6). La funzione sd2() (figura 3) è modellata sulla sd() di R: 8 usa la funzione per il calcolo della varianza, ma può essere usata su matrici o dataframe e, in questi casi, fornisce un vettore degli scarti di colonna. Esempio 1.5. La tabella 1.5 dello Zani-Cerioli contiene alcuni dati e indicatori economici relativi a 14 settori industriali. Negli esempi del testo viene eliminata la sesta riga, relativa alle raffinerie, per i motivi spiegati a pag. 24; possiamo quindi procedere così: 9 > X <- read.csv("tab0105.csv", row.names=1) > X <- X[c(1:5,7:14),] I caratteri rilevati sono: 1) addetti: numero di imprenditori, coadiuvanti e dipendenti; 2) fatturato: il fatturato in milioni di euro; 3) valoreagg: il valore aggiunto in milioni di euro; 4) vafatt: percentale del valore aggiunto sul fatturato; 5) vaad: il valore aggiunto per addetto in migliaia di euro; 6) coslav: il costo del lavoro per dipendente in migliaia di euro; 7) retrib: la retribuzione lorda per dipendente in migliaia di euro; 8) invest: gli investimenti per addetto in migliaia di euro. Possiamo ottenere le medie degli indicatori (i caratteri dal 4 all 8 ) con: 8 Per vedere il sorgente di una funzione di R basta digitarne il nome non seguito da parentesi e dare invio. 9 La tabella è scaricabile da 10
11 > mean(x[,4:8]) vafatt vaad coslav retrib invest ma anche le medie ponderate con gli addetti o con il valore aggiunto, ricorrendo alla funzione sapply(): > sapply(x[,4:8], weighted.mean, w = X$addetti) vafatt vaad coslav retrib invest > sapply(x[,4:8], weighted.mean, w = X$valoreagg) vafatt vaad coslav retrib invest Possiamo inoltre ottenere gli scarti quadratici medi campionari, usando sd(): > sd(x[,4:8]) vafatt vaad coslav retrib invest ma anche quelli dei dati ponderati con gli addetti o con il valore aggiunto: > sd2(x[,4:8], w = X$addetti) vafatt vaad coslav retrib invest > sd2(x[,4:8], w = X$valoreagg) vafatt vaad coslav retrib invest I risultati così ottenuti possono essere confrontati con quelli riportati nella tabella 1.6 dello Zani-Cerioli (pag. 26); non sono esattamente uguali per i primi due indicatori (vafatt e vaad) perché i dati riportati nella tabella 1.5 del testo sono arrotondati. La funzione sd2() può essere usata per ottenere una matrice degli scarti standardizzati in cui gli scarti siano calcolati dividendo per n invece che per n 1. Esempio 1.6. Tornando ai dati relativi a 25 modelli di home theatre (esempi 1.3 e 1.4): > S <- sweep(h[,1:3], 2, colmeans(h[,1:3])) > D <- diag(1/sd2(h[,1:3])) > Z <- as.matrix(s) %*% D > colnames(z) <- colnames(h[,1:3]) > Z PREZZO POTENZA CASSE Akai Hitachi K Sony RH Yamaha YHT
12 Si può notare che i dati differiscono da quelli ottenuti nell esempio 1.4 di un fattore 1 / 1 25 =, che rappresenta la differenza tra la divisione della varianza prima per n = 25, poi per n 1 = 24; ad esempio, il valore standardizzato del prezzo dell Akai 4200 era , ora è e si ha: = Matrice di codevianza La matrice di codevianza, T k,k, detta anche matrice di devianza-codevianza, è una matrice quadrata simmetrica che ha sulla diagonale principale la devianza di ciascuna colonna della matrice dei dati e altrove la codevianza tra la i-esima e la j-esima colonna. Poiché la devianza non è altro che la somma dei quadrati degli scarti dalla media, mentre la codevianza non è altro che la somma dei prodotti degli scarti di due variabili dalle rispettive medie: Cod(X i, X j ) = Dev(X i ) = Cod(X i, X i ) = n (x hi x i )(x hj x j ) = nσ ij h=1 n h=1 (x hi x i ) 2 = nσ 2 i La matrice di codevianza si ottiene dalla matrice degli scarti: t ij = Cod(x i, x j ) T k,k = S k,n S n,k Con R, se X è una matrice di dati: > S <- sweep(x, 2, colmeans(x) > T <- t(s) %*% S Dato che la devianza è sempre non negativa (è un quadrato), la matrice T come anche le matrici di covarianza e di correlazione è quadrata, simmetrica, con elementi tutti non negativi sulla diagonale principale ed inoltre semidefinita positiva. Esempio 1.7. Usando ancora il dataframe H dei 25 modelli di home theatre: > S <- as.matrix(sweep(h[,1:3], 2, colmeans(h[,1:3]))) > T <- t(s) %*% S > T PREZZO POTENZA CASSE PREZZO POTENZA CASSE
13 varcov <- function(x, def = nrow(x), w = rep(1/nrow(x), nrow(x)), center = TRUE) { m <- cov.wt(x, wt = w, center = center) m <- m$cov m * (nrow(x)-1) / def } Figura 4. Funzione R per il calcolo della matrice di covarianza con il desiderato numero di gradi di libertà ed eventualmente su dati ponderati. 1.6 Matrice di covarianza La matrice di covarianza, Σ k,k, detta anche matrice di varianza-covarianza, si ottiene semplicemente dividendo per n, o per n 1, la matrice di codevianza; ad esempio, dividendo per n: Σ = 1 k,k n T = 1 k,k n S S k,n n,k Dividere per n equivale ad assegnare a tutte le unità statistiche un peso pari a 1 n e poi dividere per la somma dei pesi. Capita spesso, in realtà, di assegnare pesi diversi alle unità statistiche; in questi casi, la matrice di covarianza si ottiene con: Σ = S P S k,k k,n n,nn,k dove P n,n è una matrice diagonale contenente i pesi (la cui somma deve essere pari a 1). In R le funzioni var() e cov(), quando si passa loro una matrice o un dataframe, restituiscono entrambe la matrice di covarianza, dividendo per n 1 la matrice di devianza. Esiste inoltre una funzione cov.wt() che fornisce una matrice di covarianza ponderata, in cui si divide comunque per n 1; i pesi sono, per default, pari a 1/n. La funzione cov.wt() consente anche di ottenere una matrice di covarianza centrata; si può infatti usare il parametro center: a) se center = TRUE (default), i dati sono centrati sulla loro media (ponderata, se si passano anche i pesi); b) se center = FALSE, i dati sono centrati sullo 0; c) se center è un vettore (che deve essere di lunghezza uguale al numero delle colonne della matrice o del dataframe), i dati di ciascuna colonna sono centrati sul corrispondente valore del vettore. Esempio 1.8. Usando ancora i dati dei 25 modelli di home theatre (v. esempio 1.3), la matrice di covarianza tra prezzo e potenza in watt può essere ottenuta con: > n <- nrow(h) > varcov(h[,1:2], def = n-1) PREZZO POTENZA PREZZO POTENZA
14 se si desidera una matrice calcolata su n 1 gradi di libertà, 10 oppure, se si preferiscono n gradi di libertà, con: > varcov(h[,1:2]) PREZZO POTENZA PREZZO POTENZA Si verifica subito che i valori ottenuti in quest ultimo modo sono uguali a quelli ottenuti con def = n-1 (ri)moltiplicati per n 1 e divisi per n: 1.7 Matrice di correlazione /25 = La matrice di correlazione, R k,k, è una matrice quadrata simmetrica che ha sulla diagonale principale tutti 1 (coefficienti di correlazione delle colonne con se stesse) e altrove i coefficienti di correlazione tra la i-esima e la j-esima colonna della matrice dei dati. Si può ottenere in due modi: a) dividendo ciascun elemento a ij della matrice di covarianza per σ i σ j : R k,k = σ D k,k Σ k,k σ D k,k dove σ D è una matrice diagonale con i reciproci degli scarti quadratici medi delle colonne della matrice dei dati; b) calcolando la matrice di covarianza a partire dalla matrice degli scarti standardizzati: Quindi: R = 1 σ D S S σ D = 1 k,n k,k n k,k k,n n,k k,k n Z Z n,k S σ D 1 n S S X Σ σ D Σ σ D Z R 1 n Z Z In R si può ottenere la matrice di correlazione con la funzione cor(), ma anche con cov.wt(..., cor = TRUE). La funzione cov.wt() non restituisce infatti un unico valore, ma una lista contenente la matrice di covarianza $cov, i centri delle colonne $center, il numero delle unità statistiche $n.obs ed anche, se cor = TRUE, la matrice di correlazione $cor. Si può quindi pensare ad una semplice funzione cor2() (figura 5) che chiami cov.wt() per poter ponderare i dati, ma poi restituisca solo la matrice di correlazione. Esempio 1.9. Usando i dati relativi a 13 settori industriali dell esempio 1.5, si possono calcolare come segue le matrici di correlazione dei dati semplici oppure ponderati con gli addetti o con il valore aggiunto: Cfr. la tabella 2.1 dello Zani-Cerioli, pag I risultati possono essere confrontati con la tabella 2.3 dello Zani-Cerioli, pag. 44. Vi sono alcune differenze perché i dati della tabella 1.5 del testo sono arrotondati. 14
15 cor2 <- function(x, w = rep(1/nrow(x), nrow(x)), center = TRUE) { m <- cov.wt(x, wt = w, center = center, cor = TRUE) m <- m$cor m } Figura 5. Funzione R per il calcolo della matrice di correlazione di dati eventualmente ponderati. > cor2(x[,4:8]) vafatt vaad coslav retrib invest vafatt vaad coslav retrib invest > cor2(x[,4:8], w = X$addetti) vafatt vaad coslav retrib invest vafatt vaad coslav retrib invest > cor2(x[,4:8], w = X$valoreagg) vafatt vaad coslav retrib invest vafatt vaad coslav retrib invest Varianza totale La varianza totale, Var T, non è altro che la somma delle varianze delle colonne della matrice dei dati, quindi la traccia della matrice di covarianza: Da notare che: Var T = tr(σ) a) ha senso solo se le colonne interessate sono espresse nella stessa unità di misura; b) tiene conto solo della variabilità univariata. In R esiste una funzione trace(), che però ha tutt altro scopo (v. la relativa pagina della guida). Calcolare la traccia di una matrice X è sostanzialmente semplice, in quanto basta sommare gli elementi che hanno l indice di riga, row(x), e quello di colonna, col(x), uguali: > sum(x[row(x)==col(x)] 15
16 totvar <- function(x, def = nrow(x), w = rep(1/nrow(x), nrow(x)), center = TRUE) { if (sum(t(x) == x) == length(x)) # simmetrica t <- sum(x[row(x)==col(x)]) else { m <- varcov(x, def = def, w = w, center = center) t <- sum(m[row(m)==col(m)]) } t } Figura 6. Funzione R per il calcolo della varianza totale. Si può comunque pensare ad una funzione totvar() (figura 6) che calcoli la traccia di una matrice di covarianza sia a partire da questa, se disponibile, sia a partire da una matrice di dati o da un dataframe. Per distinguere tra i due casi, la funzione assume che la matrice passata sia una matrice di covarianza se risulta simmetrica. Esempio Nell esempio 1.8 avevamo calcolato la matrice di covarianza tra prezzo e potenza dei 25 modelli di home theatre prima con n 1 poi con n gradi di libertà. Per calcolare le rispettive varianze totali, usando prima la matrice di covarianza, poi il dataframe: > M <- varcov(h[,1:2], def = 24) > totvar(m) [1] > totvar(h[,1:2]) [1] Varianza generalizzata di Wilks La varianza generalizzata di Wilks è una misura di variabilità multidimensionale che tiene conto di tutti gli elementi della matrice di convarianza, in quanto ne è il determinante: Var G = Σ In valore assoluto la varianza generalizzata varia da 0 (almeno una variabile è perfettamente correlata con un altra) ad un massimo pari al prodotto delle varianze delle k colonne. Si dimostra, inoltre, che il rapporto tra la varianza generalizzata ed il suo massimo è uguale al determinante della matrice di correlazione. Si può quindi definire una varianza generalizzata relativa: Da notare che: V R = Σ kj=1 σ 2 j = R a) il determinante tende a diminuire all aumentare di k, quindi si possono confrontare le varianze generalizzate (assolute o relative) di diverse matrici di dati solo se queste presentano lo stesso numero di caratteri; 16
17 b) la matrice di correlazione contiene solo le correlazioni a coppie; pertanto, non consente di individuare né di escludere relazioni lineari del tipo X 1 = ax 2 + bx 3. In R il determinante di una matrice si calcola col comando det(), quindi: > M <- varcov(h[,1:2], def = 24) > det(m) # varianza generalizzata [1] > R <- cor2(h[,1:2]) > det(r) # varianza generalizzata relativa [1] Analisi delle componenti principali L analisi delle componenti principali (ACP; in inglese PCA, Principal Components Analysis) consente di sostituire ad una matrice di dati X n,k, contenente k variabili quantitative, una nuova matrice Y n,p contenente p k variabili tra loro incorrelate (ortogonali) ed elencate in ordine decrescente di variabilità. 2.1 Il punto di vista geometrico Obiettivo dell ACP è l individuazione di un sottospazio su cui sia possibile proiettare lo spazio delle osservazioni in modo da mantenerne quanto più possibile la variabilità. Per intendere cosa ciò vuol dire, si può immaginare di disporre dei valori di 2 variabili quantitative osservati su n unità statistiche: se non c è correlazione tra le due variabili, il relativo scatter plot appare come una nuvola di punti racchiusa in una circonferenza; se invece c è correlazione, la nuvola di punti appare racchiusa in un ellisse. In quest ultimo caso, gli assi dell ellisse passano entrambi per il punto le cui coordinate sono le medie delle due variabili. Soprattutto, l asse maggiore ha la direzione dell autovettore relativo all autovalore maggiore della matrice di covarianza, l asse minore quella dell altro autovettore. Le lunghezze degli assi, inoltre, sono proporzionali alle radici quadrate dei relativi autovalori. Esempio 2.1. Il file T3_7_SONS.DAT 12 contiene, tra l altro, le misure della lunghezza (V1) e della larghezza (V2) della testa del primo figlio adulto di 25 famiglie. Caricati i dati in un dataframe: > dat <- read.table("t3_7_sons.dat") > dat <- dat[,1:2] # per considerare solo V1 e V2 si può apprezzare visivamente la correlazione tra le due variabili con il comando plot(). Per semplificare la rappresentazione grafica conviene tracciare gli scarti delle variabili dalle rispettive medie: > plot(dat$v1-mean(dat$v1), dat$v2-mean(dat$v2), + xlim=range(-30,30), ylim=range(-30,30)) 12 Scaricabile da 17
18 Per tracciare l ellisse si può usare la funzione ellipse(), contenuta nella omonima libreria, che richiede come parametro una matrice di covarianza (o di correlazione): > library(ellipse) > S <- cov(dat) > lines(ellipse(s)) Gli autovalori (eigenvalues in inglese) e gli autovalori (eigenvectors) di una matrice si trovano con la funzione eigen(): > eig <- eigen(s) > eig $values [1] $vectors [,1] [,2] [1,] [2,] Aggiungendo gli autovettori al grafico (con lunghezze proporzionali alle radici quadrate dei relativi autovalori): lambda <- eig$values a1 <- eig$vectors[,1] a2 <- eig$vectors[,2] arrows(0, 0, sqrt(lambda[1])*a1[1], sqrt(lambda[1])*a1[2], length=0.1) arrows(0, 0, sqrt(lambda[2])*a2[1], sqrt(lambda[2])*a2[2], length=0.1) si ottiene il grafico riprodotto nella figura 7. Nel caso di tre variabili si ottiene un ellissoide. Se la nuvola di punti tridimensionale riempie l ellissoide, risulta difficile prescindere da uno dei suoi tre assi; se invece la nuvola è sì racchiusa nell ellissoide, ma ha la forma di un osso di seppia, si possono considerare solo i due assi lungo i quali si estende maggiormente ottenendo comunque una buona approssimazione della variabilità osservata; si può cioè approssimare l ellissoide considerando l ellisse proiettata sul piano individuato dai suoi due assi maggiori. Analogamente nel caso di più variabili. L analisi delle componenti principali, quindi, consiste nel tentativo di proiettare la nuvola di punti dello spazio originario in uno spazio di dimensione minore, individuato dagli assi lungo i quali l (iper)ellissoide si estende maggiormente. Tali assi, come si è visto nel caso di due variabili, hanno la direzione degli autovettori della matrice di covarianza e lunghezza proporzionale alla radice quadrata dei relativi autovalori Segnale e rumore Si tratta di capire perché, nel caso di due dimensioni, l asse maggiore dell ellisse ha la direzione dell autovettore relativo all autovalore maggiore della matrice di covarianza e perché i due assi hanno lunghezza proporzionale alla radice quadrata degli autovalori. 18
19 dat$v2 mean(dat$v2) dat$v1 mean(dat$v1) Figura 7. Una nuvola di punti a forma di ellisse i cui assi sono paralleli agli autovettori della matrice di covarianza e di lunghezza proporzionale alla radice quadrata dei relativi autovalori. Si può pensare alla nuvola di punti come ad un insieme di osservazioni che ci si aspetta lungo l asse delle ascisse V1, il segnale, accompagnate da un rumore rappresentato dalle ordinate dei punti, V2. La variabilità lungo l asse delle ascisse è la variabilità del segnale, cioè del fenomeno che si intende rilevare, e può essere misurata dalla varianza σv 2 1 ; la variabilità lungo l asse delle ordinate è invece quella del rumore, σ2 V 2. Il rumore è tanto più fastidioso quanto più è correlato, positivamente o negativamente, al segnale, cioè quanto maggiore in valore assoluto è la covarianza tra segnale e rumore, σ V 1,V 2. Per isolare quanto più possibile il segnale dal rumore, quindi, si tratta di passare dallo spazio generato dai vettori (1, 0) e (0, 1) elementi della base canonica dello spazio rappresentato dal piano cartesiano su cui è tracciato il grafico della figura 7 ad uno spazio generato da due vettori che rappresentino uno il segnale, l altro il rumore, e abbiano covarianza nulla. Si tratta quindi di passare dalla matrice di covarianza di V1 e V2, Σ, ad una matrice di covarianza tra Y1 (segnale) e Y2 (rumore) che abbia nulli tutti gli elementi non siti sulla diagonale principale: [ ] [ ] σ 2 V 1 σ V 1,V 2 σ 2 σ V 2,V 1 σv 2 Y σy 2 2 L algebra lineare insegna che ciò significa diagonalizzare Σ, quindi trovare una matrice Λ simile a Σ che sia una matrice diagonale avente gli autovalori di Σ sulla diagonale principale. In questo modo: a) mentre Σ rappresenta le covarianze tra le rilevazioni effettuate nello spazio generato dai 19
20 vettori (1, 0) e (0, 1), la matrice diagonale Λ rappresenta le covarianze tra le rilevazioni come risulterebbero se effettuate nello spazio generato dagli autovettori di Σ; b) dato che Σ è una matrice simmetrica, i suoi due autovalori sono reali e i due autovettori sono tra loro ortogonali, quindi la loro covarianza è nulla 2.2 Variabili omogenee L ACP opera sempre su matrici centrate. Se le variabili originarie sotto tutte espresse (o esprimibili) nella stessa unità di misura, si usa la matrice degli scarti S n,k La prima componente La prima componente Y 1 viene espressa come combinazione lineare delle k variabili con coefficienti i k elementi di un vettore a 1, quindi come prodotto tra la matrice dei dati e tale vettore: Y 1 = S a 1 n,1 n,k k,1 con l obiettivo di massimizzare la varianza σy 2 1 della componente Y 1, sottoposto al vincolo di normalizzazione a 1 = a 1 a 1 = k i=1 a 2 i1 = 1. Il problema di massimizzazione si risolve impiegando un moltiplicatore di Lagrange λ. Poiché: 13 k k σy 2 1 = Var(Sa 1 ) = a i1 a j1 σ ij = a 1Σa 1 si ha (cfr. Appendice 3.1): i=1 j=1 L = σ 2 Y 1 + λ(1 a 1a 1 ) = a 1Σa 1 + λ(1 a 1a 1 ) L a 1 = 2Σa 1 2λa 1 = 0 (Σ λi k )a 1 = 0 dove I k è la matrice identità di ordine k. Ne segue che trovare i λ che soddisfano la condizione di massimizzazione vincolata equivale a trovare gli autovalori della matrice di covarianza Σ k,k. Essendo la matrice di covarianza simmetrica, con traccia non negativa e semidefinita positiva, tutti gli autovalori sono reali e non negativi L i-esimo elemento di Y 1 è una combinazione lineare degli i-esimi elementi delle colonne di S con coefficienti gli elementi di a 1, quindi il prodotto della i-esima riga di S per a 1: y i1 = a 11s i1 + a 21s i2 + + a k1 s ik = S (i) 1,k Tenendo conto del fatto che la media di ciascuna colonna di Y è 0, in quanto combinazione lineare delle colonne di S che hanno a loro volta media nulla, la varianza di Y 1 è: σ 2 Y 1 = 1 n n yi1 2 = 1 n i=1 n i=1 a 1 1,k S (i) k,1 S (i) 1,k a 1 = 1 k,1 n a 1 S 1,k k,n a 1 k,1 S a 1 = a 1 Σ a 1 n,k k,1 k,k k,1 14 Più precisamente, gli autovalori sono reali perché Σ è una matrice simmetrica; inoltre, per la definizione di autovalore e autovettore, se λ è un autovalore di Σ e v è un relativo autovettore, si 20
Il concetto di valore medio in generale
Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo
Dettagli2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione
Capitolo 2 MATRICI Fra tutte le applicazioni su uno spazio vettoriale interessa esaminare quelle che mantengono la struttura di spazio vettoriale e che, per questo, vengono dette lineari La loro importanza
DettagliRelazioni statistiche: regressione e correlazione
Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica
Dettagli4. Operazioni elementari per righe e colonne
4. Operazioni elementari per righe e colonne Sia K un campo, e sia A una matrice m n a elementi in K. Una operazione elementare per righe sulla matrice A è una operazione di uno dei seguenti tre tipi:
DettagliDimensione di uno Spazio vettoriale
Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione
DettagliLE FUNZIONI A DUE VARIABILI
Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre
DettagliVARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.
VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD Si definisce varianza campionaria l indice s 2 = 1 (x i x) 2 = 1 ( xi 2 n x 2) Si definisce scarto quadratico medio o deviazione standard la radice quadrata della
Dettagli2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1
1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1
DettagliLEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0
LEZIONE 23 231 Diagonalizzazione di matrici Abbiamo visto nella precedente lezione che, in generale, non è immediato che, data una matrice A k n,n con k = R, C, esista sempre una base costituita da suoi
DettagliProva di autovalutazione Prof. Roberta Siciliano
Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.
DettagliEsempi di funzione. Scheda Tre
Scheda Tre Funzioni Consideriamo una legge f che associa ad un elemento di un insieme X al più un elemento di un insieme Y; diciamo che f è una funzione, X è l insieme di partenza e X l insieme di arrivo.
DettagliParte 2. Determinante e matrice inversa
Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice
DettagliOCCUPATI SETTORE DI ATTIVITA' ECONOMICA
ESERCIZIO 1 La tabella seguente contiene i dati relativi alla composizione degli occupati in Italia relativamente ai tre macrosettori di attività (agricoltura, industria e altre attività) negli anni 1971
Dettagli4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0
Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice
DettagliSISTEMI DI NUMERAZIONE E CODICI
SISTEMI DI NUMERAZIONE E CODICI Il Sistema di Numerazione Decimale Il sistema decimale o sistema di numerazione a base dieci usa dieci cifre, dette cifre decimali, da O a 9. Il sistema decimale è un sistema
DettagliLA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1
LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 I CODICI 1 IL CODICE BCD 1 Somma in BCD 2 Sottrazione BCD 5 IL CODICE ECCESSO 3 20 La trasmissione delle informazioni Quarta Parte I codici Il codice BCD
DettagliGEOMETRIA DELLE MASSE
1 DISPENSA N 2 GEOMETRIA DELLE MASSE Si prende in considerazione un sistema piano, ossia giacente nel pian x-y. Un insieme di masse posizionato nel piano X-Y, rappresentato da punti individuati dalle loro
Dettagli( x) ( x) 0. Equazioni irrazionali
Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza
DettagliLa distribuzione Normale. La distribuzione Normale
La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una
DettagliESEMPIO 1: eseguire il complemento a 10 di 765
COMPLEMENTO A 10 DI UN NUMERO DECIMALE Sia dato un numero N 10 in base 10 di n cifre. Il complemento a 10 di tale numero (N ) si ottiene sottraendo il numero stesso a 10 n. ESEMPIO 1: eseguire il complemento
DettagliGrandezze scalari e vettoriali
Grandezze scalari e vettoriali Esempio vettore spostamento: Esistono due tipi di grandezze fisiche. a) Grandezze scalari specificate da un valore numerico (positivo negativo o nullo) e (nel caso di grandezze
DettagliParte 3. Rango e teorema di Rouché-Capelli
Parte 3. Rango e teorema di Rouché-Capelli A. Savo Appunti del Corso di Geometria 203-4 Indice delle sezioni Rango di una matrice, 2 Teorema degli orlati, 3 3 Calcolo con l algoritmo di Gauss, 6 4 Matrici
DettagliAnalisi delle relazioni tra due caratteri
Analisi delle relazioni tra due caratteri Le misure di connessione misurano il grado di associazione tra due caratteri qualsiasi sotto il profilo statistico (e non causale in quanto non è compito della
DettagliDiagonalizzazione di matrici e applicazioni lineari
CAPITOLO 9 Diagonalizzazione di matrici e applicazioni lineari Esercizio 9.1. Verificare che v = (1, 0, 0, 1) è autovettore dell applicazione lineare T così definita T(x 1,x 2,x 3,x 4 ) = (2x 1 2x 3, x
DettagliAPPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI
APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................
DettagliCONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)
CONTINUITÀ E DERIVABILITÀ Esercizi proposti 1. Determinare lim M(sin) (M(t) denota la mantissa di t) kπ/ al variare di k in Z. Ove tale limite non esista, discutere l esistenza dei limiti laterali. Identificare
DettagliAlessandro Pellegrini
Esercitazione sulle Rappresentazioni Numeriche Esistono 1 tipi di persone al mondo: quelli che conoscono il codice binario e quelli che non lo conoscono Alessandro Pellegrini Cosa studiare prima Conversione
DettagliESTRAZIONE DI RADICE
ESTRAZIONE DI RADICE La radice è l operazione inversa dell elevamento a potenza. L esponente della potenza è l indice della radice che può essere: quadrata (); cubica (); quarta (4); ecc. La base della
DettagliSiamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.
DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti
DettagliL espressione torna invece sempre vera (quindi la soluzione originale) se cambiamo contemporaneamente il verso: 1 < 0.
EQUAZIONI E DISEQUAZIONI Le uguaglianze fra espressioni numeriche si chiamano equazioni. Cercare le soluzioni dell equazione vuol dire cercare quelle combinazioni delle lettere che vi compaiono che la
DettagliRICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007
RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007 Rispondere alle seguenti domande marcando a penna la lettera corrispondente alla risposta ritenuta corretta (una sola tra quelle riportate). Se
DettagliTeoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26
Indice L attività di recupero 6 Funzioni Teoria in sintesi 0 Obiettivo Ricerca del dominio e del codominio di funzioni note Obiettivo Ricerca del dominio di funzioni algebriche; scrittura del dominio Obiettivo
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it RIPASSO SULLE MATRICI 1 Addizione tra matrici Moltiplicazione Matrice diagonale Matrice identità Matrice trasposta
DettagliMATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010
elementi di teoria dei grafi anno acc. 2009/2010 Grafi semplici Un grafo semplice G è una coppia ordinata (V(G), L(G)), ove V(G) è un insieme finito e non vuoto di elementi detti vertici o nodi di G, mentre
DettagliFUNZIONI ELEMENTARI - ESERCIZI SVOLTI
FUNZIONI ELEMENTARI - ESERCIZI SVOLTI 1) Determinare il dominio delle seguenti funzioni di variabile reale: (a) f(x) = x 4 (c) f(x) = 4 x x + (b) f(x) = log( x + x) (d) f(x) = 1 4 x 5 x + 6 ) Data la funzione
DettagliElementi di informatica
Elementi di informatica Sistemi di numerazione posizionali Rappresentazione dei numeri Rappresentazione dei numeri nei calcolatori rappresentazioni finalizzate ad algoritmi efficienti per le operazioni
DettagliFondamenti e didattica di Matematica Finanziaria
Fondamenti e didattica di Matematica Finanziaria Silvana Stefani Piazza dell Ateneo Nuovo 1-20126 MILANO U6-368 silvana.stefani@unimib.it 1 Unità 9 Contenuti della lezione Operazioni finanziarie, criterio
DettagliLA CORRELAZIONE LINEARE
LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione
DettagliKangourou della Matematica 2014 finale nazionale italiana Mirabilandia, 12 maggio 2014
Kangourou della Matematica 2014 finale nazionale italiana Mirabilandia, 12 maggio 2014 LIVELLO STUDENT K,M N CD BC A S1. (5 punti ) In figura si vede una circonferenza della quale i segmenti AB, BC e CD
DettagliESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004
ESAME DI STAT DI LICE SCIENTIFIC CRS SPERIMENTALE P.N.I. 004 Il candidato risolva uno dei due problemi e 5 dei 0 quesiti in cui si articola il questionario. PRBLEMA Sia la curva d equazione: ke ove k e
Dettagli1 Applicazioni Lineari tra Spazi Vettoriali
1 Applicazioni Lineari tra Spazi Vettoriali Definizione 1 (Applicazioni lineari) Si chiama applicazione lineare una applicazione tra uno spazio vettoriale ed uno spazio vettoriale sul campo tale che "!$%!
DettagliDott.ssa Caterina Gurrieri
Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo
DettagliAlgebra Lineare e Geometria
Algebra Lineare e Geometria Corso di Laurea in Ingegneria Elettronica A.A. 2013-2014 Prova d esame del 16/06/2014. 1) a) Determinare la matrice associata all applicazione lineare T : R 3 R 4 definita da
DettagliPer studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R
Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.
DettagliParte II Indice. Operazioni aritmetiche tra valori rappresentati in binario puro. Rappresentazione di numeri con segno
Parte II Indice Operazioni aritmetiche tra valori rappresentati in binario puro somma sottrazione Rappresentazione di numeri con segno modulo e segno complemento a 2 esercizi Operazioni aritmetiche tra
DettagliGIROSCOPIO. Scopo dell esperienza: Teoria fisica. Verificare la relazione: ω p = bmg/iω
GIROSCOPIO Scopo dell esperienza: Verificare la relazione: ω p = bmg/iω dove ω p è la velocità angolare di precessione, ω è la velocità angolare di rotazione, I il momento principale d inerzia assiale,
DettagliCALCOLO COMBINATORIO
CALCOLO COMBINATORIO 1 Modi di formare gruppi di k oggetti presi da n dati 11 disposizioni semplici, permutazioni Dati n oggetti distinti a 1,, a n si chiamano disposizioni semplici di questi oggetti,
Dettagli~ Copyright Ripetizionando - All rights reserved ~ http://ripetizionando.wordpress.com STUDIO DI FUNZIONE
STUDIO DI FUNZIONE Passaggi fondamentali Per effettuare uno studio di funzione completo, che non lascia quindi margine a una quasi sicuramente errata inventiva, sono necessari i seguenti 7 passaggi: 1.
DettagliRETTE, PIANI, SFERE, CIRCONFERENZE
RETTE, PIANI, SFERE, CIRCONFERENZE 1. Esercizi Esercizio 1. Dati i punti A(1, 0, 1) e B(, 1, 1) trovare (1) la loro distanza; () il punto medio del segmento AB; (3) la retta AB sia in forma parametrica,
DettagliFunzioni in C. Violetta Lonati
Università degli studi di Milano Dipartimento di Scienze dell Informazione Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Funzioni - in breve: Funzioni Definizione di funzioni
DettagliDOMINIO E LIMITI. Esercizio 3 Studiare gli insiemi di livello della funzione f, nei seguenti casi: 1) f(x,y) = y2 x 2 + y 2.
FUNZIONI DI DUE VARIABILI 1 DOMINIO E LIMITI Domini e disequazioni in due variabili. Insiemi di livello. Elementi di topologia (insiemi aperti, chiusi, limitati, convessi, connessi per archi; punti di
DettagliFederico Lastaria. Analisi e Geometria 2. Matrici simmetriche. Il teorema spettrale. 1/24
Contenuto Endomorfismi auto-aggiunti. Matrici simmetriche. Il teorema spettrale Gli autovalori di una matrice simmetrica sono tutti reali. (Dimostrazione fatta usando i numeri complessi). Dimostrazione
DettagliStatistica. Alfonso Iodice D Enza iodicede@unina.it
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 16 Outline 1 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16
DettagliUSO DI EXCEL CLASSE PRIMAI
USO DI EXCEL CLASSE PRIMAI In queste lezioni impareremo ad usare i fogli di calcolo EXCEL per l elaborazione statistica dei dati, per esempio, di un esperienza di laboratorio. Verrà nel seguito spiegato:
DettagliRICHIAMI SULLE MATRICI. Una matrice di m righe e n colonne è rappresentata come
RICHIAMI SULLE MATRICI Una matrice di m righe e n colonne è rappresentata come A = a 11 a 12... a 1n a 21 a 22... a 2n............ a m1 a m2... a mn dove m ed n sono le dimensioni di A. La matrice A può
DettagliLE SUCCESSIONI 1. COS E UNA SUCCESSIONE
LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe
DettagliPercorsi di matematica per il ripasso e il recupero
Giacomo Pagina Giovanna Patri Percorsi di matematica per il ripasso e il recupero 2 per la Scuola secondaria di secondo grado UNITÀ CAMPIONE Edizioni del Quadrifoglio à t i n U 1 Sistemi di primo grado
DettagliMINIMI QUADRATI. REGRESSIONE LINEARE
MINIMI QUADRATI. REGRESSIONE LINEARE Se il coefficiente di correlazione r è prossimo a 1 o a -1 e se il diagramma di dispersione suggerisce una relazione di tipo lineare, ha senso determinare l equazione
DettagliI sistemi di numerazione
I sistemi di numerazione 01-INFORMAZIONE E SUA RAPPRESENTAZIONE Sia dato un insieme finito di caratteri distinti, che chiameremo alfabeto. Utilizzando anche ripetutamente caratteri di un alfabeto, si possono
Dettagli1 Serie di Taylor di una funzione
Analisi Matematica 2 CORSO DI STUDI IN SMID CORSO DI ANALISI MATEMATICA 2 CAPITOLO 7 SERIE E POLINOMI DI TAYLOR Serie di Taylor di una funzione. Definizione di serie di Taylor Sia f(x) una funzione definita
DettagliMATRICI E DETERMINANTI
MATRICI E DETERMINANTI 1. MATRICI Si ha la seguente Definizione 1: Un insieme di numeri, reali o complessi, ordinati secondo righe e colonne è detto matrice di ordine m x n, ove m è il numero delle righe
DettagliCorso di Matematica per la Chimica
Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano
DettagliInserimento di distanze e di angoli nella carta di Gauss
Inserimento di distanze e di angoli nella carta di Gauss Corso di laurea in Ingegneria per l Ambiente e il Territorio a.a. 2006-2007 Inserimento della distanza reale misurata nella carta di Gauss (passaggio
DettagliCapitolo 25: Lo scambio nel mercato delle assicurazioni
Capitolo 25: Lo scambio nel mercato delle assicurazioni 25.1: Introduzione In questo capitolo la teoria economica discussa nei capitoli 23 e 24 viene applicata all analisi dello scambio del rischio nel
DettagliMetodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliConsorzio Nettuno - Corso di Matematica 1 Schede di lavoro guidato per le esercitazioni
Consorzio Nettuno - Corso di Matematica 1 Schede di lavoro guidato per le esercitazioni A cura di Sebastiano Cappuccio SCHEDA N. 6 ARGOMENTO: Grafici di funzioni sottoposte a trasformazioni elementari.
DettagliSistemi di Numerazione Binaria NB.1
Sistemi di Numerazione Binaria NB.1 Numeri e numerali Numero: entità astratta Numerale : stringa di caratteri che rappresenta un numero in un dato sistema di numerazione Lo stesso numero è rappresentato
Dettagli1. PRIME PROPRIETÀ 2
RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,
DettagliLa Programmazione Lineare
4 La Programmazione Lineare 4.1 INTERPRETAZIONE GEOMETRICA DI UN PROBLEMA DI PROGRAMMAZIONE LINEARE Esercizio 4.1.1 Fornire una rappresentazione geometrica e risolvere graficamente i seguenti problemi
DettagliCapitolo 6. Soluzione degli esercizi a cura di Rosa Falotico
Capitolo 6 Soluzione degli esercizi a cura di Rosa Falotico Esercizio 6.1 Dopo aver notato che quando le modalità si presentano con frequenze unitarie, la formula per il calcolo della media si semplifica,
Dettaglix 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.
Problema. Sia W il sottospazio dello spazio vettoriale R 4 dato da tutte le soluzioni dell equazione x + x 2 + x = 0. (a. Sia U R 4 il sottospazio dato da tutte le soluzioni dell equazione Si determini
DettagliRegressione Mario Guarracino Data Mining a.a. 2010/2011
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume
DettagliESERCIZI SVOLTI PER LA PROVA DI STATISTICA
ESERCIZI SVOLTI PER LA PROVA DI STATISTICA Stefania Naddeo (anno accademico 4/5) INDICE PARTE PRIMA: STATISTICA DESCRITTIVA. DISTRIBUZIONI DI FREQUENZA E FUNZIONE DI RIPARTIZIONE. VALORI CARATTERISTICI
DettagliAi fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:
1 Lastoriadiun impresa Il Signor Isacco, che ormai conosciamo per il suo consumo di caviale, decide di intraprendere l attività di produttore di caviale! (Vuole essere sicuro della qualità del caviale
DettagliLE FIBRE DI UNA APPLICAZIONE LINEARE
LE FIBRE DI UNA APPLICAZIONE LINEARE Sia f:a B una funzione tra due insiemi. Se y appartiene all immagine di f si chiama fibra di f sopra y l insieme f -1 y) ossia l insieme di tutte le controimmagini
DettagliIL SISTEMA INFORMATIVO
LEZIONE 15 DAL MODELLO DELLE CONDIZIONI DI EQUILIBRIO AL MODELLO CONTABILE RIPRESA DEL CONCETTO DI SISTEMA AZIENDALE = COMPLESSO DI ELEMENTI MATERIALI E NO CHE DIPENDONO RECIPROCAMENTE GLI UNI DAGLI ALTRI
DettagliSTATISTICA IX lezione
Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri
DettagliForze come grandezze vettoriali
Forze come grandezze vettoriali L. Paolucci 23 novembre 2010 Sommario Esercizi e problemi risolti. Per la classe prima. Anno Scolastico 2010/11 Parte 1 / versione 2 Si ricordi che la risultante di due
DettagliComplemento al corso di Fondamenti di Informatica I corsi di laurea in ingegneria, settore dell informazione Università la Sapienza Consorzio Nettuno
Rappresentazione di numeri Complemento al corso di Fondamenti di Informatica I corsi di laurea in ingegneria, settore dell informazione Università la Sapienza Consorzio Nettuno Un numero e un entità teorica,
DettagliMatematica e Statistica
Matematica e Statistica Prova d esame (0/07/03) Università di Verona - Laurea in Biotecnologie - A.A. 0/3 Matematica e Statistica Prova di MATEMATICA (0/07/03) Università di Verona - Laurea in Biotecnologie
DettagliCapitolo 13: L offerta dell impresa e il surplus del produttore
Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:
DettagliANALISI DELLE FREQUENZE: IL TEST CHI 2
ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento
DettagliEsercizi svolti sui numeri complessi
Francesco Daddi - ottobre 009 Esercizio 1 Risolvere l equazione z 1 + i = 1. Soluzione. Moltiplichiamo entrambi i membri per 1 + i in definitiva la soluzione è z 1 + i 1 + i = 1 1 + i z = 1 1 i. : z =
DettagliConsideriamo due polinomi
Capitolo 3 Il luogo delle radici Consideriamo due polinomi N(z) = (z z 1 )(z z 2 )... (z z m ) D(z) = (z p 1 )(z p 2 )... (z p n ) della variabile complessa z con m < n. Nelle problematiche connesse al
DettagliTecniche di analisi multivariata
Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza
DettagliPolli e conigli. problemi Piano cartesiano. Numeri e algoritmi Sistemi e loro. geometrica. Relazioni e funzioni Linguaggio naturale e
Polli e conigli Livello scolare: primo biennio Abilità Interessate Calcolo di base - sistemi Risolvere per via grafica e algebrica problemi che si formalizzano con equazioni. Analizzare semplici testi
DettagliIntroduzione al MATLAB c Parte 2
Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione
DettagliMetodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla
Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui
Dettaglirisulta (x) = 1 se x < 0.
Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente
DettagliTeoria dei Giochi. Anna Torre
Teoria dei Giochi Anna Torre Almo Collegio Borromeo 14 marzo 2013 email: anna.torre@unipv.it sito web del corso:www-dimat.unipv.it/atorre/borromeo2013.html IL PARI O DISPARI I II S T S (-1, 1) (1, -1)
DettagliLA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ
LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ In questa Appendice mostreremo come trovare la tariffa in due parti che massimizza i profitti di Clearvoice,
DettagliCapitolo 2 Distribuzioni di frequenza
Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.
DettagliESERCIZI DI ALGEBRA LINEARE E GEOMETRIA
ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA Francesco Bottacin Padova, 24 febbraio 2012 Capitolo 1 Algebra Lineare 1.1 Spazi e sottospazi vettoriali Esercizio 1.1. Sia U il sottospazio di R 4 generato dai
DettagliSTUDIO DI UNA FUNZIONE
STUDIO DI UNA FUNZIONE OBIETTIVO: Data l equazione Y = f(x) di una funzione a variabili reali (X R e Y R), studiare l andamento del suo grafico. PROCEDIMENTO 1. STUDIO DEL DOMINIO (CAMPO DI ESISTENZA)
DettagliLe funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1
Le funzioni continue A. Pisani Liceo Classico Dante Alighieri A.S. -3 A. Pisani, appunti di Matematica 1 Nota bene Questi appunti sono da intendere come guida allo studio e come riassunto di quanto illustrato
DettagliEpoca k Rata Rk Capitale Ck interessi Ik residuo Dk Ek 0 S 0 1 C1 Ik=i*S Dk=S-C1. n 0 S
L AMMORTAMENTO Gli ammortamenti sono un altra apllicazione delle rendite. Il prestito è un operazione finanziaria caratterizzata da un flusso di cassa positivo (mi prendo i soldi in prestito) seguito da
DettagliFUNZIONE REALE DI UNA VARIABILE
FUNZIONE REALE DI UNA VARIABILE Funzione: legge che ad ogni elemento di un insieme D (Dominio) tale che D R, fa corrispondere un elemento y R ( R = Codominio ). f : D R : f () = y ; La funzione f(): A
DettagliEsercizi su lineare indipendenza e generatori
Esercizi su lineare indipendenza e generatori Per tutto il seguito, se non specificato esplicitamente K indicherà un campo e V uno spazio vettoriale su K Cose da ricordare Definizione Dei vettori v,,v
Dettaglif(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da
Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede
DettagliCURRICULUM SCUOLA PRIMARIA MATEMATICA
Ministero dell istruzione, dell università e della ricerca Istituto Comprensivo Giulio Bevilacqua Via Cardinale Giulio Bevilacqua n 8 25046 Cazzago San Martino (Bs) telefono 030 / 72.50.53 - fax 030 /
Dettagli