Analisi delle componenti principali
|
|
- Vincenzo Colonna
- 5 anni fa
- Visualizzazioni
Transcript
1 Capitolo 7 Analisi delle componenti principali Lo studio di posizione, dispersione ed interdipendenze relative a k variabili osservate su n individui richiede il calcolo di k medie, k varianze e k(k 1)/ covarianze campionarie. In tutto un numero pari a k + k(k 1)/ di indici, che cresce in modo parabolico all aumentare del numero k delle variabili considerate, causando problemi legati principalmente all interpretazione degli indici stessi. Se le k variabili fossero incorrelate ciò ridurrebbe la considerazione alle sole medie e varianze delle variabili (k indicatori) ed inoltre ciascuna variabile potrebbe essere esaminata singolarmente senza ambiguità. Inoltre l uso di variabili incorrelate come covariate in un modello di dipendenza lineare ha degli indubbi vantaggi: è possibile ricondurre lo studio del modello di regressione multipla a quello di k modelli di regressione semplice. L indice di determinazione multiplo è dato in tal caso dalla somma degli indici di determinazione semplici e la varianza del modello multiplo è partizionabile in k componenti associate alle k covariate. Sfortunatamente è raro che le colonne di una matrice dati risultino tra loro incorrelate: un insieme di variabili incorrelate è praticamente ottenibille solo tramite una trasformazione delle variabili osservate. L analisi delle componenti principali risponde all esigenza di rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate. Detta metodologia consiste nell individuare delle combinazioni lineari delle variabili inizialmente osservate, che siano incorrelate tra loro ed abbiano varianza massima (in modo da non disperdere informazioni). 103
2 104 A. Pollice - Statistica Multivariata Il problema di ridurre la dimensionalità di un data-set fu proposto inizialmente da F. Galton (1869) con lo scopo di classificare un insieme di soggetti criminali in base a 1 misure di altrettante caratteristiche antropometriche fortemente correlate tra loro. Successivamente vennero forniti i primi argomenti a sostegno della massimizzazione delle varianze delle variabili trasformate, sia da un punto di vista teorico (K. Pearson, 190) che applicativo in ambito psicometrico ed educazionale (T.L. Kelly). La versione attuale della teoria delle componenti principali è dovuta ad H. Hotelling (1933). 7.1 Componenti principali campionarie Sia X un universo campionario k-dimensionale di cui si osservino n osservazioni indipendenti k-dimensionali rappresentate dalla matrice x 11 x 1k X =.. (7.1) x n1 x nk e sintetizzate tramite media e varianza campionarie rispettivamente date da X = X u n /n ed S = (X u n X ) (X u n X )/n. Indicando con a 1 un vettore k-dimensionale di costanti si voglia determinare il vettore di n elementi e 1 = Xa 1 (7.) ottenuto come combinazione lineare delle k colonne della matrice X e avente varianza massima. Si osservi come la varianza Var(e 1 ) = a 1 Sa 1 sia funzione crescente dei valori degli elementi di a 1. Affinché l individuazione del vettore a 1 che massimizza detta varianza sia un problema ben posto, si introduce un vincolo sulla dimensione di a 1 dato da a 1 a 1 = 1, che consiste nel pretendere che il vettore a 1 abbia norma unitaria. La prima componente principale viene dunque ottenuta risolvendo il seguente problema di massimo vincolato { maxa1 a 1 Sa 1 a 1 a (7.3) 1 = 1 che dà luogo alla funzione lagrangiana (a 1, λ) = a 1Sa 1 λ(a 1a 1 1) (7.4) e viene risolto tramite il sistema { a 1 (a 1, λ) = Sa 1 λa 1 = o λ (a 1, λ) = a 1 a 1 1 = 0 (7.5)
3 Cap. 7: Analisi delle componenti principali 105 Osservando le due equazioni del sistema si nota come a 1 corrisponda all autovettore di norma unitaria associato ad un autovalore λ della matrice S. D altra parte poiché la varianza che si vuole massimizzare è data da Var(e 1 ) = a 1Sa 1 = λa 1a 1 = λ (7.6) la prima componente principale e 1 = Xa 1 risulta essere definita dall autovettore a 1 associato al più grande degli autovalori di S, indicato con λ 1. La determinazione della seconda componente principale e = Xa (7.7) avviene in modo analogo, con l aggiunta della condizione di incorrelazione con e 1. Bisogna dunque individuare il vettore a che rende massima la varianza di e sotto i vincoli di unitarietà della norma di a e di incorrelazione tra e 1 ed e max a a Sa a a = 1 (7.8) a Sa 1 = 0 La funzione lagrangiana è data da (a, λ, ν) = a Sa λ(a a 1) νa Sa 1 (7.9) e annullando le derivate parziali rispetto all incognita e ai due moltiplicatori si ottiene a (a, λ, ν) = Sa λa νsa 1 = o λ (a, λ, ν) = a a 1 = 0 (7.10) ν (a, λ, ν) = a Sa 1 = 0 Si noti come la relazione Sa 1 = λ 1 a 1 implichi 0 = a Sa 1 = λ 1 a a 1, ed essendo λ 1 > 0 ciò significa a a 1 = 0. Considerando ora la prima equazione del sistema premoltiplicata per a 1 a } 1Sa {{} λ a 1a ν a }{{} 1Sa 1 = 0 (7.11) }{{} =0 =0 =λ 1 >0 da cui risulta ν = 0. La prima equazione del sistema si riduce dunque alla seguente equazione caratteristica Sa = λa (7.1)
4 106 A. Pollice - Statistica Multivariata dalla quale risulta come a sia l autovettore di norma unitaria associato ad uno degli autovalori della matrice S. Inoltre essendo Var(e ) = a Sa = λa a = λ (7.13) l autovalore che definisce la seconda componente principale non può che coincidere con il secondo più grande autovalore di S indicato con λ. Allo stesso modo è possibile definire un numero di componenti principali pari al rango k della matrice S (se S è definita positiva, allora ha rango k). Se a 1,..., a k sono gli autovettori di norma unitaria associati ai k autovalori λ 1 λ λ k della matrice S, allora le k possibili componenti principali sono date da le loro varianze sono e 1 = Xa 1,..., e k = Xa k (7.14) Var(e 1 ) = λ 1 Var(e k ) = λ k (7.15) ed inoltre, dette X j per j = 1..., k le colonne della matrice X, Var(e j ) = tr(s) = Var(X j ) (7.16) In altri termini la somma delle varianze delle componenti principali è uguale alla somma delle varianze campionarie delle variabili originarie. 7. Proprietà campionarie sotto l assunzione di normalità della popolazione Nell ipotesi che la variabile aleatoria X abbia distribuzione normale k-dimensionale con E(X) = µ e Cov(X) = Σ, la matrice di varianze e covarianze campionarie S coincide con lo stimatore di massima verosimiglianza di Σ. Per la proprietà di invarianza degli stimatori di massima verosimiglianza, se ˆθ è stimatore di massima verosimiglianza del parametro θ, allora φ(ˆθ) è a sua volta stimatore di massima verosimiglianza di φ(θ), se e solo se la trasformazione φ è biunivoca. Di conseguenza λ 1 ed a 1 ottenuti dalla seguente trasformazione biunivoca di S { Sa1 = λ 1 a 1 a 1 a (7.17) 1 = 1
5 Cap. 7: Analisi delle componenti principali 107 sono stimatori di massima verosimiglianza dei parametri λ 1 ed ã 1 definiti dalla stessa trasformazione biunivoca di Σ { Σã1 = λ 1 ã 1 ã 1ã1 = 1 (7.18) Il risultato appena enunciato vale solo se Σ è definita positiva, ovvero se è dotata di k autovalori strettamente positivi distinti λ 1 > > λ k. Infatti in tal caso gli autovettori associati ã 1,..., ã k sono unici e la trasformazione (7.18) è biunivoca. Nel caso in cui la matrice Σ abbia degli autovalori uguali, gli stimatori di massima verosimiglianza degli autovalori multipli sono dati dalle medie aritmetiche dei corrispondenti autovalori campionari (Anderson, 1984) Distribuzione campionaria asintotica di autovalori e autovettori Nell ipotesi che il vettore aleatorio X abbia distribuzione N k (µ, Σ) e che Σ sia dotata di k autovalori distinti, valgono le seguenti proprietà asintotiche (Anderson, 1984): 1. lim λ j N n ( λ j, λ j n ) j = 1,..., k (7.19). gli autovalori λ 1,..., λ k sono asintoticamente indipendenti; 3. lim n a j N k ã j, λ j h( j)=1 λ h ( λ j λ h ) ãhã h j = 1,..., k (7.0) 4. lim Cov(a jr, a hs ) = λ j λh ã jr ã hs n n( λ j λ (7.1) h ) essendo a jr ed a hs rispettivamente la r-esima componente di a j e la s-esima componente di a h con j, h, r, s = 1,..., k.
6 108 A. Pollice - Statistica Multivariata 7.3 Problemi applicativi Unità di misura I risultati dell analisi delle componenti principali dipendono dall unità di misura in cui sono espressi i dati di partenza. Infatti se X j = c jx j, essendo X j la j-esima colonna della matrice X e c j una costante per j = 1,..., k, si ha Var(X j ) = c j Var(X j) = c j S j (7.) Cov(X j X h ) = c jc h Cov(X j X h ) = c j c h S jh (7.3) quindi un cambiamento di scala nei dati modifica la matrice di varianze e covarianze campionarie con i suoi autovalori e autovettori. L analisi delle componenti principali è dunque influenzata dalla dimensione dei dati e dalle unità di misura in cui sono espressi. Allo scopo di evitare tale indeterminatezza l ACP viene spesso condotta sulle variabili standardizzate Y 1 = X 1 u n X1 S 1,..., Y k = X k u n Xk Sk (7.4) In tal caso la matrice di varianze e covarianze campionarie di Y = (Y 1,..., Y k ) coincide con la matrice R dei coefficienti di correlazione campionari tra le colonne di X (ma anche di Y ), e l ACP viene condotta calcolando gli autovalori e autovettori della matrice 1 r 1 r 1k r 1 1 r k R =..... (7.5). r k1 r k Interpretazione delle componenti principali L analisi delle componenti principali consiste nella ricerca di variabili latenti o inosservabili che determinano in modo fondamentale il fenomeno in studio. Di principale importanza è dunque l interpretazione delle stesse componenti in base ai coefficienti che le mettono in relazione con le variabili rilevate. Posto a j = (a 1j,..., a kj ) per j = 1,..., k, la j-esima componente principale ha la forma e j = a 1j X a kj X k (7.6)
7 Cap. 7: Analisi delle componenti principali 109 Quindi a hj può essere interpretato come il peso della variabile X h nella determinazione della componente j-esima. Quanto maggiore è a hj in valore assoluto, tanto più e j è caratterizzata dalla variabile X h. Detta ē j = e j u n/n la media campionaria della j-esima componente principale e j, è possibile calcolare la covarianza campionaria tra questa e la h-esima variabile X h, per j, h = 1,..., k Cov(e j, X h ) = 1 n (e j u n ē j ) (X h X h u n ) = = 1 n a j(x u n X ) (X h X h u n ) = = a j(s 1h,..., S kh ) = = a rj S rh = r=1 a rj S hr = λ j a hj (7.7) r=1 l ultimo passaggio si ottiene considerando la h-esima riga della relazione Sa j = λ j a j. Il coefficiente di correlazione campionario tra e j e X h è quindi dato da r ej X h = Cov(e j, X h ) Var(e j )Sh = λ ja hj λ j Sh = a hj λ j S h (7.8) L espressione precedente misura la quota della variabilità di X h spiegata dalla j-esima componente principale. Se si opera con le variabili standardizzate, poiché è Var(Y h ) = 1, allora r ej Y h = a hj λj. Inoltre, essendo le e j incorrelate, la quota di variabilità di qualsiasi X h spiegata da un insieme G di componenti principali è misurata dalla somma seguente j G r ej X h = 1 Sh a hj λj (7.9) Ovviamente se G contiene tutte le componenti principali la somma (7.9) vale 1. j G Scelta del numero di componenti principali L analisi delle componenti principali produce una sintesi dei dati rilevati se tramite un numero inferiore a k di componenti si riesce a riprodurre una buona parte della variabilità contenuta nelle variabili osservate X 1,..., X k
8 110 A. Pollice - Statistica Multivariata (cosa che succede quando i più piccoli autovalori di S o di R hanno valori trascurabili). Detta k S j la varianza totale di X e poiché come si è visto Sj = Var(e j ) (7.30) allora a Var(e j ) = λ j si può attribuire il significato di misura della quota di varianza totale spiegata dalla j-esima componente principale. Quindi l indice I q = λ λ q = λ λ q (7.31) λ λ k tr(s) misura la quota di varianza totale spiegata dalle prime q componenti principali e fornisce un indicazione della qualità della descrizione del collettivo ottenibile da queste (0 I q 1). In caso di utilizzo di variabili standardizzate I q = (λ λ q )/tr(r) = (λ λ q )/k. Generalmente viene fissata una soglia I che indica la frazione della varianza totale che si vuole sia spiegata dalle componenti principali. In tal caso il numero di componenti da considerare viene scelto in modo che q sia il più piccolo valore per cui I q > I (spesso I 0, 9). Un secondo criterio prevede di escludere le componenti associate ad autovalori inferiori alla media aritmetica degli autovalori di S. Un altro criterio richiede la costruzione di un grafico (denominato scree graph) in cui vengano rappresentati i punti (j, λ j ) per j = 1,..., k uniti da segmenti. Il valore di q (sull asse delle ascisse) viene scelto in modo tale che l andamento del grafico sia decrescente a sinistra di q e pressoché costante o debolmente decrescente alla sua destra (criterio piuttosto soggettivo). Sotto l ipotesi di normalità della variabile X vi sono due test che possono essere usati per decidere il numero di componenti principali da considerare. Nella popolazione le ultime k q componenti principali sono trascurabili se il rapporto λ q λ k λ λ k (7.3) è di dimensioni ridotte. Se con γ si indica un numero piccolo a piacere, per verificare il sistema di ipotesi H 0 : λ q λ k λ λ k H 1 : λ q λ k λ λ k = γ > γ (7.33)
9 Cap. 7: Analisi delle componenti principali 111 si considera la statistica test U = λ q λ k λ λ k (7.34) Poiché gli autovalori λ j hanno distribuzione asintotica normale, si può concludere (Mardia, Kent, Bibby, 1979) che anche U è asintoticamente normale lim U N(γ, V U) (7.35) n con ( tr(s ) V U = (n 1)[tr(S)] γ λ q ) λ k λ (7.36) λ k Si vuole infine considerare il cosiddetto test di isotropia, che serve per verificare se le ultime k q componenti apportano verosimilmente lo stesso contributo in termini di varianza totale spiegata { H0 : λ q+1 = = λ k = λ (7.37) H 1 : gli autovalori sono diversi Nell applicazione di questo test si comincia considerando q = 0 e si procede aumentando q sinchè H 0 non viene accettata. La funzione test per verificare questa ipotesi viene costruita tramite il criterio del rapporto di verosimiglianze generalizzato a partire dall espressione della verosimiglianza seguente ln L(µ, Σ) = nk ln π n ln Σ 1 n tr [Σ 1 (X i µ)(x i µ) ] = = nk ln π n ln Σ n tr(σ 1 S) n tr[σ 1 ( X µ)( X µ) ](7.38) Il denominatore della funzione test è dato in questo caso da i=1 sup ln L(µ, Σ) = ln L( X, S) = nk µ,σ ln π n ln k λ j nk (7.39) Per determinare il numeratore bisogna ricavare sup ln L(µ, Σ) = sup ln L( X, Σ) (7.40) µ,σ=σ Σ=Σ essendo Σ una matrice di varianze e covarianze tale che i suoi autovalori siano λ 1,..., λ q, λ,..., λ. In questo caso gli stimatori di massima
10 11 A. Pollice - Statistica Multivariata verosimiglianza degli autovalori sono dati da λ 1,..., λ q, λ,..., λ, con λ = k j=q+1 λ j/(k q), mentre quelli degli autovettori sono sempre a 1,..., a k, autovettori normalizzati di S. Si indichino con A = (a 1,..., a k ) la matrice modale e con Λ = diag(λ 1,..., λ k ) e Λ = diag(λ 1,..., λ q, λ,..., λ) rispettivamente la matrice diagonale degli autovalori di S in generale e sotto l ipotesi nulla, allora in generale vale la diagonalizzazione mentre sotto l ipotesi nulla si ha Quindi sup ln L( X, Σ) = nk Σ=Σ ln π n k q ln λ S = AΛA (7.41) ˆΣ = AΛ A (7.4) = nk ln π n k q ln λ q λ j n tr[(ˆσ ) 1 S] = q λ j nk (7.43) dove, tenendo conto che la matrice A è ortonormale, l ultimo passaggio deriva da tr[(ˆσ ) 1 S] = tr[a(λ ) 1 A AΛA ] = tr[(λ ) 1 Λ] = [ ( = tr diag 1,..., 1, λ q+1 λ,..., λ )] k = λ = q + 1 λ λ j = q + (k q) = k (7.44) j=q+1 Complessivamente, dunque, il test di isotropia ricavato tramite il criterio del rapporto di verosimiglianze generalizzato è dato dall espressione ( L( ln X, ˆΣ ) ) ( L( X, = ln L( S) X, ˆΣ ) ln L( X, ) S) = = n ln λ j + n(k q) ln λ + n = n (k q) ln λ j=q+1 q ln λ j = ln λ j (7.45) che si distribuisce asintoticamente come una χ con m = (k q + )(k q 1)/ gradi di libertà.
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
DettagliAnalisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliAnalisi della correlazione canonica
Capitolo 8 Analisi della correlazione canonica Si supponga che su un collettivo di unità statistiche si siano osservati due gruppi di k ed m variabili corrispondenti ad altrettanti aspetti di un fenomeno
DettagliInferenza sui parametri della normale multidimensionale
Capitolo 3 Inferenza sui parametri della normale multidimensionale Un campione casuale semplice k-dimensionale di numerosità n è rappresentato da X 1 X 11. X 1k,..., X n X n1. X nk dove i vettori aleatori
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
DettagliAnalisi in Componenti Principali (ACP)
Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale L analisi delle componenti principali 14 maggio 2018 Introduzione L Obiettivo dell ACP L Analisi delle Componenti Principali
DettagliSequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:
Teoria dei Fenomeni Aleatori AA 01/13 Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza
DettagliRappresentazione dei dati multivariati
Rappresentazione dei dati multivariati Quando si hanno più di due varabili la posizione di ciascuna unità rispetto alle altre può essere rappresentata nel diagramma relativo alle prime due CP l importanza
DettagliL Analisi in Componenti Principali (S. Terzi)
L Analisi in Componenti Principali (S. Terzi) Data una matrice dei dati riferiti ad n individui e k variabili quantitative, si sintetizzano i dati nel senso di pervenire ad una riduzione delle colonne
DettagliEsercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
DettagliRichiami di algebra delle matrici a valori reali
Richiami di algebra delle matrici a valori reali Vettore v n = v 1 v 2. v n Vettore trasposto v n = (v 1, v 2,..., v n ) v n = (v 1, v 2,..., v n ) A. Pollice - Statistica Multivariata Vettore nullo o
DettagliCONTROLLI AUTOMATICI LS Ingegneria Informatica. Analisi modale
CONTROLLI AUTOMATICI LS Ingegneria Informatica Analisi modale Prof. Claudio Melchiorri DEIS-Università di Bologna Tel. 5 9334 e-mail: claudio.melchiorri@unibo.it http://www-lar.deis.unibo.it/~cmelchiorri
DettagliSequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:
Teoria dei Fenomeni Aleatori AA 01/13 Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza
DettagliDistribuzione normale multidimensionale
Capitolo 2 Distribuzione normale multidimensionale La funzione di densità normale undimensionale ha la forma seguente Anderson, 1984 fx ce 1 2 Ax b2 ce 1 2 x bax b La costante di normalizzazione c è data
DettagliModelli lineari generalizzati
Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune
DettagliAnalisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate
Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliAnalisi Multivariata Prova intermedia del 20 aprile 2011
Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliAnalisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale
delle sui delle Analisi statistica e matematico-finanziaria II Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale sulle particolari ali dei dati Outline
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019 Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati
DettagliVettore (o matrice) casuale (o aleatorio): vettore (o matrice) i cui elementi sono variabili aleatorie
Variabili (vettori e matrici) casuali Variabile casuale (o aleatoria): Variabile che può assumere un insieme di valori ognuno con una certa probabilità La variabile aleatoria rappresenta la popolazione
DettagliConcetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta
Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale
DettagliStatistica Applicata all edilizia: Stime e stimatori
Statistica Applicata all edilizia E-mail: orietta.nicolis@unibg.it 15 marzo 2011 Statistica Applicata all edilizia: Indice 1 2 Statistica Applicata all edilizia: Uno dei problemi principali della statistica
DettagliUniversità degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliANALISI MULTIDIMENSIONALE DEI DATI (AMD)
ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della
DettagliUniversità degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Lezione 1 - Martedì 23 Settembre 2014 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliVariabili casuali multidimensionali
Capitolo 1 Variabili casuali multidimensionali Definizione 1.1 Le variabili casuali multidimensionali sono k-ple ordinate di variabili casuali unidimensionali definite sullo stesso spazio di probabilità.
DettagliCorso in Statistica Medica
Corso in Statistica Medica Introduzione alle tecniche statistiche di elaborazione dati Regressione e correlazione Dott. Angelo Menna Università degli Studi di Chieti G. d Annunziod Annunzio Anno Accademico
DettagliAnalisi fattoriale. Capitolo 9
Capitolo 9 Analisi fattoriale In generale la correlazione tra due variabili aleatorie X 1 e X 2 può risultare dall associazione di entrambe con una terza variabile F. A tale proposito si è già introdotto
DettagliDISTRIBUZIONE ESPONENZIALE Nella forma più usuale la distribuzione esponenziale assume la forma: Le relazioni teoriche dei momenti sono:
DISTRIBUZIONE ESPONENZIALE Nella forma più usuale la distribuzione esponenziale assume la forma: Le relazioni teoriche dei momenti sono: DISTRIBUZIONE ESPONENZIALE a 2 parametri (con soglia) Se esiste
DettagliAnalisi Fattoriale Analisi Esplorativa
Analisi Fattoriale Analisi Esplorativa Aldo Solari 1 / 31 Introduzione Nelle scienze sociali, in particolare in psicologia, spesso è problematico misurare le variabili di interesse direttamente. Ad esempio:
DettagliSTATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
DettagliCompiti tematici dai capitoli 2,3,4
Compiti tematici dai capitoli 2,3,4 a cura di Giovanni M. Marchetti 2016 ver. 0.8 1. In un indagine recente, i rispondenti sono stati classificati rispetto al sesso, lo stato civile e l area geografica
DettagliConcetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta
Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 41 Outline 1 2 3 4 5 () Statistica 2 / 41 Misura del legame Data una variabile doppia (X, Y ), la
DettagliDifferenze tra metodi di estrazione
Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliAlfonso Iodice D Enza
Strumenti quantitativi per l economia e la finanza I Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale ali dei Il coefficiente () Statistica 1 / 50 Outline
DettagliTecniche di sondaggio
SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Tecniche di sondaggio 24/1/2006 Nomenclatura Indicheremo con P una popolazione, con N la sua numerosità, con k la sua etichetta e con
DettagliAnalisi nel dominio del tempo delle rappresentazioni in variabili di stato
4 Analisi nel dominio del tempo delle rappresentazioni in variabili di stato Versione del 21 marzo 2019 In questo capitolo 1 si affronta lo studio, nel dominio del tempo, dei modelli di sistemi lineari,
DettagliCorso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti
Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti Professor Paolo Vitale Anno Accademico 2017-8 UdA, Scuola d Economia Domanda 1 [6 punti]. (a) La multi-collineartità
DettagliMinimi quadrati vincolati e test F
Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliContenuti: Capitolo 14 del libro di testo
Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4
DettagliStatistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
DettagliESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
DettagliRichiami di Algebra Lineare
Richiami di Algebra Lineare Eduardo Rossi Università degli Studi di Pavia Corso di Econometria Marzo 2012 Rossi Algebra Lineare 2012 1 / 59 Vettori Prodotto interno a : (n 1) b : (n 1) a b = a 1 b 1 +
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 24 Outline 1 () Statistica 2 / 24 Outline 1 2 () Statistica 2 / 24 Outline 1 2 3 () Statistica 2 /
DettagliCostruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica
Costruzione di macchine Modulo di: Progettazione probabilistica e affidabilità Marco Beghini Lezione 7: Basi di statistica Campione e Popolazione Estrazione da una popolazione (virtualmente infinita) di
DettagliLa matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
DettagliUniversità degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Lezione 1 - Mercoledì 27 Settembre 2017 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
DettagliSDE Marco Riani
SDE 208 Marco Riani mriani@unipr.it http://www.riani.it RIDUZIONE DELLE DIMENSIONI (con riferimento alle variabili Analisi dei fattori Analisi delle componenti principali OBIETTIVI Date p variabili (correlate
DettagliStatistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
DettagliPreCorso di Matematica - PCM Corso M-Z
PreCorso di Matematica - PCM Corso M-Z DOCENTE: M. Auteri Outline Docente: Auteri PreCorso di Matematica 2016 2 Definizione di matrice Una matrice (di numeri reali) è una tabella di m x n numeri disposti
DettagliRegressione & Correlazione
Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20 Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione
DettagliMatematica Lezione 22
Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,
DettagliANALISI DELLE SERIE STORICHE
ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di
DettagliDispense Associazione PRELIMINARY DRAFT
Dispense Associazione PRELIMINARY DRAFT Cristina Mollica & Jan Martin Rossi January 3, 2019 1 Esercizio 3 - Prova scritta 12-01-2018 Esercizio 3. Si consideri la distribuzione doppia di un campione di
DettagliLa regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
DettagliForma canonica di Jordan
Capitolo INTRODUZIONE Forma canonica di Jordan Siano λ i, per i =,, h, gli autovalori distinti della matrice A e siano r i i corrispondenti gradi di molteplicità all interno del polinomio caratteristico:
Dettaglix, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
Dettagli1. variabili dicotomiche: 2 sole categorie A e B
Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili
DettagliStatistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo
Statistica 2 Esercitazioni Dott. L 1 1 Dipartimento di Scienze Statistiche e Matematiche S. Vianelli, Università di Palermo ricevimento: lunedì ore 15-17 mercoledì ore 15-17 e-mail: luigi.augugliaro@unipa.it
DettagliCalcolo delle Probabilità 2
Prova d esame di Calcolo delle Probabilità 2 Maggio 2006 Sia X una variabile aleatoria distribuita secondo la densità seguente ke x 1 x < 0 f X (x) = 1/2 0 x 1. 1. Determinare il valore del parametro reale
Dettagli7.4 Massimi e minimi vincolati. Moltiplicatori di Lagrange
4 7.4 Massimi e minimi vincolati. Moltiplicatori di Lagrange Sia f (,,, n ) una funzione delle n variabili,,, n, supponiamo che esse non siano indipendenti, cioè che siano legate da p < n equazioni: ϕ(,,,
DettagliCorso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010 Statistica Esercitazione 4 12 maggio 2010 Dipendenza in media. Covarianza e
DettagliLEZIONE 16 A = Verifichiamo se qualcuna fra le entrate a di A è suo autovalore. determinare per quale entrata a di A risulta rk(a ai 2 ) 1.
LEZIONE 16 16.1. Autovalori, autovettori ed autospazi di matrici. Introduciamo la seguente definizione. Definizione 16.1.1. Siano k = R, C e A k n,n. Un numero λ k si dice autovalore di A su k) se rka
DettagliSCHEDA DIDATTICA N 7
FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con
DettagliI appello di calcolo delle probabilità e statistica
I appello di calcolo delle probabilità e statistica A.Barchielli, L. Ladelli, G. Posta 8 Febbraio 13 Nome: Cognome: Matricola: Docente: I diritti d autore sono riservati. Ogni sfruttamento commerciale
DettagliUniversità di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A
Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime
Dettaglidocente: J. Mortera/P. Vicard Nome
A opportuni passaggi). Verrà accettato in consegna solo il presente plico. 2. [9] Una certa zona è servita da 4 compagnie telefoniche. Per ciascuna compagnia è stato rilevato il costo al minuto (in centesimi
DettagliCompito di SISTEMI E MODELLI 24/01/18: PARTE 1
Compito di SISTEMI E MODELLI 4//8: PARTE Non è ammesso l uso di libri, quaderni o calcolatrici programmabili. Le risposte vanno giustificate. Saranno rilevanti per la valutazione anche l ordine e la chiarezza
DettagliRappresentazioni grafiche di distribuzioni doppie
Rappresentazioni grafiche di distribuzioni doppie Distribuzione doppia di frequenze Tabella di contingenza Tabella di correlazione Stereogramma Distribuzione unitaria doppia di 2 caratteri quantitativi
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliEsercitazione 05: Trasformata di Laplace e funzione di trasferimento
Esercitazione 05: Trasformata di Laplace e funzione di trasferimento 28 marzo 208 (3h) Fondamenti di Automatica Prof. M. Farina Responsabile delle esercitazioni: Enrico Terzi Queste dispense sono state
DettagliDomanda Risposta
Esame di Geometria 18 Maggio 010 Cognome e Nome: Matricola: Corso di Laurea Regolamento della prova. La prova consiste in 7 Domande a risposta multipla chiusa (di cui una soltanto è corretta) e di Esercizi.
DettagliAnalisi Multivariata Corso di laurea in Statistica
Analisi Multivariata Corso di laurea in Statistica Carla Rampichini 1 Distribuzione Normale multivariata L utilizzo di computer sempre più potenti consente oggi di considerare distribuzioni campionare
DettagliIndipendenza, Dipendenza e interdipendenza
Indipendenza, Dipendenza e interdipendenza In analisi bivariata la tabella di contingenza consente di esaminare congiuntamente due variabili consente di rilevare le relazioni esistenti tra le variabili
DettagliEsercitazione: La distribuzione NORMALE
Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle
DettagliLa dipendenza. Antonello Maruotti
La dipendenza Antonello Maruotti Outline 1 Distribuzioni doppie 2 Medie e varianze condizionate 3 Indici di associazione Distribuzione doppia Definizione Una distribuzione doppia si ha quando su di uno
DettagliEsercizi 3, 1. Prof. Thomas Parisini. Esercizi 3, 3 Regola:
Esercizi 3, 1 Esercizi 3, 2 Esercizi Stabilità per sistemi a tempo continuo Analisi degli autovalori Analisi del polinomio caratteristico, criterio di Routh-Hurwitz Stabilità per sistemi a tempo continuo
DettagliStabilità per sistemi a tempo continuo
Esercizi 3, 1 Stabilità per sistemi a tempo continuo Analisi degli autovalori Analisi del polinomio caratteristico, criterio di Routh-Hurwitz Calcolo di Esercizi 3, 2 Esercizi Stabilità per sistemi a tempo
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliEsercitazione ENS su processi casuali (13 e 14 Maggio 2008)
Esercitazione ES su processi casuali ( e 4 Maggio 2008) D. Donno Esercizio : Calcolo di autovalori e autovettori Si consideri un processo x n somma di un segnale e un disturbo: x n = Ae π 2 n + w n, n
DettagliSTATISTICA ESERCITAZIONE
STATISTICA ESERCITAZIONE Dott. Giuseppe Pandolfo 1 Giugno 2015 Esercizio 1 Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in
DettagliI VETTORI GAUSSIANI E. DI NARDO
I VETTOI GAUSSIANI E. DI NADO. L importanza della distribuzione gaussiana I vettori di v.a. gaussiane sono senza dubbio uno degli strumenti più utili in statistica. Nell analisi multivariata, per esempio,
DettagliRichiami di Algebra Lineare
Università di Pavia Richiami di Algebra Lineare Eduardo Rossi Vettori a : (n 1) b : (n 1) Prodotto interno a b = a 1 b 1 + a 2 b 2 +... + a n b n Modulo (lunghezza): a = a 2 1 +... + a2 n Vettori ortogonali:
DettagliSTATISTICA. Esercitazione 5
STATISTICA Esercitazione 5 Esercizio 1 Ad un esame universitario sono stati assegnati in modo casuale due compiti diversi con i seguenti risultati: Compito A Compito B Numero studenti 102 105 Media dei
Dettagli4 Autovettori e autovalori
4 Autovettori e autovalori 41 Cambiamenti di base Sia V uno spazio vettoriale tale che dim V n Si è visto in sezione 12 che uno spazio vettoriale ammette basi distinte, ma tutte con la medesima cardinalità
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliAnalisi Statistica Multivariata Modulo Modelli Statistici
Analisi Statistica Multivariata Modulo Modelli Statistici Gianna Monti 8 novembre 013 1 Approfondimenti 1 1.1 Esercizi Esercizio 1 Galton e il suo allievo Karl Pearson condussero alcuni studi in merito
DettagliApprossimazione numerica
Approssimazione numerica Laboratorio di programmazione e calcolo (Chimica e Tecnologie chimiche) Pierluigi Amodio Dipartimento di Matematica Università di Bari Approssimazione numerica p.1/10 Problema
DettagliStatistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.
DettagliDispensa n.1. Sul legame tra autovalori della matrice A e poli della funzione di trasferimento
Dispensa n.1 Sul legame tra autovalori della matrice A e poli della funzione di trasferimento E dato un sistema lineare, avente un solo ingresso, una sola uscita e uno spazio di stato a dimensione n. Tale
Dettagli