Analisi Multivariata Prova intermedia del 20 aprile 2011
|
|
|
- Domenico Giordano
- 7 anni fa
- Просмотров:
Транскрипт
1 Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A. X e X 2 A2. X 2 e X 3 A3. (X, X 2 ) e X 3 A4. (X + X 2 )/2 e X 3 Esercizio B Supponiamo che X e Z seguono una distribuzione normale bivariata, entrambe con media nulla e con σx 2 = 4, σ2 Z = 7/9 e E[XZ] = 2. B. Sia Y = 2X 3Z. Determinare la distribuzione di Y e scriverne la funzione di densità f y (y). B2. Determinare la distribuzione condizionata di X dato Z. B3. Determinare la distribuzione congiunta di Y e Y 2 = X + Z. Esercizio C Il file FRENCH FOOD.XLS contiene i dati sulla spesa media mensile per alcuni tipi di cibo delle famiglie francesi distinte per tipologia. Le tipologie sono: operaio= MA, impiegato=em, manager = CA. Le famiglie sono inoltre distinte in base al numero dei figli (2,3,4 o 5 figli): per esempio la tipologia MA2 corrisponde ad una famiglia con 2 figli il cui capofamiglia lavora come
2 operaio. Le variabili registrate nell archivio sono 8: la tipologia delle famiglie tipo, e la spesa relativa a 7 categorie alimentari, cioè pane, verdura, f rutta, carne, pollame, latte, vino. C. Costruire il vettore delle medie e la matrice di covarianza campionaria. C2. Valutare se la distribuzione congiuta delle 7 variabili quantitative è approssimabile con una distribuzione normale multivariata. C3. Determinare le componenti principali campionarie e le varianze ad esse relative. C4. Mostrare che la varianza totale è uguale alla somma degli autovalori della matrice di covarianza. C5. Calcolare la proporzione di varianza totale spiegata dalla prima componente e disegnare lo scree-plot. C6. Determinare le componenti principali dalla matrice di correlazione campionaria. C7. In base ai risultati del punto C6, quante componenti principali sono sufficienti a rappresentare i dati? Motivare la risposta. C8. Scrivere l espressione della prima componente principale derivata da R, come si possono interpretare i coefficienti della combinazione lineare? C9. Scrivere la formula per il calcolo del coefficiente di correlazione tra la j- ma componente principale e la k-ma variabile standardizzata. Eseguire il calcolo per la prima componente principale e commentare il risultato ottenuto. C0. Calcolare per ogni variabile la proporzione di varianza spiegata dalle prime due componenti principali e commentare brevemente il risultato ottenuto. C. Rappresentare graficamente le famiglie in base alle prime due componenti principali. Commentare brevemente il grafico ottenuto. C2. Quale tipologia di famiglia presenta il valore più alto rispetto alla prima componente principale? E il più basso? 2
3 Soluzione Esercizio A Ricordiamo che in una distribuzione normale multivariata, covarianza nulla implica indipendenza. (a) No, σ 2 0 (b) Sì, σ 23 = 0 (c) Sì, σ 3 = σ 23 = 0 (d) Sì, (X +X 2 )/2 e X 3 sono congiuntamente normali con covarianza 2 σ σ 23 = 0. Ricordare che se X N p (µ, Σ) le q combinazioni lineari A q p X p sono ancora normali N q (Aµ, AΣA ) Esercizio B B. Una funzione lineare di due variabili normali è ancora normale. Pertanto Y è normale con media zero e varianza pari a σy 2 = E[(2X 3Z)2 ] = 4E[X 2 ] + 9E[Z 2 ] 2E[XZ] = = 9. Quindi Y 9 ha distribuzione normale con funzione di densità f y (y) = 3 2π e y2 /8 B2. X dato Z ha distribuzione normale univariata con media E(X Z) = µ X + σ 2 (z µ σz 2 z ) e σx Z 2 = σ2 X σ2 2. Sostituendo si ottiene E(X σz 2 Z) = z = 8z =.059z e 7 7 σ2 X Z = = 32 =, B3. La distribuzione congiunta di Y e Y 2 = X + Z è normale bivariata con vettore delle medie Aµ e matrice di covarianza AΣA, dove Σ è la matrice di covarianza di (X, Z) e ( ) 2 3 A = Per cui si ottiene ( Y Y 2 ) [( 0 0 ) ( 9 /3, /3 89/9 )] 3
4 Esercizio C si veda programma SAS prova sas C. per costruire il vettore delle medie e la matrice di covarianza campionaria usare PROC CORR. C2. Valutare se la distribuzione congiuta delle 7 variabili quantitative è approssimabile con una distribuzione normale multivariata: studiare le distribuzioni marginale con PROC UNIVARIATE, calcolare le distanze generalizzate al quadrato e vedere qual è l aproporzione di osservazioni che cade nell ellissi di isodensità dello 0.50 della distribuzione normale multivariata con p=7: in questo caso il 50%. C3. Per determinare le componenti principali campionarie e le varianze ad esse relative utilizzare PROC PRINCOMP con opzione COV. La varianza di ciascuna componente è data dall autovalore corrispondente: V ar(y j ) = λ j. C4. Varianza totale uguale alla somma degli autovalori della matrice di covarianza: j λ j = k s2 k sommare gli autovalori e confrontare con la somma delle varianze delle variabili. C5. La proporzione di varianza totale spiegata dalla prima componente è pari all 88% e si ottiene dividendo il primo autovalore per la varianza totale; per e disegnare lo scree-plot si può utilizzare l opzione plots(only)=(scree) di PROC PRINCOMP, oppure l opzione scree di PROC FACTOR. C6. Per determinare le componenti principali dalla matrice di correlazione campionaria utilizzare PROC PRINCOMP. Inserire lopzione out= per ottenere il valore delle CP calcolate per tutte le osservazioni, ossia i c.d. punteggi (ci serviranno ai punti C9 e C) C7. In base ai risultati del punto C6, possiamo decidere di rappresentare i dati con 2 componenti principali. Infatti la proporzione di varianza spigata dalle prime due CP è dell 88% e le prime due CP hanno autovalori maggiori di. C8. Espressione della prima componente principale derivata da R: Y = z z 7 ; i coefficienti della combinazione lineare 4
5 rappresentano il peso che ciascuna variabile standardizzata ha nel determinare la componente principale. In questo caso sono tutti positivi, tranne quello associato alla variabile vino. C9. Il coefficiente di correlazione tra la j-ma componente principale e la k- ma variabile standardizzata è dato da ρ jk = e jk λj. Per calcolare i ρ jk si può utilizzare PROC CORR sul data set creato con l opzione out= di PROC PRINCOMP, oppure utilizzare PROC FACTOR, in tal caso i coefficienti di correlazione si leggono dalla tabella Pattern fattoriale. La prima componente è positivamente correlata con tutte le variabili, tranne vino. Sono particolarmente alte le correlazioni con verdura, frutta, carne e pollame. C0. La proporzione di varianza spiegata dalle prime due componenti principali per ogni variabile si ottiene sommando i due coefficienti di correlazione corrispondenti al quadrato, cioè R,2;k 2 = ρ2 k + ρ2 2k. Questo conto può essere fatto a mano, oppure letto nella tabella Stime di comunanza finali dell output di PROC FACTOR. Osserviamo che tutte le variabili sono ben rappresentate, con R 2 parziali superiori all 80%, tranne vino. C. Per rappresentare graficamente le famiglie in base alle prime due componenti principali possiamo utilizazre: la macro %plotit o PROC GPLOT sul data set creato con l opzione out= di PROC PRINCOMP, oppure l opzione plots(only)=(score(ncomp=2) scree) di PROC PRINCOMP per ottenere il grafico con ODS, in tal caso ricordarsi di utilizzare ods graphics on; e ods graphics off; C2. Per individuare la tipologia di famiglia che presenta il valore più alto rispetto alla prima componente principale e quella con il valore più basso ordinare con PROC SORT il data set creato con l opzione out= di PROC PRINCOMP. 5
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
Analisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. La variabile casuale normale Da un analisi di bilancio è emerso che, durante i giorni feriali
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione
I VETTORI GAUSSIANI E. DI NARDO
I VETTOI GAUSSIANI E. DI NADO. L importanza della distribuzione gaussiana I vettori di v.a. gaussiane sono senza dubbio uno degli strumenti più utili in statistica. Nell analisi multivariata, per esempio,
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
Esercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 () Statistica 2 / 24 Outline 1 2 () Statistica 2 / 24 Outline 1 2 3 () Statistica 2 /
Analisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
Generazione di Numeri Casuali- Parte 2
Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali
COGNOME.NOME...MATR..
STATISTICA 29.01.15 - PROVA GENERALE (CHALLENGE) Modalità A (A) ai fini della valutazione verranno considerate solo le risposte riportate dallo studente negli appositi riquadri bianchi: in caso di necessità
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Corso di Psicometria Progredito
Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione
Cognome e Nome:... Corso di laurea:...
Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................
Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa
Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza
PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE
Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) PROBABILITÀ SCHEDA
CP110 Probabilità: Esame 13 settembre Testo e soluzione
Dipartimento di Matematica, Roma Tre Pietro Caputo 2011-12, II semestre 13 settembre, 2012 CP110 Probabilità: Esame 13 settembre 2012 Testo e soluzione 1. (6 pts) Una scatola contiene 10 palline, 8 bianche
Statistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
Analisi delle Componenti Principali con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi delle Componenti
distribuzione normale
distribuzione normale Si tratta della più importante distribuzione di variabili continue, in quanto: 1. si può assumere come comportamento di molti fenomeni casuali, tra cui gli errori accidentali; 2.
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni
Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano
Corso di STATISTICA EGA - Classe 1 aa 2017-2018 Docenti: Luca Frigau, Claudio Conversano Il corso è organizzato in 36 incontri, per un totale di 72 ore di lezione. Sono previste 18 ore di esercitazione
Esercitazioni di Statistica
Esercitazioni di Statistica Variabili casuali Prof. Livia De Giovanni [email protected] Esercizio Determinare se le funzioni seguenti: 0.0 se x < 0. se x = g(x) = 0.5 se x = 0.7 se x = 3 se x =
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
Distribuzioni di due variabili aleatorie
Statistica e analisi dei dati Data: 6 Maggio 206 Distribuzioni di due variabili aleatorie Docente: Prof. Giuseppe Boccignone Scriba: Noemi Tentori Distribuzioni congiunte e marginali Consideriamo due variabili
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
docente: J. Mortera/P. Vicard Nome
A opportuni passaggi). Verrà accettato in consegna solo il presente plico. 2. [9] Una certa zona è servita da 4 compagnie telefoniche. Per ciascuna compagnia è stato rilevato il costo al minuto (in centesimi
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010 Statistica Esercitazione 4 12 maggio 2010 Dipendenza in media. Covarianza e
Regressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Nuovo Ordinamento Esame di Statistica 20 Giugno 2003 docente: P. Vicard Nome
Nuovo Ordinamento Esame di Statistica 20 Giugno 2003 Cognome docente: P. Vicard Nome Al termine di ogni esercizio è lasciato lo spazio per scrivere la soluzione (corredata degli opportuni passaggi). La
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
Università di Pavia Econometria Esercizi 4 Soluzioni
Università di Pavia Econometria 2008-2009 Esercizi 4 Soluzioni Maggio, 2009 Istruzioni: I commenti devono essere concisi! 1. Dato il modello di regressione lineare, con K regressori con E(ɛ) = 0 e E(ɛɛ
Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento
Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
Analisi in Componenti Principali (ACP)
Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra
Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia
Variabili aleatorie discrete Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia 2015-16 1 / 45 Variabili aleatorie Una variabile aleatoria è simile a una variabile statistica Una variabile
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella
SCOPO DELL ANALISI DI CORRELAZIONE
CORRELAZIONE 1 SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2 diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica
Esercitazione del 16/04/2019 Istituzioni di Calcolo delle Probabilità
Esercitazione del 6/04/09 Istituzioni di Calcolo delle Probabilità David Barbato Nozioni di riepilogo con esercizi Distribuzione di una funzione di una variabile aleatoria discreta. Sia X una variabile
PROBABILITA. Distribuzione di probabilità
DISTRIBUZIONI di PROBABILITA Distribuzione di probabilità Si definisce distribuzione di probabilità il valore delle probabilità associate a tutti gli eventi possibili connessi ad un certo numero di prove
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.
ESERCIZI SVOLTI DI ALGEBRA LINEARE (Sono svolti alcune degli esercizi proposti nei fogli di esercizi su vettori linearmente dipendenti e vettori linearmente indipendenti e su sistemi lineari ) I. Foglio
Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.
