Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Secondo foglio di esercizi per l esame.



Documenti analoghi
I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Criteri di Valutazione della scheda - Solo a carattere indicativo -

1. Distribuzioni campionarie

matematica probabilmente

Elementi di Psicometria con Laboratorio di SPSS 1

La distribuzione Gaussiana

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Capitolo 12 La regressione lineare semplice

E naturale chiedersi alcune cose sulla media campionaria x n

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1

Dimensione di uno Spazio vettoriale

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

PROGRAMMA SVOLTO NELLA SESSIONE N.

Metodi statistici per le ricerche di mercato

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Statistica. Lezione 6

LE FUNZIONI A DUE VARIABILI

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Metodi Matematici e Informatici per la Biologia Maggio 2010

Statistiche campionarie

ANALISI DI CORRELAZIONE


Regressione Mario Guarracino Data Mining a.a. 2010/2011

età sesso luogo-abitazione scuola superiore esperienza insegnamento

La distribuzione Normale. La distribuzione Normale

La variabile casuale Binomiale

Misure della dispersione o della variabilità

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

I punteggi zeta e la distribuzione normale

Un gioco con tre dadi

STATISTICA IX lezione

risulta (x) = 1 se x < 0.

Prova di autovalutazione Prof. Roberta Siciliano

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Basi di matematica per il corso di micro

Slide Cerbara parte1 5. Le distribuzioni teoriche

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Lezione 9: Cambio di base

Politecnico di Torino. Esercitazioni di Protezione idraulica del territorio

lezione 18 AA Paolo Brunori

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Prof.ssa Paola Vicard

Studente: SANTORO MC. Matricola : 528

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

CALCOLO COMBINATORIO

VERIFICA DELLE IPOTESI

Facoltà di Psicologia Università di Padova Anno Accademico

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Elementi di Psicometria con Laboratorio di SPSS 1

3) ANALISI DEI RESIDUI

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Il confronto fra proporzioni

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Antonella Martinucci, Rossana Nencini, 2013 IL PESO. classe quarta

Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno , Prof. Mortera

Relazioni statistiche: regressione e correlazione

SPC e distribuzione normale con Access

ISTITUTO COMPRENSIVO BARBERINO MUGELLO

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

Statistica inferenziale

Lineamenti di econometria 2

3. Confronto tra medie di due campioni indipendenti o appaiati

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

4. Operazioni elementari per righe e colonne

LA MOLTIPLICAZIONE IN CLASSE SECONDA

Metodi Matematici ed Informatici per la Biologia Esame Finale, I appello 1 Giugno 2007

Facciamo qualche precisazione

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n Test t. Test t. t-test test e confronto tra medie chi quadrato

Relazioni tra variabili

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

1 Applicazioni Lineari tra Spazi Vettoriali

General Linear Model. Esercizio

Convertitori numerici in Excel

(a cura di Francesca Godioli)

Interesse, sconto, ratei e risconti

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Inferenza statistica. Statistica medica 1

( x) ( x) 0. Equazioni irrazionali

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

Il coefficiente di correlazione di Spearman per ranghi

OSSERVAZIONI TEORICHE Lezione n. 4

PROVE D'ESAME DI CPS A.A. 2009/ altrimenti.

L analisi dei dati. Capitolo Il foglio elettronico

(liberamente interpretato da SCHEDA ALUNNI. Descrizione dell attività:

Determinazione del pka per un acido moderatamente debole per via potenziometrica C.Tavagnacco - versione

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

LEZIONE n. 5 (a cura di Antonio Di Marco)

Transcript:

Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Secondo foglio di esercizi per l esame. Ognuno deve svolgere ambedue gli esercizi (a) e (b) del numero (da 1 a 9) assegnato. Bisogna scrivere un programma in R che risponda alle domande, con eventuali commenti, e mandarmelo via e-mail a pugliese@science.unitn.it (alle parti teoriche, presenti in un paio di esercizi, potete rispondere su un foglio) 2. (a) Il file spesasanitaria.rdata (ovvero quello spesasanitaria.dat ) nella directory dati contiene dati sulla spesa sanitaria delle regioni italiane (e delle provincie di TN e BZ) fra il 1995 e 1998. Per ogni regione e anno le variabili riportate comprendono la percentuale di popolazione nelle varie classi di età (0-14, 15-64, 65-79, 80-+), i posti letto (ospedalieri) pro capite, il prodotto interno lordo pro capite, la spesa sanitaria totale pro capite, la macroarea a cui appartiene la regione. Studiare tutti i possibili modelli lineari di regressione della spesa pro-capite sulla macroarea ( macroarea3 ) a cui appartiene la regione e sull anno, considerando le variabili (anno e macroarea) sia come qualitative sia come quantitative. Trovate il modello più adeguato e descrivetelo a parole e in formula. Una volta trovato il modello più adeguato, mostrate graficamente i dati insieme al modello trovato, individuando eventuali osservazioni outlier. Mostrate qualche grafico da cui si possa verificare in che misura siano soddisfatte alcune ipotesi del modello lineare. (b) Costruite 50 osservazioni della variabile X comprese fra 0 e 10. Per ogni osservazione di X, costruite 10 osservazioni di una variabile Y che sarà uguale a 1 con probabilità p data dalla formula logistica con predittore 3X X 2 /2 2. ed uguale a 0 con probabilità 1 p. Calcolate la regressione logistica di Y su X, sia con un termine di secondo grado in X sia senza. Ripetete il procedimento 50 volte. Trovare la distribuzione empirica dei coefficienti della regressione. 3. (a) Si consideri il modello y i = ŷ i + ε i, dove ŷ i = 80 + 1.25x i. Si calcolino valori ŷ i in corrispondenza dei seguenti valori di x: x 1 = 1

21, x 2 = 22,...x 10 = 30, generando un campione di 10 residui ε i estratto da una distribuzione uniforme continua fra 2 e 2 ed ottenendo i corrispondenti valori y i. Sul campione così ottenuto si stimi il coefficiente di regressione lineare (semplice). Dopo aver ripetuto il procedimento 1000 volte, si trovi la media e la varianza dei coefficienti di regressione e si disegni infine la distribuzione di campionamento empirica. Fate lo stesso per la varianza degli errori. Confrontate con le attese teoriche. (b) Il file pinecones.txt (scaricabile dal sito Web del corso) contiene dati sulla produzione di pigne da parte di alberi di diametro diverso e sotto diverse concentrazioni di CO 2. La colonna contrassegnata da diam contiene la misura del diametro; nella colonna tmt il simbolo AMB indica che la pianta è stata tenuta alla concentrazione ambientale di CO 2 ; il simbolo CO2 indica che la pianta è stata tenuta a una concentrazione maggiore di CO 2 ; le colonne c98, c99 e c00 contengono il numero di coni prodotti nel 1998, 1999 e 2000. Noi intendiamo studiare soltanto come la probabilità di produrre coni nel 2000 (c00 > 0) è stata influenzata dal diametro e dalla concentrazione di CO 2. Trovate il modello migliore (fra quelli studiati nel corso) per questo studio. Scrivete (su un foglio) la formula trovata che mette in relazione diametro e concentrazione (normale o aumentata) di CO 2 con la probabilità di produrre coni. Mostrate in forma grafica la formula trovata insieme ai dati. Si può concludere che la concentrazione di CO 2 influenzi la probabilità di produrre coni? 4. (a) Il file bostonh.dat, in rete sulla pagina Web del corso, contiene 506 osservazioni (una per ogni distretto di censo nell area metropolitana di Boston) di 14 variabili (dati raccolti da Harrison e Rubinfeld, 1978). Il significato delle variabili è spiegato nella seguente tabella: 2

1. crimerate per capita crime rate 2. residentialzone proportion of residential land zoned for large lots 3. nonretail proportion of nonretail business acres 4. river Charles river (yes or no) 5. NO concentration nitric oxides concentration 6. noofrooms average number of rooms per dwelling 7. age proportion of owner-occupied units built prior to 1940 8. distance weighted distances to five Boston employment centers 9. accesstohigway index of accessibility to radial highways 10. taxrate full-value property tax-rate per $ 10,000 11. pupilteacher pupil teacher ratio 12. blackpeople 1000(B 0.63) 2 I B 0.63 where B is the proportion of blacks 13. lowerstatus % lower status of the population 14. valueofhome median value of owner-occupied homes in $1000 Tramite un metodo step-wise, sia forward che backward, eliminate le variabili inutili per la regressione; secondo il modello finale, quali sono le variabili che hanno un influenza significativa su V 14 ai livelli di significatività standard? Effettuate una trasformazione logaritmica delle variabili 1, 9 e 10; trasformate la seconda secondo la regola X 2 = log( V 2 + 1) e la dodicesima con X 12 = log(400 V 12 ). Ripetete il metodo step-wise sulle variabili trasformate. (b) La variabile X ha tutti i valori fra 0 e 20 (compresi) con passo 0.5. Se X < 10, la variabile Y è uguale a 0; altrimenti Y è uguale a 1. Calcolate la regressione logistica di Y su X. Qual è il risultato? Sapete spiegare eventuali anomalie? Mostrate su un grafico i punti (X, Y ) insieme alla curva (disegnata con una certa precisione) che descrive il modello trovato di dipendenza della probabilità di successo da X. 5. (a) Si consideri il modello y i = ŷ i +ε i, dove ŷ i = 80+1.25z i, mentre ε i sono variabili casuali normali indipendenti di media 0 e varianza 3. z i non è osservabile, ma si osserva invece x i = z i + η i dove η i sono variabili casuali normali indipendenti di media 0 e varianza 3/50. 3

Scegliete 50 valori per z i traendoli da una distribuzione uniforme fra 0 e 30. Successivamente ottenete x i e y i secondo il modello descritto sopra. Sul campione {(x i, y i ), i = 1...50} così ottenuto si stimi il coefficiente di regressione lineare (semplice). Dopo aver ripetuto il procedimento 100 volte, si trovi la media e la varianza dei coefficienti di regressione e si disegni infine la distribuzione di campionamento empirica. Confrontate con il valore teorico di 1.25. Ripetete il procedimento quando η i hanno varianza 3/10 e 3/5. Commentate i risultati. (b) Il dataset Titanic (nelle libreria di R) riporta età, sesso e classe (prima, seconda, terza o equipaggio) delle persone presenti sul Titanic, insieme al fatto se sono sopravvissute o meno. Analizzare la probabilità di sopravvivenza in rapporto alle tre variabili considerate. 6. (a) Il file gala.txt nella directory dati/ascdata contiene dati sulle isole Galapagos; le righe corrispondono alle varie isole, le colonne descrivono il numero di specie presenti sull isola, oltre ad alcune informazioni geografiche (area, elevazione, distanza dall isola più vicina...). Effettuate la regressione della variabile Species su Area, Elevation, Scruz, Nearest e Adjacent. Selezionate il modello che appare più adeguato. Effettuate l analisi dei residui e discutete se vi sembrano soddisfatte le ipotesi del modello lineare. Ripetete l analisi utilizzando la radice quadrata di Species ed eventualmente anche altre trasfomazioni delle variabili. L analisi appare più soddisfacente? I risultati sono simili ai precedenti? Mostrate graficamente i dati insieme al modello trovato, individuando eventuali osservazioni outlier. (b) Si consideri il modello y i = ŷ i + ε i, dove ŷ i = 2 + 0.5x i 0.05x 2 i, mentre ε i sono variabili casuali normali indipendenti di media 0 e varianza 0.1 + 0.2x i (i varia fra 1 e 50). Ponete x i = 0.05i + η i dove η i sono tratti da una distribuzione uniforme fra -0.05 e 0.05. Successivamente ottenete y i secondo il modello descritto sopra. Sul campione {(x i, y i ), i = 1...50} così ottenuto si applichi il metodo di regressione lineare con e senza il termine quadratico. Si valuti se i coefficienti del termine lineare e quadratico sono significativamente diversi da 0. 4

Ripetete l analisi applicando l opzione weights (presente in lm che devono essere uguali all inverso della varianza) per utilizzare l ipotesi che la varianza dell errore dipende da x. Mostrare il grafico dei residui nei vari casi. Mostrare un grafico dei dati, unitamente ai vari modelli di regressione ottenuti, e commentare i risultati. 7. (a) Sia X una variabile normale bivariata di media µ e matrice di varianza-covarianza Σ. Sia A una matrice 2 2, b un vettore di R 2 e Y = Ax + b. Qual è la distribuzione di Y? Utilizzando il calcolo precedente, mostrate che se X è un vettore composto da due normali indipendenti standard (media 0 e varianza 1), ponendo A = ( 1 2 1 3 5 4 3 2 3(1+ 5) 4 ) b = ( ) 1 0 Y = Ax + b ( 1 Y è un vettore di due variabili casuali normali con media e 0) ( ) 1 1/2 varianza-covarianza. 1/2 4 Usate questo metodo per costruire 20 vettori casuali Y con quella distribuzione. Calcolate il coefficiente di correlazione empirico fra Y 1 e Y 2 in questo campione; corrisponde all aspettativa teorica? Effettuate la regressione lineare di Y 2 su Y 1 ; qual è il risultato? è un metodo appropriato per un campione costruito in questo modo? (b) Il file toxoplasmosis.rda, attualmente recuperabile dalla mia pagina Web a http://www.science.unitn.it/analisiinfotlc/laed/toxoplasmosis.rda (esiste nell attuale directory../dati il file toxoplasmosis.dat che ha gli stessi dati, ma con qualche problema; il file toxoplasmosis.rda, è un file nel formato interno di R che va recuperato col comando load ) contiene i risultati di uno studio sulla toxoplasmosi in Guatemala. In varie città del Guatemala è stata registrata la piovosità media (in mm) e sono stati effettuati alcuni campioni (il numero è nella variabile Sampled) di cui un certo numero (variabile Positive) è risultato positivo alla toxoplasmosi [la variabile Proportion è uguale, con una certa approssimazione, a 5

Positive/Sampled]. Tramite la regressione logistica analizzare se la probabilità di essersi infettati con la toxoplasmosi dipenda dalla piovosità. 8. (a) Il file tab75 4.dat, attualmente recuperabile dalla mia pagina Web a http://www.science.unitn.it/analisiinfotlc/laed/tab75_4.dat (vedrò di mettere un link al più presto) contiene i risultati di tiri a canestro effettuati dall autore del libro e i suoi figli: nella prima colonna la distanza (in piedi) dal canestro, nelle successive colonne il numero di canestri (su 6 tentativi da ogni distanza) per ognuno dei partecipanti. Tramite la regressione logistica analizzare in che modo la probabilità di successo dipendeva dalla distanza (provare sia con la distanza stessa sia con la sua radice quadrata) e dal tiratore. Vedere se eventualmente è utile dividere i tiratori in gruppi a seconda dell abilità. Nota: con un trattino viene indicato che l autore non ha compiuto tentativi da distanze superiori ai 10 piedi. Io consiglierei di considerare tale risultato non come un missing value ma come 0 (non ha provato perché riteneva impossibile il successo). (b) La variabile X ha tutti i valori fra 0 e 20 (compresi) con passo 0.5. Se X < 10, la probabilità di successo è uguale a 1/4; altrimenti la probabilità di successo è uguale a 1/2. Per ogni valore di X generate una variabile Y binomiale con 2 tentativi e probabilità di successo descritta sopra. Calcolate la regressione logistica di Y su X. Si trova un effetto significativo di X sulla probabilità di successo? Mostrate su un grafico i punti (X, Y/2) insieme alla curva (disegnata con una certa precisione) che descrive il modello trovato di dipendenza della probabilità di successo da X. Ripetete ponendo, per ogni valore di X, Y binomiale con 10 tentativi. Come cambiano i risultati? 9. (a) Il file strongx.txt nella directory dati/ascdata contiene dati su un esperimento di collisione di protoni. Una teoria prevedeva che la cross-section (variabile crossx ) cresca linearmente proporzionale all inverso dell energia (variabile energy già uguale a 1/energia). Ad ogni valore del momento ed energia sono state compiute abbastanza misure da stimare la deviazione standard della misura (variabile sd ). 6

i. Effettuare la regressione lineare di crossx su energy, sia senza tener conto dei valori di sd, sia tenendone conto (in quest ultimo caso bisogna usare l opzione weights, ponendoli uguali all inverso della varianza). ii. Trovate il modello che vi sembra il migliore (anche se forse insensato dal punto di vista delle leggi fisiche) ammettendo far le variabili esplicative anche il quadrato di energy e momentum. (b) Siano (X 1, X 2 ) 32 osservazioni con X 1 compreso fra 0 e 2 e X 2 fra 1 e 10. Per ogni valore di (X 1, X 2 ) si compiono 10 prove in ognuna delle quali la probabilità di successo è p data dalla formula seguente: p(x 1.X 2 ) = arctan(2x 1 X 2 1 X 2/2)/π + 1/2. S è il numero di successi ottenuti. Generate S secondo questa procedura [in R π si ottiene scrivendo pi e l arcotangente è atan ]. Studiate tramite il metodo della regressione logistica la dipendenza di S da X 1 e X 2, eventualmente usando funzioni polinomiali. Ripetete il procedimento 50 volte. Trovare la distribuzione empirica dei coefficienti della regressione. Empiricamente, quanto spesso si vede un effetto significativo di X 1 su Y? 7