Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Secondo foglio di esercizi per l esame. Ognuno deve svolgere ambedue gli esercizi (a) e (b) del numero (da 1 a 9) assegnato. Bisogna scrivere un programma in R che risponda alle domande, con eventuali commenti, e mandarmelo via e-mail a pugliese@science.unitn.it (alle parti teoriche, presenti in un paio di esercizi, potete rispondere su un foglio) 2. (a) Il file spesasanitaria.rdata (ovvero quello spesasanitaria.dat ) nella directory dati contiene dati sulla spesa sanitaria delle regioni italiane (e delle provincie di TN e BZ) fra il 1995 e 1998. Per ogni regione e anno le variabili riportate comprendono la percentuale di popolazione nelle varie classi di età (0-14, 15-64, 65-79, 80-+), i posti letto (ospedalieri) pro capite, il prodotto interno lordo pro capite, la spesa sanitaria totale pro capite, la macroarea a cui appartiene la regione. Studiare tutti i possibili modelli lineari di regressione della spesa pro-capite sulla macroarea ( macroarea3 ) a cui appartiene la regione e sull anno, considerando le variabili (anno e macroarea) sia come qualitative sia come quantitative. Trovate il modello più adeguato e descrivetelo a parole e in formula. Una volta trovato il modello più adeguato, mostrate graficamente i dati insieme al modello trovato, individuando eventuali osservazioni outlier. Mostrate qualche grafico da cui si possa verificare in che misura siano soddisfatte alcune ipotesi del modello lineare. (b) Costruite 50 osservazioni della variabile X comprese fra 0 e 10. Per ogni osservazione di X, costruite 10 osservazioni di una variabile Y che sarà uguale a 1 con probabilità p data dalla formula logistica con predittore 3X X 2 /2 2. ed uguale a 0 con probabilità 1 p. Calcolate la regressione logistica di Y su X, sia con un termine di secondo grado in X sia senza. Ripetete il procedimento 50 volte. Trovare la distribuzione empirica dei coefficienti della regressione. 3. (a) Si consideri il modello y i = ŷ i + ε i, dove ŷ i = 80 + 1.25x i. Si calcolino valori ŷ i in corrispondenza dei seguenti valori di x: x 1 = 1
21, x 2 = 22,...x 10 = 30, generando un campione di 10 residui ε i estratto da una distribuzione uniforme continua fra 2 e 2 ed ottenendo i corrispondenti valori y i. Sul campione così ottenuto si stimi il coefficiente di regressione lineare (semplice). Dopo aver ripetuto il procedimento 1000 volte, si trovi la media e la varianza dei coefficienti di regressione e si disegni infine la distribuzione di campionamento empirica. Fate lo stesso per la varianza degli errori. Confrontate con le attese teoriche. (b) Il file pinecones.txt (scaricabile dal sito Web del corso) contiene dati sulla produzione di pigne da parte di alberi di diametro diverso e sotto diverse concentrazioni di CO 2. La colonna contrassegnata da diam contiene la misura del diametro; nella colonna tmt il simbolo AMB indica che la pianta è stata tenuta alla concentrazione ambientale di CO 2 ; il simbolo CO2 indica che la pianta è stata tenuta a una concentrazione maggiore di CO 2 ; le colonne c98, c99 e c00 contengono il numero di coni prodotti nel 1998, 1999 e 2000. Noi intendiamo studiare soltanto come la probabilità di produrre coni nel 2000 (c00 > 0) è stata influenzata dal diametro e dalla concentrazione di CO 2. Trovate il modello migliore (fra quelli studiati nel corso) per questo studio. Scrivete (su un foglio) la formula trovata che mette in relazione diametro e concentrazione (normale o aumentata) di CO 2 con la probabilità di produrre coni. Mostrate in forma grafica la formula trovata insieme ai dati. Si può concludere che la concentrazione di CO 2 influenzi la probabilità di produrre coni? 4. (a) Il file bostonh.dat, in rete sulla pagina Web del corso, contiene 506 osservazioni (una per ogni distretto di censo nell area metropolitana di Boston) di 14 variabili (dati raccolti da Harrison e Rubinfeld, 1978). Il significato delle variabili è spiegato nella seguente tabella: 2
1. crimerate per capita crime rate 2. residentialzone proportion of residential land zoned for large lots 3. nonretail proportion of nonretail business acres 4. river Charles river (yes or no) 5. NO concentration nitric oxides concentration 6. noofrooms average number of rooms per dwelling 7. age proportion of owner-occupied units built prior to 1940 8. distance weighted distances to five Boston employment centers 9. accesstohigway index of accessibility to radial highways 10. taxrate full-value property tax-rate per $ 10,000 11. pupilteacher pupil teacher ratio 12. blackpeople 1000(B 0.63) 2 I B 0.63 where B is the proportion of blacks 13. lowerstatus % lower status of the population 14. valueofhome median value of owner-occupied homes in $1000 Tramite un metodo step-wise, sia forward che backward, eliminate le variabili inutili per la regressione; secondo il modello finale, quali sono le variabili che hanno un influenza significativa su V 14 ai livelli di significatività standard? Effettuate una trasformazione logaritmica delle variabili 1, 9 e 10; trasformate la seconda secondo la regola X 2 = log( V 2 + 1) e la dodicesima con X 12 = log(400 V 12 ). Ripetete il metodo step-wise sulle variabili trasformate. (b) La variabile X ha tutti i valori fra 0 e 20 (compresi) con passo 0.5. Se X < 10, la variabile Y è uguale a 0; altrimenti Y è uguale a 1. Calcolate la regressione logistica di Y su X. Qual è il risultato? Sapete spiegare eventuali anomalie? Mostrate su un grafico i punti (X, Y ) insieme alla curva (disegnata con una certa precisione) che descrive il modello trovato di dipendenza della probabilità di successo da X. 5. (a) Si consideri il modello y i = ŷ i +ε i, dove ŷ i = 80+1.25z i, mentre ε i sono variabili casuali normali indipendenti di media 0 e varianza 3. z i non è osservabile, ma si osserva invece x i = z i + η i dove η i sono variabili casuali normali indipendenti di media 0 e varianza 3/50. 3
Scegliete 50 valori per z i traendoli da una distribuzione uniforme fra 0 e 30. Successivamente ottenete x i e y i secondo il modello descritto sopra. Sul campione {(x i, y i ), i = 1...50} così ottenuto si stimi il coefficiente di regressione lineare (semplice). Dopo aver ripetuto il procedimento 100 volte, si trovi la media e la varianza dei coefficienti di regressione e si disegni infine la distribuzione di campionamento empirica. Confrontate con il valore teorico di 1.25. Ripetete il procedimento quando η i hanno varianza 3/10 e 3/5. Commentate i risultati. (b) Il dataset Titanic (nelle libreria di R) riporta età, sesso e classe (prima, seconda, terza o equipaggio) delle persone presenti sul Titanic, insieme al fatto se sono sopravvissute o meno. Analizzare la probabilità di sopravvivenza in rapporto alle tre variabili considerate. 6. (a) Il file gala.txt nella directory dati/ascdata contiene dati sulle isole Galapagos; le righe corrispondono alle varie isole, le colonne descrivono il numero di specie presenti sull isola, oltre ad alcune informazioni geografiche (area, elevazione, distanza dall isola più vicina...). Effettuate la regressione della variabile Species su Area, Elevation, Scruz, Nearest e Adjacent. Selezionate il modello che appare più adeguato. Effettuate l analisi dei residui e discutete se vi sembrano soddisfatte le ipotesi del modello lineare. Ripetete l analisi utilizzando la radice quadrata di Species ed eventualmente anche altre trasfomazioni delle variabili. L analisi appare più soddisfacente? I risultati sono simili ai precedenti? Mostrate graficamente i dati insieme al modello trovato, individuando eventuali osservazioni outlier. (b) Si consideri il modello y i = ŷ i + ε i, dove ŷ i = 2 + 0.5x i 0.05x 2 i, mentre ε i sono variabili casuali normali indipendenti di media 0 e varianza 0.1 + 0.2x i (i varia fra 1 e 50). Ponete x i = 0.05i + η i dove η i sono tratti da una distribuzione uniforme fra -0.05 e 0.05. Successivamente ottenete y i secondo il modello descritto sopra. Sul campione {(x i, y i ), i = 1...50} così ottenuto si applichi il metodo di regressione lineare con e senza il termine quadratico. Si valuti se i coefficienti del termine lineare e quadratico sono significativamente diversi da 0. 4
Ripetete l analisi applicando l opzione weights (presente in lm che devono essere uguali all inverso della varianza) per utilizzare l ipotesi che la varianza dell errore dipende da x. Mostrare il grafico dei residui nei vari casi. Mostrare un grafico dei dati, unitamente ai vari modelli di regressione ottenuti, e commentare i risultati. 7. (a) Sia X una variabile normale bivariata di media µ e matrice di varianza-covarianza Σ. Sia A una matrice 2 2, b un vettore di R 2 e Y = Ax + b. Qual è la distribuzione di Y? Utilizzando il calcolo precedente, mostrate che se X è un vettore composto da due normali indipendenti standard (media 0 e varianza 1), ponendo A = ( 1 2 1 3 5 4 3 2 3(1+ 5) 4 ) b = ( ) 1 0 Y = Ax + b ( 1 Y è un vettore di due variabili casuali normali con media e 0) ( ) 1 1/2 varianza-covarianza. 1/2 4 Usate questo metodo per costruire 20 vettori casuali Y con quella distribuzione. Calcolate il coefficiente di correlazione empirico fra Y 1 e Y 2 in questo campione; corrisponde all aspettativa teorica? Effettuate la regressione lineare di Y 2 su Y 1 ; qual è il risultato? è un metodo appropriato per un campione costruito in questo modo? (b) Il file toxoplasmosis.rda, attualmente recuperabile dalla mia pagina Web a http://www.science.unitn.it/analisiinfotlc/laed/toxoplasmosis.rda (esiste nell attuale directory../dati il file toxoplasmosis.dat che ha gli stessi dati, ma con qualche problema; il file toxoplasmosis.rda, è un file nel formato interno di R che va recuperato col comando load ) contiene i risultati di uno studio sulla toxoplasmosi in Guatemala. In varie città del Guatemala è stata registrata la piovosità media (in mm) e sono stati effettuati alcuni campioni (il numero è nella variabile Sampled) di cui un certo numero (variabile Positive) è risultato positivo alla toxoplasmosi [la variabile Proportion è uguale, con una certa approssimazione, a 5
Positive/Sampled]. Tramite la regressione logistica analizzare se la probabilità di essersi infettati con la toxoplasmosi dipenda dalla piovosità. 8. (a) Il file tab75 4.dat, attualmente recuperabile dalla mia pagina Web a http://www.science.unitn.it/analisiinfotlc/laed/tab75_4.dat (vedrò di mettere un link al più presto) contiene i risultati di tiri a canestro effettuati dall autore del libro e i suoi figli: nella prima colonna la distanza (in piedi) dal canestro, nelle successive colonne il numero di canestri (su 6 tentativi da ogni distanza) per ognuno dei partecipanti. Tramite la regressione logistica analizzare in che modo la probabilità di successo dipendeva dalla distanza (provare sia con la distanza stessa sia con la sua radice quadrata) e dal tiratore. Vedere se eventualmente è utile dividere i tiratori in gruppi a seconda dell abilità. Nota: con un trattino viene indicato che l autore non ha compiuto tentativi da distanze superiori ai 10 piedi. Io consiglierei di considerare tale risultato non come un missing value ma come 0 (non ha provato perché riteneva impossibile il successo). (b) La variabile X ha tutti i valori fra 0 e 20 (compresi) con passo 0.5. Se X < 10, la probabilità di successo è uguale a 1/4; altrimenti la probabilità di successo è uguale a 1/2. Per ogni valore di X generate una variabile Y binomiale con 2 tentativi e probabilità di successo descritta sopra. Calcolate la regressione logistica di Y su X. Si trova un effetto significativo di X sulla probabilità di successo? Mostrate su un grafico i punti (X, Y/2) insieme alla curva (disegnata con una certa precisione) che descrive il modello trovato di dipendenza della probabilità di successo da X. Ripetete ponendo, per ogni valore di X, Y binomiale con 10 tentativi. Come cambiano i risultati? 9. (a) Il file strongx.txt nella directory dati/ascdata contiene dati su un esperimento di collisione di protoni. Una teoria prevedeva che la cross-section (variabile crossx ) cresca linearmente proporzionale all inverso dell energia (variabile energy già uguale a 1/energia). Ad ogni valore del momento ed energia sono state compiute abbastanza misure da stimare la deviazione standard della misura (variabile sd ). 6
i. Effettuare la regressione lineare di crossx su energy, sia senza tener conto dei valori di sd, sia tenendone conto (in quest ultimo caso bisogna usare l opzione weights, ponendoli uguali all inverso della varianza). ii. Trovate il modello che vi sembra il migliore (anche se forse insensato dal punto di vista delle leggi fisiche) ammettendo far le variabili esplicative anche il quadrato di energy e momentum. (b) Siano (X 1, X 2 ) 32 osservazioni con X 1 compreso fra 0 e 2 e X 2 fra 1 e 10. Per ogni valore di (X 1, X 2 ) si compiono 10 prove in ognuna delle quali la probabilità di successo è p data dalla formula seguente: p(x 1.X 2 ) = arctan(2x 1 X 2 1 X 2/2)/π + 1/2. S è il numero di successi ottenuti. Generate S secondo questa procedura [in R π si ottiene scrivendo pi e l arcotangente è atan ]. Studiate tramite il metodo della regressione logistica la dipendenza di S da X 1 e X 2, eventualmente usando funzioni polinomiali. Ripetete il procedimento 50 volte. Trovare la distribuzione empirica dei coefficienti della regressione. Empiricamente, quanto spesso si vede un effetto significativo di X 1 su Y? 7