Regressione Lineare Multipla

Documenti analoghi
CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Esercizi di statistica

Statistica Applicata all edilizia: il modello di regressione

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Esercitazione del

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Regressione Lineare Semplice e Correlazione

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

La regressione lineare multipla

Gli errori nella verifica delle ipotesi

Analisi della regressione multipla

RAPPORTO CER Aggiornamenti

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Analisi della varianza

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Statistica multivariata 27/09/2016. D.Rodi, 2016

Test F per la significatività del modello

STATISTICA A K (60 ore)

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Statistica multivariata Donata Rodi 17/10/2016

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

UTILIZZO DELLO STRUMENTO ANALISI DATI DI EXCEL 1 PER ANALISI DI CORRELAZIONE E STIMA DI MODELLI DI REGRESSIONE

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Esercitazione 9 del corso di Statistica (parte seconda)

STATISTICA ESERCITAZIONE 13

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Contenuti: Capitolo 14 del libro di testo

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Differenze tra metodi di estrazione

Esercitazione 8 del corso di Statistica 2

ANALISI DELLE SERIE STORICHE

Regressione lineare semplice

Test di ipotesi su due campioni

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione

Test delle Ipotesi Parte I

Generazione di Numeri Casuali- Parte 2

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Analisi Multivariata dei Dati. Regressione Multipla

Caratterizzazione dei consumi energetici (parte 3)

Elementi di Psicometria con Laboratorio di SPSS 1

Indice. Prefazione all edizione italiana. Gli Autori e i Curatori dell edizione italiana PARTE PRIMA ASPETTI GENERALI

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

PROBABILITÀ ELEMENTARE

Franco Ferraris Marco Parvis Generalità sulle Misure di Grandezze Fisiche. Prof. Franco Ferraris - Politecnico di Torino

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

CAPITOLO 11 ANALISI DI REGRESSIONE

standardizzazione dei punteggi di un test

Corso di Psicometria Progredito

Un applicazione della modellistica ARCH-GARCH

LEZIONE N. 11 ( a cura di MADDALENA BEI)

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Appunti su Indipendenza Lineare di Vettori

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Metodi di analisi statistica multivariata

CORSO INTEGRATO DI STATISTICA E INFORMATICA MEDICA

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Transcript:

Regressione Lineare Multipla Fabio Ruini Abstract La regressione ha come scopo principale la previsione: si mira, cioè, alla costruzione di un modello attraverso cui prevedere i valori di una variabile dipendente (o risposta), a partire dai valori di una (regressione lineare semplice) o più (regressione lineare multipla) variabili indipendenti (o esplicative). In questa breve tesina, si applicheranno alcuni algoritmi di regressione ad un caso reale. Dato un insieme di soggetti, ciascuno di essi accompagnato dalla misurazione del livello di colesterolo nel sangue e da una serie di indici di rifrazione (ricavati dalla analisi di un campione sanguigno), l obiettivo sarà identificare quali sono gli indici più significativi, individuando in tal modo il miglior modello di regressione multipla in grado di spiegare la variabilità del colesterolo nel sangue. Introduzione Il dataset originale al centro della nostra analisi consiste in un elenco, espresso in forma tabellare, di 263 pazienti. Per ciascuno di essi sono riportati 22 valori. I primi 21 di essi sono indici di rifrazione, ricavati dalle analisi di un campione di sangue prelevato da ogni soggetto; il rimanente valore è invece una misurazione del loro livello di colesterolo nel sangue. Il nostro obiettivo è quello di generare il miglior modello regressivo possibile, a partire da questi parametri, che sia in grado di spiegare la variabilità del colesterolo del sangue sulla base delle variabili esplicative a disposizione.

Una volta terminato lo studio, i dati verranno sottoposti ad una analisi delle componenti principali e, sul dataset modificato, sarà effettuata una nuova analisi di regressione lineare multipla. Le analisi sono state svolte con l ausilio del pacchetto software Matlab. A tal fine sono stati predisposti tre script (regressione_lineare_multipla.m, pvalue.m ed output_grafici.m), che effettuano in maniera automatica tutte le operazioni necessarie, generando gli output grafici e mostrando a video le caratteristiche di quello che viene individuato come miglior modello di regressione lineare multipla possibile. A questi script se ne aggiunge un quarto (pca.m), in grado di risistemare il dataset, mediante una Principal Component Analysis, prima della seconda analisi dei cluster. Descrizione del problema e teoria Il dataset CHOLES, estrapolato dai dati originari, consiste in una matrice di ordine 263x22, contenente sia la variabile risposta, sia le 21 variabili esplicative. Prima di iniziare l analisi, si sono dunque rese necessarie operazioni supplementari sul dataset: la separazione dell ultima colonna (variabile dipendente) e l aggiunta di un vettore colonna di ordine 263x1, contenente esclusivamente valori 1. Quest ultima operazione è indispensabile affinché Matlab sia in grado di stimare anche il parametro β 0. Beta 0 Beta 1 Beta 2 Beta 3 Beta i Beta 22 Y Osservazione 1 1 0,274 0,311 0,304 0,167 38 Osservazione 2 1 0,242 0,278 0,274 0,147 38 Osservazione 3 1 0,232 0,265 0,26 0,158 11 Osservazione 4 1 0,276 0,317 0,309 0,181 35 Osservazione 5 1 0,275 0,316 0,308 0,183 14 Osservazione i 1 Osservazione 263 1 0,227 0,256 0,248 0,136 30 Figura 1 Estratto del dataset di riferimento L algoritmo che si occupa dell individuazione del miglior modello lineare funziona in maniera iterativa, seguendo uno schema concettuale molto semplice. Esso prende il via effettuando la regressione su tutte le variabili a disposizione ed elaborando, per ciascuno dei 22 parametri stimati, il rispettivo p-value. Tutti i p-value vengono quindi confrontati con il livello di significatività, nel nostro caso impostato al 95%, ossia 0.05. Nell ipotesi in cui almeno uno di questi regressori evidenzi un p-value maggiore rispetto al livello di significatività del test (ovvero nel caso in cui sia altamente probabile che almeno un regressore assuma il valore zero), l algoritmo provvede ad eliminare il parametro stimato a cui è associato il p-value maggiore. Viene quindi effettuata una nuova regressione sulle variabili rimaste (22-1) ed un nuovo controllo sui parametri stimati. Il procedimento si ripete fino a quando tutti i coefficienti beta risultano essere, in base all analisi del p-value, significativi. Risultati Nel giungere al miglior modello lineare, l algoritmo ha eliminato, in sequenza, i regressori di posizione: 19, 11, 7, 17, 0, 12, 15, 14, 1, 16, 13, 5. E importante tenere in considerazione proprio l ordine con cui sono state

eliminate le variabili, in quanto il processo è di tipo path-dependent ed i risultati possono variare, anche fortemente, a seconda del percorso seguito dall algoritmo. Sui parametri rimasti (2, 3, 4, 6, 8, 9, 10, 18, 20, 21) è stata effettuata una ulteriore analisi di significatività, che ha portato ai risultati riassunti nella tabella che segue: Stima (estremo inferiore) (estremo superiore) P-Value Beta 2-0,3198-0,5263-0,1132 0,002542 Beta 3 0,714 0,3005 1,128 0,000781 Beta 4-0,49-0,8375-0,1425 0,005893 Beta 6 0,3383 0,1691 0,5074 0,000105 Beta 8-0,8494-1,0408-0,6581 0 Beta 9 1,3634 1,0918 1,635 0 Beta 10-0,7846-0,9544-0,6148 0 Beta 18 0,4209 0,2412 0,6006 0,000006 Beta 20-0,9499-1,3261-0,5736 0,000001 Beta 21 0,5547 0,3304 0,779 0,000001 Figura 2 I risultati dell analisi di significatività effettuata sui parametri del modello lineare individuato (NB: con l eccezione di quella dei p-value, su tutte le altre colonne vale l elevamento a potenza 1.0e+004) Come si può notare, oltre al p-value, per ciascun regressore sono stati calcolati anche gli estremi degli intervalli di confidenza. Si tratta di un ulteriore strumenti con il quale è possibile approntare un analisi di significatività sui parametri, ancora più dettagliata rispetto al solo esame del p-value. I risultati mostrano chiaramente come l algoritmo abbia svolto in maniera corretta le proprie elaborazioni. Dei 10 parametri che compongono il modello di regressione lineare multipla, infatti, nessuno di questi ha un p-value superiore a 0.05 (livello di significatività delle regressioni effettuate) e nessuno di essi ha un intervallo di confidenza che comprende al suo interno il valore zero. Relativamente all intero modello, l analisi di significatività è stata effettuata ricorrendo al test di ipotesi F. L ipotesi nulla e quella alternativa sono state specificate nel modo seguente: H H 0 1 : β = β = β = β = β = β = β 2 3 : almeno _ un _ β 0 4 j 6 8 9 10 = β 18 = β 20 = β 21 = 0 La statistica F, data dal rapporto tra la media dei quadrati della regressione (MQR) e la media dei quadrati dell errore (MQE), è stata valutata in 137.7189. Cifra ben al di sopra di 0.3909, individuato dall algoritmo quale valore critico della distribuzione F con 10 e 252 gradi di libertà. Ciò ha consentito di rifiutare con un margine di errore pressoché inesistente l ipotesi nulla e decretare di conseguenza la significatività del modello. A confermare questa tesi vi è anche il p-value relativo all intero modello. Esso è risultato essere uguale a zero e pertanto minore rispetto al livello di significatività alfa della regressione (uguale a 0.05). Anche l analisi dei residui ha confermato l adeguatezza del modello di regressione individuato. Osservando il grafico, infatti, non si riconosce alcun

andamento regolare dei dati, che al contrario appaiono correttamente disseminati intorno al valore zero. Unica anomalia sono 11 residui il cui intervallo di confidenza non comprende il valore zero. Il loro numero è tuttavia troppo basso per influenzare negativamente l adozione del modello in questione. Figura 3 Grafico dei residui relativo al modello lineare individuato dall algoritmo La successiva applicazione della Principal Component Analysis, ha consentito di ridurre il dataset a sole 3 colonne. In compenso, l utilizzo dell algoritmo di regressione sui nuovi dati non ha portato ad un ulteriore riduzione del numero di variabili esplicative utilizzabili per la creazione del modello lineare. Esso è stato dunque identificato come un modello regressivo a tre parametri, tutti significativi (in tutte e tre le circostanze, il p-value è risultato uguale a zero, mentre gli intervalli di confidenza si sono assestati su valori ben distanti dallo zero). Stima (estremo inferiore) (estremo superiore) P-Value Beta 1-13,5695-14,2949-12,8442 0 Beta 2 36,5997 33,0625 40,1368 0 Beta 3-86,1008-93,0983-79,1032 0 Figura 4 - I risultati dell analisi di significatività effettuata sui parametri del modello lineare individuato, successiva all analisi delle componenti principali (PCA) L analisi di significatività dell intero modello, anche in questo caso è stata effettuata mediante il test di ipotesi F ed il p-value. Per quanto riguarda il primo, le due ipotesi sono state specificate nel modo seguente: H H 0 1 : β = β = β 1 2 : almeno _ un _ β 0 3 j Il valore della statistica F (469,6767) è risultato ben maggiore rispetto al valore critico (0.1171) della distribuzione F con 3 e 259 gradi di libertà, portando ad un netto rifiuto dell ipotesi nulla. Come nel caso precedente, il p-

value è risultato essere uguale a zero e di conseguenza minore del livello di significatività scelto all inizio dell analisi (95%, ossia 0.05). Il grafico dei residui ha evidenziato un generale andamento irregolare degli stessi. Rispetto al grafico del modello individuato precedentemente (prima che sul dataset venisse applicata la PCA), si nota un numero maggiore di residui il cui intervallo di confidenza non contempla al suo interno il valore zero. Per l esattezza, essi sono 16, contro gli 11 riscontrati in precedenza. Rimane tuttavia un numero basso, se raffrontato alle 263 osservazioni presenti nel dataset e pertanto insufficiente come indicatore di una presunta inadeguatezza del modello di regressione in esame. Figura 5 - Grafico dei residui relativo al modello lineare individuato dall algoritmo, successivo all analisi delle componenti principali (PCA) Conclusioni Gli algoritmi utilizzati hanno permesso una significativa riduzione del numero di variabili necessarie per elaborare il modello di regressione, mantenendo al tempo stesso una buona capacità di sintesi. Modello pre-pca Modello post-pca R 2 0,827 0,7853 R 2 corretto (adjusted R 2 ) 0,8202 0,7828 Asymptotic Information Criterion (AIC) 1678,7 1731,2 Corrected AIC (AICC) 1679,7 1731,3 Indicatore di Schwarz 1714,4 1741,9 Figura 6 Confronto tra i due modelli di regressione individuati (pre e post PCA), sulla base di alcuni indici di valutazione Osservando la tabella qui sopra, si scopre che, com era lecito attendersi, il modello a 10 variabili risulta più esplicativo rispetto a quello a 3 variabili. La scelta dell uno o dell altro spetta in ultima istanza all analista, che dovrà valutare il grado di trade-off disposto a sopportare, in funzione del problema in esame. Nel caso specifico, le differenze tutto sommato ridotte spingono a favore del modello a tre variabili ottenuto in seguito alla PCA.

Bibliografia D.M. Levine, Statistica in particolare: capitolo 9: La regressione lineare semplice e la correlazione ; capitolo 10: I modelli di regressione multipla ; T. Minerva, La costruzione di modelli con algoritmi genetici in part.: capitolo 1: Tecniche di selezione di un modello statistico ; M. Pastore, G. Vidotto, "Verifica di ipotesi sulla varianza": http://zip2002.psy.unipd.it/statistica/hp_varianza.pdf Valori critici della distribuzione F: http://www.dss.uniud.it/utenti/lagazio/tavole/tavole_f.pdf Roadmap MATLAB - in particolare: "Getting started with Matlab (Version 6)"; "Using Matlab (Version 6)"; "Statistics Toolbox - for use with Matlab".