Regressione Lineare Multipla

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Regressione Lineare Multipla"

Transcript

1 Regressione Lineare Multipla Fabio Ruini Abstract La regressione ha come scopo principale la previsione: si mira, cioè, alla costruzione di un modello attraverso cui prevedere i valori di una variabile dipendente (o risposta), a partire dai valori di una (regressione lineare semplice) o più (regressione lineare multipla) variabili indipendenti (o esplicative). In questa breve tesina, si applicheranno alcuni algoritmi di regressione ad un caso reale. Dato un insieme di soggetti, ciascuno di essi accompagnato dalla misurazione del livello di colesterolo nel sangue e da una serie di indici di rifrazione (ricavati dalla analisi di un campione sanguigno), l obiettivo sarà identificare quali sono gli indici più significativi, individuando in tal modo il miglior modello di regressione multipla in grado di spiegare la variabilità del colesterolo nel sangue. Introduzione Il dataset originale al centro della nostra analisi consiste in un elenco, espresso in forma tabellare, di 263 pazienti. Per ciascuno di essi sono riportati 22 valori. I primi 21 di essi sono indici di rifrazione, ricavati dalle analisi di un campione di sangue prelevato da ogni soggetto; il rimanente valore è invece una misurazione del loro livello di colesterolo nel sangue. Il nostro obiettivo è quello di generare il miglior modello regressivo possibile, a partire da questi parametri, che sia in grado di spiegare la variabilità del colesterolo del sangue sulla base delle variabili esplicative a disposizione.

2 Una volta terminato lo studio, i dati verranno sottoposti ad una analisi delle componenti principali e, sul dataset modificato, sarà effettuata una nuova analisi di regressione lineare multipla. Le analisi sono state svolte con l ausilio del pacchetto software Matlab. A tal fine sono stati predisposti tre script (regressione_lineare_multipla.m, pvalue.m ed output_grafici.m), che effettuano in maniera automatica tutte le operazioni necessarie, generando gli output grafici e mostrando a video le caratteristiche di quello che viene individuato come miglior modello di regressione lineare multipla possibile. A questi script se ne aggiunge un quarto (pca.m), in grado di risistemare il dataset, mediante una Principal Component Analysis, prima della seconda analisi dei cluster. Descrizione del problema e teoria Il dataset CHOLES, estrapolato dai dati originari, consiste in una matrice di ordine 263x22, contenente sia la variabile risposta, sia le 21 variabili esplicative. Prima di iniziare l analisi, si sono dunque rese necessarie operazioni supplementari sul dataset: la separazione dell ultima colonna (variabile dipendente) e l aggiunta di un vettore colonna di ordine 263x1, contenente esclusivamente valori 1. Quest ultima operazione è indispensabile affinché Matlab sia in grado di stimare anche il parametro β 0. Beta 0 Beta 1 Beta 2 Beta 3 Beta i Beta 22 Y Osservazione 1 1 0,274 0,311 0,304 0, Osservazione 2 1 0,242 0,278 0,274 0, Osservazione 3 1 0,232 0,265 0,26 0, Osservazione 4 1 0,276 0,317 0,309 0, Osservazione 5 1 0,275 0,316 0,308 0, Osservazione i 1 Osservazione ,227 0,256 0,248 0, Figura 1 Estratto del dataset di riferimento L algoritmo che si occupa dell individuazione del miglior modello lineare funziona in maniera iterativa, seguendo uno schema concettuale molto semplice. Esso prende il via effettuando la regressione su tutte le variabili a disposizione ed elaborando, per ciascuno dei 22 parametri stimati, il rispettivo p-value. Tutti i p-value vengono quindi confrontati con il livello di significatività, nel nostro caso impostato al 95%, ossia Nell ipotesi in cui almeno uno di questi regressori evidenzi un p-value maggiore rispetto al livello di significatività del test (ovvero nel caso in cui sia altamente probabile che almeno un regressore assuma il valore zero), l algoritmo provvede ad eliminare il parametro stimato a cui è associato il p-value maggiore. Viene quindi effettuata una nuova regressione sulle variabili rimaste (22-1) ed un nuovo controllo sui parametri stimati. Il procedimento si ripete fino a quando tutti i coefficienti beta risultano essere, in base all analisi del p-value, significativi. Risultati Nel giungere al miglior modello lineare, l algoritmo ha eliminato, in sequenza, i regressori di posizione: 19, 11, 7, 17, 0, 12, 15, 14, 1, 16, 13, 5. E importante tenere in considerazione proprio l ordine con cui sono state

3 eliminate le variabili, in quanto il processo è di tipo path-dependent ed i risultati possono variare, anche fortemente, a seconda del percorso seguito dall algoritmo. Sui parametri rimasti (2, 3, 4, 6, 8, 9, 10, 18, 20, 21) è stata effettuata una ulteriore analisi di significatività, che ha portato ai risultati riassunti nella tabella che segue: Stima (estremo inferiore) (estremo superiore) P-Value Beta 2-0,3198-0,5263-0,1132 0, Beta 3 0,714 0,3005 1,128 0, Beta 4-0,49-0,8375-0,1425 0, Beta 6 0,3383 0,1691 0,5074 0, Beta 8-0,8494-1,0408-0, Beta 9 1,3634 1,0918 1,635 0 Beta 10-0,7846-0,9544-0, Beta 18 0,4209 0,2412 0,6006 0, Beta 20-0,9499-1,3261-0,5736 0, Beta 21 0,5547 0,3304 0,779 0, Figura 2 I risultati dell analisi di significatività effettuata sui parametri del modello lineare individuato (NB: con l eccezione di quella dei p-value, su tutte le altre colonne vale l elevamento a potenza 1.0e+004) Come si può notare, oltre al p-value, per ciascun regressore sono stati calcolati anche gli estremi degli intervalli di confidenza. Si tratta di un ulteriore strumenti con il quale è possibile approntare un analisi di significatività sui parametri, ancora più dettagliata rispetto al solo esame del p-value. I risultati mostrano chiaramente come l algoritmo abbia svolto in maniera corretta le proprie elaborazioni. Dei 10 parametri che compongono il modello di regressione lineare multipla, infatti, nessuno di questi ha un p-value superiore a 0.05 (livello di significatività delle regressioni effettuate) e nessuno di essi ha un intervallo di confidenza che comprende al suo interno il valore zero. Relativamente all intero modello, l analisi di significatività è stata effettuata ricorrendo al test di ipotesi F. L ipotesi nulla e quella alternativa sono state specificate nel modo seguente: H H 0 1 : β = β = β = β = β = β = β 2 3 : almeno _ un _ β 0 4 j = β 18 = β 20 = β 21 = 0 La statistica F, data dal rapporto tra la media dei quadrati della regressione (MQR) e la media dei quadrati dell errore (MQE), è stata valutata in Cifra ben al di sopra di , individuato dall algoritmo quale valore critico della distribuzione F con 10 e 252 gradi di libertà. Ciò ha consentito di rifiutare con un margine di errore pressoché inesistente l ipotesi nulla e decretare di conseguenza la significatività del modello. A confermare questa tesi vi è anche il p-value relativo all intero modello. Esso è risultato essere uguale a zero e pertanto minore rispetto al livello di significatività alfa della regressione (uguale a 0.05). Anche l analisi dei residui ha confermato l adeguatezza del modello di regressione individuato. Osservando il grafico, infatti, non si riconosce alcun

4 andamento regolare dei dati, che al contrario appaiono correttamente disseminati intorno al valore zero. Unica anomalia sono 11 residui il cui intervallo di confidenza non comprende il valore zero. Il loro numero è tuttavia troppo basso per influenzare negativamente l adozione del modello in questione. Figura 3 Grafico dei residui relativo al modello lineare individuato dall algoritmo La successiva applicazione della Principal Component Analysis, ha consentito di ridurre il dataset a sole 3 colonne. In compenso, l utilizzo dell algoritmo di regressione sui nuovi dati non ha portato ad un ulteriore riduzione del numero di variabili esplicative utilizzabili per la creazione del modello lineare. Esso è stato dunque identificato come un modello regressivo a tre parametri, tutti significativi (in tutte e tre le circostanze, il p-value è risultato uguale a zero, mentre gli intervalli di confidenza si sono assestati su valori ben distanti dallo zero). Stima (estremo inferiore) (estremo superiore) P-Value Beta 1-13, , , Beta 2 36, , , Beta 3-86, , , Figura 4 - I risultati dell analisi di significatività effettuata sui parametri del modello lineare individuato, successiva all analisi delle componenti principali (PCA) L analisi di significatività dell intero modello, anche in questo caso è stata effettuata mediante il test di ipotesi F ed il p-value. Per quanto riguarda il primo, le due ipotesi sono state specificate nel modo seguente: H H 0 1 : β = β = β 1 2 : almeno _ un _ β 0 3 j Il valore della statistica F (469,6767) è risultato ben maggiore rispetto al valore critico (0.1171) della distribuzione F con 3 e 259 gradi di libertà, portando ad un netto rifiuto dell ipotesi nulla. Come nel caso precedente, il p-

5 value è risultato essere uguale a zero e di conseguenza minore del livello di significatività scelto all inizio dell analisi (95%, ossia 0.05). Il grafico dei residui ha evidenziato un generale andamento irregolare degli stessi. Rispetto al grafico del modello individuato precedentemente (prima che sul dataset venisse applicata la PCA), si nota un numero maggiore di residui il cui intervallo di confidenza non contempla al suo interno il valore zero. Per l esattezza, essi sono 16, contro gli 11 riscontrati in precedenza. Rimane tuttavia un numero basso, se raffrontato alle 263 osservazioni presenti nel dataset e pertanto insufficiente come indicatore di una presunta inadeguatezza del modello di regressione in esame. Figura 5 - Grafico dei residui relativo al modello lineare individuato dall algoritmo, successivo all analisi delle componenti principali (PCA) Conclusioni Gli algoritmi utilizzati hanno permesso una significativa riduzione del numero di variabili necessarie per elaborare il modello di regressione, mantenendo al tempo stesso una buona capacità di sintesi. Modello pre-pca Modello post-pca R 2 0,827 0,7853 R 2 corretto (adjusted R 2 ) 0,8202 0,7828 Asymptotic Information Criterion (AIC) 1678,7 1731,2 Corrected AIC (AICC) 1679,7 1731,3 Indicatore di Schwarz 1714,4 1741,9 Figura 6 Confronto tra i due modelli di regressione individuati (pre e post PCA), sulla base di alcuni indici di valutazione Osservando la tabella qui sopra, si scopre che, com era lecito attendersi, il modello a 10 variabili risulta più esplicativo rispetto a quello a 3 variabili. La scelta dell uno o dell altro spetta in ultima istanza all analista, che dovrà valutare il grado di trade-off disposto a sopportare, in funzione del problema in esame. Nel caso specifico, le differenze tutto sommato ridotte spingono a favore del modello a tre variabili ottenuto in seguito alla PCA.

6 Bibliografia D.M. Levine, Statistica in particolare: capitolo 9: La regressione lineare semplice e la correlazione ; capitolo 10: I modelli di regressione multipla ; T. Minerva, La costruzione di modelli con algoritmi genetici in part.: capitolo 1: Tecniche di selezione di un modello statistico ; M. Pastore, G. Vidotto, "Verifica di ipotesi sulla varianza": Valori critici della distribuzione F: Roadmap MATLAB - in particolare: "Getting started with Matlab (Version 6)"; "Using Matlab (Version 6)"; "Statistics Toolbox - for use with Matlab".

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi) CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre R - Esercitazione 6 Andrea Fasulo [email protected] Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria

Dettagli

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli. Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:

Dettagli

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati: Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe

Dettagli

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: Analisi chimica strumentale Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: (31.4) dove s y è la varianza dei valori

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

La regressione lineare multipla

La regressione lineare multipla 13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività

Dettagli

Gli errori nella verifica delle ipotesi

Gli errori nella verifica delle ipotesi Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E

Dettagli

Analisi della regressione multipla

Analisi della regressione multipla Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov,

Dettagli

RAPPORTO CER Aggiornamenti

RAPPORTO CER Aggiornamenti RAPPORTO CER Aggiornamenti 12 Ottobre 2012 LO SPREAD PROSSIMO VENTURO Quanto potrà scendere lo spread Btp-Bund dopo le misure di austerità fiscale? Per rispondere, forniamo una semplice stima derivata

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.

Dettagli

Analisi della varianza

Analisi della varianza Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.

Dettagli

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Test F per la significatività del modello

Test F per la significatività del modello Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 )

Test d ipotesi. Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona. Ipotesi alternativa (H 1 ) Test d ipotesi Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Nel 900 falsificazione di ipotesi (Karl Popper) TEST D IPOTESI Nell 800 dimostrazione di ipotesi

Dettagli

UTILIZZO DELLO STRUMENTO ANALISI DATI DI EXCEL 1 PER ANALISI DI CORRELAZIONE E STIMA DI MODELLI DI REGRESSIONE

UTILIZZO DELLO STRUMENTO ANALISI DATI DI EXCEL 1 PER ANALISI DI CORRELAZIONE E STIMA DI MODELLI DI REGRESSIONE UTILIZZO DELLO STRUMENTO ANALISI DATI DI EXCEL 1 PER ANALISI DI CORRELAZIONE E STIMA DI MODELLI DI REGRESSIONE [a cura di L.Secondi, ad uso degli studenti del corso di Statistica per le ricerche di mercato]

Dettagli

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume

Dettagli

Esercitazione 9 del corso di Statistica (parte seconda)

Esercitazione 9 del corso di Statistica (parte seconda) Esercitazione 9 del corso di Statistica (parte seconda) Dott.ssa Paola Costantini 17 Marzo 9 Esercizio 1 Esercizio Un economista del Ministero degli Esteri desidera verificare se gli accordi di negoziazione

Dettagli

STATISTICA ESERCITAZIONE 13

STATISTICA ESERCITAZIONE 13 STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

Contenuti: Capitolo 14 del libro di testo

Contenuti: Capitolo 14 del libro di testo Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4

Dettagli

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice

Dettagli

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con

Dettagli

Differenze tra metodi di estrazione

Differenze tra metodi di estrazione Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori

Dettagli

Esercitazione 8 del corso di Statistica 2

Esercitazione 8 del corso di Statistica 2 Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione

Dettagli

ANALISI DELLE SERIE STORICHE

ANALISI DELLE SERIE STORICHE ANALISI DELLE SERIE STORICHE De Iaco S. [email protected] UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

Test di ipotesi su due campioni

Test di ipotesi su due campioni 2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche:

Dettagli

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze

Dettagli

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI

Dettagli

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Statistica - metodologie per le scienze economiche e sociali /e S. Borra, A. Di Ciaccio - McGraw Hill Es.. Soluzione degli esercizi del capitolo 4 4. Il sistema d ipotesi è: μ 7, H : μ 7, Essendo 0 : t,

Dettagli

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione

I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione Giuseppina Bozzo Giuseppina Bozzo Considerazioni preliminari La costruzione di un GLM è preceduta da alcune importanti fasi:

Dettagli

Test delle Ipotesi Parte I

Test delle Ipotesi Parte I Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test

Dettagli

Generazione di Numeri Casuali- Parte 2

Generazione di Numeri Casuali- Parte 2 Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali

Dettagli

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, ) Università degli Studi di Milano Bicocca Scuola di Economia e Statistica Corso di Laurea in Economia e Amministrazione delle Imprese (ECOAMM) Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE

Dettagli

Analisi Multivariata dei Dati. Regressione Multipla

Analisi Multivariata dei Dati. Regressione Multipla Analisi Multivariata dei Dati Regressione Multipla A M D Marcello Gallucci Milano-Bicocca Lezione: III Effetti multipli Consideriamo ora il caso in cui la variabile dipendente possa essere spiegata da

Dettagli

Caratterizzazione dei consumi energetici (parte 3)

Caratterizzazione dei consumi energetici (parte 3) ESERCITAZIONE 4 Caratterizzazione dei consumi energetici (parte 3) 4.1 CuSum: elementi di analisi statistica Il diagramma delle somme cumulate dei residui in funzione del tempo (CuSum) può essere in generale

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Significatività statistica per la correlazione vers. 1.0 (5 novembre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università

Dettagli

Indice. Prefazione all edizione italiana. Gli Autori e i Curatori dell edizione italiana PARTE PRIMA ASPETTI GENERALI

Indice. Prefazione all edizione italiana. Gli Autori e i Curatori dell edizione italiana PARTE PRIMA ASPETTI GENERALI Indice Prefazione all edizione italiana Gli Autori e i Curatori dell edizione italiana XI XII PARTE PRIMA ASPETTI GENERALI Capitolo 1. Introduzione 1 1.1 La psicologia scientifica 1 1.2 I contesti della

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi: DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano [email protected] si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme

Dettagli

PROBABILITÀ ELEMENTARE

PROBABILITÀ ELEMENTARE Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti

Dettagli

Franco Ferraris Marco Parvis Generalità sulle Misure di Grandezze Fisiche. Prof. Franco Ferraris - Politecnico di Torino

Franco Ferraris Marco Parvis Generalità sulle Misure di Grandezze Fisiche. Prof. Franco Ferraris - Politecnico di Torino Generalità sulle Misure di Grandezze Fisiche Prof. - Politecnico di Torino - La stima delle incertezze nel procedimento di misurazione -modello deterministico -modello probabilistico - La compatibilità

Dettagli

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II Modulo 2 Variabili continue e Metodi parametrici Distribuzione Un insieme di misure è detto

Dettagli

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011 Politecnico di Milano - Scuola di Ingegneria Industriale II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011 c I diritti d autore sono riservati. Ogni sfruttamento commerciale non

Dettagli

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 23 Outline 1 2 3 4 5 6 () Statistica 2 / 23 La verifica delle ipotesi Definizione Un ipotesi statistica

Dettagli

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione: si

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

CAPITOLO 11 ANALISI DI REGRESSIONE

CAPITOLO 11 ANALISI DI REGRESSIONE VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire

Dettagli

standardizzazione dei punteggi di un test

standardizzazione dei punteggi di un test DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano [email protected] standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 4.1 I principali test statistici per la verifica di ipotesi: Il test t Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico

Dettagli

Un applicazione della modellistica ARCH-GARCH

Un applicazione della modellistica ARCH-GARCH Un applicazione della modellistica ARCH-GARCH Federico Andreis Tesina per l esame di Metodi Statistici per la Finanza e le Assicurazioni A.A. 2005/2006 Prof. Diego Zappa Il grafico della serie storica

Dettagli

LEZIONE N. 11 ( a cura di MADDALENA BEI)

LEZIONE N. 11 ( a cura di MADDALENA BEI) LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice

Dettagli

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI Perchè confrontare le varianze stimate in due campioni? Torniamo all'esempio dei frinosomi Per poter applicare il test t avevamo detto che le varianze, e

Dettagli

Appunti su Indipendenza Lineare di Vettori

Appunti su Indipendenza Lineare di Vettori Appunti su Indipendenza Lineare di Vettori Claudia Fassino a.a. Queste dispense, relative a una parte del corso di Matematica Computazionale (Laurea in Informatica), rappresentano solo un aiuto per lo

Dettagli

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y ) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia [email protected] http://www.lucamonno.it

Dettagli

Metodi di analisi statistica multivariata

Metodi di analisi statistica multivariata Metodi di analisi statistica multivariata lzo V

Dettagli

CORSO INTEGRATO DI STATISTICA E INFORMATICA MEDICA

CORSO INTEGRATO DI STATISTICA E INFORMATICA MEDICA CORSO INTEGRATO DI STATISTICA E INFORMATICA MEDICA Settore Scientifico-Disciplinare: MED/01 Statistica Medica; INF/01 Informatica CFU Tot.: 5 Coordinatore: Prof. Dario Bruzzese Dip.: Sanità Pubblica.,

Dettagli

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi TRACCIA DI STUDIO Verifica di ipotesi Nelle analisi statistiche di dati sperimentali riguardanti più gruppi di studio (talvolta più variabili) si pone come ipotesi da verificare la cosiddetta ipotesi zero:

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli