Metodi di regressione multivariata
|
|
- Ilario Bassi
- 7 anni fa
- Visualizzazioni
Transcript
1 Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un insieme di p variabili x 1, x 2,..., x p che descrivono gli oggetti studiati e un insieme di risposte y misurate per gli stessi oggetti. Obiettivo è trovare un modello in grado di predire le risposte per nuovi oggetti sulla base dell informazione data dalle variabili indipendenti.
2 Metodi di regressione multivariata Se si ha una sola risposta y, il modello di regressione multivariato è in generale: Occorre : y = f (x( 1, x 2,..., x p ) stabilire il tipo di modello stimare i parametri del modello (fitting) valutare l attendibilità delle predizioni del modello
3 Metodi di regressione multivariata Esempio di relazione funzionale (superficie di risposta) teorica :
4 Metodi di regressione multivariata Caratteristiche della superficie di risposta nel dominio sperimentale :
5 Metodi di regressione multivariata Modello lineare della superficie di risposta :
6 Metodi di regressione multivariata Ordine di un modello: il valore della potenza più grande delle variabili indipendenti. Modello di primo ordine: modello in cui gli esponenti delle variabili indipendenti sono uguali ad uno. Esempio : p j = 1 y = b + b x = b + b x + b x + + b x 0 j j K p p
7 Metodi di regressione multivariata Modello lineare nei parametri: : la risposta è una combinazione lineare delle variabili indipendenti.. I parametri del modello non sono a loro volta una funzione della risposta, sono dei semplici coefficienti moltiplicativi, inoltre è presente un solo coefficiente in ogni termine additivo. Esempi : y = β + β 1 x 1 i o i 2 i o 1 i1 11 i1 y = β + β x + β x y = β + β x + β x + β x x i o 1 i1 2 i2 12 i1 i2
8 Metodi di regressione multivariata Modello additivo: : modello in cui tutte le variabili hanno un effetto additivo sulla risposta. 2 y = β + β x + β x x + β x + ε 0 j j jk j k jj j Il termine costante β 0 è la stima della risposta quando tutte le variabili assumono valore zero. I coefficienti β j dei termini lineari stimano la dipendenza lineare della risposta dalle corrispondenti variabili (effetti principali). I coefficienti β jk del prodotto incrociato stimano l effetto l di interazione di due variabili sulla risposta. I coefficienti β jj dei termini quadratici stimano l'effetto non-lineare delle variabili sulla risposta. La somma dell effetto principale, degli effetti di interazione e degli effetti non- lineari definisce l influenza complessiva della variabile sulla risposta.
9 Metodi di regressione multivariata Modello vero non noto y i = f (β( 0, β 1,..., β p, x 1, x 2,..., x p ) + ε i x : variabili indipendenti, descrittori, predittori y : variabile dipendente, risposta cause del fenomeno studiato misura sperimentale del fenomeno studiato Modello stimato y i = f (b( 0, b 1,..., b p, x 1, x 2,..., x p ) + e i
10 Metodi di regressione multivariata Matrice dei dati X 0 Matrice del modello = x x K x p x x K x p K K K K K K K K x x K x n1 n2 np (contiene tante colonne quanti sono i parametri del modello, p ) X Mod = K 1p K 2p 21 x x x x x K x x x x x x x K x x K K K K K K K K 2 2 n1 n2 K np n1 n2 K n1 n2 x x x x x x x
11 Metodi di regressione multivariata MODELLI descrizione predizione fitting validation
12 Metodi di regressione multivariata Fitting : Processo di stima dei parametri del modello. Le stime dei parametri sono ricercate in modo tale da massimizzare l accordo tra le risposte osservate e quelle corrispondenti calcolate dal modello. Validazione : Processo di valutazione della effettiva capacità di predizione del modello.
13 Metodi di regressione multivariata I parametri β del modello vengono stimati in base agli esperimenti effettuati o ai dati disponibili utilizzando un metodo di regressione. Il numero minimo di esperimenti (oggetti)) per stimare i parametri β è uguale al numero di parametri del modello. Ad esempio,, per un modello lineare ad una variabile x 1, occorrono almeno 2 esperimenti: y = β + β x + ε i o 1 i1 i
14 Metodo dei minimi quadrati Ordinary Least Squares - O L S - Modello lineare teorico: y = Xβ+ ε (n, 1) = (n, p ) (p, 1) + (n, 1) y vettore delle risposte X matrice del modello β vettore dei parametri veri del modello (coefficienti( di regressione) ε vettore degli errori
15 Ordinary Least Squares - O L S - Il metodo di regressione dei minimi quadrati (OLS) è un metodo di stima dei parametri del modello di tipo unbiased, cioè il valore medio delle stime dei parametri coincide con il loro valore vero.
16 Le stime b j dei parametri del modello calcolate dal metodo OLS sono quelle che minimizzano lo scarto quadratico tra le risposte osservate e quelle calcolate dal modello per tutti gli oggetti del training set. Il metodo OLS minimizza la seguente quantità: F min RSS = min y$ y Residual Sum of Squares a f HG a f i i n i= 1 risposta calcolata 2 I KJ risposta osservata
17 Soluzione algebrica per determinare il vettore delle stime b dei coefficienti di regressione : y = T X y Xb = T X Xb c h c h T 1 T T 1 T X X X y= X X X Xb poichè : c h = T 1 T X X X X I T 1 T b X X X y OLS = c h (p, 1) = (p, p ) (p, n) (n, 1)
18 Una volta stimato il vettore b dei coefficienti di regressione, le risposte calcolate sono ottenute da: $y= XbOLS... e il vettore e delle stime degli errori (residui) da: e y y = $
19 Esempio sample preparation signal measure calibration model 60 50? inverse prediction [C] = 0.28
20 Condizioni di applicabilità del metodo OLS I coefficienti di regressione β possono assumere qualunque valore. Il modello di regressione è lineare nei parametri. La matrice del modello X deve avere rango uguale a p. I residui (errori) ε i sono variabili random con media uguale 0 e varianza σ 2 : N(0; σ 2 ). I residui ε i sono variabili random indipendenti con covarianza (ε i, ε j ) 0, per ogni i j. Tutti i residui ε i hanno la stessa varianza σ 2.
21 estimated model: y = b 0 + b 1. x Omoscedasticità
22
23 Nota bene : i valori dei coefficienti di regressione stimati b dipendono dalla scala di misura delle variabili x. Coefficienti di regressione standardizzati b* : b * b s j = j s s y e s j sono rispettivamente le deviazioni standard della risposta e della j-esima variabile. j y I coefficienti di regressione standardizzati rappresentano la vera importanza delle variabili nel modello.
24 Qualità dello stimatore b La varianza del vettore b dei coefficienti di regressione è una misura della stabilità del modello. V a f b tr X T OLS = c Xh σ = σ p j= 1 1 λ j errore sperimentale errore del modello autovalori della matrice X T X
25 Qualità dello stimatore b dx T i X 1 Matrice di dispersione Matrice di dispersione : i suoi elementi diagonali (coefficienti di variazione, d jj misurano l incertezza sui parametri del modello. vardbh jj j = d σ 2 jj ) Per un buon modello (stabile) : tutti i coefficienti di variazione devono essere uguali e minimi; gli elementi non diagonali della matrice di dispersione devono essere nulli.
26 Qualità dello stimatore b σ 2 L errore sperimentale è la variazione prodotta sulla risposta sperimentale da fattori di perturbazione, conosciuti o sconosciuti. Se non è noto a priori, l'errore sperimentale può essere stimato effettuando alcune repliche dello stesso esperimento.
27 Qualità dello stimatore b Assumendo che l'errore sperimentale sia costante nel dominio sperimentale, replicando esperimenti diversi, l'errore sperimentale può essere stimato da: s e = a f a f a f a f a f a f 2 r1 1 s1 + r2 1 s2+ K+ rn 1 s r 1 + r 1 + K+ r n n s 2 i = r b i k = 1 y r i ik 1 y i g 2
28 Qualità dello stimatore b In tutti i casi in cui si assume che il modello descriva adeguatamente la risposta, l'errore sperimentale può essere stimato dalla somma dei quadrati dei residui,, come errore standard della stima: s = RSS n p '
29 Qualità dello stimatore b Nota bene: se l errore sperimentale è noto a priori, ancora prima di realizzare gli esperimenti,, è possibile valutare se il modello finale sarà stabile oppure no!
30 Intervallo di confidenza dei coefficienti di regressione ch 12 / j α; n p' j j α; n p' b ± t V b = b ± t s d jj V(b j ) è la varianza del j-esimo coefficiente t α; ; n-p n è il valore critico della t di Student, al livello di significatività α e con n - p gradi di libertà s è l errore standard della stima d jj è il j-esimo elemento diagonale della matrice (X T X) -1
31 Qualità delle stime delle risposte La qualità delle stime delle risposte è definita dalla loro varianza: var $y c h d i 1 T T 2 2 i = xi X X xi σ = hii σ Tanto più grande è la varianza di una risposta stimata tanto più grande è la sua incertezza. h ii è detto "leverage" dell'i-esimo esimo campione o "funzione" di varianza".
32 Matrice dei leverage o matrice di influenza H Poichè $y = Xb e b g T 1 T b = X X X Y allora c h T 1 T $y= X X X X y= Hy c h T 1 T hii = x c T T 1 i X Xh xi H= X X X X (n, n) = (n, p ) (p, p ) (p, n) (1, 1) = (1, p ) (p, p ) p (p,1)
33 Matrice dei leverage o matrice di influenza H I leverage sono gli elementi diagonali della matrice H, con le seguenti proprietà: hii = p h = p / n h > 3p / n i Il leverage è una misura dell'incertezza con cui le risposte vengono calcolate dal modello. L'incertezza è proporzionale alla distanza di un campione dal centro dello spazio definito dal modello. Per un buon modello : il leverage deve essere il più piccolo e bilanciato possibile. *
34 Matrice dei leverage o matrice di influenza H y punto ad alto leverage h ii > h* x
35 Matrice dei leverage o matrice di influenza H Leverage degli oggetti del training set : 1 n h ii 1 Una sperimentazione ove i leverage dei diversi punti sperimentali sono molto sbilanciati indica una sperimentazione ove le diverse regioni dello spazio sperimentale sono valutate dal modello con precisione molto diversa tra loro. Il modello non è egualmente affidabile nelle diverse regioni del dominio sperimentale.
36 Matrice dei leverage o matrice di influenza H Leverage di nuovi oggetti : 1 n h ii < Per campioni il cui leverage è molto maggiore di 1, non ha senso utilizzare il modello per fare delle predizioni. Non significa che in quella regione il modello non funzioni,, ma che non vi sono ragioni statistiche fondate per ritenere che le stime siano affidabili!
37 Funzioni di fitness del modello di regressione Total sum of squares (TSS) b n g 2 i i = 1 TSS = y y Residual sum of squares (RSS) c h 2 i Residual sum of squares (RSS) RSS = y $ i y n i = 1 Model sum of squares (MSS) n MSS = y $ i y i = 1 c h 2
38 Funzioni di fitness del modello di regressione TSS = MSS + RSS funzione obiettivo da massimizzare MSS TSS 2 R = 1 RSS TSS R 2 : coefficiente di determinazione R 2 x 100 : percentuale di varianza spiegata dal modello r or R : coefficiente di correlazione multipla r = 0.90 R 2 = 0.81 r = 0.80 R 2 = 0.64
39 Funzioni di fitness del modello di regressione 0 1 R y a 1,..., p f Proprietà di R Ry 1 p = 0 Ry j = 0 j = 1 p a f a f,...,,..., R R R K R af a f a f a f y j y j, j y j, j, j y, K, p
40 Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione 100 Number of components vs. R2 e Q R Q Number of components
41 Funzioni di fitness del modello di regressione Predictive error sum of squares - PRESS - PRESS = y$ ii / y n i= 1 a f 2 i risposta predetta per l oggetto i-esimo quando questo è escluso dal modello (tecnica( della cross-validation validation) funzione obiettivo da massimizzare 2 2 R Q massimizzare CV = 1 PRESS TSS
42 Funzioni di fitness del modello di regressione R R 2 adjusted a f c h RSS / n p' n 1 = 1 1 R TSS / n 1 n p' 2 2 adj = 1 F HG I K J
43 Errore standard della stima s s = RSS n p' s 2 : stima dell errore errore sperimentale σ 2 Standard Deviation Error in Calculation: SDEC = RSS n Standard Deviation Error in Prediction: SDEP = PRESS n
44 Test F di Fisher in regressione Il test di Fisher viene in generale utilizzato per confrontare due varianze. In regressione : F calc = MSS a a / p' 1 RSS / n p' H 0 : assenza di modello, tutti i coefficienti di regressione sono nulli. f f H 1 : almeno un coefficiente di regressione è diverso da zero.
45 Lack of Fit (LOF) Come valutare la bontà dell'approssimazione della relazione funzionale tra la risposta e le variabili? Y Y X X 1 Modello di primo o secondo ordine?
46 Se il modello è una buona approssimazione della relazione funzionale vera,, i residui (RSS) dipendono solo dall'errore sperimentale. F Lack of Fit (LOF) TEST DI FISHER a fa f RSS / n p = n p, r 1 s 2 e Se F > F critico il modello stimato non è "buono" buono" a f
47 Analisi della varianza Mean 1 TSS n TSS REG n - 1 n : numero totale di esperimenti (con repliche) p : numero di parametri del modello k : numero di esperimenti indipendenti n - f : numero di repliche MSS p - 1 RSS n - p b 0, b 1,... LOF k - p ERR n - k
48 Analysis of Variance in Regression Source SS df MS F Regression SS REG p - 1 MS REG MS REG / MS R Residual SS R n - p MS R Lack of fit SS LOF k - p MS LOF MS LOF / MS PE Pure error SS PE n - k MS PE Total SS T n - 1 k: levels for replicates RSS : Residual Sum of Squares TSS : Total Sum of Squares
49 Esempio di analisi della varianza y = b 0 + b. 1 x model n = 20 k = 5 samples levels n i = 4 replicates ANOVA table Source SS df MS F regression residual total F 1,18 (5%) = 4.41 Residual variance decomposition Source SS df MS F lack of fit pure error total res F 3,15 (5%) = 3.29 K O lack of fit! O K
50 Esempio di analisi di regressione 17 oggetti descritti da 5 variabili e 1 risposta. ID x1 x2 x3 x4 x5 y
51 Matrice di correlazione x 1 x 2 x 3 x 4 x 5 x x x x x Autovalori della matrice di correlazione Eigenvalues Value % of variability Cumulative %
52 Risultati della regressione dei minimi quadrati (OLS) Modello scelto : lineare di primo ordine n = 17 p = 5+1 F calc = F 0.05;5,11 = 3.20 R 2 = 99.1 % R 2 adj = 98.7 % R 2 loo = Q 2 = 93.5 % F 0.01;5,11 = 5.32 s = SDEC = SDEP =
53
54 Histogram for reduced residuals 1 3 Nbr of observation residuals
55 Coefficienti di regressione Value Std dev. Lower 95% bound Upper 95% bound Intercept x x x x x Coefficienti di regressione standardizzati Value Std dev. x x x x x
56 Diagnostica di regressione Valutazione della qualità di un modello mediante strumenti grafici. y(exp exp) vs y(calc calc), y(pred pred) objects vs residuals objects vs leverages leverages vs residuals y(calc calc) vs residuals...
57 Grafico delle risposte
58 Analisi dei residui Serve a valutare l adeguatezza del modello stimato. e i e i e i x(y) x(y) x(y) e i e i e i x(y) x(y) x(y)
59 Grafico di Williams per studiare le influenze degli oggetti
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Dettagli1. variabili dicotomiche: 2 sole categorie A e B
Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili
Dettaglis a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value
Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza
DettagliCAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza
Douglas C. Montgomery Progettazione e analisi degli esperimenti 006 McGraw-Hill CAPITOLO 3 Esperimenti con un singolo fattore: l Analisi della Varianza Metodi statistici e probabilistici per l ingegneria
DettagliAnova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
DettagliCAPITOLO 5 Introduzione ai piani fattoriali
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 5 Introduzione ai piani fattoriali Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria
DettagliDATA MINING PER IL MARKETING (63 ore)
DATA MINING PER IL MARKETING (63 ore) Marco Riani mriani@unipr.it Sito web del corso http://www.riani.it/dmm Studio della distribuzione di ˆ E( ˆ) var( ˆ) 2 ( X ' X ) 1 Teorema di Gauss Markov (efficienza
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliArgomenti della lezione:
Lezione 7 Argomenti della lezione: La regressione semplice Il modello teorico Il calcolo dei parametri Regressione lineare Esamina la relazione lineare tra una o più variabili esplicative (o indipendenti,
DettagliMetodi Statistici per il Management
Metodi Statistici per il Management Statistica Multivariata I Simone Borra - Roberto Rocci Introduzione e obiettivi La statistica multivariata si occupa di analizzare e studiare in modo simultaneo un set
DettagliLaboratorio di Statistica Aziendale Modello di regressione lineare multipla
Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Michela Pasetto michela.pasetto2@unibo.it Definizione del modello OLS (semplice) L obiettivo della regressione lineare è di valutare
DettagliMetodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione
Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze
DettagliIl modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
DettagliStima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
DettagliSTATISTICA. Regressione-2
STATISTICA Regressione-2 Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante
DettagliEsercitazione 5 Sta/s/ca Aziendale
Esercitazione 5 Sta/s/ca Aziendale David Aristei 12 maggio 2015 Si è interessa/ ad analizzare le determinan/ a livello aziendale della produ>vità del lavoro (PL, in migliaia di euro per dipendente) di
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliSTATISTICA. Regressione-3 L inferenza per il modello lineare semplice
STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione
DettagliConfronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
DettagliVARIETÀ. zona geografica A B C D
Anova a 2 vie con repliche (( chiarire che non devono essere esattamente nello stesso numero per ogni cella ovvero per le ripetizioni dei de fattori ma che excel li legge così) Esercizio-esempio 1 Il valore
DettagliRegressione multipla
Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione
DettagliAnalisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)
Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare risposte di una variabile dip. Modello classico di regressione lineare: Y {z} n k = {z} X β + ρ {z} {z} n
DettagliMinimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti
DettagliStatistica descrittiva: analisi di regressione
Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.
DettagliCorrelazione e regressione
Correlazione e regressione Il termine associazione è largamente usato nella letteratura scientifica ed esprime la relazione che esiste tra due variabili Per studiare l associazione tra due variabili bisogna
DettagliAnalisi di Regressione Multipla
Analisi di Regressione Multipla Stima OLS della relazione Test Score/STR : TestScore! = 698.9.8 STR, R =.05, SER = 18.6 (10.4) (0.5) E una stima credibile dell effetto causale sul rendimento nei test di
DettagliMetodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello
Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le
DettagliEsercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliOld Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.
Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliRegressione semplice: come applicarla come interpretare i risultati
Regressione semplice: come applicarla come interpretare i risultati Questo materiale è utile ai fini dell esecuzione della regressione con software statistico. Questo materiale non è in alcun modo utile
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliLa curva di regressione è il luogo dei punti aventi come ordinate le medie condizionate
Correlazione e regressione Correlazione: le due variabili casuali sono considerate in modo per così dire simmetrico. Regressione: una delle due variabili dipende dall'altra, che per così dire la precede
DettagliEsercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 19-Rapporto fra varianze e 20-Introduzione all Anova vers. 1.0 (5 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,
DettagliRegressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo
Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliIL METODO ECONOMETRICO
IL METODO ECONOMETRICO 8 maggio 2017 L obiettivo di questa lezione è quello di fornire alcuni strumenti necessari per l analisi empirica In particolare, approfondiremo il metodo econometrico come strumento
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliECONOMETRIA: Laboratorio I
ECONOMETRIA: Laboratorio I Luca De Angelis CLASS - Università di Bologna Programma Laboratorio I Valori attesi e varianze Test di ipotesi Stima di un modello lineare attraverso OLS Valore atteso Data una
Dettaglilezione 4 AA Paolo Brunori
AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente
DettagliLezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili
DettagliIl modello di regressione lineare multipla
Il modello di regressione lineare multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2014 Rossi MRLM Econometria - 2014 1 / 31 Outline 1 Notazione 2 3 Collinearità Rossi MRLM Econometria - 2014
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
DettagliCalcolo delle Probabilità e Statistica Matematica: definizioni prima parte. Cap.1: Probabilità
Calcolo delle Probabilità e Statistica Matematica: definizioni prima parte Cap.1: Probabilità 1. Esperimento aleatorio (definizione informale): è un esperimento che a priori può avere diversi esiti possibili
DettagliIntroduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) Marcello Gallucci P S I C O M E T R I A marcello.gallucci@unimib.it Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa
DettagliCorso di Sistemi di Gestione per la Qualità (SGQ) AA
Corso di Sistemi di Gestione per la Qualità (SGQ) AA 018-19 6 CFU Prof. Gianluca D Urso 1 Tecniche ANOVA ANalisys Of VAriance Problema che si vuole risolvere: esiste una differenza? A punti rossi B punti
DettagliΣ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica
13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in
DettagliESERCITAZIONE REGRESSIONE MULTIPLA
ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi
DettagliAnalisi della varianza
Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.
DettagliCapitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliSTATISTICA. Esercitazione 5
STATISTICA Esercitazione 5 Esercizio 1 Ad un esame universitario sono stati assegnati in modo casuale due compiti diversi con i seguenti risultati: Compito A Compito B Numero studenti 102 105 Media dei
DettagliMicroeconometria Day # 3 L. Cembalo. Regressione con due variabili e metodo dei minimi quadrati
Microeconometria Day # 3 L. Cembalo Regressione con due variabili e metodo dei minimi quadrati SRF: sample regression function Il passaggio dalla regressione sulla popolazione a quella sul campione è cruciale
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliAnalisi della varianza a una via
Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici
DettagliSTATISTICA. Regressione-2
STATISTICA Regressione-2 Fare sempre il grafico! Fig. 5.12 pg 178, Statistica di S. Iacus Fare sempre il grafico! y 0 2 4 6 8 10 =-1 =+0.79 outlier o dato influente 0 2 4 6 8 10 x Inferenza Il modello
DettagliREGRESSIONE MULTIPLA E CORRELAZIONE. Nicola Tedesco (Statistica Sociale) REGRESSIONE MULTIPLA E CORRELAZIONE 1 / 16
REGRESSIONE MULTIPLA E CORRELAZIONE Nicola Tedesco (Statistica Sociale) REGRESSIONE MULTIPLA E CORRELAZIONE 1 / 16 y a b 1 x 1 (x 2 0) a b 2 x 2 (x 1 0) a a b 1 x 1 b 2 x 2 0 x 2 x 1 x 2 Plane x 1 Nicola
Dettagli11 - Test del Chi-Quadro
11 - Test del Chi-Quadro rocedura generale di un fit ai dati: 1) Misure: (x 1,y 1 )...(x n,y n ), x 0, y = yi (gaussiani indipendenti) ) Ipotesi H 0 sul modello (Es. y = f(x) =A + Bx) 3) Metodo dei minimi
DettagliCHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
DettagliEsperimentazioni di Fisica 1. Prova in itinere del 12 giugno 2018
Esperimentazioni di Fisica 1 Prova in itinere del 1 giugno 018 Esp-1 Prova in Itinere n. - - Page of 6 1/06/018 1. (1 Punti) Quesito L incertezza da associare alle misurazioni eseguite con un certo strumento
DettagliUniversità di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Università di Pavia Econometria Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Università di Pavia Introduzione L econometria si interessa all analisi dei dati economici. I dati economici
DettagliMetodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione
Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni
DettagliUlteriori Conoscenze di Informatica e Statistica
Ulteriori Conoscenze di Informatica e Statistica Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 (I piano) tel.: 06 55 17 72 17 meneghini@fis.uniroma3.it Indici di forma Descrivono le
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliLa regressione lineare semplice
La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1 Il modello di regressione lineare semplice
DettagliRegressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume produttivo X per uno dei propri stabilimenti. Volume
DettagliAnalisi della varianza
Analisi della varianza Mediante un singolo esperimento vengono confrontate fra loro più popolazioni (gruppi, tesi). Consente di valutare quantitativamente l importanza delle diverse fonti di variazione
DettagliUniversità di Pavia Econometria Esercizi 5
Università di Pavia Econometria 2007-2008 Esercizi 5 Maggio, 2008 1. Una regressione lineare multipla di y su una costante, x 2 e x 3 produce i seguenti risultati: ŷ t = 4 + 0.4x t2 + 0.9x t3 con X X =
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliIntroduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) AMD Marcello Gallucci marcello.gallucci@unimib.it Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa e, per quello
DettagliMODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
DettagliL'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni
DettagliR - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
DettagliArgomenti della lezione:
Lezione 13 L analisi della Varianza (ANOVA): il modello lineare Argomenti della lezione: Modello lineare Disegni a una via L Analisi della Varianza (ANOVA): Esamina differenze tra le medie di due o più
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliSTIMA DELLA PIENA INDICE
STIMA DELLA PIENA INDICE STIMA LOCALE - Anche se basata su un numero molto limitato di osservazioni (5-6) STIMA REGIONALE 1) Metodi basati su regressioni rispetto a parametri morfo-climatici 2) Metodi
DettagliRegressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
DettagliMetodologie Quantitative
Metodologie Quantitative Regressione Lineare Nozioni di base M Q Marco Perugini Milano-Bicocca 1 I COMUNICAZIONE MERCOLEDI 11 NOVEMBRE NON CI SARA LEZIONE DI MQ Concetti base Con l analisi di regressione
DettagliUniversità del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea
DettagliTOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo
TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L
DettagliAnalisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
DettagliMetodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi
Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA)
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliPsicometria con Laboratorio di SPSS 2
Psicometria con Laboratorio di SPSS 2 Regressione lineare semplice (vers. 1.2, 20 marzo 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18
DettagliUniversità del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea
DettagliBLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
DettagliCAPITOLO 6 Il piano fattoriale 2 k
Douglas C. Montgomery Progettazione e analisi degli esperimenti 2006 McGraw-Hill CAPITOLO 6 Il piano fattoriale 2 k Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile
DettagliSTIMA DELLA PIENA INDICE
STIMA DELLA PIENA INDICE 1) Metodi a base geomorfoclimatica (es. Formula razionale) 2) Metodi basati su regressioni rispetto a parametri morfo-climatici 1 Valutazione della piena media Formula razionale
DettagliUniversità del Piemonte Orientale. Corso di laurea specialistica in biotecnologie mediche. Corso di Statistica Medica. Analisi dei dati quantitativi :
Università del Piemonte Orientale Corso di laurea specialistica in biotecnologie mediche Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale
DettagliLa regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
DettagliFasi del modello di regressione
Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliUniversità di Pavia Econometria Esercizi 4 Soluzioni
Università di Pavia Econometria 2008-2009 Esercizi 4 Soluzioni Maggio, 2009 Istruzioni: I commenti devono essere concisi! 1. Dato il modello di regressione lineare, con K regressori con E(ɛ) = 0 e E(ɛɛ
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 05-6) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliNel modello di regressione Multivariata abbiamo più variabili risposta (tipicamente poche), in particolare avremo:
Lezione 15 (a cura di Giovanni Mariani) Regressione Multivariata Consideriamo yiyr, con r = numero variabili risposta xixk, con k = numero varibili esplicative Nel modello di regressione Multivariata abbiamo
Dettagli