Esercitazione del

Documenti analoghi
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

SCOPO DELL ANALISI DI CORRELAZIONE

REGRESSIONE E CORRELAZIONE

Statistica. Alfonso Iodice D Enza

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Statistica. Alfonso Iodice D Enza

Statistica multivariata Donata Rodi 17/10/2016

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Statistica di base per l analisi socio-economica

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

METODO DEI MINIMI QUADRATI

Corso di Statistica Industriale

Associazione tra caratteri quantitativi: gli indici di correlazione

Test per la correlazione lineare

Esercitazione 8 maggio 2014

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Tema d esame del 15/02/12

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

UNIVERSITÀ di ROMA TOR VERGATA

Intervalli di confidenza

CAPITOLO 11 ANALISI DI REGRESSIONE

ESERCITAZIONE IV - Soluzioni

Test F per la significatività del modello

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Esercitazioni di statistica

Statistica Applicata all edilizia: il modello di regressione

b) Calcolare la devianza tra i gruppi (devianza esterna), la devianza entro i gruppi (devianza interna) e la devianza totale

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica Inferenziale

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Statistica Un Esempio

Corso di Psicometria Progredito

Università degli Studi di Padova Facoltà di Scienze Politiche

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Teoria e tecniche dei test. Concetti di base

Esercitazione di Statistica Indici di associazione

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

Esercitazioni di Metodi Statistici per la Biologia

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

ESERCIZI DI RIEPILOGO 1

Statistica. Alfonso Iodice D Enza

Test di ipotesi su due campioni

> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

ESERCIZI CORRELAZIONE

Una statistica è una quantità numerica il cui valore è determinato dai dati.

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Distribuzione Normale

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Caratterizzazione dei consumi energetici (parte 3)

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Distribuzioni campionarie

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Il test (o i test) del Chi-quadrato ( 2 )

Analisi della correlazione canonica

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

La valutazione dei rischi. Corso di risk management Prof. Giuseppe D Onza

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Transcript:

Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36 23 19 17 2 5 Y 25 0 11-26 -2-18 8 26 35 1. Rappresentare la distribuzione congiunta dei due caratteri mediante un diagramma a dispersione. Sulla base del grafico il modello di regressione lineare Y i = β 0 +β 1 x i +ǫ i, i = 1,...,n appare adeguato? Motivare la risposta. 2. Stimare i parametri β 0, β 1 col metodo dei minimi quadrati. 3. Costruire un intervallo di confidenza di livello 99% per β 1 4. Calcolare una misura della bontà di adattamento del modello. 5. Supponiamo di definire il carattere Y = 40 Y. Si consideri il modello Y i = β 0 +β 1 x i +ǫ i, i = 1,...,n. ˆβ 1, la nuova stima di minimi quadrati di β 1 i) rimane uguale a quella calcolata al punto 2: ii) cambia di segno ma il valore assoluto resta lo stesso. iii) cambiano sia il segno che il valore calcolato. La stessa risposta vale anche per ˆβ 0? Soluzione. 1. Il grafico di dispersione è rappresentato in Figura 1. Il grafico suggerisce una piena adeguatezza, confermata dal valore del coefficiente di correlazione lineare. Infatti, si ha: x = 14.89, ȳ = 6.56 (x i = x)(y i ȳ) = 1576.44, (x i = x) 2 = 910.89, i i i da cui: ρ = 1576.44 910.89 3328.22 = 0.905 (y i ȳ) 2 = 3328.22 e, pertanto, si può concludere che esiste una forte correlazione lineare negativa. 2. i ˆβ 1 = (x i x)(y i ȳ) i (x = 1576.44 = 1.73 i x) 2 910.89 ˆβ 0 = ȳ ˆβ 1 x = 6.56+1.73 14.89 = 32.32 1

40 30 20 10 5 10 15 20 25 30 35 40 10 20 30 Figura 1: Diagramma di dispersione per l Esercizio dal tema d esame 13.06.2011. 3. L intervallo di confidenza al livello del 99% per β 1 è dato da ê2 ˆβ 1 ±t 0.005 (7) i/(n 2) i (x i x) 2 ove ê i = y i ŷ i = y i (ˆβ 0 + ˆβ 1 x i ) sono i residui. Nel nostro caso: t 0.005 (7) = 3.50 e ê2 i /(n 2) = 85.70 e quindi IC 99% (β 1 ) : 1.73±3.50 85.70 910.89 : ( 2.80, 0.66). Siccome non contiene lo zero, possiamo rifiutare all 1% l ipotesi nulla di β 1 = 0. 4. La misura è R 2 = ρ 2 = 0.82, che dice che l 82% della variabilità della variabile risposta (dipendente) è spiegata dal modello lineare. Il grafico dei residui della regressione è rappresentato in Figura 2: lo si confronti con l analogo dell esercizio successivo, in Figura 6. 5. Sicuramente cambia di segno (da Y a Y). Siccome i termini (y i ȳ) diventano 2

RESIDUI 10 5 5 10 15 20 25 30 35 5 10 15 Figura 2: Residui per il modello di regressione lineare dell Esercizio dal tema d esame 13.06.2011. (40 y i ) (40 ȳ) = (y i ȳ), la risposta esatta è la ii). Per la nuova intercetta si ha: ˆβ 0 = 40 ȳ ( ˆβ 1 ) x = 40 6.56 1.73 14.89 = 7.68, e cambia di valore ed il fatto che non cambi segno dipende solo dal valore 40 (intendo dire: se Y = 25 Y cambia sia il segno che il valore, mentre la risposta per β 1 resta la medesima). La retta di regressione stimata è mostrata assieme ai dati nella Figura 3. Esercizio dal tema d esame del 16.01.2012. Il diametro massimo di un tronco d albero (Y, misurato in pollici) è influenzato, tra le altre cose, dalla piovosità della regione (, misurata in pollici). I seguenti dati sono relativi ad un campione di 15 eucalipti. Y 16.2 16.4 16.6 16.6 16.9 17 17.6 16.5 16.1 16.1 16.5 16.5 16.7 16.6 17.8 250 115 75 85 100 75 85 225 250 255 175 140 150 170 75 Per facilitare i conti si consideri che: 15 i=1 15 x 2 i = 396825 15 yi 2 = 4173.35 x i y i = 36755.5. i=1 1. Rappresentare la distribuzione dei due caratteri tramite un diagramma di dispersione. 3 i=1

40 30 20 10 5 10 15 20 25 30 35 40 10 20 30 Figura 3: Diagramma di dispersione e retta di regressione stimata per l Esercizio dal tema d esame 13.06.2011. 2. Calcolare il coefficiente di correlazione lineare tra i due caratteri. 3. È noto che 1 pollice = 2.54 cm. La covarianza tra Y e entrambi espressi in cm rimane la stessa? Perchè? Altrimenti è possibile ottenerne il valore senza trasformare i valori di tutte le osservazioni? Come? 4. (aggiunto) Stimare i parametri del modello di regressione lineare Y i = β 0 +β 1 x i + ǫ i, i = 1,...,n e indicare una misura di buon adattamento del modello. 5. Costruire l intervallo di confidenza al livello del 95% per β 1. 6. Discutere il grafico dei residui della regressione. Soluzione. 1. Il diagramma di dispersione è rappresentato in Figura 4. 2. Medie campionarie 1 : x = 148.3333, ȳ = 16.6733. Quindi: 4

18 17.75 17.5 17.25 17 16.75 16.5 16.25 75 100 125 150 175 200 225 250 Figura 4: Diagramma di dispersione per l Esercizio dal tema d esame 16.01.2012. ρ = i (x i x)(y i ȳ) (xi x) 2 i (y i ȳ) 2 = i x iy i n xȳ ( i x2 i n x2 )( i y2 i nȳ2 ) = 36755.5 15 148.3333 16.6733 (396825 15 148.33332 )(4173.35 15 16.6733 2 ) = 342.509 = 0.72 66783.3 3.3493 3. L indice ρ è un indice adimensionale (il cui valore è indipendente dalla scala) e dunque non varia passando da pollici a cm. La covarianza, invece, risulta riscalata del fattore 2.54 2 = 6.4516, come si verifica facilmente sostituendo 2.54x i e 2.54y i nel numeratore della formula di ρ. 4. i ˆβ 1 = (x i x)(y i ȳ) i (x = 342.509 i x) 2 66783.3 = 0.0051, ˆβ 0 = ȳ ˆβ 1 x = 16.6733+0.0051 148.3333 = 17.4298 La retta di regressione stimata è rappresentata assieme ai dati in Figura 5. Nota per la studentessa che mi ha fatto una domanda sul valore 66783.3. Come si può vedere dai passaggi riportati, è il valore che si ottiene applicando la formula 1 Uso più decimali di quanto fatto in aula. I conti, quindi, saranno un po diversi come già anticipato durante l esercitazione. 5

18 17.75 17.5 17.25 17 16.75 16.5 16.25 75 100 125 150 175 200 225 250 Figura 5: Diagramma di dispersione e retta di regressione stimata per l Esercizio dal tema d esame 16.01.2012. i (x i x) 2 = i x2 i n x col valore x = 148.3333. Usando x = 148.3 si ottiene 66931.6 da cui il valore per la varianza campionaria (distorta) s 2 x = 4462.11 indicato in aula. Spero di aver risposto adeguatamente. Una misura di buon adattamento è data da R 2 = ρ 2 = 0.72 2 = 0.52 che indica che solo il 50% circa della varianza totale delle y è spiegata dal modello lineare (Nota. Alezione la percentuale ottenuta era piùalta per via dei conti un po diversi ottenuti usando meno decimali.). 5. L intervallo di confidenza al livello del 95% per β 1 è dato da ê2 ˆβ 1 ±t 0.025 (13) i/(n 2) i (x i x) 2 ove ê i = y i ŷ i = y i (ˆβ 0 + ˆβ 1 x i ) sono i residui. Nel nostro caso: t 0.025 (13) = 2.16 e ê2 i /(n 2) = 0.350 e quindi IC 95% (β 1 ) : 0.0051±2.16 0.350 66783.3 : ( 0.0080, 0.0022). Siccome non contiene lo zero, possiamo rifiutare al 5% l ipotesi nulla di β 1 = 0. 6. Il grafico dei residui è rappresentato in Figura 6 e mostra come questi si dispon- 6

gano con un andamento che appare crescente da sinistra verso destra, facendo così dubitare che siano soddisfatte le ipotesi di errori gaussiani indipendenti con media 0 e medesima varianza σ 2 (incognita). RESIDUI 0.6 0.4 0.2 0.2 75 100 125 150 175 200 225 250 0.4 0.6 Figura 6: Residui per il modello di regressione lineare dell Esercizio dal tema d esame 16.01.2012. 7