R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Documenti analoghi
Esercitazione del

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

STATISTICA A K (60 ore)

Statistica 1 A.A. 2015/2016

Regressione Lineare Semplice e Correlazione

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Regressione lineare semplice

PROBABILITÀ ELEMENTARE

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica multivariata Donata Rodi 17/10/2016

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Statistica. Alfonso Iodice D Enza

Statistica Applicata all edilizia: il modello di regressione

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Presentazione dell edizione italiana

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Statistica. Alfonso Iodice D Enza

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Regressione lineare multipla

lezione 7 AA Paolo Brunori

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica di base per l analisi socio-economica

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

lezione 8 AA Paolo Brunori

ESAME. 9 Gennaio 2017 COMPITO B

Regressione lineare con un solo regressore

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

STATISTICA ESERCITAZIONE 13

Cognome e Nome:... Corso di laurea:...

Dispensa di Statistica

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso di Psicometria Progredito

Test per la correlazione lineare

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Test delle Ipotesi Parte I

Ringraziamenti dell Editore

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Contenuti: Capitolo 14 del libro di testo

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Casa dello Studente. Casa dello Studente

Quanti soggetti devono essere selezionati?

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

Test F per la significatività del modello

05. Errore campionario e numerosità campionaria

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

lezione 9 AA Paolo Brunori

lezione 6 AA Paolo Brunori

lezione 10 AA Paolo Brunori

Cognome e Nome:... Matricola e corso di laurea:...

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

ESERCITAZIONE IV - Soluzioni

Teoria e tecniche dei test. Concetti di base

Esame di Statistica A-Di Prof. M. Romanazzi

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Esercitazione 5 Sta/s/ca Aziendale

Test d ipotesi: confronto fra medie

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Prova d'esame di Statistica I - Corso Prof.ssa S. Terzi

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Distribuzioni campionarie

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Esercitazioni di statistica

Giorno n. clienti di attesa

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Corso di Statistica Industriale

Esercizio 2: voto e ore dedicate allo studio

Introduzione all Analisi della Varianza (ANOVA)

Stima dei parametri di modelli lineari

Esercizi di Probabilità e Statistica

Matricola: Corso: 1. (4 Punti) Stimare la variazione del reddito quando il prezzo del prodotto finale raddoppia.

Analisi della varianza

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Statistica Inferenziale

LEZIONI DI STATISTICA MEDICA

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Settimana 3. G. M. Marchetti. Marzo 2017

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Richiami di statistica

Elementi di statistica per l econometria

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Statistica. Alfonso Iodice D Enza

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Analisi della regressione multipla

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Transcript:

R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017

Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria Pearson Pieraccini Fondamenti di inferenza statistica Giappichelli Un distretto scolastico riduce la dimensione delle classi delle scuole elementari: qual è l effetto sul punteggio dei suoi studenti in un test standardizzato? All interno dell azienda ACME vi è una relazione tra il numero di ore lavorate e il salario percepito? O il numero di ore lavorate è ininfluente a livello di salario?

Il modello di regressione lineare semplice (II) L analisi di regressione è una tecnica statistica che permette di stimare la relazione tra due variabili X e Y. Il modello di regressione lineare postula una relazione lineare tra X e Y. Il termine noto e il coeff. angolare della retta che mette in relazione X e Y sono una caratteristica ignota della distribuzione congiunta di X e Y : l analisi di regressione permette di stimare tali parametri a partire da un campione (stima puntuale di parametri, intervalli di confidenza, test di ipotesi...)

Dati campionari: Punteggio nel test 620 660 700 14 16 18 20 22 24 26 Rapporto studenti/insegnanti Salario 15 20 25 30 30 32 34 36 38 40 42 Ore di lavoro

Il modello di regressione lineare semplice (III) Assunzioni del modello (caso classico): i dati osservati sono n coppie (x i, y i ); consideriamo i valori della variabile X come assegnati (anche se scelti casualmente). I valori y 1,..., y n sono valori osservati delle variabili Y 1,..., Y n con Y i N(α + βx i, σ 2 ) e Y i tra loro indipendenti. Per ogni i, Y i = α + βx i + U i, con U i v.c. i.i.d. N(0, σ 2 ). X si dice variabile indipendente, o regressore (regressor) Y si dice variabile dipendente α + βx è la retta di regressione della popolazione (regression line) α si chiama intercetta (intercept) β si chiama pendenza (slope) u i = y i α βx i si chiama errore (error)

Il modello di regressione lineare semplice (IV) Dal punto di vista strettamente geometrico: vogliamo costruire una retta y = α + βx che meglio approssima la nuvola di punti. Come possibile criterio scegliamo i parametri ˆα e ˆβ che minimizzano la somma dei quadrati degli scarti tra i valori osservati e i valori predetti. f (a, b) := n (y i a bx i ) 2 i=1 (ˆα, ˆβ) minimizza la funzione f.

In rosso la retta di regressione stimata. Il punto blu ha coordinate (x, Y ) (calcolate sul campione). Punteggio nel test 620 640 660 680 700 14 16 18 20 22 24 26 Rapporto studenti/insegnanti

In rosso la retta di regressione stimata. Il punto blu ha coordinate (x, Y ) (calcolate sul campione). Salario 15 20 25 30 30 32 34 36 38 40 42 Ore di lavoro

Il modello di regressione lineare semplice (V) Date le assunzioni del modello di regressione lineare, le stime di α e β basate sul metodo dei minimi quadrati coincidono con le stime di massima verosimiglianza per α e β. n Stimatore per β: ˆβ = i=1 (x i x)(y i Y ) n. ( i=1 ) (x i x) 2 Quindi ˆβ N σ β, 2 n i=1 (x i x) 2 Dato che conosciamo la distribuzione di ˆβ possiamo fare inferenza su β. Sia Ûi = Y i ˆα ˆβx i. Sia S 2 = 1 n 2 Û 2 i (stimatore corretto di σ). Sia D x = n i=1 (x i x) 2. L inferenza su β è basata sul fatto che ˆβ β S/ T, con T t di Student con n 2 gradi di libertà D x

Il modello di regressione lineare semplice (VI) Calcolando ˆβ sul campione y 1,..., y n otteniamo una stima puntuale di β. Sia γ = 1 α, con 0 < α < 1. Gli stimatori degli estremi dell intervallo di confidenza per β al 100γ percento sono: ˆβ S/ D x t α ; ˆβ + S/ D 2 x t α. 2 L ipotesi nulla H 0 : β = β 0 viene rifiutata, rispetto all ipotesi H 1 : β β 0, ad un livello di significatività α, se il valore τ della statistica τ = ˆβ β 0 S/ D x calcolata sul campione è maggiore di t α 2 P( τ > τ ) < α. (se positivo) o minore di t α 2 (se negativo). Ovvero se

Statistica τ sotto l ipotesi H 0 punto grigio: t α 2 punto rosso: τ. In R: il modello lineare si genera con lm; le informazioni si estraggono con summary fitted resid

Esercizio 1 Aprire il dataset test.csv, che contiene - per un certo numero di distretti scolastici - il valore del rapporto studenti/insegnanti (stins) e il corrispondente valore del punteggio medio ottenuto dagli studenti in un test standardizzato (punteggio). 1. Calcolare i coefficienti α e β della retta di regressione di punteggio su stins. 2. Porre i dati campionari in un grafico di dispersione e aggiungere al grafico la retta di regressione. 3. Aggiungere al grafico i valori interpolati e i segmenti per rappresentare i residui dell interpolazione. 4. Calcolare l intervallo di confidenza al 97.5% per β. 5. Dire se l ipotesi H 0 : β = 0 si può rifiutare ad un livello di significatività dello 0.1%.

Il modello di regressione lineare semplice (VII) Una volta stabilito se vi è una relazione statisticamente significativa tra le variabili X e Y (con il test su β) è opportuno verificare la bontà dell adattamento della retta ai punti osservati, chiedendosi quanta parte della variabilità di Y è dovuta alla componente sistematica (riassunta dalla retta) e quanta parte è invece dovuta alla componente accidentale. In qualche modo ci chiediamo quanto il modello di regressione lineare può spiegare circa la relazione tra X e Y.

Il modello di regressione lineare semplice (VIII) La devianza campionaria delle Y i si decompone nella devianza dei valori interpolati e nella devianza della componente accidentale: n (y i y) 2 = i=1 n (ŷ i y) 2 + i=1 n ûi 2. i=1 Si porrà: r 2 := n i=1 (ŷ i y) 2 n i=1 (y i y) 2. Esercizio 2 In relazione all Esercizio 1, calcolare l r 2 della regressione di punteggio su stins.

Il modello di regressione lineare semplice (IX) Alcune informazioni sulla validità dell assunto della dipendenza lineare di Y da X si possono ottenere con un grafico dei residui dell interpolazione (i.e., y i ŷ i ). Se i residui si dispongono intorno all asse delle ascisse senza mostrare andamenti particolari allora la relazione tra X e Y può essere ben rappresentata da una forma lineare. Se invece i residui mostrano un andamento curvilineo allora si può essere in presenza di un effetto non lineare tra X e Y.

Residui della regressione 40 20 0 20 40 14 16 18 20 22 24 26 Rapporto studenti/insegnanti

Esercizio 3 È stato estratto un campione di 17 lavoratori dell azienda ACME. Per ognuno di essi sono riportate le ore lavorate (medie settimanali) e il corrispondente salario percepito (netto annuale, in migliaia di euro). Ore: 29, 31, 33, 33, 35, 34, 34, 36, 37, 39, 39, 39, 40, 41, 40, 42, 42 Salario: 13, 13.75, 14.1, 14.98, 15, 15.1, 15.1, 16.2, 17, 21, 21.5, 21.5, 23.3, 24, 24.35, 31.2, 32 Verificare che l ipotesi di indipendenza lineare tra numero di ore lavorate e salario percepito si può rifiutare ad un livello di significatività dell 1%. Generare un grafico dei residui dell interpolazione e commentarlo.