Esame Prototipo Statistica A-Di. Prof. M. Romanazzi

Documenti analoghi
Esame di Statistica A-Di Prof. M. Romanazzi

Esame di Statistica A-Di Prof. M. Romanazzi

Esame di Statistica A-Di Prof. M. Romanazzi

ZIBALDONE DEL CORSO DI STATISTICA A Di

Prova Pratica di Statistica I+II - Prof. M. Romanazzi

Esame di Statistica A-Di Prof. M. Romanazzi

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.

Presentazione dell edizione italiana

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Esercizi di statistica

Capitolo 12 La regressione lineare semplice

Esercitazione del

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Facoltà di Ingegneria Calcolo delle Probabilità e Statistica Ingegneria Civile e A&T e Informatica

1.1 Obiettivi della statistica Struttura del testo 2

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

I appello di calcolo delle probabilità e statistica

Prova di recupero di Probabilità e Statistica - A * 21/04/2006

Dispensa di Statistica

Corso di Laurea in Ingegneria Informatica Anno Accademico 2017/2018 Probabilità e Statistica - Prova pratica

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

0.1 Percorrenza e Cilindrata

Calcolo delle Probabilità e Statistica Matematica: definizioni prima parte. Cap.1: Probabilità

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

CP210 Introduzione alla Probabilità: Esame 2

Scritto del

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Probabilità e Statistica per l Informatica Esercitazione 4

PROVA SCRITTA DI STATISTICA. CLEA/CLEFIN/CLEMIT (cod. 5047/4038/371/377) 3 Novembre 2004 MOD. A

lezione 4 AA Paolo Brunori

1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2

MATEMATICA E STATISTICA CORSO A III COMPITINO 20 Marzo 2009

Probabilità e Statistica

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Soluzioni ottava esercitazione

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

SCHEDA DIDATTICA N 7

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Due variabili aleatorie X ed Y si dicono indipendenti se comunque dati due numeri reali a e b si ha. P {X = a, Y = b} = P {X = a}p {Y = b}

Statistica Inferenziale

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

, B con probabilità 1 4 e C con probabilità 1 4.

Statistica Applicata all edilizia: il modello di regressione

Cognome e Nome:... Corso di laurea:...

Probabilità e Statistica

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17

Ulteriori Conoscenze di Informatica e Statistica

ESAME. 9 Gennaio 2017 COMPITO A

MODELLO LINEARE: ESEMPI ED APPLICAZIONI

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

X Vincita (in euro) Tabella 1: Vincite

PROBABILITÀ ELEMENTARE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Contenuti: Capitolo 14 del libro di testo

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 Appello B - 5 Febbraio 2015

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Regressione lineare semplice

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Probabilità e Statistica

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

ESAME. 9 Gennaio 2017 COMPITO B

Analisi di Regressione Multipla

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

CP210 Introduzione alla Probabilità: Esonero 2

con distribuzione gaussiana standard e si ponga

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Probabilità e Statistica

Matematica e Statistica per Scienze Ambientali

LABORATORIO DI PROBABILITA E STATISTICA

UNIVERSITA` di ROMA TOR VERGATA

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Regressione lineare. Lucio Demeio Dipartimento di Ingegneria Industriale e Scienze Matematiche Università Politecnica delle Marche.

Matematica Lezione 22

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

ESERCITAZIONE N. 5 corso di statistica

Regressione. Monica Marabelli. 15 Gennaio 2016

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

ARGOMENTI TRATTATI NEL CORSO DI ANALISI II

Ulteriori Conoscenze di Informatica e Statistica

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

PROBABILITÀ SCHEDA N. 7 LA VARIABILE ALEATORIA NORMALE

Tecniche di sondaggio

Corso di Statistica - Prof. Fabio Zucca V Appello - 19 febbraio 2015

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.

PROGRAMMA DI STATISTICA BITETTO-BOGLI aa. 2018/2019 CON DETTAGLIO ARGOMENTI DA STUDIARE E LEGGERE * SUI LIBRI ADOTTATI

Transcript:

1 Università di Venezia Esame Prototipo Statistica A-Di Prof. M. Romanazzi Cognome e Nome..................................... N. Matricola.......... Valutazione Il punteggio massimo teorico di questa prova è 30/30 e lode (4/30 per ciascuno degli 8 esercizi). La prova è sufficiente se il punteggio è maggiore o uguale a 18/30. L esame è individuale. Non è consentito consultare libri o appunti di qualsiasi genere. E ammesso l uso di calcolatrici portatili e del personal computer.

2 1. Si stima che il 20% degli studenti che si presentano all esame di Matematica non siano preparati. La probabilità che uno studente superi l esame, se è preparato, è pari a 0.85. La probabilità che uno studente superi l esame, se non è preparato, è pari a 0.30. Domanda 1 Qual è la probabilità che uno studente, scelto a caso, superi comunque l esame, qualunque sia il suo livello di preparazione? Soluzione. Indico con N P l evento che uno studente casualmente scelto sia non preparato e con NP C il suo complementare. Indico inoltre con S ed S C l evento che lo studente superi l esame di Matematica ed il suo complementare. Infine, siano S NP e S NP C gli eventi subordinati relativi al superamento dell esame, sotto la condizione che lo studente sia non preparato e preparato, rispettivamente. In base ai dati del problema, P (NP ) = 0.2, P (NP C ) = 1 P (NP ) = 0.8, P (S NP ) = 0.3, P (S NP C ) = 0.85. Usando la formula della probabilità totale, P (S) = P (S NP ) + P (S NP C ) = P (S NP )P (NP ) + P (S NP C )P (NP C ) = 0.3 0.2 + 0.85 0.8 = 0.74. Domanda 2 Qual è la probabilità che uno studente non sia preparato, se è noto che ha superato l esame? Soluzione. Usando la stessa notazione del quesito precedente, si deve calcolare P (NP S), cioè la probabilità che uno studente sia preparato, sapendo che ha passato l esame. Notare il rovesciamento di ruolo di evento subordinante, evento subordinato rispetto a S N P. La soluzione è fornita dal teorema di Bayes. P (NP S) = P (S NP ) P (S) = P (S NP )P (NP ) P (S NP )P (NP ) + P (S NP C )P (NP C ) = 0.06/0.74 = 0.081. Notare che, se è noto che lo studente ha superato l esame, la probabilità subordinata che sia impreparato subisce una forte diminuzione rispetto alla probabilità non subordinata P (N P ).

3 2. Una variabile aleatoria X, di tipo continuo, ha funzione di densità 0, x 0, 3 f X (x) = 8 x2, 0 < x < 2, 0, x 2. Domanda 1 Calcola la probabilità che risulti X 1. Soluzione. Sappiamo che, per le distribuzioni continue (si pensi alla gaussiana, per citare un caso notevole) la probabilità di uno specificato intervallo di numeri reali è l area sottesa alla curva di densità in quell intervallo. Tale area è spesso ottenibile come integrale definito della funzione di densità nell intervallo in questione 1. La nostra funzione di densità è una semplice funzione quadratica della variabile x e l integrale si calcola facilmente. P (X 1) = 1 0 3 8 x2 dx = 3 8 [x3 /3] 1 0 = 1/8. E evidente che la distribuzione di probabilità è concentrata nella metà destra dell intervallo [0, 2]. Domanda 2 Calcola il valore atteso di X. Soluzione. Per le distribuzioni continue il valore atteso è l integrale E(X) = xf X (x)dx (purchè esso esista e sia un numero finito). Nel nostro esempio E(X) = 2 0 x 3 8 x2 dx = 3 8 [x4 /4] 2 0 = 3/2. Il valore atteso andrebbe confrontato con la mediana x 0.5 della distribuzione. Verifica che in questo caso E(X) < x 0.5 (perchè?) e x 0.5 = 3 4 1.587. 1 Ma, ad esempio, la densità gaussiana non ammette una primitiva, e l integrale va risolto con metodi numerici approssimati.

4 3. Il signor Rossi e il signor Bianchi stanno svolgendo separatamente delle operazioni presso due sportelli bancomat. I tempi richiesti (minuti), indicati con X R e X B, rispettivamente, sono due variabili aleatorie esponenziali, indipendenti, con uguale parametro λ = 1/5. Domanda 1 Considera gli eventi A : X R 3, B : X B > 3. Qual è la probabilità di A B? Soluzione. La distribuzione esponenziale 2 è frequentemente usata come modello stocastico per le durate e i tempi d attesa. E una variabile casuale continua, con densità positiva nell insieme dei numeri reali positivi. La funzione di densità è monotona decrescente e dipende da un parametro positivo, solitamente indicato con λ. Al crescere di λ la densità decade più velocemente. Valore atteso e deviazione standard sono entrambi uguali a 1/λ. Funzione di densità e di ripartizione sono riportate di seguito. f X (x) = λ exp( λx), x > 0, F X (x) = 1 exp( λx), x > 0. Se X R e X B sono stocasticamente indipendenti, lo sono anche gli eventi A e B perchè A dipende solo da X R e B dipende solo da X B. Usando il teorema di fattorizzazione P (A B) = P (A)P (B) = P (X R 3)P (X B > 3) = F X (3)(1 F X (3)) = (1 exp( 3/5))(exp( 3/5)) = 0.2476174 Domanda 2 Considera la variabile aleatoria Z = X R + X B che misura la durata complessiva delle due operazioni. Si afferma che la probabilità che Z sia maggiore di 15 minuti è maggiore di 3/4. Commenta tale affermazione, valutando con gli strumenti appropriati se va confermata o smentita. Soluzione. Il risultato si ottiene usando la disuguaglianza di Markov 3, valida per variabili aleatorie non negative, come Z. In generale, se X è una variabile aleatoria non negativa, cioè P (X 0) = 1, se il valore atteso µ = E(X) è un numero finito e c è una costante positiva arbitraria, allora 2 Non trattata a. a. 2012/13. 3 Non trattata a. a. 2012/13. P (X c) E(X) c.

5 (notare che la disuguaglianza fornisce risultati utile solo per c > E(X)). Nel caso in esame, sostituendo E(Z) = 10, c = 15, si ottiene L affermazione è smentita. P (Z > 15) E(Z) 15 = 10 15 = 2/3. 4. Un campione di n = 2 unità, X 1 e X 2, è estratto a caso dalla distribuzione normale standard X N(0, 1). Si considerano le seguenti trasformazioni: Y = 2X, Z = X 1 + X 2, W = (X 1 + X 2 )/2. La Figura 1 mostra le curve di densità delle quattro variabili aleatorie X, Y, Z, W in ordine casuale. Density 0.0 0.1 0.2 0.3 0.4 0.5 A B C D 4 2 0 2 4 x Figura 1: Curve di densità delle variabili aleatorie X, Y, Z e W. Domanda 1 Calcola valore atteso e deviazione standard di Z. Soluzione. X 1 e X 2 sono stocasticamente indipendenti e hanno la stessa distribuzione normale standardizzata (IID). Usando i teoremi su valore atteso e varianza di somme di variabili aleatorie IID, si ottiene E(Z) = E(X 1 + X 2 ) = E(X 1 ) + E(X 2 ) = E(X) + E(X) = 0, V ar(z) = V ar(x 1 + X 2 ) = V ar(x 1 ) + V ar(x 2 ) = V ar(x) + V ar(x) = 2, SD(Z) = V ar(z) = 2.

6 Domanda 2 Associa Y, Z, W alla corrispondente curva di densità scegliendo una delle etichette A, B, C, D. Soluzione. Le ipotesi su X, X 1 e X 2 comportano che Y, Z e W hanno una distribuzione normale (perchè?) con valore atteso pari a zero, come viene suggerito dalla figura. Le tre distribuzioni differiscono per la dispersione. Per identificarle è sufficiente calcolare le deviazioni standard o, equivalentemente, le varianze. V ar(y ) = V ar(2x) = 4V ar(x) = 4, V ar(z) = 2, V ar(w ) = V ar(z/2) = V ar(z)/4 = 1/2. Conclusione. La curva B, meno dispersa, corrisponde a W (varianza più bassa). Le curve A e D corrispondono a X e Z, rispettivamente. Infine, la curva C, più dispersa, corrisponde a Y (varianza più alta). 5. Dall urna contenente 10 palline bianche e 10 nere, preleviamo a caso, con reinserimento, n palline e indichiamo con X n la frequenza relativa delle palline bianche osservate. Considera l evento A n : X n < 0.49 X n > 0.51. Domanda 1 Qual è la probabilità di A n, per n = 100? Soluzione. Dato il tipo di esperimento, X n = T n /n, con T n Bi(n; p = 1/2). Inoltre, P (A n ) = 1 P (A C n ), con A C n : 0.49 X n 0.51. Posto n = 100, cioè 0.49 X 100 0.51 49 T 100 51, P (A C 100) = P (T 100 = 49) + P (T 100 = 50) + P (T 100 = 51) ( ) ( ) ( ) 100 100 100 = (1/2) 100 ( + + ) 49 50 51 = 0.2356466. Il codice R per ottenere il risultato è riportato di seguito. > sum(dbinom(49:51,100,0.5)) [1] 0.2356466 Il risultato richiesto è P (A 100 ) = 1 P (A C 100) = 0.7643534. Una soluzione alternativa si ottiene mediante l approssimazione normale della funzione di ripartizione binomiale, una delle tante applicazioni del teorema centrale di convergenza. Abbiamo P (A C 100) = F T100 (51) F T100 (48) e E(T 100 ) = 50, SD(T 100 ) = 5. Pertanto, se Z N(0, 1),

7 F T100 (51) F T100 (48) F Z (0.3) F Z ( 0.3) = 2F Z (0.3) 1 = 0.2358228. Come si vede, il risultato è accurato fino alla terza cifra decimale. Domanda 2 Quanto vale lim n P (A n )? Giustifica dettagliatamente. Soluzione. Sotto le ipotesi del modello standard, la frequenza relativa campionaria X n,a obbedisce al teorema di Bernoulli, caso particolare della legge dei grandi numeri. Per ogni fissato ɛ > 0, lim P ( X n,a p A < ɛ) = 1. n Nel caso in esame A è l evento pallina bianca e p A = E(X n,a ) = 1/2. L evento A n è il complementare dell evento considerato nel teorema di Bernoulli, pertanto la sua probabilità converge a zero, quando n. 6. Il ramo-foglia riporta i dati standardizzati X ST delle stature di un campione di 100 giocatori di football delle scuole superiori americane. Sono anche riportati la somma e la somma dei quadrati dei valori originari, non standardizzati, delle stature (cm). -2 n = 100-1 888844444444444 1 4 si legge 1.4-0 999999999999999555555555500000000000000000 n i=1 x i = 18818.8 0 4444444444444488888888888888 n i=1 x2 i = 3544830.6 1 333333377777 2 111 Domanda 1 Qual è il quantile d ordine p = 0.8? Soluzione. x 0.8 = (x (80) + x (81) )/2 = 0.8. Domanda 2 Qual è la statura originaria (cm) di un giocatore il cui dato standardizzato è 1.5? Soluzione. Indichiamo con x n e s, rispettivamente, media e deviazione standard delle stature sulla scala originaria (cm.) e sia x 0 il dato richiesto. Per definizione di scala standard, 1.5 = (x 0 x n )/s, da cui segue x 0 = x n + s( 1.5). Dalle statistiche di sintesi otteniamo i=1 x n = x i = 18818.8 = 188.188 cm., 100 n s 2 i=1 = x2 i n(x n ) 2 3544830.6 100(188.188)2 = 33.922 cm. 2, n 1 99 s = 33.922 5.82 cm., quindi x 0 179.46 (cm.).

8 7. Considera di nuovo i dati dell Es. 6 e indica con µ il valore della statura media nella popolazione di riferimento. Domanda 1 Considera il test H 0 : µ = 190 contro l alternativa H 1 : µ 190. Qual è il valore della statistica test? Qual è il corrispondente livello di significatività osservato p? Soluzione. Notiamo intanto che la distribuzione empirica delle stature suggerisce la normalità. Il 70% dei dati appartiene all intervallo ( 1, 1) contro il 68% atteso, il 95% appartiene all intervallo ( 2, 2) contro il 97% atteso e nessun dato è esterno all intervallo ( 3, 3). La statistica test ST è la media campionaria standardizzata (rispetto alla media ipotizzata da H 0 ) (X n µ 0 )/(S/ n) (X n µ 0 )/ŜE(X n). Se è vera H 0, essa si distribuisce come una t di Student con n 1 = 99 gradi di libertà. Dato che i gradi di libertà superano 20 30, la t è approssimabile alla normale standard. Il valore osservato della statistica test è x n µ 0 (s/ n) = 188.188 190 0.582 = 3.113, un valore esterno all intervallo ( 3, 3), il che suggerisce una forte discrepanza rispetto ad H 0. Importante notare che l errore osservato 188.188 190 = 1.812 cm. va confrontato con l errore standard 0.582 cm., che misura l errore atteso della media campionaria rispetto alla media della popolazione per campioni di numerosità 100. Il livello di significatività osservato, o valore p, è la probabilità di ottenere un valore della statistica test almeno altrettanto estremo, rispetto ad H 0, di quello osservato. Nel caso in esame il test è bilaterale, cioè i valori alternativi di µ possono essere sia inferiori che superiori a µ 0 = 190. Pertanto il valore p è la probabilità di osservare valori di ST inferiori (o uguali) a 3.113 o superiori (o uguali) a 3.113, valore p = P (t 99 3.113) + P (t 99 3.113) = 2P (t 99 3.113) = 0.002421337. L approssimazione gaussiana fornisce valore p 2P (Z 3.113) = 0.00185196, non lontano dal risultato esatto. Domanda 2 Commenta il risultato ottenuto, con particolare riferimento al rigetto, o altro, di H 0. Il valore p è inferiore a 0.5%, un valore bassissimo rispetto agli standard statistici (5% o 1%), pertanto l ipotesi H 0 è rigettata. Inoltre l evidenza empirica suggerisce che la statura media della popolazione sia inferiore a 190. Infatti l intervallo di confidenza per l ignota media µ di livello 99% è (186.7 189.7). 8. Il diagramma di dispersione in Figura 2 mostra la distribuzione congiunta dei punti per le reti fatte (X) e dei punti per le reti subite (Y ) delle n = 32 squadre di football

9 NFL Team Totals 2009 Points Against 200 250 300 350 400 450 500 200 250 300 350 400 450 500 Points in Favour Figura 2: Diagramma di dispersione dei punti per le reti fatte (X) e subite (Y ). della National Football League (NFL) americana (stagione 2009). La Tabella 1 riporta le statistiche di sintesi. Domanda 1 Calcola medie, deviazioni standard e coefficiente di correlazione lineare e riporta i valori nella Tabella 1. Soluzione. Vedi i valori riportati nella seconda riga della Tabella 1. Per quanto riguarda covarianza e correlazione, s X,Y = r X,Y = s X,Y s X s Y = i=1 x iy i nx n y n n 1 = 3707964 32(343.46875)(343.46875) 31 2164.549 (80.610)(58.373) 0.460. 2164.549, Domanda 2 Considera il modello di regressione lineare Y = α + βx + ɛ. Ricava l intervallo di confidenza per β. Soluzione. Ricaviamo prima le stime puntuali dei parametri del modello,

10 n i=1 x i i=1 y i i=1 x2 i i=1 y2 i i=1 x iy i 32 10991 10991 3976501 3880695 3707964 x y s X s Y s X,Y r X,Y 343.469 343.469 80.610 58.373 2164.549 0.460 Tabella 1: Punti per reti fatte (X) e subite (Y ). Statistiche riassuntive. α, β, σ ɛ. ˆα n = y n ˆβ n x n = 343.469 ( 0.333111)(343.469) 458.177, ˆβ n = s X,Y = 2164.549 0.333111, s 2 X (80.610) 2 n s 2 i=1 ɛ = (y i ŷ i ) 2 = (n 1)s2 Y (1 R2 ) 2775.955, n 2 n 2 s ɛ = 52.687. Degna di nota l espressione (n 1)s 2 Y (1 R2 ) i=1 (y i ŷ i ) 2. Essa evita di calcolare i residui della retta MQ stimata. L equazione della retta MQ stimata è dunque ŷ = 458.177 0.333111x (vedi Figura 3). Essa mostra che, in media, al crescere dei punti per le reti fatte, i punti per le reti subite diminuiscono, in ragione di 0.333111 punti per le reti subite (in meno) per ogni punto per le reti fatte (in più). Il modello è ragionevole, ma va controllato sul piano della significatività statistica. Il primo passo è la stima dell errore standard di ˆβ n ŜE( ˆβ n ) = s ɛ = 52.687 0.117391. (n 1)s 2 X 201436 Il secondo passo è l intervallo di confidenza per β di livello 95% (o il test dell ipotesi H 0 : β = 0). Qui è essenziale l ipotesi di normalità del termine d errore ɛ. ˆβ n ± t 30;0.975 ŜE( ˆβ n ) = 0.333111 ± 2.042272(0.117391) ( 0.573, 0.0934). L intervallo non include il valore zero, il che conferma l importanza della variabile esplicativa (risultato confermato anche al livello 99%). Il controllo di normalità del termine d errore 4 si basa sull analisi dei residui stimati e i = y i ŷ i = y i (ˆα n + ˆβ n x i ), i = 1,..., n. Due sono gli strumenti di routine: a) il diagramma ramo-foglia dei residui standardizzati per controllarne la normalità, b) i diagrammi di dispersione (x i, e i,st ) e (ŷ i, e i,st ) per controllare omoschedasticità e indipendenza stocastica. Riportiamo il codice R per calcolare quanto necessario e produrre i grafici. 4 Parte inserita a scopo didattico, ma non richiesta in questo esame.

11 NFL Team Totals 2009 Points Against 200 250 300 350 400 450 500 * 200 250 300 350 400 450 500 Points in Favour Figura 3: Diagramma di dispersione dei punti per le reti fatte (X) e subite (Y ) con centroide (*) e retta MQ stimata. > # pf: vettore dei punti per le reti fatte > pf <- c(427, 348, 360, 258, 361, 429, 402, 266, 305, 391, 368, + 245, 470, 461, 327, 262, 416, 388, 354, 290, 510, 363, 315, + 244, 454, 326, 197, 294, 375, 330, 280, 175) > # > # pa: vettore dei punti per le reti subite > pa <- c( 285, 236, 390, 326, 250, 337, 427, 336, 291, 261, 324, + 375, 312, 297, 375, 494, 307, 333, 402, 380, 341, 325, 308, + 400, 320, 324, 379, 424, 325, 281, 390, 436) > # > # numerosità campionaria > n <- length(pf) > # > # la funzione R lm stima il modello lineare, usando il metodo MQ > # (inclusi residui stimati (residuals) e valori teorici (fitted.values)) > rmq <- lm(pa ~ pf) > #

12 > # la funzione R summary visualizza i risultati principali > summary(rmq) Call: lm(formula = pa ~ pf) Residuals: Min 1Q Median 3Q Max -105.959-31.301-4.294 25.553 123.393 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 457.8828 41.3819 11.065 4.12e-12 *** pf -0.3331 0.1174-2.838 0.00807 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 52.69 on 30 degrees of freedom Multiple R-squared: 0.2116, Adjusted R-squared: 0.1853 F-statistic: 8.052 on 1 and 30 DF, p-value: 0.008073 > # > # ramo-foglia residui standardizzati > # (per controllo normalità con regola empirica) > stem(scale(rmq$residuals), scale=0.5) The decimal point is at the -2 0-1 7333-0 996653222210 0 123445557 1 0022 2 04 > # > # diagrammi di dispersione (residui, var. esplicativa), > # (residui, valori teorici) > layout(matrix(1:2,nr=1,nc=2)) > plot(pf,scale(rmq$residuals),xlab="points in Favour", + ylab="standardized Residuals",main="Analysis of Residuals 1") > abline(h=0,lty="dashed",lwd=2) > plot(rmq$fitted.values,scale(rmq$residuals),xlab="fitted Values", + ylab="standardized Residuals",main="Analysis of Residuals 2")

13 > abline(h=0,lty="dashed",lwd=2) > layout(matrix(1)) I risultati sono confortanti (per quanto può essere una verifica grafica) e non sembrano mettere in discussione le ipotesi del modello lineare (vedi ramo-foglia e Figura 4). Analysis of Residuals 1 Analysis of Residuals 2 Standardized Residuals 2 1 0 1 2 Standardized Residuals 2 1 0 1 2 200 300 400 500 300 340 380 Points in Favour Fitted Values Figura 4: Analisi dei residui. Diagramma di dispersione dei residui standardizzati rispetto alla variabile esplicativa (a sinistra) e rispetto alle previsioni della variabile risposta.