Statistica per le ricerche di mercato. 11. La regressione lineare multipla

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Statistica per le ricerche di mercato. 11. La regressione lineare multipla"

Transcript

1 Statistica per le ricerche di mercato A.A. 2012/13 Dr. L.Secondi 11. La regressione lineare multipla 1

2 Modello di regressione lineare multipla Il modello di regressione multipla estende il modello di regressione con una singola variabile includendo variabili addizionali come regressori. Questo modello permette di stimare l effetto su Y della variazione in una variabile (X 1i ) tenendo costanti gli altri regressori (X 2i, X 3i,,X ki ) Consideriamo il caso di due regressori: Y i = β 0 + β 1 X 1i + β 2 X 2i + u i, i = 1,,n Modello di regressione della popolazione X 1, X 2 sono due variabili indipendenti (regressori) (Y i, X 1i, X 2i ) denotano la i-esima osservazione su Y, X 1, e X 2. β 0 = intercetta (valore atteso di Y quando X 1 e X 2 sono nulli) β 1 = effetto su Y di una variazione unitaria in X 1, tenendo costante X 2 β 2 = effetto su Y di una variazione unitaria in X 2, tenendo costante X 1 u i = termine di errore (fattori omessi) 2

3 Modello di regressione lineare multipla Una variabile risposta Y k variabili esplicative X 1, X 2,, X k Si studia una relazione statistica del tipo: Y = β + β X + β X... β X + u i = 1,..., n i 0 1 1i 2 2 i k ki i Componente deterministica E( Y X, X,..., X ) 1 2 k Componente casuale retta di regressione nella popolazione In generale il coefficiente β j, indica l effetto su Y di una variazione unitaria in X j, tenendo costante tutti gli altri regressori 3

4 Stime dei coefficienti Come nella regressione lineare semplice, le stime dei coefficienti β0, β1, β2,, βk (o equivalentemente del vettore dei coefficienti β) si ottengono con il metodo dei minimi quadrati OLS, minimizzando cioè la somma dei quadrati dei residui: n i = 1 2 ( Y b b X b X... b X ) i 0 1 1i 2 2i k ki da cui è possibile ottenere la soluzione dei minimi quadrati derivando rispetto ai β0, β1, β2,..., βk e ponendo a zero il risultato 4

5 E possibile riscrivere l equazione stimata (eq. dei minimi quadrati) come: Ŷ = ˆ β ˆ X ˆ X + ˆ 0 + β1 1 + β βkxk Le espressioni delle stime dei coefficienti richiedono di conoscere l algebra delle matrici (sono calcolate dai principali software, statistici e econometrici) Stima puntuale della risposta media Per una data combinazione di valori delle variabili esplicative, ad esempio, x 1i,x 2i, x ki la stima del valore atteso della variabile dipendente (risposta media) è data da ŷ i = ˆ β + ˆ β x + ˆ β x i 2 2i ˆ β x k ki 5

6 caso di due regressori Y i = β 0 + β 1 X 1i + β 2 X 2i Y piano di regressione X 1 Y i Y i valori osservati valori teorici X 2 6

7 Le assunzioni dei minimi quadrati per la regressione multipla Y i = β 0 + β 1 X 1i + β 2 X 2i + + β k X ki + u i, i = 1,,n 1) La distribuzione di u condizionata alle X ha media nulla, cioè: 2) (X 1i,X 2i,,X ki ), i=1,,n sono i.i.d. ( i 1i 1 ki k) EuX = x,...,x = x = 0 3) Gli outlier (osservazioni con valori molto lontani dal normale campo di variabilità dei dati) sono improbabili. 4) Assenza di collinearità perfetta

8 Assunzione 1: la media condizionata di u date le X incluse è zero. ( ) EuX = x,...,x = x = 0 i 1i 1 ki k Ha la stessa interpretazione del caso della regressione con un singolo regressore. La non validità di questa condizione porta a distorsione da variabili omesse; nello specifico, se una variabile omessa: 1. appartiene all equazione (cioè è in u) e 2. è correlata con una X inclusa allora questa condizione non vale e vi è distorsione da variabili omesse. La soluzione migliore, se possibile, è quella di includere la variabile omessa nella regressione. Una seconda soluzione, correlata alla precedente, è quella di includere una variabile che controlli per la variabile omessa.

9 Assunzione 2: (X 1i,,X ki,y i ), i =1,,n, sono i.i.d. È soddisfatta automaticamente se i dati sono raccolti mediante campionamento casuale semplice. Assunzione 3: gli outlier sono rari (momenti quarti finiti) È la stessa assunzione descritta per il caso di un regressore singolo. Come in quel caso, l OLS può essere sensibile agli outlier, perciò occorre controllare i dati ( scatterplot, diagrammi a nuvola) per assicurarsi che non vi siano valori impazziti (refusi o errori di codifica). Assunzione 4: Assenza di collinearità perfetta La collinearità perfetta si ha quando uno dei regressori è funzione lineare esatta (combinazione lineare) degli altri.

10 La distribuzione degli stimatori OLS nella regressione multipla Sotto le quattro assunzioni dei minimi quadrati: La distribuzione campionaria di b1 ha media β1 var(b1) è inversamente proporzionale a n. Al di là di media e varianza, la distribuzione esatta (n-finita) di b1 è molto complessa; ma per grandi campioni: b1 E( b1) Var ( b ) 1 è approssimata da una distribuzione N(0,1) (per il Teorema del Limite Centrale) p b 1 è consistente: b β (legge dei grandi numeri) 1 1 Queste proprietà valgono per b 1,, b k

11 Le assunzioni del modello 1) Le componenti di errore hanno media nulla e varianza costante E(ε i )=0 e Var(ε i )=σ 2 2) ( X1 i, X2i,..., Xki; Yi) siano variabili casuali indipendenti e identicamente distribuite. Vale automaticamente se i dati sono raccolti tramite un campionamento casuale semplice. 3) Outlier estremi sono improbabili 4) Assenza di multicollinearità perfetta. Le variabili esplicative X 1, X 2,, X k sono osservate senza errore e sono incorrelate tra di loro (si dice che i regressori sono perfettamente lineari se uno dei regressori è una funzione lineare esatta degli altri) 5) Le componenti di errore sono indipendenti tra di loro e distribuite normalmente 11 11

12 La distribuzione degli stimatori OLS Sotto le assunzioni dei minimi quadrati e quelle di omoschedasticità e normalità degli errori gli stimatori OLS sono stimatori non distorti e consistenti di β0, β1, β2,..., βk nel modello di regressione lineare multipla. Per grandi campioni, la distribuzione campionaria congiunta di b0, b1, b2,..., bk è ben approssimata da una distribuzione normale multivariata. Ogni b j si distribuisce secondo una normale ( 2, ) j σ b j N β Lo stimatore OLS del j-esimo coefficiente di regressione ha una sua deviazione standard, che è stimata tramite il suo errore standard, SE ( b ) j 12

13 Inferenza sui coefficienti di regressione Come nella regressione semplice, l inferenza nel modello di regressione prevede di: 1) ricavare stime per intervallo per i parametri del modello 2) sottoporre a verifica l ipotesi che ogni parametro del modello sia significativamente diverso da zero Inoltre, nella regressione multipla è possibile anche verificare l ipotesi che i parametri del modello siano congiuntamente diversi da zero 13

14 Intervallo di confidenza per i singoli parametri del modello Generalizzando i risultati del modello di regressione semplice, si può dimostrare che, considerando lo stimatore b j (j=0,1,2,,k) per il generico parametro β j, la statistica b j se β j ( b ) j ~ t n k 1 si distribuisce come una t- student con n-k-1 g.l. Al livello di confidenza 1-α ( ( ) ( )) j α 2; n k 1 j β j j α 2; n k 1 j Pb t se b < < b+ t se b = 1 α 14

15 Verifica di ipotesi per i singoli parametri del modello Test t (test di significatività per un singolo coefficiente) Il contributo (marginale) della singola variabile X j alla previsione di Y si può verificare attraverso il sistema di ipotesi: H H 0 1 : β = 0 j : β 0 j Se si accetta H 0, si conclude che, al variare di X j, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costante In altre parole, l ipotesi nulla afferma che X j non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative 15

16 Test t - Statistica test H H 0 1 : β = 0 j : β 0 j b j ( ) n k 1 Statistica test se b j=0,1,2,,k j ~ t Al livello di significatività α, si accetta H 0 se il valore della statistica test calcolato sul campione cade nell area di accettazione dell ipotesi nulla, cioè se b tα < < se j 2; n k 1 α 2; n k 1 ( b j ) t 16

17 Misure di bontà di adattamento Errore standard della regressione L errore standard della regressione (SER) stima la deviazione standard dell errore u i Come nella regressione lineare semplice, la stima di ricava a partire dai residui eˆ = ui = y yˆ i i i Uno stimatore corretto è dato da: s = 2 i = 1 n n e k 2 σ = V u i 2 i 1 ( ) si questo stimatore presenta una correzione per i gradi di libertà dal momento che al denominatore troviamo il numero delle osservazioni meno il numero dei regressori. s = s 2 s è l errore standard di regressione e misura la dispersione dei valori campionari dall equazione dei minimi quadrati 17

18 Misure di bontà di adattamento Coefficiente di determinazione n ( ŷ y ) i 2 i= 1 R = n 2 i= 1 ( y y ) i 2 = SQR SQT = 1 SQE SQT Come nella regressione semplice, R 2 misura la quota di variabilità totale di Y spiegata dalle variabili esplicative del modello Ma R 2 non diminuisce quando si aggiunge una nuova variabile esplicativa nel modello, anche se questa non porta alcuna informazione utile per prevedere la variabile risposta. In altre parole R 2 può crescere se si inseriscono nuove variabili esplicative anche se, con l aggiunta delle nuove variabili, l adattamento ai dati non migliora effettivamente 18

19 Misure di bontà di adattamento Coefficiente di determinazione corretto R 2 c = 1 SQE / SQT ( n k 1) /( n 1) R 2 corretto tiene conto del numero k di variabili esplicative inserite nel modello e di conseguenza può non aumentare al crescere del numero dei regressori È utile per confrontare la bontà dell adattamento di più modelli di regressione multipla che differiscono per il numero k di variabili esplicative 19

20 Verifica di ipotesi congiunte Analisi della varianza - test F Il test F è una procedura per sottoporre a verifica l ipotesi che i parametri del modello (eccetto l intercetta) siano congiuntamente uguali a zero H H 0 1 : β 1 = β 2 =... = : almeno un β j β k 0 = 0 Ipotesi nulla le variabili esplicative non influenzano Y Ipotesi alternativa almeno una delle variabili esplicative influisce su Y Tale sistema di ipotesi fa riferimento ad un confronto tra il modello nel suo complesso e un modello con la sola intercetta, dove quindi le variabili esplicative non apporterebbero nessuna informazione aggiuntiva Se si accetta H 0 vuol dire che nessuna variabile esplicativa X j (j=1,,k) ha un effetto significativo su Y Se si accetta H 1, si conclude che c è almeno una variabile esplicativa X j da cui Y dipende significativamente 20

21 Verifica di ipotesi congiunte Analisi della varianza - test F Generalizzando il risultato ottenuto nel modello di regressione lineare semplice, la statistica test per verificare questa ipotesi è data da: SQR /k SQE/(n k 1) ~ F k,n k 1 Infatti, si può dimostrare che sotto H 0 il rapporto delle due quantità SQR e SQE - divise per i rispettivi gradi di libertà - si distribuisce come una variabile F di Fisher con (k-1) e (n-k) gradi di libertà. Per sottoporre a verifica l ipotesi nulla si confronta, ad un determinato livello di significatività α, il valore F assunto dal rapporto con il corrispondente quantile della distribuzione F di Fisher Se tale valore cade sulla coda della distribuzione, come nella seguente espressione SQR / k F = > F SQE /( n k 1) ( n k ) α, k, 1 il test è significativo e si respinge l ipotesi nulla. 21

22 Sorgente di variazione Tabella ANOVA Somma dei quadrati gdl Media dei quadrati Regressione R SQR k MQR=SQR/k F= MQR/MQE Errore E SQE n-k-1 MQE=SQE/(n-k-1) Totale SQT n-1 F F k,n-k-1;α Regione di rifiuto sulla coda destra della distribuzione Se il valore empirico della statistica test F > F k,n-k-1;α si rifiuta H 0 al livello di significatività prescelto 22

23 Esempio Esempio Variabile risposta Y : vendite giornaliere di gelato (in kg) VEND Variabili esplicative X 1 : prezzo (euro al kg) PREZ X 2 : temperatura massima giornaliera (in gradi centigradi) TEMP Ci aspettiamo che le vendite aumentano se i prezzi si abbassano o se la temperatura aumenta (relazione negativa vendite-prezzo e relazione positiva vendite-temperatura) 23

24 Interpretazione dei coefficienti Sulla base dei dati campionari (n=10) il modello stimato è Esempio VEND = 6,77 0,20 PREZ + 0,28 TEMP Interpretazione del coefficiente della variabile PREZ Le vendite medie giornaliere di gelato diminuiscono di 0,20 kg per ogni euro di incremento del prezzo, se la temperatura rimane costante Interpretazione del coefficiente della variabile TEMP Le vendite medie giornaliere di gelato aumentano di 0,28 kg per ogni grado di aumento della temperatura, a parità di prezzo ˆβ 1 ˆβ 2 24

25 Esempio ˆβ 1 Interpretazione del coefficiente Per esempio, se un giorno PREZ=14 e TEMP=29, le vendite attese sono pari a 6,77-0,20x14+0,28x29=12,09kg Ma se PREZ=15 (+1 ) e TEMP=29 (costante), le vendite attese sono 6,77-0,20x15+0,28x29=11,89kg (ossia 0,20kg in meno) Vendite stimate la relazione tra VENDITE stimate e PREZZO quando TEMP=29 è espressa da una retta decrescente Prezzo 25

26 Esempio Stima puntuale risposta media Sulla base del modello stimato VEND = 6,77 0,20 PREZ + 0,28 TEMP le vendite medie di gelato quando il prezzo è pari a 17 e la temperatura è 27 (valore atteso previsto) si ottengono per sostituzione ŷ i = 6,77 0, ,28 27 = 10,93 10,93 è anche la stima puntuale delle vendite di un singolo giorno in cui il prezzo è 17 e la temperatura è 27 (valore singolo previsto) 26

27 Esempio Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni Coefficienti Intercetta 6,770 1,165 Prezzo -0,201 0,054 Temperatura 0,281 0,032 Fissato il livello di confidenza = 0,95 tα ;n k 1 = t0,025; = t0,025; 7 2 = 2,3646 Esempio Errore standard Le stime per intervallo dei tre parametri sono: 6,77 ± 2,3646 1,165 = [4,015; 9,525] 0,201 ± 2,3646 0,054 = [ 0,329; 0,073] 0,281 ± 2,3646 0,032 = [0,205; 0,357 ] 27

28 Esempio Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni Esempio Errore standard Stat t p-value Coefficienti Intercetta 6,770 1,165 5,812 0,001 Prezzo -0,201 0,054-3,706 0,008 Temperatura 0,281 0,032 8,898 0,000 Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dell ipotesi nulla di uguaglianza a zero del corrispondente parametro (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce un utile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dall altra var. esplicativa 28

29 Coefficiente di determinazione corretto Esempio Nell esempio delle vendite di gelato, R 2 = 0,923 e R 2 corretto = 0,902 con le due variabili esplicative (PREZ e TEMP). Supponiamo che si aggiunga nel modello una terza variabile esplicativa e che la stima della nuova equazione produca valori di R 2 = 0,941 e R 2 corretto = 0,876. Poiché l inclusione di ogni nuova variabile, anche se irrilevante, tende a far aumentare R 2, per stabilire quale dei due modelli è da preferire dobbiamo vedere i valori di R 2 corretto che segnalano che il primo modello (con due variabili esplicative) produce un adattamento dei dati migliore rispetto al secondo 29

30 Esempio Riepilogo dei risultati VEND = 6,77 0,20 PREZ + 0,28 TEMP Statistica della regressione R multiplo 0,961 R al quadrato 0,923 R al quadrato corretto 0,902 Errore standard 0,394 Osservazioni 10 30

31 Test F ANOVA - Output Excel ESEMPIO gdl SQ MQ F p-value Regressione 2 13,10 6,55 42,23 0,00 Errore 7 1,09 0,16 Totale 9 14,18 Per verificare Al livello α=0,05 H H 0 1 : β = β 1 1 MQR 6,55 F = = = MQE 0,16 F0,05;2; 7 = 2 = 0 : β oppure β 4, ,23 42,23 > 4,737 Si rifiuta H 0 L evidenza campionaria contraddice l ipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura) 31

32 Esempio da Bracalente et al 2009 Campione di 10 supermercati Variabile risposta volume delle vendite Variabili esplicative: superficie dello spazio espositivo spesa settimanale per promozione densità di popolazione nella sua zona di ubicazione Si introducono due ulteriori variabili esplicative 32 32

33 Esempio da Bracalente et al 2009 Esempio Sintesi dell output di un analisi di regressione realizzata I parametri evidenziati risultano significativamente diversi da 0 perché il test t ha dato luogo a p-value piuttosto piccoli, se si considera un livello di significatività dello 0,05. I test hanno prodotto dei risultati che si trovano sulle code della distribuzione, ossia nella regione di rifiuto dell ipotesi nulla

34 Esempio da Bracalente et al 2009 In riferimento ai dati analizzati con l esempio precedente si analizza ora l inferenza sui tre parametri considerati congiuntamente attraverso l output seguente il risultato del test F produce un valore piuttosto elevato al quale corrisponde un p-value molto piccolo (inferiore allo 0,01 - che è in genere il più basso livello di significatività impiegato nei test di ipotesi) che porta a respingere l ipotesi nulla (parametri tutti pari a zero tranne l intercetta): il modello è significativo nel suo complesso 34 34

35 Verifica di ipotesi congiunte Il test F per il confronto tra modelli Si ipotizzi che a seguito di ulteriori elementi di conoscenza sul fenomeno oggetto di studio, oppure per una nuova intuizione del ricercatore: le ultime s variabili esplicative del modello consueto (con k variabili esplicative) siano ritenute ininfluenti sulla variabile risposta, ovvero non apportino una sufficiente informazione aggiuntiva ai fini della comprensione della variabile dipendente Il modello con meno variabili - detto ridotto o annidato (nested) - potrebbe essere migliore di quello con tutte le variabili esplicative, detto completo 35

36 Verifica di ipotesi congiunte Il test F per il confronto tra modelli Il sistema di ipotesi per confrontare modelli annidati si può formulare come segue: H 0 : β k-s = β k-s+1 = = β k = 0 H 1 : almeno un uguaglianza in H 0 non è vera In questo caso il test F può essere impiegato per il confronto tra il modello ridotto e quello completo secondo le seguenti fasi: 1. regredire Y sulle k-s variabili del modello ridotto e calcolarne la devianza residua (SQE R ) 2. analizzare la regressione del modello completo e calcolarne la consueta devianza residua SQE C 3. calcolare la differenza tra le due devianze (SQE R SQE C ) come misura della diminuzione della devianza residua dovuta all inclusione delle ulteriori s variabili esplicative 36

37 4. confrontare la media dei quadrati (SQE R SQE C )/s con la media dei quadrati dei residui del modello completo SQE C /(n-k) costruendo il seguente rapporto con le due quantità F s = Verifica di ipotesi congiunte Il test F per il confronto tra modelli ( ) / SQER SQEC s SQE /( n k 1) C che sotto ipotesi nulla si distribuisce come una F di Fisher con s, (n-k-1) gradi di libertà 5. eseguire il test per un determinato livello di significatività α e se si verifica che il valore della statistica test cade sulla coda della distribuzione - come nella seguente espressione - Fs > F α, s, ( n k 1) si rifiuta l ipotesi nulla e si conclude che il modello completo è migliore di quello ridotto 37

38 Un esempio di confronto tra modelli annidati Il modello analizzato negli esempi precedenti (esempio tratto dal testo di Bracalente et al.) è risultato globalmente significativo anche se la variabile X 4 densità di popolazione non lo è singolarmente È opportuno pertanto confrontare - attraverso il test F - il modello ridotto (2 variabili esplicative) con quello completo (3 variabili esplicative) secondo le seguenti fasi: 1. Si effettua la regressione sulle variabili del modello ridotto e si calcola la differenza delle somme dei quadrati dei residui tra modello ridotto e modello completo: SQE R SQE C 38

39 Un esempio di confronto tra modelli annidati (2) 2. Si calcola il rapporto F s come segue: F s ( SQER SQEC)/ s 295,5 = = = SQE / ( n k 1) 331,5 C 0,89 3. Si calcola infine la probabilità che F s stacca sulla coda destra di una distribuzione F con 1 e 6 gradi di libertà, pari a 0,38 un p-value così elevato ci porta senza dubbio nella regione di accettazione del test e si conclude che la variabile X 4 non migliora il modello il modello ridotto è pertanto migliore di quello completo 39

40 Introduzione di una variabile esplicativa di tipo qualitativo Nelle analisi di regressione può risultare utile considerare tra le variabili esplicative alcune variabili qualitative, quali genere, stato civile, livello di istruzione. Queste variabili vengono di norma acquisite nei database attraverso una operazione di codifica numerica, ma va tenuto ben presente che i valori numerici di tali variabili non riflettono un ordinamento quantitativo. Pertanto un inserimento delle variabili qualitative in tale forma all interno di un modello di regressione (come variabili esplicative) sarebbe metodologicamente errato e porterebbe a conclusioni fuorvianti. Per poter essere inserite all interno di una analisi di regressione, ogni singola categoria di una variabile qualitativa deve essere considerata come variabile dicotomica, che assume valore 1 in caso di presenza del corrispondente attributo e valore 0 in caso di assenza. variabile dummy (o variabile indicatore). Il numero di variabili dummy da introdurre per ogni variabile qualitativa considerata è pari a k-1,dove k è il numero delle modalità

41 Introduzione di una variabile esplicativa di tipo qualitativo Nel caso semplice di una variabile qualitativa dicotomica (a due modalità), si definisce una variabile dummy X (variabile artificiale) X = 1 0 in presenza di una data in assenza della stessa modalità modalità Ad esempio: a partire dal carattere genere che assume due modalità (maschio o femmina), la corrispondente variabile dummy può essere definita come: 1 se maschio X = 0 se femmina 41

42 Esempio-vendite di gelato Per stimare la domanda di gelato possiamo ipotizzare che, oltre al prezzo e alla temperatura, la quantità venduta di gelato dipenda anche dal giorno della settimana Ci aspettiamo che le vendite siano maggiori nei fine settimana rispetto agli altri giorni Se questa supposizione fosse confermata dai dati, potremmo decidere di fissare un prezzo più alto nei finesettimana Introduciamo nel modello come terza variabile esplicativa una variabile dummy X 3 (GIORNO) X 3 = 1 0 se finesettim ana (sab altrimenti (dal lun al o dom) ven) 42

43 Interpretazione del coefficiente della variabile dummy Modello stimato: Ŷ = ˆ β ˆ X ˆ X + ˆ 0 + β1 1 + β 2 2 β 3X 3 X 3 Fine settimana 1 da lun a ven 0 Ŷ Ŷ = = Modello stimato ˆ β ˆ β 1X ˆ ˆ 1 + β 2X 2 β 3 ˆ β ˆ X + ˆ 0 + β 1 1 β 2X 2 Il coefficiente ˆβ 3, così come gli altri, è stimato con il metodo dei minimi quadrati. Rappresenta la differenza tra le vendite medie giornaliere di gelato quando X 3 =1 (finesettimana) e le vendite medie giornaliere quando X 3 =0 (dal lun al ven), se il prezzo e la temperatura rimangono costanti 43

44 Interpretazione del coefficiente della variabile dummy Coefficienti Errore standard Stat t p-value Intercetta 6,123 0,649 9,433 0,000 PREZ (X 1 ) -0,165 0,031-5,395 0,002 TEMP (X 2 ) 0,272 0,017 15,830 0,000 GIORNO (X 3 ) 0,607 0,144 4,228 0,006 Il coefficiente della variabile dummy GIORNO è significativamente diverso da 0 (p-value=0,006). Conoscere il giorno (se dal lun al ven oppure sab/dom) è utile per spiegare la variazione nei valori campionari delle vendite, se il prezzo e la temperatura sono noti A parità di prezzo e temperatura, le vendite stimate nei finesettimana sono in media superiori di 0,607 kg rispetto agli altri giorni della settimana 44

45 Interpretazione del coefficiente della variabile dummy ˆβ 3 Vendite stimate Vendite stimate Differenza= 0,607 Differenza=0,607 Prezzo Temperatura A sinistra, la relazione tra VENDITE stimate e PREZZO quando TEMP=29. In blu la retta quando GIORNO=1 (sab-dom), in rosso la retta quando GIORNO=0 (lun-ven) A destra, la relazione tra VENDITE stimate e TEMPERATURA quando PREZ=15. 45

46 Statistica della regressione R multiplo 0,990 R al quadrato 0,981 R al quadrato corretto 0,971 Errore standard 0,213 Osservazioni 10 Riepilogo output ANALISI VARIANZA gdl SQ MQ F p-value Regressione 3 13,911 4, ,986 0,000 Errore 6 0,273 0,045 Totale 9 14,184 Coeffici enti Errore standard Stat t p-value Inferiore 95% Superiore 95% Intercetta 6,123 0,649 9,433 0,000 4,534 7,711 PREZ -0,165 0,031-5,395 0,002-0,240-0,090 TEMP 0,272 0,017 15,830 0,000 0,230 0,314 GIORNO 0,607 0,144 4,228 0,006 0,256 0,959 46

47 Valutazione del modello con la variabile dummy Nel complesso, con l inserimento della variabile qualitativa X 3 (GIORNO), il modello migliora il suo adattamento Rispetto al modello con solo prezzo e temperatura come variabili esplicative: R 2 corretto è più alto l errore standard s della regressione è più piccolo gli errori standard dei coefficienti stimati sono più piccoli 47

48 Se le modalità della variabile qualitativa sono più di due? Un altro fattore che potrebbe influenzare le vendite di gelato sono le condizioni del tempo. Immaginiamo di voler distinguere tra le tre condizioni di sereno, coperto, piovoso. Dobbiamo introdurre nel modello due variabili dummy X 4 = 1 0 se " sereno " altrimenti X 5 = 1 0 se " coperto " altrimenti 48

49 Due variabili dummy per un carattere con tre modalità Le due variabili X 4 e X 5 servono per specificare le tre condizioni meteorologiche X 4 X 5 Modello stimato sereno 1 0 Ŷ = ˆ + ˆ β ˆ ˆ 1X1 + β2x2 + β3x coperto 0 1 Ŷ = β + ˆ 0 3 β 4 ˆ β ˆ β1x1 + ˆ β ˆ ˆ 2X2 + β3x3 β5 piovoso 0 0 Ŷ = ˆ β ˆ X ˆ X + ˆ 0 + β1 1 + β2 2 β3x3 piovoso è la categoria di riferimento (quella per la quale le variabili dummy valgono entrambe 0) 49

50 Interpretazione dei coefficienti sereno 1 0 coperto 0 1 X 4 X 5 Modello stimato Ŷ = Ŷ = ˆ β ˆ β1x1 + ˆ β ˆ ˆ 2X2 + β3x3 β 4 ˆ β ˆ β1x1 + ˆ β ˆ ˆ 2X2 + β3x3 β5 piovoso 0 0 Ŷ = ˆ β ˆ X ˆ X + ˆ 0 + β1 1 + β2 2 β3x3 ˆβ 4 stima la differenza nelle vendite medie tra giorni sereni (X 4 =1) e giorni piovosi (la categoria di riferimento) ˆβ 5 stima la differenza nelle vendite medie tra giorni coperti (X 5 =1) e giorni piovosi (la categoria di riferimento) 50

51 Esercizio Regressione multipla Su un campione di n=391 automobili si stima un modello di regressione multipla Var. risposta: CONSUMO (Km/l) Var. esplicative: MOTORE (Cilindrata in cm3) CV (Potenza in Cavalli Vapore) PESO ACCEL (Accelerazione, secondi per passare da 0 a 100 km/h)) La var. ORIGINE (Nazione produttrice) presentava tre modalità: ITALIA, EUROPA, GIAPPONE Si introducono due variabili dummy ORIGINE1 (=1 per auto italiane) ORIGINE2 (=1 per auto europee non italiane) (la categoria di riferimento è auto giapponesi ) 51

52 Esercizio Risultati regressione multipla Statistica della regressione R multiplo 0,846 R al quadrato 0,716 R al quadrato corretto 0,712 Errore standard 4,176 Osservazioni 391 ANALISI VARIANZA gdl SQ MQ F p-value Regressione , , ,372 0,000 Residuo ,402 17,436 Totale ,412 Coefficienti Errore standard Stat t p-value Inferiore 95% Superiore 95% Intercetta 41,558 2,262 18,376 0,000 37,112 46,005 MOTORE 0,002 0,007 0,214 0,830-0,013 0,016 CV -0,067 0,017-3,899 0,000-0,100-0,033 PESO -0,014 0,002-5,738 0,000-0,019-0,009 ACCEL -0,123 0,125-0,987 0,324-0,369 0,122 ORIGINE1-2,805 0,695-4,034 0,000-4,171-1,438 ORIGINE2-1,751 0,702-2,495 0,013-3,131-0,371 52

53 Esercizio a) Considerando un livello di significatività α=0,05 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero b) Ad un livello di confidenza pari a 1-α=0,95 il coefficiente di regressione della var. PESO può essere di segno positivo? c) La bontà di adattamento del modello è sufficientemente elevata? d) Si può accettare l ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0,01? e) Tenendo fisse le altre var. esplicative, qual è la differenza nel consumo medio tra auto italiane e auto giapponesi? 53

Statistica per le ricerche di mercato. 14. La regressione lineare multipla

Statistica per le ricerche di mercato. 14. La regressione lineare multipla Statistica per le ricerche di mercato A.A. 2011/12 Prof.ssa Tiziana Laureti Dott. Luca Secondi 14. La regressione lineare multipla 1 Modello di regressione lineare multipla Il modello di regressione multipla

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Regressione lineare multipla

Regressione lineare multipla Regressione lineare multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2014 Rossi Regressione lineare Econometria - 2014 1 / 31 Outline 1 La distorsione da variabili omesse 2 Causalità 3 Misure

Dettagli

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli. Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Analisi della regressione multipla

Analisi della regressione multipla Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov,

Dettagli

LEZIONE N. 11 ( a cura di MADDALENA BEI)

LEZIONE N. 11 ( a cura di MADDALENA BEI) LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice

Dettagli

Test delle Ipotesi Parte I

Test delle Ipotesi Parte I Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

Test F per la significatività del modello

Test F per la significatività del modello Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

lezione 9 AA Paolo Brunori

lezione 9 AA Paolo Brunori AA 2016-2017 Paolo Brunori Dove siamo arrivati? - la regressione lineare multipla ci permette di stimare l effetto della variabile X sulla Y tenendo ferme tutte le altre variabili osservabili che hanno

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Contenuti: Capitolo 14 del libro di testo

Contenuti: Capitolo 14 del libro di testo Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4

Dettagli

Statistica 1 A.A. 2015/2016

Statistica 1 A.A. 2015/2016 Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Esercitazione 5 Sta/s/ca Aziendale

Esercitazione 5 Sta/s/ca Aziendale Esercitazione 5 Sta/s/ca Aziendale David Aristei 12 maggio 2015 Si è interessa/ ad analizzare le determinan/ a livello aziendale della produ>vità del lavoro (PL, in migliaia di euro per dipendente) di

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 Concetti generali: Confronto simultaneo tra più di due popolazioni, esempi... La analisi della varianza estende il confronto a p gruppi con p>2.

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

Minimi quadrati vincolati e test F

Minimi quadrati vincolati e test F Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

lezione 8 AA Paolo Brunori

lezione 8 AA Paolo Brunori AA 2016-2017 Paolo Brunori regressione multipla con n = k Immaginate di voler studiare i determinanti del voto all esame di econometria Y = β 1 X 1 + u Y i = β 1 H i + u i H=ore studiate alla settimana

Dettagli

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Statistica per le ricerche di mercato. 12. Violazione delle ipotesi nel modello di regressione lineare

Statistica per le ricerche di mercato. 12. Violazione delle ipotesi nel modello di regressione lineare Statistica per le ricerche di mercato A.A. 2012/13 Dr. Luca Secondi 12. Violazione delle ipotesi nel modello di regressione lineare La violazione delle ipotesi Fino ad ora le assunzioni ipotizzate per

Dettagli

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it

Dettagli

PROBABILITÀ ELEMENTARE

PROBABILITÀ ELEMENTARE Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti

Dettagli

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono

Dettagli

Casa dello Studente. Casa dello Studente

Casa dello Studente. Casa dello Studente Esercitazione - 14 aprile 2016 ESERCIZIO 1 Di seguito si riporta il giudizio (punteggio da 0 a 5) espresso da un gruppo di studenti rispetto alle diverse residenze studentesche di un Ateneo: a) Si calcolino

Dettagli

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si

Dettagli

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi Statistica Economica A.A. 2011/2012 Prof.ssa Tiziana Laureti *Libro di testo: Stock J.H. e Watson, M.W. Introduzione all

Dettagli

lezione 7 AA Paolo Brunori

lezione 7 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove siamo arrivati? - se siamo interessati a studiare l andamento congiunto di due fenomeni economici - possiamo provare a misurare i due fenomeni e poi usare la lineare semplice

Dettagli

Fasi del modello di regressione

Fasi del modello di regressione Fasi del modello di regressione Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

Presentazione dell edizione italiana

Presentazione dell edizione italiana 1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli

Dettagli

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle abelle riportate alla fine del documento. Esercizio 1 La concentrazione media di sostanze inquinanti osservata nelle acque di un fiume

Dettagli

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 10 Test basati su due campioni e ANOVA a una via Insegnamento: Statistica Applicata Corsi di Laurea in "Scienze e tecnologie Alimentari"

Dettagli

La regressione lineare multipla

La regressione lineare multipla 13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività

Dettagli

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi

Dettagli

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson Levine, Krehbiel, Berenson Statistica II ed. Casa editrice: Pearson Capitolo 10 Test basati su due campioni e ANOVA a una via Insegnamento: Statistica Corsi di Laurea Triennale in Economia Dipartimento

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

Corso di Statistica Industriale

Corso di Statistica Industriale Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30

Dettagli

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II Modulo 2 Variabili continue e Metodi parametrici Distribuzione Un insieme di misure è detto

Dettagli

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili

Dettagli

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione

Dettagli

STATISTICA ESERCITAZIONE 13

STATISTICA ESERCITAZIONE 13 STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51 Sommario 1 I dati...15 1.1 Classificazione delle rilevazioni...17 1.1.1 Esperimenti ripetibili (controllabili)...17 1.1.2 Rilevazioni su fenomeni non ripetibili...18 1.1.3 Censimenti...19 1.1.4 Campioni...19

Dettagli

Esercitazione 8 del corso di Statistica 2

Esercitazione 8 del corso di Statistica 2 Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione

Dettagli

Distribuzioni campionarie

Distribuzioni campionarie 1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari

Dettagli

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE

Dettagli

Regressione lineare con un solo regressore

Regressione lineare con un solo regressore Regressione lineare con un solo regressore La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti incogniti di una retta. Lo scopo principale è di stimare

Dettagli

Statistica Metodologica

Statistica Metodologica Statistica Metodologica Esercizi di Probabilita e Inferenza Silvia Figini e-mail: silvia.figini@unipv.it Problema 1 Sia X una variabile aleatoria Bernoulliana con parametro p = 0.7. 1. Determinare la media

Dettagli

LE DISTRIBUZIONI CAMPIONARIE

LE DISTRIBUZIONI CAMPIONARIE LE DISTRIBUZIONI CAMPIONARIE Argomenti Principi e metodi dell inferenza statistica Metodi di campionamento Campioni casuali Le distribuzioni campionarie notevoli: La distribuzione della media campionaria

Dettagli

lezione 10 AA Paolo Brunori

lezione 10 AA Paolo Brunori AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito

Dettagli

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull

Dettagli

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di

Dettagli

Esercitazione 8 maggio 2014

Esercitazione 8 maggio 2014 Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un

Dettagli

Esercitazione 9 del corso di Statistica (parte seconda)

Esercitazione 9 del corso di Statistica (parte seconda) Esercitazione 9 del corso di Statistica (parte seconda) Dott.ssa Paola Costantini 17 Marzo 9 Esercizio 1 Esercizio Un economista del Ministero degli Esteri desidera verificare se gli accordi di negoziazione

Dettagli

Test d Ipotesi Introduzione

Test d Ipotesi Introduzione Test d Ipotesi Introduzione Uno degli scopi più importanti di un analisi statistica è quello di utilizzare i dati provenienti da un campione per fare inferenza sulla popolazione da cui è stato estratto

Dettagli

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI

Dettagli

ESAME. 9 Gennaio 2017 COMPITO B

ESAME. 9 Gennaio 2017 COMPITO B ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto

Dettagli

Distribuzioni e inferenza statistica

Distribuzioni e inferenza statistica Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione

Dettagli

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi) CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON

Dettagli

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita

Dettagli

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

05. Errore campionario e numerosità campionaria

05. Errore campionario e numerosità campionaria Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,

Dettagli

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare

Dettagli

Test di ipotesi. Test

Test di ipotesi. Test Test di ipotesi Test E una metodologia statistica che consente di prendere una decisione. Esempio: Un supermercato riceve dal proprio fornitore l assicurazione che non più del 5% delle mele di tipo A dell

Dettagli

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: Analisi chimica strumentale Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da: (31.4) dove s y è la varianza dei valori

Dettagli

Analisi della varianza

Analisi della varianza Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.

Dettagli

Statistica Inferenziale

Statistica Inferenziale Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione

Dettagli

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice

Dettagli

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011 FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 1/9/11 ESERCIZIO 1 (+3++3) La seguente tabella riporta la distribuzione di frequenza dei valori di emoglobina nel sangue (espressi

Dettagli

obbligatorio - n. iscrizione sulla lista

obbligatorio - n. iscrizione sulla lista 02.09.2015 - appello di STATISTICA per studenti ENE - docente: E. Piazza obbligatorio - n. iscrizione sulla lista il presente elaborato si compone di 5 (cinque) pagine se non ve lo ricordate siete fritti;

Dettagli

Argomenti della lezione:

Argomenti della lezione: Lezione 13 L analisi della Varianza (ANOVA): il modello lineare Argomenti della lezione: Modello lineare Disegni a una via L Analisi della Varianza (ANOVA): Esamina differenze tra le medie di due o più

Dettagli

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI Perchè confrontare le varianze stimate in due campioni? Torniamo all'esempio dei frinosomi Per poter applicare il test t avevamo detto che le varianze, e

Dettagli

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2

Dettagli

Esercizi di Probabilità e Statistica

Esercizi di Probabilità e Statistica Esercizi di Probabilità e Statistica Samuel Rota Bulò 6 giugno 26 Statistica Esercizio Sia {X n } n una famiglia di v.a. di media µ e varianza σ 2. Verificare che X = n n X i σ 2 = n (X i µ) 2 S 2 = n

Dettagli

Statistica Inferenziale

Statistica Inferenziale Statistica Inferenziale Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Riepilogo lezione 6 Abbiamo visto: Definizione di popolazione, di campione e di spazio campionario Distribuzione

Dettagli

Tipi di variabili. Indici di tendenza centrale e di dispersione

Tipi di variabili. Indici di tendenza centrale e di dispersione Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)

Dettagli

Analisi della varianza: I contrasti e il metodo di Bonferroni

Analisi della varianza: I contrasti e il metodo di Bonferroni Analisi della varianza: I contrasti e il metodo di Bonferroni 1 Contrasti In molti problemi risulta importante stabilire, nel caso venga rifiutata l ipotesi nulla, di uguaglianza delle medie µ j delle

Dettagli

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con

Dettagli

CAPITOLO 11 ANALISI DI REGRESSIONE

CAPITOLO 11 ANALISI DI REGRESSIONE VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire

Dettagli

Regressione lineare semplice: inferenza

Regressione lineare semplice: inferenza Regressione lineare semplice: inferenza Eduardo Rossi 2 2 Università di Pavia (Italy) Marzo 2014 Rossi Regressione lineare semplice Econometria - 2014 1 / 60 Outline 1 Introduzione 2 Verifica di ipotesi

Dettagli

Regressione multipla

Regressione multipla Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione

Dettagli

Approssimazione normale alla distribuzione binomiale

Approssimazione normale alla distribuzione binomiale Approssimazione normale alla distribuzione binomiale P b (X r) costoso P b (X r) P(X r) per N grande Teorema: Se la variabile casuale X ha una distribuzione binomiale con parametri N e p, allora, per N

Dettagli

Richiami di statistica

Richiami di statistica Richiami di statistica Eduardo Rossi 2 2 Università di Pavia (Italy) Marzo 2014 Rossi Statistica Econometria - 2014 1 / 61 Indice 1 Esempio 2 Elementi di probabilità 3 Stima 4 Verifica di ipotesi Rossi

Dettagli

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona

Dettagli

Capitolo 9 Verifica di ipotesi: test basati su un campione

Capitolo 9 Verifica di ipotesi: test basati su un campione Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 9 Verifica di ipotesi: test basati su un campione Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università

Dettagli