Binary Choice Models

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Binary Choice Models"

Transcript

1 Binary Choice Models Norberto Pignatti, Roberto Golinelli, GENNAIO Introduzione Nelle lezioni precedenti avete già visto utilizzare variabili dummy (esempio: variabile male = 1 se uomo, 0 se donna) come variabili esplicative all interno di un modello. In alcuni casi possiamo volere (o dovere) stimare modelli nei quali la variabile da spiegare (variabile dipendente) può essere essa stessa una variabile dummy che assume due o più valori. Nella nostra lezione noi esamineremo esclusivamente il caso in cui la variabile dummy assuma due valori, 0 ed 1 (variabile dicotomica). Vi sono molti casi nei quali una variabile dicotomica può essere scelta come variabile dipendente. Alcuni possibili esempi: - y=1 se un individuo è occupato; y=0 se non lo è; - y=1 se un individuo ottiene un prestito; y=0 se non lo ottiene; - y=1 se un individuo ha deciso di votare; y=0 se l individuo ha deciso di non votare; - y=1 se un individuo ha contratto una malattia; y=0 se l individuo non l ha contratta. E così via. Nell esempio che considereremo in questa lezione, utilizzeremo i dati disponibili in STATA su un campione di automobili in circolazione negli Stati Uniti nel 1978 per identificare le caratteristiche che differenziano le automobili straniere da quelle americane. obs: Automobile Data vars: Apr :45 size: 3,478 (99.9% of memory free) (_dta has notes) - storage display value variable name type format label variable label - make str18 %-18s Make and Model price int %8.0gc Price mpg int %8.0g Mileage (mpg) rep78 int %8.0g Repair Record 1978 headroom float %6.1f Headroom (in.) trunk int %8.0g Trunk space (cu. ft.) weight int %8.0gc Weight (lbs.) length int %8.0g Length (in.) turn int %8.0g Turn Circle (ft.) displacement int %8.0g Displacement (cu. in.) gear_ratio float %6.2f Gear Ratio foreign byte %8.0g origin Car type - Sorted by: foreign Per comodità presenteremo i modelli utilizzati partendo con una regressione bivariata. Dopo avere esaminato diversi aspetti di questo tipo di analisi, nella terza parte proseguiremo l esempio nel caso di analisi multivariata. In conclusione (opzionale) accenneremo ai test di specificazione applicabili a questo tipo di modelli. 1

2 2 Analisi bivariata 2.1 Analisi bivariata: il modello lineare nelle probabilità La procedura più semplice da utilizzare è quella di applicare il metodo dei minimi quadrati ordinari. Il modello che otteniamo in questo caso è formalmente identico a quelli precedentemente visti. y i =α+βx i +ε i da cui il valore atteso della nostra variabile E(y i α,x i )= ˆ α + βx ˆ i Nel nostro esempio, utilizziamo come variabile dipendente la variabile foreign (foreign=1 se la macchina è straniere, foreign=0 se la macchina è americana) e come variabile indipendente gear_ratio (il rapporto di cambio che caratterizza la macchina più è elevato, maggiore accelerazione ha questa). Noi ipotizziamo che, conoscendone il gear_ratio, sia possibile stabilire se una data automobile sia americana o straniera. β riflette l impatto di variazioni nel gear ratio sulla probabilità che un automobile sia straniera. reg foreign gear_ratio Source SS df MS Number of obs = F( 1, 72) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = foreign Coef. Std. Err. t P> t [95% Conf. Interval] gear_ratio _cons Sulla base di questa regressione è possibile calcolare e salvare (vedi lezioni precedenti) sia i valori stimati (fitted) che i residui.. predict basic_o (option xb assumed; fitted values). predict res_o1, resid. label var basic_p "Pr(Foreign) Linear probability model1" In questo caso, il valore atteso di y i deve essere interpretato come la probabilità che l automobile i-esima sia straniera dato il valore del suo gear_ratio In generale, i coefficienti del modello lineare nelle probabilità possono essere interpretati come la misura dell effetto marginale della variazione della variabile indipendente sulla probabilità che ci troviamo davanti ad un automobile straniera. Nel nostro caso l effetto sulle probabilità è pari a 0.71 volte la variazione nel gear ratio. Nonostante la sua semplicità il modello lineare nelle probabilità è caratterizzato da diversi problemi che ne scoraggiano l utilizzo in favore di altri modelli che vedremo in seguito. Analizziamo innanzitutto analizzando la struttura degli errori in questo modello. 2

3 Per costruzione (anche ipotizzando di conoscere i valori di α e di β della popolazione) poiché y i può assumere solo valori 1 o 0 gli errori [ε i =y i (α+βx i )] possono assumere solo due valori per ciascuna osservazione, ovvero 1-(α+βx i ) o -(α+βx i ). Essendo la probabilità che y i =1 e y i =0 rispettivamente: Prob(y i =1 α,x i ) = α+βx i ; Prob(y i =0 α,x i ) = 1-(α+βx i) Avremo che: Quindi in questo caso: Valori assunti dalla y i ε i Probabilità 1 1-(α+βx i ) α+βx i 0 -(α+βx i ) 1-(α+βx i ) 1) gli errori non possono essere distribuiti normalmente; 2) la varianza egli ε non può essere costante (abbiamo eteroschedasticità). Infatti, per costruzione, gli errori ε i saranno caratterizzati da eteroschedasticità, in una misura che dipende da α, β e da x. var(ε i )= (α+βx i )(1-(α+βx i )) 2 +(1-(α+βx i ))(-(α+ βx i )) 2 =(α+βx i )(1-(α+βx i ))=E(y i )[1-E(y i )] In questo caso le stime ottenute tramite OLS non saranno efficienti. Il problema più serio però è che, anche tenendo conto dell eteroschedasticità e stimando il nostro modello iniziale con il metodo dei minimi quadrati generalizzati fattibili (FGLS), la nostra probabilità predetta resta sempre funzione lineare della variabile indipendente (delle variabili indipendenti, nei casi di regressione multivariata). Questo può far si che la stima di probabilità esca dall intervallo ammissibile [0, 1]. Ciò accade anche nel caso che stiamo analizzando, come si può verificare riportando in un grafico i valori stimati ed i valori effettivi della variabile foreign, in funzione del gear_ratio. 3

4 twoway (scatter basic_o gear_ratio, mcolor(green)) (scatter foreign gear_ratio, mcolor(blue)), yline(0) yline(1) title(linear Probability Model) Linear Probability Model Gear Ratio Pr(Foreign) - Linear probability model1 Car type In questo caso, per le automobili con un gear ratio inferiore a 2.5 il valore previsto è inferiore a zero. In altri esempi potremmo trovare valori previsti superiori ad 1 o potremmo avere contemporaneamente valori inferiori a zero e maggiori di 1. Greene (Econometric Analysis, 5th edition, pag. 666) ci dice che il tentativo di vincolare le probabilità stimate all intervallo 0-1 mantenendo questo metodo di stima può generare ulteriori problemi (probabilità prive di senso e varianze negative) Ciò di cui abbiamo bisogno allora è un qualche modello che produca predizioni consistenti con la teoria delle probabilità, ovvero valori compresi tra 0 ed 1. In pratica, questo è possibile individuando una funzione che riesca ad esprimere valori di probabilità nell intervallo [0, 1], come funzione del vettore delle caratteristiche Analisi bivariata: modelli logit e probit I modelli probit e logit soddisfano questo requisito, utilizzando rispettivamente la funzione di distribuzione normale standard e la funzione di distribuzione logistica standard. Per entrambi i tipi di modello è vero che: lim α + ˆx β + lim α + ˆx β i i Prob Prob ( yi = 1 α, x i ) ( y = 1 α, x ) i i = 1 = 0 Per assicurare questa proprietà, la formula che ci dà le probabilità non è più: Prob(y i =1 α,x i ) = α+βx i ; Prob(y i =0 x i ) = 1-(α+βx i ) ma diventa invece 4

5 Prob(y i =1 α,x i ) = F[ α + βx i ]; Prob(y i =1 α,x i ) = 1- F[ α + βx i ] dove F è una funzione di distribuzione di ε (che ci dà valori compresi tra 0 ed 1). La forma della funzione F dipende dalle assunzioni fatte sulla distribuzione del termine d errore. I modelli probit e logit differiscono proprio per le ipotesi sulla distribuzione del termine d errore ε i, che nel caso del probit è una distribuzione normale standardizzata (con media 0 e varianza 1) e nel caso del logit è una 2 distribuzione logistica standard (con media 0 e varianza π / 3 ). Essendo le distribuzioni logistica e normale cumulate molto simili tra di loro (eccetto in corrispondenza delle code), solitamente non ci si attende di ottenere risultati molto diversi. Questo a meno che il nostro campione non sia di dimensioni molto elevate (in modo tale da avere abbastanza osservazioni che ricadono nelle code). In ogni caso comunque le stime dei parametri ottenute utilizzando i due metodi non sono direttamente 2 comparabili. Avendo la distribuzione logistica una varianza pari a π / 3 le stime di βˆ i ottenute col modello logit, per poter essere comparate con quelle ottenute col modello probit, devono essere moltiplicate per 3 / π. Per probit e logit, differentemente da quanto accadeva nel modello lineare, le probabilità non sono più funzioni lineari delle caratteristiche, ma sono invece il risultato di una loro trasformazione non lineare. Mentre nel modello lineare la stima viene effettuata utilizzando il metodo dei minimi quadrati, il metodo utilizzato per stimare i modelli logit e probit è quello della massima verosimiglianza. L equazione di verosimiglianza in questo caso può essere scritta come; L = F α + βx 1 F α + βx [ i ] { [ i ]} yi = 1 y i = 0 Essendo le equazioni di verosimiglianza non lineari, richiederanno una soluzione di tipo iterativo (come potrete osservare nell output di Stata).. Iniziamo con lo stimare il modello probit. Successivamente stimeremo il corrispondente modello logit probit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Probit regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio _cons Salviamo nuovamente le probabilità stimate. predict basic_p (option p assumed; Pr(foreign)) Generiamo (e salviamo) la differenza tra le probabilità predette ed i valori reali di foreign. 5

6 . gen res_p1=foreign-basic_p Attribuiamo un etichetta alla variabile basic_p che apparirà nel grafico.. label var basic_p "Pr(Foreign) Probit1" Ora possiamo vedere la rappresentazione grafica delle probabilità predette dal probit (cerchi verdi) e confrontarla con le predizioni del modello lineare nelle probabilità (linea verde). I cerchi vuoti dal bordo nero rappresentano i veri valori della variabile foreign. twoway (scatter basic_p gear_ratio, mcolor(green)) (scatter foreign gear_ratio, mcolor(black) msymbol(circle_hollow)) (lfit foreign gear_ratio), yline(0) yline(1) title(probit) Probit Gear Ratio Pr(Foreign) Probit1 Fitted values Car type Si può osservare come le probabilità predette dal probit siano effettivamente ricomprese tra 0 ed 1 e mostrino un andamento di tipo sinusoidale molto più armonioso di quello del modello lineare. In questo caso purtroppo il coefficiente della nostra regressione non é facilmente interpretabile, in quanto non esprime una relazione di tipo lineare tra le variabili esplicative e la variabile dipendente. Per questo motivo, nella sezione successiva vedremo come calcolare gli effetti marginali, che potremo poi comparare con il coefficiente ottenuto con il modello lineare. Ecco i risultati del modello logit logit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Logistic regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] 6

7 gear_ratio _cons Anche in questo caso salviamo sia le predizioni del modello che gli scostamenti dai valori reali assunti dalla variabile foreign.. predict basic_l (option p assumed; Pr(foreign)). gen res_l1=foreign-basic_l E attribuiamo un etichetta alla variabile basic_l. label var basic_l "Pr(Foreign) Logit1" Ecco il grafico generato dal modello logit. Logit Gear Ratio Pr(Foreign) Logit1 Fitted values Car type Un interessante proprietà condivisa dal modello lineare e dal modello logit è che la media delle probabilità predette con i due metodi è pari alla proporzione di y=1 nel campione. Questo risultato non è stato verificato per il modello probit. Nel nostro caso:. sum foreign basic_o basic_l basic_p Variable Obs Mean Std. Dev. Min Max foreign basic_o basic_l basic_p Anche nel caso del logit però, come per il probit, l interpretazione dei coefficienti del modello non è immediata

8 2.3. Analisi bivariata: interpretazione dei risultati dei tre modelli Mettiamo ora a confronto i risultati ottenuti utilizzando i tre modelli. (1) (2) (3) (3b) Linear probit logit logit* 3 / π Gear Ratio (8.48)** (4.85)** (4.47)** Constant (7.22)** (4.97)** (4.58)** Observations Absolute value of t statistics in parentheses * significant at 5%; ** significant at 1% Coefficienti ed effetti marginali Quando osserviamo i coefficienti stimati dai tre modelli ci troviamo di fronte a risultati apparentemente molto diversi, nonostante il segno ed il livello di significatività siano identici. Come avevamo annunciato in precedenza, vi sono diversi motivi per queste differenze. I coefficienti per probit e logit differiscono necessariamente tra loro a causa delle diverse caratteristiche delle funzioni di distribuzione sottostanti. In effetti, se guardiamo la colonna 3b, dove abbiamo riportato il coefficiente logit corretto per tenere conto delle differenze tra le due distribuzioni, i valori sono molto più simili tra loro. I coefficienti probit e logit però, differiscono notevolmente dal coefficiente ottenuto tramite il modello lineare nelle probabilità. Questo accade in conseguenza del fatto che, mentre per il modello lineare il coefficiente β associato a gear ratio rappresenta l effetto marginale di una variazione gear ratio sulla probabilità che l automobile studiata sia straniera (e resta costante indipendentemente dal variare di x), questo non è vero per i coefficienti dei modelli probit e logit. Tornando alla formulazione più generale delle nostre probabilità vediamo infatti che, se definiamo Prob(y i =1 α,x i ) = F[ α + βx i ] la variazione nel valore atteso di y i al variare di x i sarà: E[ yi α, βxi ] = F' [ α + βxi ] β = f ( α + βxi )β xi E ovvio che in questo caso non abbiamo un unico valore per l effetto marginale della nostra variabile esplicativa sulla variabile dipendente, quanto piuttosto una serie di possibili valori. Questa conclusione in realtà era raggiungibile semplicemente osservando il diverso comportamento delle probabilità per modello lineare e logit/probit. Infatti, mentre l inclinazione della retta di regressione è costante, l inclinazione delle funzioni fitted nei modelli probit e logit è diversa a seconda del punto nel quale le osserviamo. Di default Stata calcola gli effetti marginali delle variabili esplicative sulla variabile dipendente in corrispondenza dei loro valori medi. E possibile, se si desidera, specificare il punto in cui calcolare gli effetti marginali. Ecco gli effetti marginali calcolati per il modello probit e logit, utilizzando il comando mfx. Notate che è necessario stimare prima il modello per potere richiedere il calcolo degli effetti marginali. Nel caso del modello probit sarebbe possibile calcolarli direttamente attraverso il comando dprobit. Per uniformità comunque stimeremo gli effetti marginali sempre utilizzando il comando mfx probit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood =

9 Probit regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio _cons mfx Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o logit foreign gear_ratio Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Logistic regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio _cons mfx Marginal effects after logit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o Ecco una sintesi dei risultati ottenuti: (1) (2) (3) Linear probit logit Gear Ratio Ora possiamo vedere come, in realtà, gli effetti marginali stimati dai modelli probit e logit in corrispondenza del valore medio di gear_ratio non differiscano eccessivamente da quello ottenuto con il modello lineare nelle probabilità o tra di loro. Un incremento infinitesimo del gear ratio tende a tradursi in un incremento 9

10 della probabilità che l automobile osservata sia straniera pari a , a seconda del modello che utilizziamo. Ovviamente dobbiamo ricordare che, mentre per il modello lineare l effetto marginale non cambia, i valori ottenuti per i modelli probit e logit valgono esclusivamente in corrispondenza del valore medio della variabile gear ratio. Per verificarlo è sufficiente calcolare nuovamente gli effetti marginali, questa volta scegliendo un valore diverso di gear ratio rispetto al valore medio. Scegliamo, ad esempio, di calcolare gli effetti marginali in corrispondenza di un gear ratio pari al valore 2.5. Per comodità eviterò di riportare nuovamente il logit ed il probit. Ricordate comunque che mfx può essere utilizzato solo dopo i comandi logit e probit (e non autonomamente). L opzione at() consente di fissare il valore della variabile ad un valore diverso rispetto al valore medio (di default) mfx compute, at(gear_ratio=2.5) Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o mfx compute, at(gear_ratio=2.5) Marginal effects after logit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o In corrispondenza di un gear ratio pari a 2.5, l effetto di un incremento infinitesimo nel gear ratio ha un impatto non statisticamente diverso da zero, dunque un effetto nullo, sulla probabilità attesa di trovarsi di fronte un automobile straniera. Questo risultato è molto diverso da quello che ottenevamo, in corrispondenza del suo valore medio. Il motivo di questo diverso risultato è ovvio nel momento in cui si analizza la distribuzione delle probabilità predette dal modello (probit o logit) in corrispondenza dei due punti. Richiamiamo dunque il grafico del modello probit (i risultati non cambierebbero nel caso del logit, che presenta ugualmente un effetto marginale non statisticamente diverso da zero), tracciando due linee verticali, una in corrispondenza di gear ratio pari a 2.5 ed una in corrispondenza a 3.0 e congiungendo con una linea i punti stimati.. twoway (scatter basic_p gear_ratio, mcolor(green) sort(basic_p) connect(line)) (scatter foreign gear_ratio, mcolor(black) msymbol(circle_hollow)) (lfit foreign gear_ratio), mcolor(red), yline(0) yline(1) xline(2.5) xline(3) title(probit) 10

11 Probit Gear Ratio Pr(Foreign) Probit1 Fitted values Car type In corrispondenza di un gear ratio pari a 2.5 non abbiamo alcuna automobile straniera. Le automobili straniere hanno un gear ratio molto più vicino a 3.0. Se consideriamo la linea che si ottiene unendo tutte le predizioni appare evidente come, in corrispondenza del valore 2.5 l inclinazione della funzione in quel punto non sia significativamente diversa da zero. In corrispondenza del valore 3.0 invece la funzione è inclinata positivamente (e presenta un inclinazione simile a quella del modello lineare) Goodness-of fit (1) (2) (3) Linear probit logit R-squared 0.50 Pseudo R-squared La capacità previsiva dei tre modelli appare molto simile, con un R 2 pari a 0.5 per il modello lineare ed uno pseudo R 2 rispettivamente pari a 0.52 e 0.51 per probit e logit. Conoscete già il significato di R 2 per averlo incontrato nelle precedenti lezioni. Cosa significa invece Pseudo R 2? Quando la variabile dipendente è di tipo qualitativo, l accuratezza della predizione può essere valutata in termini di corrispondenza tra le probabilità calcolate ed il valore reale assunto dalla variabile dipendente o in termini della capacità del modello di prevedere correttamente le risposte osservate. Contrariamente rispetto al modello di regressione lineare, in questo ambito esiste una varietà di misure di goodness of fit. Noi ne vedremo due, lo Pseudo R 2 fornito da Stata e l R 2 p, che confronta la capacità previsiva dei modelli. Lo Pseudo R 2 misura (come del resto accade per l R 2 ) l abilità del modello stimato nello spiegare la variabilità del fenomeno sotto analisi, prendendo come termine di paragone un modello che contenga solo una costante come variabile esplicativa. Quello che Stata chiama Pseudo R 2 è in realtà quello che in letteratura è conosciuto come McFadden R 2. Se indichiamo con log L 1 il valore di massima verosimiglianza del modello stimato e con L 0 il massimo valore della funzione di verosimiglianza quando tutti i parametri, eccettuata l intercetta, sono posti a zero, la formula dello Pseudo R 2 calcolato da Stata (McFadden R 2 ) è: Pseudo R 2 = L 1 1 L 0 11

12 I valori di L 1 e di L 0 sono ottenibili dalle precedenti regressioni. Prendiamo il modello probit. Il valore di L 0 è quello riportato in corrispondenza dell iterazione 0, ovvero, Il valore di L 1 invece è quello riportato al termine del processo iterativo, ovvero Lo Pseudo R allora sarà = 1- = Potete facilmente calcolare nello stesso modo lo Pseudo R 2 anche per il modello logit. Ricordate sempre che le possibili misure della goodness of fit in questo ambito danno risultati diversi tra loro. E dunque importante sapere di che misura si stia parlando. Passiamo ora all R 2 p. Questo valuta la capacità dei diversi modelli di discriminare correttamente automobili nazionali ed estere. Stabiliamo che il modello preveda y=1 se la probabilità predetta è maggiore di 0.5 e y=0 se la probabilità predetta è minore o uguale a 0.5. Nel nostro caso dovremmo creare tre nuove dummy variables che chiameremo yhat e poi fare una tabulazione nella quale incrociamo la variabile foreign con le predizioni gen yhat_o=basic_o>0.5. gen yhat_p=basic_p>0.5. gen yhat_l=basic_l>0.5 NOTA BENE: in caso in cui abbiamo dei valori mancanti missing STATA li vede come >0.5 Dunque sarà necessario correggere la variabile yhat prima di fare la tabulazione onde evitare errori. E sufficiente scrivere: replace yhat_o =. if basic_o ==. replace yhat_p =. if basic_p ==. replace yhat_l =. if basic_l ==. Nel caso specifico non ce n é bisogno in quanto non abbiamo valori missing.. tab foreign yhat_o yhat_o Car type 0 1 Total Domestic Foreign Total Il modello lineare nelle probabilità identifica correttamente 16 automobili straniere su 22 e 48 automobili nazionali su 52 (in giallo). Ne considera domestiche 6 che in realtà sono straniere e straniere 4 che in realtà sono domestiche, per un totale di 10 previsioni errate.. tab foreign yhat_p yhat_p Car type 0 1 Total Domestic Foreign Total tab foreign yhat_l yhat_l 12

13 Car type 0 1 Total Domestic Foreign Total I modelli logit e probit invece identificano correttamente 63 automobili e sbagliano in 11 casi A questo punto calcoliamo il valore di R 2 p ( frazione correttamente predetta ) come 1 meno il rapporto tra gli errori di predizione del modello (la somma delle osservazioni erroneamente classificate, ovvero quelle visibili nelle intersezioni 0-1 e 1-0) e quelli fatti da un modello che utilizzi solo la costante (nel nostro caso, essendo le automobili straniere circa un terzo, il modello con la sola costante classificherebbe tutte le automobili come nazionali in quanto il valore medio della variabile sarebbe 22/74 per tutti i tre modelli). Tot. Err. Mod. Utilizziamo la formula 1- Tot. err. Mod.cost Otteniamo i seguenti risultati: (1) (2) (3) Linear probit logit R-squared 0.50 Pseudo R-squared R 2 p E interessante notare come, mentre dal punto di vista della distanza tra i valori predetti dal modello ed i veri valori il modello lineare fornisce valori mediamente meno precisi (anche se di poco) rispetto ai modelli probit e logit, in questo caso, quando guardiamo alle previsioni che si potrebbero trarre dai vari modelli, il modello lineare dimostra una capacità predittiva (riuscendo ad identificare una autovettura straniera in più). Passiamo ora all analisi multivariata. 3 Analisi multivariata 3.1. Analisi multivariata: osservazioni generali Per analisi multivariata intendiamo un analisi caratterizzata dall inclusione nel modello di almeno due variabili esplicative oltre la costante. Quando inseriamo più variabili esplicative nel nostro modello occorre sempre ricordare che il coefficiente che misura quanto vari Y per un incremento unitario di una variabile esplicativa va inteso a parità delle altre variabili esplicative (ceteris paribus). Questa osservazione è importante in quanto (come vedremo tra poco), a volte risultati apparentemente controintuitivi hanno una chiara spiegazione logica che discende direttamente dalla condizione di ceteris paribus. Come avete già visto nelle lezioni precedenti, nel caso della regressione OLS multivariata che analizzava il rapporto tra risultati scolastici, taglia delle scarpe ed età: l omissione di una variabile esplicativa rilevante (eta) comporta stime distorte dell effetto della variabile inclusa (taglia), nella misura in cui variabile omessa e variabile inclusa covariano. Di fatto, l effetto è quello di male interpretare i risultati. Nel caso che avete già studiato, l omissione dell eta spingeva a sovrastimare l importanza della misura delle scarpe sull abilità di lettura. Nell esempio che segue avremo il caso in cui la presenza congiunta di tre variabili (tutte significative), porterà il coefficiente di una di esse ad assumere valori negativi anziché positivi (come accadrebbe invece in una regressione bivariata che includesse solo questa variabile e la costante) NOTA: E legato a questa considerazione anche il problema delle variabili omesse (e del loro effetto sui coefficienti delle variabili incluse), da voi già osservato per le regressioni col metodo OLS. Nella parte 13

14 opzionale al termine di questa dispensa riportiamo (per chi fosse interessato) un esempio pratico di test di specificazione (per l individuazione di variabili omesse) per i modelli con variabile dipendente binaria. Le nuove variabili esplicative Avendo a nostra disposizione diverse altre variabili che qualificano le automobili del nostro campione, decidiamo di complicare il nostro modello nel tentativo di ottenere stime più precise. Le variabili da noi utilizzate oltre a gear_ratio sono ora mpg (miglia per gallone) e length (lunghezza in pollici). Dati i ridotti limiti di velocità americani, la storica preferenza degli americani per le automobili di grandi dimensioni e le norme ambientali meno stringenti (oltre al costo minore del carburante) ci possiamo attendere che, oltre ad avere una maggiore accelerazione, le automobili straniere siano meno lunghe di quelle americane e consumino meno. Sapendo che la nostra regressione lineare è caratterizzata da eteroschedasticità negli errori utilizziamo l opzione robust per ottenere stime robuste degli errori standard e delle statistiche t (in realtà questo non ha alcuna influenza sul valore del coefficiente stimato ma solo sulle inferenze che possiamo trarre guardando alle statistiche t ed ai p-value). Per i modelli probit e logit provvediamo inoltre a calcolare gli effetti marginali. Infine calcoliamo il valore di R 2 p. Nella prossima sezione commenteremo i risultati ottenuti reg foreign gear_ratio length mpg, robust Linear regression Number of obs = 74 F( 3, 70) = Prob > F = R-squared = Root MSE = Robust foreign Coef. Std. Err. t P> t [95% Conf. Interval] gear_ratio length mpg _cons probit foreign gear_ratio length mpg Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Iteration 6: log likelihood = Probit regression Number of obs = 74 LR chi2(3) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio length mpg _cons

15 . mfx Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o length mpg logit foreign gear_ratio length mpg Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Iteration 5: log likelihood = Iteration 6: log likelihood = Logistic regression Number of obs = 74 LR chi2(3) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] gear_ratio length mpg _cons mfx Marginal effects after logit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X gear_r~o length mpg Generiamo ora nuove variabili per calcolare R 2 p. gen yhat2_o=multi_o>0.5. gen yhat2_p=multi_p>0.5. gen yhat2_l=multi_l>0.5.. tab foreign yhat2_o yhat2_o Car type 0 1 Total Domestic Foreign Total tab foreign yhat2_p yhat2_p Car type 0 1 Total Domestic

16 Foreign Total tab foreign yhat2_l yhat2_l Car type 0 1 Total Domestic Foreign Total Ora possiamo calcolare il valore di R 2 p per i tre modelli: Modello lineare e logit (in questo caso sono uguali). display 1-(10/22) Modello probit. display 1-(9/22) Analisi bivariata: interpretazione dei risultati dei tre modelli Anche nel contesto multivariato, ovviamente, vale quanto detto nel contesto bivariato (ovvero quando avevamo semplicemente la costante ed una variabile esplicativa). I coefficienti di probit e logit non rappresentano gli effetti marginali delle variabili esplicative sulla variabile dipendente e dunque per poter valutare l impatto della variabile di riferimento sulla variabile dipendente occorre calcolarli esplicitamente in corrispondenza di un qualche valore delle delle variabili esplicative. Nel nostro caso abbiamo utilizzato nuovamente il comando mfx che ha calcolato di default il valore degli effetti marginali in corrispondenza dei valori medi assunti dalle variabili esplicative. Ecco la tabella riassuntiva con i risultati ottenuti. Gear Ratio (regr bivariata) (1) (2) (3) (2b) (3b) Linear probit logit mfx probit mfx logit (8.48)** (4.85)** (4.47)** (0.187)** (0.207)** Gear Ratio (6.05)** (3.76)** (3.52)** (0.241)* (0.232)* Length (in.) (2.25)* (2.42)* (2.37)* (0.004)* (0.004)* Mileage (mpg) (1.75) (2.20)* (2.19)* (0.013) (0.012) Constant (0.18) (0.27) (0.29) Observations Robust t statistics in parentheses * significant at 5%; ** significant at 1% NOTA: anche se nel nostro esercizio non accade, quando abbiamo tra le variabili esplicative delle variabili dummy binarie - che possono assumere solo valori 0 o 1 - non ha senso pensare a variazioni infinitesime della variabile binaria. Utilizzando il comando mfx comunque Stata provvede autonomamente a modificare il calcolo dell effetto marginale, calcolando l effetto della variazione da 0 ad 1 anziché di una variazione infinitesima. I coefficienti delle variabili dummy vanno dunque interpretati tenendo conto di ciò Coefficienti ed effetti marginali 16

17 Gear ratio Innanzitutto, tutti i modelli da noi stimati confermano i risultati dell analisi bivariata, individuando una relazione positiva tra il gear_ratio e la probabilità che l automobile analizzata sia straniera. In questo caso però il coefficiente stimato ha un valore inferiore a quanto aveva in precedenza. L impatto di una variazione infinitesima del gear_ratio è infatti pari a volte la variazione anziché come accadeva nell analisi bivariata. Questo, come abbiamo accennato in precedenza, è conseguenza del fatto che ora gli effetti marginali stimati vengono calcolati tenendo conto della condizione ceteris paribus, ovvero al netto dell effetto delle altre variabili. Nel caso specifico possiamo pensare che la differenza tra i coefficienti stimati dipenda dal fatto che il coefficiente di gear_ratio nella regressione bivariata catturava anche parte dell effetto delle altre due variabili (la lunghezza dell automobile ed il numero di miglia che questa percorre con un gallone di benzina). Ora, il coefficiente di gear ratio viene osservato al netto dell effetto delle altre due variabili sulla probabilità di trovarsi di fronte ad un automobile straniera. Lunghezza Per quanto riguarda la lunghezza, individuiamo una relazione negativa tra la lunghezza di un automobile e la probabilità che questa sia straniera (le automobili americane tendono ad essere più lunghe). L effetto marginale di un aumento della lunghezza di un automobile sulla probabilità che questa sia straniera viene valutata approssimativamente pari volte l incremento della lunghezza in pollici da tutti e tre i modelli. Miglia per gallone I modelli analizzati danno poi un risultato di più difficile interpretazione per quanto riguarda l effetto della variabile mpg (miglia per gallone). Innanzitutto, in tutti i modelli la variabile mpg entra con segno negativo. Questo contraddice la nostra aspettativa che le automobili americane consumino di più, aspettativa che verrebbe confermata anche da un analisi dei valori medi di mpg per le automobili americane e straniere.. sort foreign. by foreign: sum mpg -> foreign = Domestic Variable Obs Mean Std. Dev. Min Max mpg > foreign = Foreign Variable Obs Mean Std. Dev. Min Max mpg Cosa sta accadendo? Come è possibile che, se in media le automobili americane consumano in media di più (dunque percorrono mediamente meno miglia con un gallone di carburante), il coefficiente di mpg sia negativo e significativo? Occorre a questo punto ripensare a quanto detto all inizio della sezione sull analisi multivariata a proposito della condizione ceteris paribus. In realtà, quello che il nostro modello ci sta dicendo non è tanto che le automobili americane consumino di meno in assoluto, ma che consumano di meno ceteris paribus, ovvero a parità di lunghezza e di gear_ratio. E facile fare una controprova stimando un modello bivariato con mpg come unica variabile esplicativa.. reg foreign mpg Source SS df MS Number of obs = F( 1, 72) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = foreign Coef. Std. Err. t P> t [95% Conf. Interval] 17

18 mpg _cons probit foreign mpg Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Probit regression Number of obs = 74 LR chi2(1) = Prob > chi2 = Log likelihood = Pseudo R2 = foreign Coef. Std. Err. z P> z [95% Conf. Interval] mpg _cons mfx Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X mpg In questo caso, come ci attendevamo, viene trovato un legame di tipo positivo tra miglia percorse per gallone ed il fatto che l automobile sia straniera. Questo modello però non tiene conto di altri fattori, come appunto lunghezza e gear ratio dell automobile. Se è vero che le automobili americane consumano di più, è anche vero che queste sono mediamente più lunghe (e dunque più pesanti). Questo può essere anche notato osservando la correlazione tra le variabili incluse nel nostro modello.. corr mpg length gear_ratio (obs=74) mpg length gear_r~o mpg length gear_ratio Appare evidente come esistano una correlazione fortemente negativa tra lunghezza e miglia per gallone (e gear ratio) ed una correlazione positiva tra miglia per gallone e gear ratio. Abbiamo visto che la correlazione tra le variabili contribuisce a determinare le stime dei coefficienti. Quello che il nostro modello ci dice in sintesi è che - a parità di peso e di gear ratio - le automobili straniere consumano più carburante. Chiarito il dubbio sul segno, vi è un altro problema. Mentre per il modello lineare l effetto della variabile miglia per gallone non è significativamente diverso da zero (almeno ad un livello di significatività del 5% ), 18

19 secondo i modelli probit e logit il legame è significativamente diverso da zero. Perché questa apparente contraddizione? Innanzitutto osserviamo che ad un livello di significatività del 10% la variabile mpg sarebbe considerata significativa. Ricordiamo poi che il modello lineare nelle probabilità, ipotizza una relazione lineare (un effetto marginale costante, medio ). Forse il modello lineare incontra maggiori difficoltà a stabilire l esistenza di questa relazione tra mpg e la probabilità che l automobile osservata sia di fabbricazione straniera proprio perché la relazione non è propriamente lineare. I modelli probit e logit, che invece come abbiamo visto nella sezione della stima bivariata tengono conto del fatto che gli effetti marginali sulle probabilità non sono costanti ma possono variare con il variare del valore della variabile esplicativa (si basano espressamente su ipotesi di non linearità della relazione) individuano con maggior precisione la relazione esistente. Se guardiamo - anziché i coefficienti di probit e logit - gli effetti marginali calcolati in corrispondenza del valore medio delle variabili esplicative, troviamo però che anche gli effetti marginali della variabile mpg calcolati dai modelli probit e logit non sono significativamente diversi da zero ad un livello di significatività del 5% mentre lo sono al 10%. Come è possibile questo? Soprattutto, dobbiamo pensare che questo contraddica quanto osservato in precedenza? No. Anche se in corrispondenza dei valori medi delle variabili l effetto marginale di mpg non é significativamente diverso da zero, considerando l intera distribuzione delle probabilità, l effetto è negativo e significativo. Purtroppo non è possibile mostrare graficamente i grafici delle probabilità attese come avevamo fatto nel caso bivariato (avremmo bisogno di una grafica quadridimensionale), ma possiamo verificare che questo è vero ad esempio calcolando gli effetti marginali in corrispondenza di altri valori, non solo di mpg ma anche delle altre variabili. Gli effetti marginali qui sotto riportati sono calcolati rispetto al modello probit ma il concetto non cambierebbe anche calcolando gli effetti marginali per il modello logit.. mfx compute, at(length=168) warning: no value assigned in at() for variables gear_ratio mpg; means used for gear_ratio mpg Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X length gear_r~o mpg mfx compute, at(mpg=12) warning: no value assigned in at() for variables length gear_ratio; means used for length gear_ratio Marginal effects after probit y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X length gear_r~o mpg mfx compute, at(gear_ratio=3.5) warning: no value assigned in at() for variables length mpg; means used for length mpg Marginal effects after probit 19

20 y = Pr(foreign) (predict) = variable dy/dx Std. Err. z P> z [ 95% C.I. ] X length gear_r~o mpg Questi sono ovviamente solo esempi ma dimostrano che, in effetti, in corrispondenza di questi punti l effetto di una variazione di mpg sulle probabilità è significativamente diverso da zero Goodness-of-fit R-squared 0.54 Pseudo R-squared R 2 p La tabella sovrastante riporta i valori per R-quadro, pseudo R-quadro e Frazione correttamente predetta (come viene chiamata dal vostro testo di riferimento) In questo caso il modello probit sovraperforma (seppur di poco) i modelli logit e lineare secondo entrambi i tipi di misura. NOTA:Può essere interessante notare che il modello lineare perde il confronto più nella capacità di definire i veri valori delle probabilità (compresi tra zero ed uno) che non rispetto alla capacità di discriminare correttamente tra automobili americane e straniere. Questo è una conseguenza del fatto che, anche se sbaglia stimando valori di probabilità inferiori a zero e superiori ad uno, tipicamente la capacità di discriminare viene testata maggiormente in corrispondenza delle osservazioni con probabilità stimata attorno lo

Regressione Lineare con un Singolo Regressore

Regressione Lineare con un Singolo Regressore Regressione Lineare con un Singolo Regressore Quali sono gli effetti dell introduzione di pene severe per gli automobilisti ubriachi? Quali sono gli effetti della riduzione della dimensione delle classi

Dettagli

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA NB Come potete vedere facendo la somma dei punteggi il numero di quesiti è superiore a quello

Dettagli

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7. Maria Elena Bontempi e.bontempi@economia.unife.it

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7. Maria Elena Bontempi e.bontempi@economia.unife.it LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7 Maria Elena Bontempi e.bontempi@economia.unife.it VI LEZIONE: Analisi dei residui di stima: outlier, eteroschedasticità. Leverage.

Dettagli

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO I TEST STATISTICI E IL P-VALUE Obiettivo di questo Learning Object è ripassare la teoria ma soprattutto la pratica dei test statistici, con un attenzione particolare ai test che si usano in Econometria.

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

Econometria. lezione 17. variabili dipendenti binarie. Econometria. lezione 17. AA 2014-2015 Paolo Brunori

Econometria. lezione 17. variabili dipendenti binarie. Econometria. lezione 17. AA 2014-2015 Paolo Brunori AA 2014-2015 Paolo Brunori domande di mutui rigettate - nei dati raccolti a Boston negli anni 90 il tasso di rifiuto è 28% per i neri e 9% per i bianchi - si può parlare di discriminazione? - è possibili

Dettagli

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Esercizio 1 Si consideri il seguente modello ad effetti fissi con variabili binarie: + 1 2 a) supponete che N=3. Si mostri che i regressori

Dettagli

Limited Dependent Variable Models

Limited Dependent Variable Models Limited Dependent Variable Models Logit Tobit Probit Modelli Logit e Probit Latent variable models for binary choice Models for descrete dependent variable Traducendo Spesso vogliamo studiare (le determinanti

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12) Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola

Dettagli

La regressione lineare multipla

La regressione lineare multipla 13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività

Dettagli

Maria Chiara D Errico Università degli Studi di Perugia. Laboratorio di Econometria Introduzione a Stata

Maria Chiara D Errico Università degli Studi di Perugia. Laboratorio di Econometria Introduzione a Stata Maria Chiara D Errico Università degli Studi di Perugia Laboratorio di Econometria Introduzione a Stata Perugia, 11 Marzo 2013 STATA STATA è un software per l elaborazione dati e l analisi Statistica.

Dettagli

Il modello di regressione lineare multivariata

Il modello di regressione lineare multivariata Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2013 Rossi MRLM Econometria - 2013 1 / 39 Outline 1 Notazione 2 il MRLM 3 Il modello partizionato 4 Collinearità

Dettagli

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg. Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.htm) Per importare i dati in Easy Reg bisogna: 1. Cambiare le impostazioni

Dettagli

Modello di regressione lineare

Modello di regressione lineare Modello di regressione lineare a cura di Giordano dott. Enrico enrico.giordano@meliorbanca.com Nel presente lavoro viene descritto in modo dettagliato (attraverso anche un impatto visivo), l analisi di

Dettagli

La Regressione Lineare

La Regressione Lineare La Regressione Lineare. Cos è l Analisi della Regressione Multipla? L analisi della regressione multipla è una tecnica statistica che può essere impiegata per analizzare la relazione tra una variabile

Dettagli

Analisi discriminante

Analisi discriminante Capitolo 6 Analisi discriminante L analisi statistica multivariata comprende un corpo di metodologie statistiche che permettono di analizzare simultaneamente misurazioni riguardanti diverse caratteristiche

Dettagli

Lineamenti di econometria 2

Lineamenti di econometria 2 Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4) Regressione con Variabili Dummy Regressione con Variabili Dummy La

Dettagli

RICERCHE DI MERCATO. 5.6 Analisi Fattoriale (Componenti Principali)

RICERCHE DI MERCATO. 5.6 Analisi Fattoriale (Componenti Principali) RICERCHE DI MERCATO 5.6 Analisi Fattoriale (Componenti Principali) Prof. L. Neri Dip. di Economia Politica Premessa Come evidenziato in precedenza l approccio di segmentazione per omogeneità prevede la

Dettagli

Lineamenti di econometria 2

Lineamenti di econometria 2 Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4) La Regressione Multipla La Regressione Multipla La regressione multipla

Dettagli

Gli errori e i bias negli studi epidemiologici osservazionali e sperimentali

Gli errori e i bias negli studi epidemiologici osservazionali e sperimentali CdLM Classe LM-67 - Scienze e tecniche delle attività motorie preventive ed adattate C.I. Epidemiologia e valutazione degli stili di vita sulla salute Modulo: Metodologia epidemiologica Gli errori e i

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

3) ANALISI DEI RESIDUI

3) ANALISI DEI RESIDUI 3) ANALISI DEI RESIDUI Dopo l analisi di regressione si eseguono alcuni test sui residui per avere una ulteriore conferma della validità del modello e delle assunzioni (distribuzione normale degli errori,

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

Ulteriori metodi per la stima di una singola equazione

Ulteriori metodi per la stima di una singola equazione 1 Materiali didattici: ANALISI E PREVISIONI NEI MERCATI FINANZIARI a.a. 2014-2015 DISPENSA N.3bis (APPENDICE alla dispensa n.3) Ulteriori metodi per la stima di una singola equazione (Prof. Giovanni Verga)

Dettagli

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Alessandra Pelliccia Matteo Cataldi Matteo Filippo Donadi 0 AGENDA Fonti Descrizione dei dati Variabili

Dettagli

Lineamenti di econometria 2

Lineamenti di econometria 2 Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4) Aspetti Statistici della Regressione Aspetti Statistici della Regressione

Dettagli

è decidere sulla verità o falsità

è decidere sulla verità o falsità I test di ipotesi I test di ipotesi Il test delle ipotesi consente di verificare se, e in quale misura, una determinata ipotesi (di carattere sociale, biologico, medico, economico, ecc.) è supportata dall

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo i dati nel file esercizio10_dati.xls.

Dettagli

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui

Dettagli

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui

Dettagli

Gli iscritti ai corsi di Laurea e di Laurea Magistrale del DIMI Analisi statistiche sui dati 2009-2014

Gli iscritti ai corsi di Laurea e di Laurea Magistrale del DIMI Analisi statistiche sui dati 2009-2014 Gli iscritti ai corsi di Laurea e di Laurea Magistrale del DIMI Analisi statistiche sui dati 2009-2014 Le statistiche proposte si basano su due fonti di dati. Gli archivi della Segreteria didattica hanno

Dettagli

Regressione Logistica

Regressione Logistica Regressione Logistica Esercizio Data set: Nel data set heart.txt (o heart.sav) sono contenute informazioni riguardo 302 pazienti che hanno avuto infarto e 60 che non hanno avuto infarto in uno studio retrospettivo

Dettagli

Basi di matematica per il corso di micro

Basi di matematica per il corso di micro Basi di matematica per il corso di micro Microeconomia (anno accademico 2006-2007) Lezione del 21 Marzo 2007 Marianna Belloc 1 Le funzioni 1.1 Definizione Una funzione è una regola che descrive una relazione

Dettagli

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Regressione Logistica: un Modello per Variabili Risposta Categoriali : un Modello per Variabili Risposta Categoriali Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 1 / 54 Introduzione Premessa I modelli di regressione

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

EMBA PART TIME 2012 ROMA I ANNO

EMBA PART TIME 2012 ROMA I ANNO BUSINESS STATISTICS: ASSIGNMENT II: EMBA PART TIME 2012 ROMA I ANNO PROF. MOSCONI ESERCIZIO 1: USO DEL MODELLO DI REGRESSIONE PER DETERMINARE IL VALORE DEGLI IMMOBILI. ESERCIZIO 2: PREVISIONE DI VARIABILI

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Valutare un test. Affidabilità e validità di un test. Sensibilità e specificità

Valutare un test. Affidabilità e validità di un test. Sensibilità e specificità Valutare un test 9 Quando si sottopone una popolazione ad una procedura diagnostica, non tutti i soggetti malati risulteranno positivi al test, così come non tutti i soggetti sani risulteranno negativi.

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

22.03.07 In alcuni casi è possibile applicare sia l analisi log lineare che la regressione logistica. Analisi log lineare e regressione logistica:

22.03.07 In alcuni casi è possibile applicare sia l analisi log lineare che la regressione logistica. Analisi log lineare e regressione logistica: .03.07 In alcuni casi è possibile applicare sia l analisi log lineare che la regressione logistica. Analisi log lineare e regressione logistica: differenze Nella regressione logistica le variabili vengono

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

Note sull esperienza Misura di g versione 1, Francesco, 7/05/2010

Note sull esperienza Misura di g versione 1, Francesco, 7/05/2010 Note sull esperienza Misura di g versione 1, Francesco, 7/05/010 L esperienza, basata sullo studio di una molla a spirale in condizioni di equilibrio e di oscillazione, ha diversi scopi e finalità, tra

Dettagli

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction S. Gorla: Citroën Italia S.p.A. e Consigliere di giunta AicqCN; E. Belluco: statistico, PG. Della Role: master Black

Dettagli

6. Modelli statistici: analisi della regressione lineare

6. Modelli statistici: analisi della regressione lineare BIOSTATISTICA 6. Modelli statistici: analisi della regressione lineare Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno.

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno. Corso di Statistica Medica Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno. Sono previste 40 ore complessive, di cui almeno 16 di lezione frontale e le restanti

Dettagli

Design of Experiments

Design of Experiments Design of Experiments Luigi Amedeo Bianchi 1 Introduzione Cominciamo spiegando cosa intendiamo con esperimento, ossia l investigare un processo cambiando i dati in ingresso, osservando i cambiamenti che

Dettagli

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette

Dettagli

General Linear Model. Esercizio

General Linear Model. Esercizio Esercizio General Linear Model Una delle molteplici applicazioni del General Linear Model è la Trend Surface Analysis. Questa tecnica cerca di individuare, in un modello di superficie, quale tendenza segue

Dettagli

Appunti per gli studenti. Modelli Quantitativi per il Marketing materiale delle lezioni di laboratorio

Appunti per gli studenti. Modelli Quantitativi per il Marketing materiale delle lezioni di laboratorio UNIVERSITÀ DI BOLOGNA FACOLTÀ DI ECONOMIA CORSO DI LAUREA IN ECONOMIA E MARKETING Appunti per gli studenti Modelli Quantitativi per il Marketing materiale delle lezioni di laboratorio VERSIONE PRELIMINARE

Dettagli

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre.

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Corso di Statistica Medica 2004-2005 Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Sono previste 30 ore di lezione di statistica e 12 di

Dettagli

Test di restrizioni lineari nel MRLM: Esempi

Test di restrizioni lineari nel MRLM: Esempi Test di restrizioni lineari nel MRLM: Esempi Eduardo Rossi Università degli Studi di Pavia Corso di Econometria Marzo 2012 Rossi Test F: esempi 2012 1 / 23 Funzione di produzione Cobb-Douglas Esempio GDP

Dettagli

A.1 Rappresentazione geometrica dei segnali

A.1 Rappresentazione geometrica dei segnali Appendice A Rappresentazione dei segnali A.1 Rappresentazione geometrica dei segnali Scomporre una generica forma d onda s(t) in somma di opportune funzioni base è operazione assai comune, particolarmente

Dettagli

Serie numeriche e serie di potenze

Serie numeriche e serie di potenze Serie numeriche e serie di potenze Sommare un numero finito di numeri reali è senza dubbio un operazione che non può riservare molte sorprese Cosa succede però se ne sommiamo un numero infinito? Prima

Dettagli

MODELLO DI REGRESSIONE PER DATI DI PANEL

MODELLO DI REGRESSIONE PER DATI DI PANEL MODELLO DI REGRESSIONE PER DAI DI PANEL 5. Introduzione Storicamente l analisi econometrica ha proceduto in due distinte direzioni: lo studio di modelli macroeconomici, sulla base di serie temporali di

Dettagli

Appunti di Econometria

Appunti di Econometria Appunti di Econometria ARGOMENTO [2]: ESTENSIONI DEL MODELLO LINEARE Tommaso Nannicini Università Bocconi Ottobre 2010 1 Scelta della forma funzionale Abbiamo visto che abbandonare l assunzione di normalità

Dettagli

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie Università del Piemonte Orientale Corso di dottorato in medicina molecolare aa 2002 2003 Corso di Statistica Medica Inferenza sulle medie Statistica U Test z Test t campioni indipendenti con uguale varianza

Dettagli

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12 Indice 1 Introduzione ai modelli lineari 2 2 Dataset 3 3 Il Modello 8 4 In pratica 12 41 Peso e percorrenza 12 1 Capitolo 1 Introduzione ai modelli lineari Quando si analizzano dei dati, spesso si vuole

Dettagli

Esercizi: i rendimenti finanziari

Esercizi: i rendimenti finanziari Esercizi: i rendimenti finanziari Operazioni algebriche elementari Distribuzione e dipendenza Teoria di probabilità Selezione portafoglio p. 1/25 Esercizio I Nella tabella sottostante relativa all indice

Dettagli

Da una a più variabili: derivate

Da una a più variabili: derivate Da una a più variabili: derivate ( ) 5 gennaio 2011 Scopo di questo articolo è di evidenziare le analogie e le differenze, relativamente al calcolo differenziale, fra le funzioni di una variabile reale

Dettagli

Argomenti avanzati. La creazione di costanti definite dall'utente.

Argomenti avanzati. La creazione di costanti definite dall'utente. Argomenti avanzati In questa guida vedremo due argomenti che rientrano sotto il genere di utili, ma spesso non sono utilizzati. Il primo argomento discute la creazione di costanti definite dall'utente.

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Istituzioni di Economia Laurea Triennale in Ingegneria Gestionale. Lezione 24 Il mercato dei beni

Istituzioni di Economia Laurea Triennale in Ingegneria Gestionale. Lezione 24 Il mercato dei beni UNIVERSITÀ DEGLI STUDI DI BERGAMO Laurea Triennale in Ingegneria Gestionale Lezione 24 Il mercato dei beni Prof. Gianmaria Martini Domanda ed offerta Uno degli schemi logici fondamentali dell analisi economica

Dettagli

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag. 44. Questa versione si applica a IBM SPSS Statistics

Dettagli

Il concetto di correlazione

Il concetto di correlazione SESTA UNITA Il concetto di correlazione Fino a questo momento ci siamo interessati alle varie statistiche che ci consentono di descrivere la distribuzione dei punteggi di una data variabile e di collegare

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

I punteggi zeta e la distribuzione normale

I punteggi zeta e la distribuzione normale QUINTA UNITA I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario

Dettagli

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 23 Sommario Variabili di controllo

Dettagli

Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla

Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Regressione logistica Regressione lineare multipla Nel modello di regressione lineare semplice

Dettagli

Approfondimento 5.2. Individuare gli outlier

Approfondimento 5.2. Individuare gli outlier Approfondimento 5.2 Individuare gli outlier Gli outlier sono quei valori che, rispetto agli altri del campione, risultano particolarmente estremi. Questo non significa che non siano punteggi validi, ma

Dettagli

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco ANALISI DI SITUAZIONE - LIVELLO COGNITIVO La classe ha dimostrato fin dal primo momento grande attenzione e interesse verso gli

Dettagli

1. Richiami di Statistica. Stefano Di Colli

1. Richiami di Statistica. Stefano Di Colli 1. Richiami di Statistica Metodi Statistici per il Credito e la Finanza Stefano Di Colli Dati: Fonti e Tipi I dati sperimentali sono provenienti da un contesto delimitato, definito per rispettare le caratteristiche

Dettagli

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA ESERCIZI SVOLTI PER LA PROVA DI STATISTICA Stefania Naddeo (anno accademico 4/5) INDICE PARTE PRIMA: STATISTICA DESCRITTIVA. DISTRIBUZIONI DI FREQUENZA E FUNZIONE DI RIPARTIZIONE. VALORI CARATTERISTICI

Dettagli

Appunti sulla regressione lineare semplice e multipla

Appunti sulla regressione lineare semplice e multipla Appunti sulla regressione lineare semplice e multipla Germano Rossi 9 aprile 004 vers. 0.3. Indice Indice 1 1 Appunti sulla regressione lineare semplice e multipla 1.1 Introduzione.......................................

Dettagli

Domanda e offerta di lavoro

Domanda e offerta di lavoro Domanda e offerta di lavoro 1. Assumere (e licenziare) lavoratori Anche la decisione di assumere o licenziare lavoratori dipende dai costi che si devono sostenere e dai ricavi che si possono ottenere.

Dettagli

STUDIO DI SETTORE VG87U

STUDIO DI SETTORE VG87U ALLEGATO 21 NOTA TECNICA E METODOLOGICA STUDIO DI SETTORE VG87U CONSULENZA FINANZIARIA, AMMINISTRATIVO-GESTIONALE E AGENZIE DI INFORMAZIONI COMMERCIALI CRITERI PER L EVOLUZIONE DELLO STUDIO DI SETTORE

Dettagli

Regressione logistica

Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello

Dettagli

Strumenti informatici 13.1

Strumenti informatici 13.1 1 Strumenti informatici 1.1 I test post-hoc nel caso del confronto fra tre o più proporzioni dipendenti e la realizzazione del test Q di Cochran in SPSS Nel caso dei test post-hoc per il test Q di Cochran,

Dettagli

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili:

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili: Incertezze di misura Argomenti: classificazione delle incertezze; definizione di incertezza tipo e schemi di calcolo; schemi per il calcolo dell incertezza di grandezze combinate; confronto di misure affette

Dettagli

CONFRONTO TRA TECNICHE DI PREVISIONE: Processi regressivi e reti neurali artificiali

CONFRONTO TRA TECNICHE DI PREVISIONE: Processi regressivi e reti neurali artificiali Paolo Mezzera Ottobre 2003 CONFRONTO TRA TECNICHE DI PREVISIONE: Processi regressivi e reti neurali artificiali Questo lavoro ha lo scopo di confrontare previsioni ottenute mediante processi regressivi

Dettagli

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data

Dettagli

lezione 18 AA 2015-2016 Paolo Brunori

lezione 18 AA 2015-2016 Paolo Brunori AA 2015-2016 Paolo Brunori Previsioni - spesso come economisti siamo interessati a prevedere quale sarà il valore di una certa variabile nel futuro - quando osserviamo una variabile nel tempo possiamo

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

Analisi discriminante e regressione logistica: applicazione al sondaggio sul tema delle aggregazioni comunali per il Comune di Novazzano

Analisi discriminante e regressione logistica: applicazione al sondaggio sul tema delle aggregazioni comunali per il Comune di Novazzano Analisi discriminante e regressione logistica: applicazione al sondaggio sul tema delle aggregazioni comunali per il Comune di Novazzano Flaminio Cadlini e Roberto Stoppa www.tiresia.ch Giugno 26 Indice

Dettagli

STUDIO DI SETTORE VG82U

STUDIO DI SETTORE VG82U ALLEGATO 18 NOTA TECNICA E METODOLOGICA STUDIO DI SETTORE VG82U SERVIZI PUBBLICITARI, RELAZIONI PUBBLICHE E COMUNICAZIONE 862 CRITERI PER L EVOLUZIONE DELLO STUDIO DI SETTORE L'applicazione dello studio

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

Concetti introduttivi

Concetti introduttivi Indice 1 Concetti introduttivi 3 1.1 Studi sperimentali e studi osservazionali..................... 3 1.2 Concetti iniziali: indipendenza fra eventi..................... 6 1.3 Indipendenza fra variabili

Dettagli

Gestione ed Analisi Statistica dei dati

Gestione ed Analisi Statistica dei dati Master in Evidence Based Practice e Metodologia della Ricerca clinico-assistenziale assistenziale Gestione ed Analisi Statistica dei dati Daniela Fortuna 13 giugno 2014 Argomenti Parte teorica Relazioni

Dettagli

Prelazione. Lista delle Figure. Lista delle Tabelle

Prelazione. Lista delle Figure. Lista delle Tabelle Indice Prelazione Indice Lista delle Figure Lista delle Tabelle VI IX XV XVI 1 Nozioni Introduttive 1 1.1 Inferenza Statistica 1 1.2 Campionamento 5 1.3 Statistica e Probabilità 7 1.4 Alcuni Problemi e

Dettagli

Soluzioni Esercizi elementari

Soluzioni Esercizi elementari Soluzioni sercizi elementari Capitolo. carattere: itolo di Studio, carattere qualitativo ordinato modalità: Diploma, Licenza media, Laurea, Licenza elementare unità statistiche: Individui. carattere: Fatturato,

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

Problema pratico: Test statistico = regola di decisione

Problema pratico: Test statistico = regola di decisione La verifica delle ipotesi statistiche Problema pratico: Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche? Coerenza del risultato campionario

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

Appunti di Econometria

Appunti di Econometria Appunti di Econometria ARGOMEO [5]: ANALISI DEI DATI PANEL Maria Luisa Mancusi Università Bocconi Novembre 2009 1 I dati panel Un panel è un campione che contiene osservazioni su N individui per T anni.

Dettagli

Tecniche di analisi multivariata

Tecniche di analisi multivariata Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza

Dettagli

STIMARE valori ed eseguire ANALISI DI REGRESSIONE

STIMARE valori ed eseguire ANALISI DI REGRESSIONE STIMARE valori ed eseguire ANALISI DI REGRESSIONE È possibile impostare una serie di valori che seguono una tendenza lineare semplice oppure una tendenza con crescita esponenziale. I valori stimati vengono

Dettagli

L Indicatore Anticipatore

L Indicatore Anticipatore L Indicatore Anticipatore Il nuovo sistema per la stima in corso d anno e la stima trimestrale della spesa in Conto Capitale della PA UVER Area Monitoraggio e Statistica 1 L Indicatore Anticipatore Fasi

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it TRATTAMENTI PRELIMINARI DEI DATI Pulizia dei dati (data cleaning) = processo capace di garantire, con una certa soglia

Dettagli

Elementi di Psicometria

Elementi di Psicometria Elementi di Psicometria 12-Correlazione vers. 1.1 (27 novembre 2012) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2011-2012 G. Rossi (Dip. Psicologia)

Dettagli