DATA MINING PER IL MARKETING (63 ore) Marco Ra mra@upr.t Sto web del corso http://www.ra.t/dmm REGRESSIONE INFERENZIALE 1
Itroduzoe agl elemet aleator N. dpedet (X) Vedte mlo d (Y) A 10 1,9 B 18 3,1 C 0 3, D 8 1,5 E 30 6, F 1,8 G 14,3 Prezz Euro (x) Vedte (Y) A 1.55 410 B 1.60 380 C 1.65 350 D 1.60 400 E 1.50 440 F 1.65 380 G 1.45 450 H 1.50 40 Itroduzoe agl elemet aleator Le vedte soo dovute parte a prezz e parte a fattor d atura aleatora e percò soo esse stesse delle v.c. Al cotraro I dpedet e/o prezz o soo v.c. poché soo del tutto prevedbl dalla compaga che l stablsce
Itroduzoe agl elemet aleator Ua successoe d valor fss x 1, x, x a cu soo assocate v.c. dpedet Y 1, Y, Y Il puto crucale cosste el descrvere modo approprato tal v.c. E(Y )? var(y )? Dstrbuzoe d Y? Assuzo su Y Tutte le osservazo soo caratterzzate dallo stesso grado d certezza var(y ) = σ =1,,, σ è u parametro cogto da stmare cov(y, Y j )=0 j 3
Assuzo su Y E(Y ) = µ =1,,, valor osservat della varabl dpedete provegoo da dstrbuzo d probabltà co mede cogte Ip. le mede delle dstrbuzo varao learmete co la varabl dpedete µ = E(Y ) = α+β x Assuzo su Y (cotua) Ip: µ = E(Y ) = α+β x Questa potes equvale ad affermare che put (x 1, µ 1 ), (x, µ ),, (x, µ ) stao tutt su ua retta co parametr α, β Oss: questa assuzoe o mplca che tutt put (x, y ) stao sulla retta ma che valor med delle dstrbuzo da cu put provegoo verfcao l equazoe della retta 4
Iterpretazoe d α e β I parametr α e β rappresetao l tercetta ed l coeff. agolare della retta sulla quale gaccoo le mede cogte delle dstrbuzo Y 1,, Y Iterpretazoe d α e β 5
Osservazoe Dato l modello d regressoe Y = α +β x +ε L p: µ = E(Y ) = α+β x equvale ad affermare che E(ε )=0 Stma de parametr I parametr da stmare soo α, β, µ 1, µ,, µ, σ La coosceza d α, β cosete d rcostrure tutte le mede cogte µ 1, µ,, µ 6
Stme d α e β Pesado d rpetere pù volte l espermeto che ha geerato le osservazo y 1,, y, per valor fss d x 1,, x s ottee ua dstrbuzoe campoara d valor ˆ Y x ˆ ˆ ( x x) Y ( x x) Stme d µ Coeff. d regressoe campoar e ella popolazoe y x y ˆ ˆ x e 7
Coeff. d regressoe campoar e ella popolazoe y x Y = vedte 8 7 6 5 4 3 1 E( y ) x y ˆ ˆ x e 0 0 10 0 30 40 e X = N. dpedet y x E( y ) ˆ ˆ x yˆ ˆ x ˆ Stma d σ σ = dspersoe vertcale attoro alla retta che usce valor med delle popolazo Dato che σ =E(ε ) Dato che e è ua stma d ε sembra aturale utlzzare come stmatore d σ la seguete espressoe s ( y ˆ ) e 8
Stma d σ Utlzzamo gl scostamet dalle mede delle popolazo s ( y ˆ ) e Stma d σ Excel defsce s come errore stadard ella stma d Y (se y el lguaggo d Excel) e s S può otteere drettamete tramte la fuzoe ERR.STD.YX. 9
Fuzoe regr.l Orde cu vegoo resttute le statstche aggutve d regressoe dalla fuzoe d Excel REGR.LIN Ip. aggutva Le dstrbuzo Y soo ormal y 1 è ua realzzazoe d Y 1 ~ N(µ 1, σ ) y è ua realzzazoe d Y ~ N(µ, σ ) y è ua realzzazoe d Y ~ N(µ, σ ) Y 1, Y,, Y soo dpedet 10
Rcham sulla v.c. ormale se Y ~N(µ, σ ) Z=(Y- µ)/ σ ~ N(0,1) Pr(-1.96 < Z <1.96) =0.95 ay+b ~ N(b+ µ, a σ ) Rcham sulla costruzoe degl t. d cofdeza ( ) Pr X E X 1.96 1.96 0.95 var( ) X Pr X 1.96 1.96 0.95 var( ) X Pr X 1.96 var( X ) X 1.96 var( X ) 0. 95 11
Obettvo Costrure tervall d cofdeza e test d verfca d potes sul coeff. agolare ˆ Studo della dstrbuzoe d ˆ ( x x) Y ( x x) ˆ y x y ˆ ˆ x e 1
Studo della dstrbuzoe d ˆ ( x x) Y ( x x) ˆ E( ˆ)? E( ˆ) var( ˆ)? var( ˆ) ( x) x Varaza d beta cappello ˆ) var( ˆ) var( 1 var 1 1 1 ( x x) ( x x) Y ( x x) var 1 ( x x) Y ˆ) var( 1 1 ( x x) 1 var( x x) Y 13
Varaza d beta cappello ˆ) var( 1 1 ( x x) 1 var( x x) Y ˆ) var( 1 1 ( x x) 1 ( x x) vary var( ˆ) 1 1 ( x x) 1 ( x x) var( ˆ) 1 ( x x) Al posto d σ sosttuamo l suo stmatore s Stma(var( ˆ)) s ( ˆ) ( x x) La radce quadrata della stma della varaza d uo stmatore è l errore stadard (stadard error, SE) dello stmatore s s ˆ SE( ˆ) ( x x) 14
Iterpretazoe dello stadard error d beta cappello Rappreseta l errore quadratco medo che s commette quado s stma l coeffcete d regressoe co le formule de mm quadrat Fuzoe regr.l Lo stadard error d beta cappello è rportato ella zoa d output d regr.l all croco della secoda rga e prma coloa) 15
Studo della dstrbuzoe d ˆ ˆ Y x ˆ E( ˆ)? E( ˆ) var( ˆ)? 1 var( ˆ) x ( x x) Eserczo: ell esempo de 7 supermercat calcolare lo stadard error d beta cappello e alpha cappello s ˆ SE( ˆ) s Sol. ( x x) 0.05 s ˆ SE ˆ) s 1 x ( x x) ( 0.44 16
Costruzoe d tervall d cofdeza de parametr Puto d parteza: lo scostameto stadardzzato d beta capello ha ua dstrbuzoe N(0,1) ˆ E( ˆ) Pr Z Z 1 var( ˆ) Se 1-γ=0.95 Pr( 1.96 ˆ E( ˆ) var( ˆ) 1.96) 0.95 17
Pr( 1.96 ˆ E( ˆ) var( ˆ) 1.96) 0.95 Pr1.96 ˆ ( x) x 1.96 0.95 Problema: σ è goto (occorre sostture l suo stmatore s ) Studo della dstrbuzoe d s S può dmostrare che E(S )=σ e che 18
Sosttuedo al posto d σ l suo stmatore Pr1.96 ˆ ( x) x 1.96 0.95 Costruzoe d u tervallo d cofdeza per l coeff. agolare Dove t γ è l quatle (percetle) assocato alla dstrbuzoe T d Studet co (-) grad d lbertà tale che (v. p. 44) 19
Costruzoe d tervall d cofdeza de parametr Eserczo: ell esempo de 7 supermercat costrure u tervallo d cofdeza al 95% per β ed terpretare rsultat otteut 0
Costruzoe d u tervallo d cofdeza al 95% per l coeff. agolare t 0.05 (5)=+.5706 (=INV.T(0.05;5) (Oss: Pr.(T(5)>.5706)=0.05) Pr(0.198-.5706 0.053<β< 0.198-.5706 0.053)=0.95 Pr(0.133<β< 0.63)=0.95 Iterpretazoe L'tervallo d cofdeza del coeffcete d regressoe, co probabltà uguale a 0.95, va da 0,133 a 0,63. Questo sgfca che ell'uverso d rfermeto, all'aumeto d u dpedete può corrspodere u aumeto delle vedte compreso tra 133 mla Euro e 63 mla Euro crca (co probabltà del 95%). Oss: l'tervallo è puttosto ampo e questo dpede dalla rdotta umerostà campoara (solo 7 supermercat). 1
Itervallo d cofdeza per l tercetta Costruzoe d u tervallo d cofdeza al 95% per l tercetta t 0.05 (5)=+.5706 (=INV.T(0.05;5) (Oss: Pr.(T(5)>.5706)=0.05) Pr(-1.31<α< 0.96)=0.95
Costruzoe d u tervallo d cofdeza al 95% per σ Puto d parteza per trovare χ 0.975 utlzzo =INV.CHI(0.05;5)=0.83 per trovare χ 0.05 utlzzo =INV.CHI(0.975;5)=1.83 Pr(0.08< σ < 1.30)=0.95 3
Costruzoe d test d potes per α β σ Dato che ˆ SE( ˆ) ~ t Sotto H 0 : β =0 ˆ ~ SE( ˆ) t 4
Fuzoe regr.l Orde cu vegoo resttute le statstche aggutve d regressoe dalla fuzoe d Excel REGR.LIN Calcolo delle statstche t co Excel e del relatvo p-value p value Fuzoe dstrb.t 5
Eserczo: ell esempo de 7 supermercat testare H 0 :β=0, trovare l relatvo p-value ed terpretare l rsultato del test t β =7.8 p-value = 0.000548 Iterpretazoe : rfuto decsamete l potes ulla Eserczo: ell esempo de 7 supermercat testare H 0 :α=0, trovare l relatvo p-value ed terpretare l rsultato del test t α =0.39 p-value = 0.714 Iterpretazoe : o posso rfutare l potes ulla 6
Eserczo Calcolare Itervallo d cofdeza delle prevso co l metodo de mm quadrat 7
Strumet ecessar propedeutc Calcolo della var. dell errore d prevsoe 8
Calcolo della var. dell errore d prevsoe Bade d cofdeza dell errore d prevsoe (p. 55) 9
Costruzoe d u tervallo d cofdeza per y 0 Teedo presete che e e E( e0 ) ~ var( e ) 0 N 0 E( e0 ) ~ T( vâr( e ) 0 0 e ~ T( vâr( e0 ) 0 y yˆ 0 ~ T( vâr( e ) 0 0 (0,1) ) ) ) Costruzoe d u tervallo d cofdeza per y 0 y yˆ 0 ~ T( vâr( e ) 0 0 ) y ˆ 0 y0 Pr t t 1 vâr( e0 ) ved p. 167 30
Eserczo: per u umero d dpedet par a 16 costrure u tervallo d prevsoe delle vedte al 95% Pr( 3.570.4966 y0 3.570.4966) 0.95 Pr( 1.7 y0 4.8) 0.95 31