DATA MINING PER IL MARKETING (63 ore)

Documenti analoghi
STATISTICA A K (63 ore) Marco Riani

LA FUNZIONE DI VEROSIMIGLIANZA

SECONDA PROVA INTERMEDIA DI STATISTICA CLEA gennaio 2005 COMPITO C2

Marco Riani - Analisi delle statistiche di vendita 1

Stima puntuale Quando un parametro della popolazione incognito è valutato (stimato) da una sola statistica (parametro) tratto da un campione

Variabilità = Informazione

Seconda Prova Parziale di STATISTICA Modalità A

Compito A1- Soluzioni

MEDIA DI Y (ALTEZZA):

Università di Cassino. Esercitazioni di Statistica 1 del 26 Febbraio Dott. Mirko Bevilacqua

Caso studio 12. Regressione. Esempio

Regressione e Correlazione

Istogrammi e confronto con la distribuzione normale

Università egli Studi di Bergamo Corso di laurea in Ingegneria Edile STATISTICA Stima di massima verosimiglianza

12/11/2015 STATISTICA 1. Esercitazione 4. Dott.ssa Vera Gurtovaya

Dai dati osservati mediante scelta campionaria si giunge ad affermazioni i che riguardano la popolazione da cui essi sono stati prescelti

Il campionamento e l inferenza

Esercitazione 6 del corso di Statistica (parte 1)

Due distribuzioni, stessa media ma in quale delle due la media rappresenta, sintetizza meglio la situazione?

exp("# (al posto di n) var Ca Coefficiente di asimmetria, indipendente dal valore dei parametri. f X DISTRIBUZIONE EV1 o DI GUMBEL.

Analisi dei Dati. La statistica è facile!!! Correlazione

STATISTICA A K (60 ore)

Il termine regressione fu introdotto da Francis Galton ( ), antropologo (promotore dell eugenetica).

ρ XY risponde alla domanda esiste un associazione lineare tra le variabili X e Y?

Quale retta? La retta migliore è quella che più si avvicina all insieme dei 115

INDICI DI VARIABILITA

Associazione tra due variabili quantitative

I percentili e i quartili

Voti Diploma Classico Scientifico Tecn. E Comm Altro

PROVA SCRITTA DI STATISTICA (COD ) 4 Febbraio 2004 MODALITÀ A APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE

TEST CHI DI INDIPENDENZA STOCASTICA

Statistica descrittiva per l Estimo

( ) 2 i 1 X. n(n + 1) a) si determini se sono corretti; b) per quelli non corretti, si calcoli la distorsione d;

Stim e puntuali. Vocabolario. Cambiando campione casuale, cambia l istogramma e cambiano gli indici

LEZIONI DI STATISTICA MEDICA

Caso studio 10. Dipendenza in media. Esempio

Classi di reddito % famiglie Fino a Oltre Totale 100

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 9: Covarianza e correlazione

Esercitazione 5 del corso di Statistica (parte 1)

Formulario e tavole. Complementi per il corso di Statistica Medica

Università di Cassino Esercitazioni di Statistica 1 del 5 Febbraio Dott. Mirko Bevilacqua

Capitolo 17. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 17.1: Suggerimento

Lezione 4. La Variabilità. Lezione 4 1

Teoria dei Fenomeni Aleatori AA 2012/13

Contenuti. Facoltà di Economia. Scatterplot o diagramma a dispersione Analisi grafica della relazione tra due. francesco mola.

Statistica per le ricerche di mercato. 13. La regressione lineare semplice

ANALISI DELLA REGRESSIONE ANALISI BIVARIATA DELLA REGRESSIONE

Var iabili aleatorie continue

Analisi di regressione con SAS. Ci interessa. Matrice di covarianza. Esempio: due test su 31 individui PROC CORR PROC GPLOT PROC REG

Il modello di regressione multipla

Analisi delle distribuzioni doppie: dipendenza

DI IDROLOGIA TECNICA PARTE II

IL MODELLO DI REGRESSIONE LINEARE MULTIPLA

La media aritmetica. La sua individuazione si basa sulla logica della trasferibilità di un carattere. Se la funzione f( ) corrisponde alla somma:

Capitolo 2 Errori di misura: definizioni e trattamento

Caso studio 2. Le medie. Esercizio. La media aritmetica. Esempio

4 CAMPIONE DI n UNITA STATISTICHE (lettere latine)

Facoltà di Economia - STATISTICA - Corso di Recupero a.a Prof.ssa G. Balsamo CONCETTI di BASE Carattere X [o A ] i = 1

Gli indici sintetici Forma. Gli indici sintetici. Gli indici sintetici. Qualche considerazione. Qualche considerazione. Tendenza centrale Forma

Indici di asimmetria. Elementi di Statistica descrittiva Parte IV. Simmetria di una distribuzione di frequenze. Primo indice di asimmetria (1/3)

Statistica per le ricerche di mercato. 10. La regressione lineare semplice

dei quali si conoscono solo la media x e la deviazione standard σ e dato un valore reale positivo K, possiamo affermare che:

STATISTICA A D (72 ore)

LE MEDIE. Quadratica. Italo Nofroni. Statistica medica. Medie. Le medie vengono classificate in

Soluzione degli esercizi sulla statistica descrittiva e gli intervalli di confidenza

CORSO DI STATISTICA I (Prof.ssa S. Terzi)

LE MEDIE. Quadratica. Italo Nofroni. Statistica medica. Medie. Le medie vengono classificate in due gruppi

SIMULAZIONE DI ESAME ESERCIZI. Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 1

ESERCIZI SU DISTRIBUZIONI CAMPIONARIE

Capitolo 6 Gli indici di variabilità

Sommario. Facoltà di Economia. Obiettivo. Quando studiarla? Lezione n 7. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

Generalmente sia l ampiezza che il valore medio della sollecitazione sono variabili nel tempo.

CORSO DI STATISTICA I (Prof.ssa S. Terzi) 1 STUDIO DELLE DISTRIBUZIONI SEMPLICI. Esercitazione n 3

pè via che, lì, la media è sempre eguale risurta che te tocca un pollo all'anno: Me spiego: da li conti che se fanno seconno le statistiche d'adesso

Soluzione degli esercizi del capitolo 11

Capitolo 13 Il modello di regressione lineare

SIMULAZIONE DI SISTEMI CASUALI 1 parte. Variabili casuali e Distribuzioni di variabili casuali. Calcolo delle probabilità

Funzioni di più variabili Massimi e Minimi una funzione definita in un insieme E. Un punto ( x0, y0)

La media aritmetica. Le medie. Esempio. Esempio. Media aritmetica Mediana. Medie analitiche Medie di posizione. x 1

Dott.ssa Marta Di Nicola

ESERCIZI DI STATISTICA

Teoria dei Fenomeni Aleatori AA 2012/13

Esercizi su Rappresentazioni di Dati e Statistica

Unità 11. Studio di più variabili. Interpolazione. Regressione. Correlazione. Notazione matriciale

LA REGRESSIONE LINEARE SEMPLICE

Daniela Tondini

Università degli Studi di Napoli Parthenope. Facoltà di Scienze Motorie a.a. 2011/2012. Statistica. Lezione IV

LA REGRESSIONE LINEARE SEMPLICE

Gli indici sintetici Forma. Un caso studio. Gli indici sintetici. Qualche considerazione. Qualche considerazione. Tendenza centrale Forma

Modelli di accumulo del danno dovuto a carichi ciclici

ELEMENTI DI STATISTICA

MISURE DI TENDENZA CENTRALE. Psicometria 1 - Lezione 2 Lucidi presentati a lezione AA 2000/2001 dott. Corrado Caudek

Variabili casuali ( ) 1 2 n

Indipendenza in distribuzione

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini e Leonardo Bertini. Lezione 2:

Università degli Studi di Napoli Parthenope. STATISTICA per il Turismo. IV Lezione

INTERVALLI DI CONFIDENZA. Facciamo finta di essere nell'ambito deterministico anziché probabilistico.

Matematica elementare art.1 di Raimondo Valeri

Verifica e scelta del modello probabilistico

Transcript:

DATA MINING PER IL MARKETING (63 ore) Marco Ra mra@upr.t Sto web del corso http://www.ra.t/dmm REGRESSIONE INFERENZIALE 1

Itroduzoe agl elemet aleator N. dpedet (X) Vedte mlo d (Y) A 10 1,9 B 18 3,1 C 0 3, D 8 1,5 E 30 6, F 1,8 G 14,3 Prezz Euro (x) Vedte (Y) A 1.55 410 B 1.60 380 C 1.65 350 D 1.60 400 E 1.50 440 F 1.65 380 G 1.45 450 H 1.50 40 Itroduzoe agl elemet aleator Le vedte soo dovute parte a prezz e parte a fattor d atura aleatora e percò soo esse stesse delle v.c. Al cotraro I dpedet e/o prezz o soo v.c. poché soo del tutto prevedbl dalla compaga che l stablsce

Itroduzoe agl elemet aleator Ua successoe d valor fss x 1, x, x a cu soo assocate v.c. dpedet Y 1, Y, Y Il puto crucale cosste el descrvere modo approprato tal v.c. E(Y )? var(y )? Dstrbuzoe d Y? Assuzo su Y Tutte le osservazo soo caratterzzate dallo stesso grado d certezza var(y ) = σ =1,,, σ è u parametro cogto da stmare cov(y, Y j )=0 j 3

Assuzo su Y E(Y ) = µ =1,,, valor osservat della varabl dpedete provegoo da dstrbuzo d probabltà co mede cogte Ip. le mede delle dstrbuzo varao learmete co la varabl dpedete µ = E(Y ) = α+β x Assuzo su Y (cotua) Ip: µ = E(Y ) = α+β x Questa potes equvale ad affermare che put (x 1, µ 1 ), (x, µ ),, (x, µ ) stao tutt su ua retta co parametr α, β Oss: questa assuzoe o mplca che tutt put (x, y ) stao sulla retta ma che valor med delle dstrbuzo da cu put provegoo verfcao l equazoe della retta 4

Iterpretazoe d α e β I parametr α e β rappresetao l tercetta ed l coeff. agolare della retta sulla quale gaccoo le mede cogte delle dstrbuzo Y 1,, Y Iterpretazoe d α e β 5

Osservazoe Dato l modello d regressoe Y = α +β x +ε L p: µ = E(Y ) = α+β x equvale ad affermare che E(ε )=0 Stma de parametr I parametr da stmare soo α, β, µ 1, µ,, µ, σ La coosceza d α, β cosete d rcostrure tutte le mede cogte µ 1, µ,, µ 6

Stme d α e β Pesado d rpetere pù volte l espermeto che ha geerato le osservazo y 1,, y, per valor fss d x 1,, x s ottee ua dstrbuzoe campoara d valor ˆ Y x ˆ ˆ ( x x) Y ( x x) Stme d µ Coeff. d regressoe campoar e ella popolazoe y x y ˆ ˆ x e 7

Coeff. d regressoe campoar e ella popolazoe y x Y = vedte 8 7 6 5 4 3 1 E( y ) x y ˆ ˆ x e 0 0 10 0 30 40 e X = N. dpedet y x E( y ) ˆ ˆ x yˆ ˆ x ˆ Stma d σ σ = dspersoe vertcale attoro alla retta che usce valor med delle popolazo Dato che σ =E(ε ) Dato che e è ua stma d ε sembra aturale utlzzare come stmatore d σ la seguete espressoe s ( y ˆ ) e 8

Stma d σ Utlzzamo gl scostamet dalle mede delle popolazo s ( y ˆ ) e Stma d σ Excel defsce s come errore stadard ella stma d Y (se y el lguaggo d Excel) e s S può otteere drettamete tramte la fuzoe ERR.STD.YX. 9

Fuzoe regr.l Orde cu vegoo resttute le statstche aggutve d regressoe dalla fuzoe d Excel REGR.LIN Ip. aggutva Le dstrbuzo Y soo ormal y 1 è ua realzzazoe d Y 1 ~ N(µ 1, σ ) y è ua realzzazoe d Y ~ N(µ, σ ) y è ua realzzazoe d Y ~ N(µ, σ ) Y 1, Y,, Y soo dpedet 10

Rcham sulla v.c. ormale se Y ~N(µ, σ ) Z=(Y- µ)/ σ ~ N(0,1) Pr(-1.96 < Z <1.96) =0.95 ay+b ~ N(b+ µ, a σ ) Rcham sulla costruzoe degl t. d cofdeza ( ) Pr X E X 1.96 1.96 0.95 var( ) X Pr X 1.96 1.96 0.95 var( ) X Pr X 1.96 var( X ) X 1.96 var( X ) 0. 95 11

Obettvo Costrure tervall d cofdeza e test d verfca d potes sul coeff. agolare ˆ Studo della dstrbuzoe d ˆ ( x x) Y ( x x) ˆ y x y ˆ ˆ x e 1

Studo della dstrbuzoe d ˆ ( x x) Y ( x x) ˆ E( ˆ)? E( ˆ) var( ˆ)? var( ˆ) ( x) x Varaza d beta cappello ˆ) var( ˆ) var( 1 var 1 1 1 ( x x) ( x x) Y ( x x) var 1 ( x x) Y ˆ) var( 1 1 ( x x) 1 var( x x) Y 13

Varaza d beta cappello ˆ) var( 1 1 ( x x) 1 var( x x) Y ˆ) var( 1 1 ( x x) 1 ( x x) vary var( ˆ) 1 1 ( x x) 1 ( x x) var( ˆ) 1 ( x x) Al posto d σ sosttuamo l suo stmatore s Stma(var( ˆ)) s ( ˆ) ( x x) La radce quadrata della stma della varaza d uo stmatore è l errore stadard (stadard error, SE) dello stmatore s s ˆ SE( ˆ) ( x x) 14

Iterpretazoe dello stadard error d beta cappello Rappreseta l errore quadratco medo che s commette quado s stma l coeffcete d regressoe co le formule de mm quadrat Fuzoe regr.l Lo stadard error d beta cappello è rportato ella zoa d output d regr.l all croco della secoda rga e prma coloa) 15

Studo della dstrbuzoe d ˆ ˆ Y x ˆ E( ˆ)? E( ˆ) var( ˆ)? 1 var( ˆ) x ( x x) Eserczo: ell esempo de 7 supermercat calcolare lo stadard error d beta cappello e alpha cappello s ˆ SE( ˆ) s Sol. ( x x) 0.05 s ˆ SE ˆ) s 1 x ( x x) ( 0.44 16

Costruzoe d tervall d cofdeza de parametr Puto d parteza: lo scostameto stadardzzato d beta capello ha ua dstrbuzoe N(0,1) ˆ E( ˆ) Pr Z Z 1 var( ˆ) Se 1-γ=0.95 Pr( 1.96 ˆ E( ˆ) var( ˆ) 1.96) 0.95 17

Pr( 1.96 ˆ E( ˆ) var( ˆ) 1.96) 0.95 Pr1.96 ˆ ( x) x 1.96 0.95 Problema: σ è goto (occorre sostture l suo stmatore s ) Studo della dstrbuzoe d s S può dmostrare che E(S )=σ e che 18

Sosttuedo al posto d σ l suo stmatore Pr1.96 ˆ ( x) x 1.96 0.95 Costruzoe d u tervallo d cofdeza per l coeff. agolare Dove t γ è l quatle (percetle) assocato alla dstrbuzoe T d Studet co (-) grad d lbertà tale che (v. p. 44) 19

Costruzoe d tervall d cofdeza de parametr Eserczo: ell esempo de 7 supermercat costrure u tervallo d cofdeza al 95% per β ed terpretare rsultat otteut 0

Costruzoe d u tervallo d cofdeza al 95% per l coeff. agolare t 0.05 (5)=+.5706 (=INV.T(0.05;5) (Oss: Pr.(T(5)>.5706)=0.05) Pr(0.198-.5706 0.053<β< 0.198-.5706 0.053)=0.95 Pr(0.133<β< 0.63)=0.95 Iterpretazoe L'tervallo d cofdeza del coeffcete d regressoe, co probabltà uguale a 0.95, va da 0,133 a 0,63. Questo sgfca che ell'uverso d rfermeto, all'aumeto d u dpedete può corrspodere u aumeto delle vedte compreso tra 133 mla Euro e 63 mla Euro crca (co probabltà del 95%). Oss: l'tervallo è puttosto ampo e questo dpede dalla rdotta umerostà campoara (solo 7 supermercat). 1

Itervallo d cofdeza per l tercetta Costruzoe d u tervallo d cofdeza al 95% per l tercetta t 0.05 (5)=+.5706 (=INV.T(0.05;5) (Oss: Pr.(T(5)>.5706)=0.05) Pr(-1.31<α< 0.96)=0.95

Costruzoe d u tervallo d cofdeza al 95% per σ Puto d parteza per trovare χ 0.975 utlzzo =INV.CHI(0.05;5)=0.83 per trovare χ 0.05 utlzzo =INV.CHI(0.975;5)=1.83 Pr(0.08< σ < 1.30)=0.95 3

Costruzoe d test d potes per α β σ Dato che ˆ SE( ˆ) ~ t Sotto H 0 : β =0 ˆ ~ SE( ˆ) t 4

Fuzoe regr.l Orde cu vegoo resttute le statstche aggutve d regressoe dalla fuzoe d Excel REGR.LIN Calcolo delle statstche t co Excel e del relatvo p-value p value Fuzoe dstrb.t 5

Eserczo: ell esempo de 7 supermercat testare H 0 :β=0, trovare l relatvo p-value ed terpretare l rsultato del test t β =7.8 p-value = 0.000548 Iterpretazoe : rfuto decsamete l potes ulla Eserczo: ell esempo de 7 supermercat testare H 0 :α=0, trovare l relatvo p-value ed terpretare l rsultato del test t α =0.39 p-value = 0.714 Iterpretazoe : o posso rfutare l potes ulla 6

Eserczo Calcolare Itervallo d cofdeza delle prevso co l metodo de mm quadrat 7

Strumet ecessar propedeutc Calcolo della var. dell errore d prevsoe 8

Calcolo della var. dell errore d prevsoe Bade d cofdeza dell errore d prevsoe (p. 55) 9

Costruzoe d u tervallo d cofdeza per y 0 Teedo presete che e e E( e0 ) ~ var( e ) 0 N 0 E( e0 ) ~ T( vâr( e ) 0 0 e ~ T( vâr( e0 ) 0 y yˆ 0 ~ T( vâr( e ) 0 0 (0,1) ) ) ) Costruzoe d u tervallo d cofdeza per y 0 y yˆ 0 ~ T( vâr( e ) 0 0 ) y ˆ 0 y0 Pr t t 1 vâr( e0 ) ved p. 167 30

Eserczo: per u umero d dpedet par a 16 costrure u tervallo d prevsoe delle vedte al 95% Pr( 3.570.4966 y0 3.570.4966) 0.95 Pr( 1.7 y0 4.8) 0.95 31