Pano Nazonale Lauree Scentfche (PLS 2016-2017) Statstca Laboratoro d Statstca Le relazon tra varabl prof.ssa Angela Mara D'Uggento angelamara.duggento@unba.t materale ddattco I ncontro
Dall anals statstca esploratva a A seconda del numero d varabl consderate, è possble effettuare un anals UNIVARIATA BIVARIATA MULTIVARIATA modell
Anals statstca unvarata Consdera una sola varable quanttatva/qualtatva per volta, ad esempo età, voto, numero scrtt, altezza, resdenza, ttolo studo, genere, ecc. Gl strument d anals: 1. Mede e rappresentazon grafche 2. Varabltà 3. Numer ndc
Anals statstca bvarata Studa due varabl quanttatve/qualtatve contemporaneamente, ad esempo peso/altezza, voto matera X/voto matera Y, numero scrtt/sesso, ttolo d studo/voto d laurea, rsparmo/consumo, ecc. Gl strument: 1. Anals della dpendenza (Regressone semplce) 2. Anals della nterdpendenza (Correlazone semplce) 3. Anals dell ndpendenza (c^2)
Anals statstca multvarata Studa l nfluenza contemporanea d tre o pù varabl Tecnche statstche: 1. Anals fattorale 2. Cluster analyss 3. Scalng Multdmensonale 4. Regressone multpla 5. Correlazone canonca 6. Anals corrspondenze
Regressone, Correlazone, Indpendenza REGRESSIONE CORRELAZIONE INDIPENDENZA Anals della DIPENDENZA tra Y (dpendente) n funzone d due o pù varabl statstche ndpendent X 1,X 2, X n (regressor) Anals della INTERDIPENDENZA ASSOCIAZIONE tra due o pù varabl statstche X 1,X 2, X n Il varare d una delle due varabl statstche X 1 e X 2 NON INFLUENZA, non produce alcun effetto sull altra
Regressone Supponamo d essere nteressat alla relazone tra cfra nvestta n pubblctà (X) e l rtorno n termn d vendte (Y). In realtà c sono altr fattor che nfluenzano l valore d Y per un dato valore d X qual tpo prodotto, fattor economc, luogo d vendta, ecc. Nella raccolta dat s rlevano le coppe d osservazon (x, y ) per ottenere una sere d n coppe d dat: (x 1, y 1 ) (x 2, y 2 ), (x, y ) (x n, y n ). Il grafco che le rappresenta è l grafco a dspersone o scatter plot Altr esemp: X= dmensone della casa (n m 2 ); Y=prezzo d vendta X = n.ro clent contattat; Y = n.ro contratt conclus X= reddto; Y=consumo
Regressone Esempo: un'agenza mmoblare rleva seguent dat: abtazone prezzo (Euro) dmensone (mq) N.ro camere letto N.ro servz 1 689.500 400,0 4 3,5 2 385.000 340,0 5 3,0 3 449.900 326,9 4 2,5 4 949.900 530,0 5 4,0 5 848.000 557,5 4 3,5 6 559.900 368,7 4 3,5 Lo scopo della regressone lneare semplce è quello d ndvduare la eventuale relazone tra le due varabl (rappresentata grafcamente dal grafco a dspersone o scatter) esplctandola attraverso una funzone matematca. Tale modello matematco predce l valore d Y come una funzone lneare della varable ndpendente X. I modell d regressone multpla predcono l valore d Y come funzone d una sere d varabl ndpendent X 1, X 2. X n
Prezzo La varable Y vene detta varable rsposta (o varable dpendente), la varable X vene detta varable esplcatva (o varable ndpendente o regressore). Regressone Per verfcare la presenza d una relazone è opportuno fare l grafco e, qund, ndvduare l modello ed suo parametr Costo delle abtazon 1000000 800000 600000 400000 200000 0 0,0 100,0 200,0 300,0 400,0 500,0 600,0 dmenson della casa (n mq)
Regressone lneare semplce La relazone tra le due varabl è, per semplctà, supposta lneare, pertanto sarà studata attraverso la funzone della retta d regressone che, con dat camponar, è: y 0 1x Varazone casuale dovuta ad altr fattor non msurabl Intercetta. Valore d Y per x=o Coeffcente angolare. Vara tra + e -. Indca come vara n meda Y al varare untaro d X.
Regressone lneare La stma de parametr ncognt della funzone d regressone avvene con l metodo de mnm quadrat. Tale metodo consste nel rendere mnma la dfferenza al quadrato tra valor teorc (valor da modello) e valor emprc (dat osservat) n 1 2 ˆ ) mn y y
Regressone lneare Uguaglando a zero le dervate parzal rspetto a due parametr b 0 e b 1, s gunge al sstema rsolutvo con le formule : ) ) ) ) ( ), var( ) ( ), ( 1 2 1 1 1 0 X Var Y X Co X Dev Y X Codev x x y y x x b x b y b N N
I parametr della retta d regressone b 0 è l ntercetta o termne noto ed esprme l valore d Y quando x=0; b 1 è l coeffcente angolare della retta e qund b E anche detto coeffcente d regressone ed esprme la varazone meda del carattere Y al varare untaro del carattere X. Se b 1 >0 c è dpendenza dretta tra X e Y, coè Y aumenta n meda all aumentare d X; se b 1 <0 c è dpendenza nversa tra X e Y, coè Y dmnusce n meda all aumentare d X; se b 1 =0 v è ndpendenza d Y da X.
Interpolazone ed estrapolazone L nterpolazone s usa per predre valor d Y servendos de valor d X che s trovano all nterno dell ntervallo de dat. L estrapolazone s usa per predre valor d Y servendos de valor d X che s trovano all esterno dell ntervallo de dat. La prma è pù attendble perché non abbamo garanza dell nvaranza del comportamento del fenomeno al d fuor dell ntervallo.
Esempo d calcolo de parametr della retta d regressone X n.ro contatt Y n.ro scrtt 20 14 25 18 30 26 40 32 50 38 x) x y) y x x) y y) x ) 2 x Codev (X,Y) Dev (X) Usare Excel Per stmare parametr Intercetta (per calcolare b 0 ) Pendenza (per calcolare b 1 ) Per vsualzzare equazone ed R^2: Selezonare una delle coppe d punt Premendo l tasto destro del mouse /aggung lnea d tendenza/vsualzza equazone/vsualzza R^2 Per lo svolgmento s veda fle Excel presente nel materale ddattco
Correlazone semplce La correlazone msura l nterdpendenza tra due caratter X 1 ed X 2. n termn d concordanza o dscordanza. In tal caso non è possble dstnguere l carattere dpendente da quello ndpendente. Una msura assoluta della concordanza/dscordanza è la codevanza. Codev( X, Y ) x x) y y) 1 La correlazone s msura con l coeffcente d correlazone r d Bravas Pearson N
Correlazone semplce Codevanza r N N 1 x x) y y) 2 x ) x y y) N 1 1 2 =+1 max concordanza =0 ndfferenza =-1 max dscordanza 1 r 1 Devanza d X e Devanza d Y Il coeffcente d correlazone è anche denotato con r ed ha la stessa nterpretazone
Relazone tra retta d regressone e r (coeffcente d correlazone)
Varanza d regressone Analogamente a quanto detto per la meda, è possble studare la dspersone de valor osservat d Y ntorno alla retta d regressone. Dspersone elevata sgnfca lmtata attendbltà delle prevson fatte con l modello scelto (retta d regressone); l contraro se la dspersone è bassa. L adattamento s msura con R 2. Le tre devanze sono date rspettvamente dalla somma de quadrat de segment vertcal tratteggat. S dmostra che Dev(Y)=Dev(R)+Dev(E)
Indce d determnazone R 2 R R 2 2 0 Dev( R) Dev( Y ) Dev( R) Dev( Y ) N ) yˆ y 1 N 1 1 R 2 1 y y) Dev( E) Dev( Y ) 2 2 1 N ) y yˆ 1 N y y) 1 2 2 R 2 esprme la bontà d adattamento del modello d regressone coè quanta parte della devanza totale d Y è spegata dalla retta scelta R 2 =+1 quando Dev(E)=0 coè tutt punt sono perfettamente allneat su retta regressone R 2 =0 quando Dev(R)=0 coè b 1 =0 coè ndpendenza n meda