Cenni di regressione non-parametrica

Transcript

1 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, 0 Cenn d regressone non-parametrca funzone non-lneare non-lneartà ne parametr o nelle varabl overfttng funzon lnearzzabl funzone addtva bas-varance tradeoff funzon parametrche e nonparametrche smoother kernel e bn smoother kernel smoother gaussano k-nearest neghbors cross-valdaton 10-fold cross-valdaton smoother multdmensonale curse of dmensonalty GAM PPR MARS 0.1 Funzon non-lnear e msura dell adattamento 0. - La contrapposzone tra dstorsone e varabltà Funzon non-parametrche - smoother Smoother per due o pù varabl esplcatve 0.1 Funzon non-lnear e msura dell adattamento Nell approcco classco alla regressone lneare semplce e multpla s potzza che la relazone tra la varable dpendente e le varabl esplcatve possa essere sntetzzata attraverso una funzone lneare ne parametr. Generalmente vengono comunque adottat modell d regressone che sono lnear anche rspetto alle varabl. In alcun cas, tal assunzon d lneartà rappresentano una eccessva semplfcazone. ESEMPIO Relazon non-lnear S pens alla relazone tra l Età (X) d un ndvduo e l suo Tasso d crescta nella statura (Y). È evdente che la relazone tra queste due varabl nel prmo anno d vta è molto dversa da quella che s ha quando l ndvduo è adulto. In generale, s è osservato che la relazone tra queste due varabl può essere espressa pù correttamente attraverso una funzone esponenzale negatva, ossa f X = exp bx. consderando come componente determnstca la funzone non-lneare ( ) ( ) Poché le determnazon delle varabl sono note (anche n questo captolo consdereremo varabl esplcatve non-stocastche) mentre parametr sono ncognt, è evdente che potes d non-lneartà su parametr sono pù dffcl da trattare matematcamente. In effett, se la non-lneartà rguarda le varabl esplcatve e non parametr abbamo una stuazone relatvamente semplce: n tutt cas n cu la funzone adottata è fssata, l procedmento d calcolo de parametr medante l metodo d nterpolazone de mnm quadrat è del tutto smle a quello vsto per la regressone lneare semplce e multpla (s veda l esempo 0.1.). Se nvece s consdera una funzone non-lneare ne parametr, l calcolo de parametr rsulta assa complesso e necessta spesso d procedure computazonal teratve. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-1

2 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, ESEMPIO 0.1. Esemp d funzon lnear ne parametr e non-lnear nelle varabl Esemp d funzon non-lnear nelle varabl e lnear ne parametr: ( X ) =a + bx+cx 4 f ( X,X ) =a bx + c log( ) f oppure X. S not che parametr present (a, b, c) sono tutt lnear d prmo grado. Se conoscamo valor assunt dalla X allora conoscamo anche valor X, X 4 e log(x). Se per esempo ponamo Z = X e sosttuamo nella prma funzone ottenamo f ( ) X =a + bx+cz, poché valor d Z sono not allora la funzone è lneare ne parametr e nelle varabl (s veda anche l ultma nota del par. 19.). Come mostrato nell esempo 0.1., se abbamo una funzone lneare ne parametr ma non nelle varabl, possamo faclmente trasformarla n una funzone lneare sa nelle varabl che ne parametr. Tale caso non ntroduce qund nulla d nuovo dal punto d vsta della stma de parametr, rspetto a quanto gà detto ne captol 16, 17 e 19. D altra parte s possono porre de nuov problem che n precedenza non avevamo ma consderato, cò è charto meglo dal successvo esempo. ESEMPIO Adattamento d funzon non-lnear nelle varabl Consderamo l seguente grafco d dspersone, relatvo alla varable dpendente Y e alla varable esplcatva X, n cu abbamo anche traccato la retta d regressone stmata Y Y X Fgura X Fgura 0.1. L equazone della retta d regressone stmata, rappresentata nella fgura 0.1.1, è data da: Y = -337, ,8 X Non è però dffcle notare nel grafco che la relazone tra le due varabl potrebbe essere meglo descrtta da una funzone non-lneare. Se consderamo la seguente polnomale d grado 3 3 Y = , X - 1,3 X + 0, X ottenamo l grafco d fgura Tale funzone sembra coglere n manera soddsfacente le caratterstche della relazone tra la Y e la X. D altra parte potremmo consderare una funzone ancora pù complessa per ottenere un adattamento ancora maggore a dat osservat. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0 -

3 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Y Y X Fgura X Fgura Nella fgura abbamo rappresentato la polnomale d grado 4: 3 4 Y = -3,1 + 54,1 X -8,6 X + 0,45 X + 0,03 X mentre nella fgura abbamo consderato la polnomale d grado 5: 3 4 Y = -63,4 + 8,9 X -5,4 X + 1, X + 0,01 X - 0,00 X 5 Nell esempo precedente possamo osservare che, anche consderando una sola varable esplcatva, s può sceglere un modello lneare ne parametr (ma non nelle varabl), n grado d sntetzzare una complessa relazone non-lneare tra la varable dpendente e quella esplcatva. In alcun cas, anche le funzon che sono non lnear ne parametr s possono rcondurre, dopo una opportuna trasformazone delle varabl, a essere lnear ne parametr, come gà mostrato nell ultma nota del par. 19., anche se questa operazone ha delle mplcazon mportant sulla dstrbuzone dell errore. Ad esempo, la funzone: ( X ) = exp( bx ) faclmente resa lneare applcando l logartmo n base naturale: [ exp( bx )] = bx f apparentemente non lneare può essere ln.. Aumentando la complesstà del modello (nell esempo 0.1.3, l grado della polnomale) s aumenta l adattamento della funzone a dat. Questo però non è necessaramente un vantaggo, anche se alla luce d quanto detto ne precedent captol questa affermazone può apparre alquanto strana: n fondo, nel trattare la regressone lneare, c eravamo sempre post come obettvo fondamentale quello d aumentare l pù possble l adattamento della funzone d regressone a dat. Occorre a questo punto ntrodurre una nozone nuova: l eccessvo adattamento della funzone a dat, detto anche overfttng. Se osservamo la fgura 0.1.4, possamo n effett notare nella parte nzale della curva, un maggore adattamento a prm due punt del grafco (quell con ascssa pù bassa). L andamento della curva sembrerebbe però suggerre che per valor molto bass della X c s debba aspettare una rapda, quanto mprobable, crescta della Y. In effett, le polnomal d grado elevato tendono ad avvcnars molto a punt del grafco d dspersone ma n questo modo tendono anche ad amplfcare l errore presente ne dat. E l problema noto come bas-varance tradeoff che descrvamo n dettaglo nel paragrafo successvo. La funzone che cerchamo deve nvece coglere solo gl aspett fondamental della relazone tra le due varabl, trascurando gl aspett meno sgnfcatv o accdental: solo n questo modo s può ottenere una funzone generalzzable, ossa una funzone che dovrebbe mantenere un buon adattamento anche consderando un altro campone d dat o tutta la popolazone. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-3

4 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Tale problema non s era ma posto ne precedent captol, perché avevamo sempre utlzzato delle funzon talmente rgde da mpedre qualsas forma d overfttng: n tale stuazone potevamo porc come obettvo semplcemente l ndvduazone della funzone lneare che presentava l massmo adattamento. Nel momento n cu ntroducamo funzon pù duttl occorre rconsderare seramente questo aspetto, tenendo conto che l nostro obettvo non può pù essere solo quello d rcercare la funzone con l massmo adattamento. Sappamo nfatt che aumentando la complesstà della funzone utlzzata s ottene un maggore adattamento a dat osservat ma al contempo s può ottenere un modello d dffcle nterpretazone e che potrebbe avere scarsa capactà prevsva. Nota In realtà anche nel captolo 19 abbamo n qualche modo gà affrontato questa problematca: abbamo nfatt vsto che aumentando l numero delle varabl tende ad aumentare anche l adattamento del modello a dat (msurato attraverso l coeffcente d determnazone multplo) ma che questo può non essere convenente. Il coeffcente d determnazone multplo corretto (19.5.) è stato ntrodotto propro per tener conto del numero d varabl utlzzate, con l assunzone mplcta che un modello pù semplce è preferble ad uno pù complesso se cò non porta ad una sgnfcatva rduzone dell adattamento. Occorre anche consderare che la complesstà d un modello dpende da dvers fattor, ad esempo un modello addtvo è meno complesso d un modello non-addtvo. Charamo l senso d quest termn. Se abbamo due o pù varabl esplcatve e nell espressone del modello le varabl compaono come sngol termn, non v sono coè termn moltplcatv o d nterazone tra due o pù varabl esplcatve, la somma degl effett delle sngole varabl esplcatve c fornsce l valor medo della varable dpendente Y. Una espressone generale d funzone addtva è data da f(x ( ) J 1, X, X3..., XJ) = a + β jfj Xj j= 1 n cu f 1, f, f 3 ecc. sono funzon delle J varabl esplcatve. Un modello n cu la componente determnstca è una funzone addtva delle varabl esplcatve, vene detto addtvo (nelle varabl). Le funzon f j possono essere note a pror, come nel modello d regressone lneare dove sono poste tutte ugual a funzon denttà f j ( X j ) = X j, oppure non note, come vedremo nel paragrafo 0.4. Una funzone lneare ne parametr ma non addtva è ad esempo la funzone Y = a + bx1 + cx + dx1x. Funzon che sono non-addtve e non-lnear nelle varabl possono essere estremamente flessbl, come mostrato nella fgura n cu abbamo grafczzato la funzone Y = 5X X 0. 1X X. 1 1 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-4

5 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Fgura Grafco d una funzone non-addtva, con due varabl esplcatve Se consderamo tutte le possbl funzon lnear ne parametr o lnearzzabl abbamo n effett a dsposzone una grandssma varetà d funzon, tra cu è probable che essta una funzone che s adatt n modo soddsfacente a dat osservat e che potrebbe essere adeguata a descrvere la relazone tra la varable dpendente e quelle esplcatve. Se la funzone pù adatta non è lneare e non è lnearzzable, ma è nota, è comunque possble applcare degl opportun metod d calcolo per la stma de parametr. D altra parte se le conoscenze del fenomeno non sono suffcent ad ndvduare un precso schema nterpretatvo, non v è una metodologa effcace n grado d ndvduare, tra tutte le possbl funzon (lnear o lnearzzabl), quella che meglo s adatta a nostr dat. Oltre a cò, occorre consderare che alcune funzon, come ad esempo le polnomal, possono adattars molto bene a dat ma al prezzo d una forte nstabltà e d una complessa nterpretabltà del modello. Questo mplca che pccole varazon ne dat possono generare polnomal completamente dverse. S confrontno, a questo proposto, coeffcent delle polnomal dell esempo La contrapposzone tra dstorsone e varabltà Ipotzzamo che l fenomeno n esame sa descrtto n manera adeguata dal modello: Y = f( X) + ε n cu per semplctà stamo consderando una sola varable esplcatva e supponamo noltre che sa E ( ε ) = 0. Supponamo noltre d avere a dsposzone un campone d n osservazon: {( x, y ),( x, y ),...,( x )} D =, 1 1 n y n S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-5

6 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Dato l campone D, l nostro scopo è quello d approssmare la funzone orgnara ncognta f tramte una funzone approssmante g: Y ˆ = g( X) Per valutare quanto la funzone g sa vcna alla vera funzone f, s utlzza, n analoga a quanto vsto per gl stmator d parametr della popolazone (s veda l par. 11.4), l errore quadratco medo, che n questo contesto ndcheremo con la sgla EQM. L errore quadratco medo nel nostro campone sarà qund 1 EQM = n n ( y g( x )) = ( y ŷ ) = 1 1 Per valutare la bontà della funzone approssmante g, quello che c nteressa non è l EQM corrspondente al sngolo rsultato camponaro, bensì l suo valore atteso nell unverso de campon d dmensone n: Dove l valore atteso { EQM} n n n 1 1 E { EQM} = E ( y yˆ ) = E( y yˆ ) (0..1) n = 1 n = 1 n = 1 E s rfersce alla meda de dvers rsultat dell EQM ottenut da tutt campon D che compongono l unverso camponaro. D altra parte s ha che: E + {( y yˆ ) } = E ( y f( x ) + f( x ) yˆ ) E{ ( y f( x ))( f( x ) yˆ )} { } = E ( y f( x )) Poché l doppo prodotto è nullo, alla fne ottenamo: E {( y ŷ ) } = E{ ε } + E ( f( x ) ŷ ) { } { } + E ( f( x ) yˆ ) { } Qund, consderando valor attes, l errore quadratco medo può essere scomposto come la Var ε = E ε E ε = E ε poché per potes E () ε = 0 ) varanza dell errore (nfatt, () { } [ ()] { } pù l errore quadratco medo tra valor med della Y, f ( ) Questo ultmo termne s può scomporre n modo smle: E {( f( x ) yˆ ) } = E ( f( x ) E{ yˆ } + E{ yˆ } yˆ ) E{ ( f( x ) E{ yˆ })( E{ yˆ } y )} ˆ x, e quell predett dal modello. { } = E{ ( f( x ) E{ yˆ } ) } + E{ ( E{ yˆ } yˆ ) } Consderando che l doppo prodotto è nullo, l espressone dventa: E {( f(x ) ŷ ) } = B( ŷ ) + Var { ŷ } dove B ( ŷ ) è la dstorsone o bas tra la vera funzone e quella stmata. Qund ottenamo che {( y ŷ ) } = Var {} ε + B( ŷ ) Var { ŷ } E + (0..) Per mnmzzare la (0..1), ossa l valore atteso dell EQM, dobbamo mnmzzare l espressone precedente per ogn, tenendo conto che la varanza dell errore è un dato esogeno, e pertanto non può essere rdotto. + + S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-6

7 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Qund s tratta d mnmzzare contemporaneamente la dstorsone e la varanza, ma cò non è affatto semplce. In effett, per mnmzzare la varanza basta sceglere una funzone approssmante costante yˆ = c, dove c è una costante qualsas, n tal modo la varanza sarà necessaramente uguale a zero mentre la dstorsone sarà necessaramente molto alta. D altra parte se l nostro modello nterpola perfettamente dat del campone (cò è possble se non v sono valor ugual delle x ) allora avremo che { } = 0 E { ŷ } = f ( x ) e qund B( ŷ ) = E ( f ( x ) E{ ŷ }) Mentre la Var{ ˆ } dvene uguale alla Var {} ε elevata. y, che può essere n alcun cas puttosto Tale problema vene defnto nella letteratura nglese bas-varance tradeoff: mnmzzare eccessvamente l bas può far aumentare troppo la varanza e vceversa. Come s può vedere dalla fgura 0..1, l uso d modell troppo compless (overfttng) produrrà una bassa dstorsone ed una elevata varanza, mentre l utlzzo d modell troppo semplc (underfttng) produrrà una elevata dstorsone e una bassa varanza. Avendo a dsposzone solo un campone, non s può conoscere la soluzone ottmale; soluzon accettabl possono essere ndvduate tramte metodologe qual ad esempo la cross-valdaton, d cu damo cenno nel paragrafo successvo. EQM E{ EQM } EQM nel campone underfttng modello mglore overfttng complesstà Fgura 0..1 Confronto tra l valore atteso dell EQM e l valore calcolato nel campone, al varare della complesstà del modello. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-7

8 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Funzon non-parametrche - smoother Consderamo nnanztutto una applcazone dell approcco parametrco classco a de dat real. ESEMPIO Indagne sul dabete mellto In un ndagne sul dabete mellto s vuole ndagare la dpendenza del lvello del sero C-peptde da altre varabl, tra cu l età e l defct basco. Il logartmo della concentrazone del C-peptde è la varable dpendente (per maggor dettagl cfr. Haste e Tbshran 1990). Nel grafco d dspersone d Fgura abbamo consderato come varable esplcatva l età rportando sa la retta d regressone d equazone: f(x) = 1, ,019 X sa la polnomale d equazone: f(x) = 1,05 + 0,170 X + 0,017 X + 0,001 X 3. S può notare un evdente mgloramento nell adattamento a dat utlzzando la polnomale; questo modello mette n luce una relazone tra l età e l logartmo della concentrazone C-peptde crescente sno a crca 7 ann e po pressoché costante.,00 1,90 1,80 1,70 retta d regressone 1,60 Y 1,50 1,40 1,30 1,0 Polnomale 1,10 1, X Fgura Grafco d dspersone e funzon parametrche Ne captol precedent, per descrvere l tpo d relazone esstente tra la varable dpendente e le varabl esplcatve, s è nnanztutto potzzata una generca funzone parametrca, qund s sono determnat valor de suo parametr medante l metodo de mnm quadrat n modo da trovare la funzone che s accosta meglo a dat. In sostanza, la scelta della funzone da adottare avvene necessaramente nel momento nzale, prma del calcolo de parametr. ESEMPIO 0.3. Funzone parametrca Se assumamo che la relazone tra la Y e la X può essere espressa da una funzone esponenzale negatva f(x) = exp(bx) allora l problema dventa la determnazone del parametro b n modo che la funzone s accost l pù possble a dat osservat. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-8

9 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Un dverso approcco d anals è quello che prende l nome d regressone nonparametrca. Questa tecnca utlzza n genere opportune funzon smooth (lsce, regolar) dette smoother, e s basa sull asserto che devono essere dat a mostrarc la forma funzonale pù approprata. In sostanza, non s defnsce a pror la funzone adatta a descrvere la relazone, utlzzando dat solo per la determnazone de parametr, bensì s adotta una metodologa che sfrutt le osservazon anche per la defnzone stessa della funzone da utlzzare. Per descrvere tal metodologe è necessaro però nnanztutto ntrodurre l concetto d smoother. Data una varable dpendente Y e K varabl esplcatve X 1, X,..., X K, chameremo smoother una funzone s(x 1, X,..., X K ) che rproduca l andamento della varable Y al varare delle varabl esplcatve, con una varabltà nferore a quella osservata. Una caratterstca comune a quas tutt gl smoother è la natura non-parametrca: non s assume coè una forma funzonale rgda. Per semplctà soffermamoc nzalmente al caso d una sola varable esplcatva X e consderamo l corrspondente dagramma d dspersone. Se la varable X è dscreta e per cascun valore della X abbamo una dstrbuzone d valor d Y, allora un possble smoother è la spezzata d regressone, che assoca ad ogn x la meda della Y nelle untà che presentano x, ossa M a (Y / X = x ). Tale funzone è stata gà consderata nel paragrafo 6.8. Se la varable X è contnua, allora generalmente ogn x non verrà osservato pù d una volta e qund non s ha a dsposzone una dstrbuzone della Y per ogn x. In tale stuazone per costrure uno smoother s può determnare per ogn valore osservato x un ntervallo (o ntorno) che lo contenga e qund calcolare la meda de valor osservat della Y n tale ntervallo. Naturalmente s possono determnare dvers smoother a seconda d come vene calcolata la meda delle Y per ogn ntervallo e d come vengono defnt gl ntervall. Il metodo pù semplce, ma anche pù grossolano, consste nel suddvdere l carattere X n class d uguale ampezza, qund all nterno d cascuna classe calcolare l valore medo d Y. Data una suddvsone della varable X n K class, I 1, I,..., I K, s defnsce bn smoother : s(x) = meda(y ) per x I j. (0.3.1) I j Lo smoother che s ottene è una funzone a scaln d scarsa flessbltà, come llustrato nella Fgura Il dfetto prncpale d tale approcco derva essenzalmente dalla suddvsone del campo d varazone della varable n un numero fssato d ntervall non sovrappost. Se voglamo rendere pù flessble tale approcco, potremmo defnre un ntorno [ x h; x + h] per cascun valore x, qund defnre s(x) come meda d Y per tutt punt corrspondent a tale ntorno. La funzone rsultante sarà tanto pù smooth quanto pù grande sarà l ntorno, ossa quanto maggore sarà l valore d h. Un approcco pù soddsfacente consste nel calcolare, all nterno d ogn ntorno, una meda ponderata d Y, con pes decrescent va va che c s allontana dal valore d rfermento d X. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-9

10 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Nadaraya-Watson smoother. Data una funzone g(t) decrescente n t, per ogn x 0 nterno al campo d varazone d X, un kernel smoother può essere defnto: 1 n x x n x x s(x) = g y con c = g = 0 (0.3.) c 1 = λ 1 0 λ n cu c 0 è una costante d normalzzazone, mentre λ è un parametro fssato a pror, chamato bandwdth o parametro d smoothng, che, n sostanza, defnsce l ampezza dell ntervallo ntorno a x. Un altro tpo d kernel smoother è l seguente. Gasser-Müller smoother. Data una funzone g(t) decrescente n t, per ogn x 0 nterno al campo d varazone d X, un kernel smoother può essere defnto: 1 n s x u s(x) = y g du = λ 1 s 1 λ n cu s = ( x + x ) ; s 0; s / 0 = n = La funzone g defnsce l kernel, ossa l sstema de pes adottato nella meda ponderata della Y. Ambedue gl smoother possono nfatt essere scrtt come: s(x) = n ω ( x) y = 1,n Questo mplca che è necessaro sceglere g n modo che sa verfcata la condzone: n ω, ( x ) = 1 = 1 n È possble sceglere tra numerose funzon, tra le qual vene spesso utlzzata la funzone d denstà della dstrbuzone Normale standardzzata, con meda nulla e varanza untara. In partcolare g 1 z ( z) = exp π NOTA Il parametro λ defnsce la sem-ampezza dell ntervallo centrato nel punto x 0 n cu s vuole stmare la funzone. Ad esempo, prendamo la funzone Kernel trangolare: 1 u 1 u + 1 g( u) = 0 altrove che attrbusce pes decrescent va va che c s allontana dal punto da stmare e dove n questo caso u = ( x x ) λ. S vogla stmare la funzone nel punto x 0 = 3 e sa λ =. Allora pes 3 x 1 sono non null per tutt valor osservat x all nterno dell ntervallo 1 x 5 che è centrato nel punto x 0 = 3 e d sem-ampezza par a = λ. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-10

11 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Ad ogn modo s dmostra che non è tanto la scelta della funzone g a determnare la qualtà dell approssmazone, quanto l valore del parametro d smoothng λ che, n sostanza, regola l ampezza del kernel. E anche nteressante osservare che, sotto opportune condzon, kernel smoother sono degl stmator consstent della vera funzone f(x). Poché quest stmator sono delle somme ponderate d v.c., s può applcare l teorema del lmte centrale e s può assumere che tal stmator abbano una dstrbuzone Normale. Per questa ed altre propretà s veda Härdle (1994). ESEMPIO Kernel smoother e bn smoother Nella Fgura 0.3. è rportato l grafco d dspersone del logartmo della concentrazone del C- peptde (Y) e dell età (X) relatv ad un collettvo d ndvdu e l corrspondente Kernel smoother e l Bn smoother. Entrambe le funzon evdenzano tra due caratter una relazone prma crescente e po costante. Fgura Kernel e Bn smoothers,0 1,9 1,8 1,7 1,6 Kernel smoother Y 1,5 1,4 1,3 1, 1,1 Bn smoother 1, X Per comprendere meglo la logca del kernel smoother, concentramoc sul valore x e determnamo l corrspondente valore s(x ). S not che per ogn x calcolamo un nuovo * valore y = s(x) che s ottene come meda ponderata della Y nell ntorno d x. Nella fgura abbamo messo n evdenza la logca d funzonamento dello smoother n rfermento al solo punto x. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-11

12 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Fgura Kernel smoother gaussano Quando pes, rappresentat dalla denstà della Normale, sono vcn allo zero, allora corrspondent valor d X non hanno peso nel calcolo d s(x ). Nel grafco abbamo potzzato come sstema d pes, una funzone d denstà normale. Tale scelta corrsponde ad un kernel smoother gaussano. S not che aumentando λ, l parametro dello smoother, è come se s aumentasse la varanza della Normale che defnsce pes e, qund, aumenta l numero d punt che entrano nel calcolo d s(x ) con un peso sgnfcatvo, ottenendo uno smoother d forma pù regolare. La stma Kernel della Y è stata qund defnta come una meda ponderata della Y n un ntorno d grandezza fssata della X. Il k-nearest neghbor smoother (k-nn) segue una logca leggermente dversa n quanto non è fssato l ntorno, bensì l numero (k) d untà vcne da consderare. In pratca, dato l valore x s calcola la meda de valor della Y corrspondent a k valor d X pù vcn a x. V sono comunque molt altr tp d smoother, non-parametrc o sem-parametrc, tra cu rvestono partcolare nteresse quell basat sulle splne che godono d numerose utl propretà. Una splne è una polnomale a tratt costruta n tale modo che è smooth n corrspondenza a punt d gunzone (nod) tra le polnomal. Le splne sono estremamente flessbl e possono essere utlzzate per approssmare qualsas tpo d funzone, provvsto un adeguato numero d nod. In partcolare, possamo utlzzare come funzone approssmante g una funzone splne cubca, ossa una splne con le seguent caratterstche: ha un nodo n corrspondenza ad ogn valore osservato della X è una polnomale cubca n cascun ntervallo [ x 1 ; x ] ha due dervate contnue Il problema che s pone è quello d evtare l overfttng e qund mporre un certo grado d regolartà a tale funzone. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-1

13 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, 1, 1,0 0,8 Y 0,6 0,4 0, 0,0 1, 0,0 0, 0,4 0,6 0,8 1,0 X 1,0 0,8 Y 0,6 0,4 0, 0,0 1, 0,0 0, 0,4 0,6 0,8 1,0 X 1,0 0,8 Y 0,6 0,4 0, 0,0 0,0 0, 0,4 0,6 0,8 1,0 Fgura Bas-varance trade-off. La funzone rossa tratteggata è quella vera, lo smoother (blu) è stato consderato con: a) un λ molto pccolo (n alto, lo smoother passa per tutt punt), b) un λ ntermedo (al centro, s ottene una buona approssmazone), c) un λ molto grande (n basso, lo smoother ha una varabltà molto bassa ma una forte dstorsone). X S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-13

14 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Tale obettvo s può ottenere ntroducendo una penalzzazone alla eccessva rregolartà della curva: n termn computazonal, per una funzone g che sa almeno due volte dfferenzable, una quanttà che presenta alcun vantagg come penalzzazone è ( g ) dx. In tal caso s defnsce somma de quadrat de resdu penalzzata la quanttà: P λ n ( g) = { y g( x )} + λ ( g ) = 1 S cercherà qund la funzone splne g che mnmzza ( g). Il parametro λ determna l trade-off tra adattamento e regolartà della curva, s consderno cas estrem: se λ = 0 allora la funzone g non ha vncol e passa per tutt punt (se non v sono valor ugual d X), se λ = allora la funzone g è una retta. Per una ntroduzone all argomento s veda Green & Slverman(1994). La suddvsone del campone è un metodo spesso effcace per la scelta del lvello d smoothng e per la valutazone complessva del modello. Il metodo consste essenzalmente nella suddvsone (eventualmente rpetuta) del campone d dat a dsposzone, n due part: l sottocampone d tranng e l sottocampone d test. Il sottocampone d tranng vene utlzzato per stmare l modello, l sottocampone d test vene utlzzato per verfcare la bontà d adattamento del modello a de dat non utlzzat nella stma e qund ottenere una stma pù affdable dell EQM. P λ dx EQM bas elevato varanza bassa bas basso varanza alta EQM nel test EQM nel tranng underfttng modello mglore overfttng complesstà Fgura Confronto tra l EQM nel Test set e l EQM nel Tranng set, al varare della complesstà del modello. Nella fgura possamo vedere l valore dell errore quadratco medo calcolato nel sottocampone d tranng e nel sottocampone d test. S può notare che all aumentare della complesstà del modello l EQM calcolato nel sottocampone d tranng tenda sempre a S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-14

15 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, dmnure, mentre cò non avvene per l sottocampone d test. S confront tale fgura con la fgura In effett, l uso degl stess dat per ottenere sa la stma sa la valutazone del modello, porta generalmente ad una valutazone eccessvamente ottmstca: se non abbamo duplcazon per valor della X e s scegle un lvello d smoothng molto basso, s può ottenere un adattamento pressoché perfetto (s veda quanto detto nel paragrafo precedente). Il rsultato sarebbe qund una scelta sbaglata del parametro d smoothng ed una valutazone errata del modello. Nella 10-fold cross-valdaton, l campone vene nnanztutto suddvso n 10 sottonsem che chameremo A1, A, A3,, A10, s applca qund la seguente procedura: - Tranng su (A1 A... A7 A8 A9), test su (A10) - Tranng su (A1 A... A7 A8 A10), test su (A9) - Tranng su (A1 A... A7 A9 A10), test su (A8) Tranng su (A... A7 A8 A9 A10), test su (A1) Al termne della procedura abbamo 10 stme del modello, utlzzando dat (almeno n parte) dvers; noltre tutt dat entrano n una procedura d test, che comunque non utlzza ma dat gà usat nel corrspondente tranng. La valutazone fnale della performance del modello s può ottenere qund come una semplce meda delle 10 valutazon effettuate su dat d test. A1 A A3 A4 A5 A6 A7 A8 A9 A10 campone Inseme d tranng Inseme d test Prmo passo Stma del modello Valutazone Fgura Illustrazone del prmo passo della procedura 10-fold crossvaldaton S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-15

16 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, 0.4 Smoother per due o pù varabl esplcatve L esposzone precedente s può estendere al caso d due o pù varabl esplcatve seguendo due dvers approcc. Una prma possbltà rchede la defnzone d uno smoother multdmensonale, ad esempo nel caso d due varabl esplcatve f ( X1,X ) = a + bs( X1,X ) Una seconda possbltà, molto pù restrttva, consste nel supporre l addtvtà della funzone f(.) e qund l utlzzo de sol smoother unvarat: f ( X1,X ) = a + bs1( X1) + cs ( X ) Ambedue tal approcc portano, per due varabl esplcatve, all ndvduazone d una superfce d regressone, d cu mostramo un esempo, con due sole varabl esplcatve, nella fgura Fgura Esempo d Kernel smoother bdmensonale Il prmo approcco, che nclude le nterazon tra le varabl, è spesso dffcle da applcare n quanto rchede un numero molto elevato d osservazon all aumentare del numero d varabl esplcatve. E l problema denomnato the curse of dmensonalty. Per curse of dmensonalty s ntende l rapdo ncremento d volume che s ha aggungendo ulteror dmenson allo spazo d rfermento. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-16

17 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Per meglo descrvere l fenomeno, potzzamo d avere a dsposzone 100 osservazon relatve ad una varable quanttatva contnua. Se dvdamo l range della varable n 10 ntervalln, samo n grado d analzzare la dstrbuzone della varable abbastanza bene, tramte ad esempo un stogramma. Ogn ntervallno avrà due ntervalln vcn, che conterranno presumblmente qualche osservazone. Se le osservazon s rferscono nvece a 10 varabl, ed effettuamo la stessa suddvsone n ntervalln per cascuna varable, ottenamo celle nello spazo a 10 dmenson e ogn cella avrà = celle vcne: le osservazon dventano qund de punt solat n un ampo spazo d celle vuote. Per ottenere una stuazone equvalente a quella che avevamo nel caso undmensonale, sarebbero ora necessare ben 10 0 osservazon. L aumento delle dmenson provoca n defntva un ncremento generalzzato delle dstanze tra punt che tendono qund a dvenre lontan ed equspazat. Per ovvare a tale problema sono stat propost modell qual ad esempo PPR, MARS o l modello addtvo generalzzato (GAM), (s veda Haste, Tbshran & Fredman, 001). Il modello GAM è una varante del modello addtvo gà vsto nel paragrafo 0.1. e s basa sulla somma d J funzon, n questo caso non-parametrche e non note, delle J varabl X j (pù l ntercetta). La dfferenza sta essenzalmente nell aggunta della funzone lnk parametrca che collega la somma delle funzon alla varable dpendente: J E( Y X ) = f(x = + ( ) 1, X, X3..., XJ ) G a s j X j j= 1 L addtvtà del modello permette un procedmento d stma abbastanza agevole n quanto le funzon sono tutte unvarate. Occorre però consderare che le funzon non-parametrche s j sono ncognte e qund è rchesta una procedura d stma teratva. La Projecton Pursut Regresson utlzza trasformazon d proezon ottme de dat orgnal n sottospaz d dmensone rdotta. Pù precsamente, la varable dpendente è legata ad un nseme d J varabl esplcatve, tramte una combnazone d M funzon smooth undmensonal d combnazon lnear delle varabl esplcatve: M 1 3 J m m1 1 m mjxj m= 1 ( Y X ) f(x, X, X..., X ) = s ( α X + α X + α ) E = + Quando l numero d varabl esplcatve è alto e tra esse sussste un elevato grado d collneartà, questo modello è pù parsmonoso rspetto al GAM e può consderare (anche se non esplctamente) nterazon d varabl esplcatve. MARS (multvarate adaptve regresson splnes) può essere vsto come una generalzzazone del Recursve Partton Regresson method. Questo metodo utlzza una espansone d prodott d funzon base (ad es. splne cubche) per costrure funzon splne multvarate ed una procedura stepwse per ottenere una selezone automatca d questa base d funzon. E possble scrvere l modello MARS n forma addtva, raggruppando le funzon n questo modo: E ( Y X ) = f(x, X, X..., X ) = α + g ( X ) + g ( X, X ) + g ( X, X, ) 1 3 J 0 h h hk h Xk Km= 1 Km= Km= 3 In cu la prma sommatora rguarda tutte le funzon che s rferscono ad una sola varable esplcatva; la seconda sommatora rguarda tutte le funzon che s rferscono a due varabl esplcatve, e così va. Occorre fssare a pror alcun parametr: l numero d funzon base, l massmo grado d nterazone ed l grado delle splne. Tramte quest parametr s può determnare l grado desderato d complesstà del modello. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-17

18 S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Bblografa del captolo Green, P., Slverman, B. (1994) Nonparametrc Regresson and Generalzed Lnear models: A Roughness Penalty Approach, Chapman and Hall, London. Härdle, W. (1994) Appled Nonparametrc Regresson, Cambrdge Unversty Press. Hart, J. D. (1997) Nonparametrc Smoothng and Lack-of Ft Tests. Sprnger Verlag New York. Haste, T., Tbshran, R. & Fredman, J. (001) The elements of statstcal learnng, Sprnger Verlag New York. S. Borra, A. D Cacco Statstca, metodologe per le scenze economche e socal, Cap. 0-18