Lezione del 5-- (IV canale, Do.ssa P. Vicard) ANALISI DEI RESIDUI E RELAZIONI NON LINEARI ESEMPIO: consideriamo il seguene daa se x y xy x y* e 9, 9,,,, 5, 7,,,7, 9 9,5 -,7 9,77 7,9 7,5,7 9,,,5,7,, 9, -,9,,7,,,, 5, -,9 9, 9,5 9,, 7 7, 5, 9,5,7 5,7,7 5 5,5 -,7 Toali 99,5 797,59,5 Disegniamo il diagramma di dispersione Y 9 7 5 5 5 Vediamo che la nuvola dei puni non presena un andameno lineare; esso infai sembra essere di ipo parabolico. Comunque calcoliamo la rea di regressione µ = 99/ = 9 µ Y =,5/ = 7,5 σ σ Y = xi yi i= = x 9 i i= σ b = σ Y 5 = =,5 a = µ Y b µ 9 7,5 = 5 = = 7,5,5 9 =,
Rappreseniamo la rea di regressione nel grafico Y 5 5 Y =,5 +,9 Vediamo che la rea non passa molo bene ra i puni ed infai il coefficiene di deerminazione ρ =,7 non è paricolarmene elevao. ρ non è però neanche paricolarmene basso viso che la relazione lineare ra e Y spiega circa il 7% della variabilià oale della Y. E quindi opporuno analizzare in modo più approfondio la bonà di adaameno della rea ai dai. Passiamo ad esaminare i residui. Dal grafico sopra vediamo che gli y sono: soo la rea per valori piccoli di x e di y*, sopra la rea per valori inermedi x e di y*, soo la rea per valori grandi di x e piccoli di y*. Di conseguenza se rappreseniamo i residui rispeo agli y* avremo prima residui negaivi poi residui posiivi e infine ancora residui negaivi. Residui rispeo alle y*,5,,5 e, -,5, 5,, 5, -, -,5 -, -,5 Y* Vediamo il grafico dei residui (in asse delle ordinae) e dei valori eorici (in asse delle ascisse). E immediao noare che c è una forissima relazione quadraica ra i valori eorici y* ed i residui. Ciò vuol dire che la rea non spiega la relazione ra e Y ma sicuramene è necessario usare una relazione del ipo Y = a+b+c in cui cioè si rappresena la curvaura dei dai mediane l aggiuna di un ermine quadraico.
Avremmo irao la sessa conclusione se avessimo rappresenao i residui rispeo alle x. Residui ripseo alle x e,5,,5, -,5 -, -,5 -, -,5 5 5 Con queso esempio abbiamo viso come l analisi dei residui consene di analizzare la bonà dell adaameno. Noa: se abbiamo una serie sorica è opporuno analizzare i residui rispeo al empo per valuare la bonà di adaameno del nosro modello ai dai osservai. Vediamo adesso che i residui consenono anche l analisi, la ricerca e la visualizzazione dei valori paricolarmene influeni e/o anomali. Le osservazioni influeni sono dai che influenzano marcaamene la posizione e inclinazione della rea di regressione; se quese osservazioni venissero eliminae dal daa se, la rea cambierebbe considerevolmene. Le osservazioni influeni si presenano come dai molo diversi dal reso del daa se, ovvero come dai che nel diagramma di dispersione sono disani dalla nuvola di puni. Qualche vola le osservazioni influeni possono essere dai anomali e alre vole non lo sono. Abbiamo descrio i valori anomali come osservazioni inusuali o osservazioni lonane dal reso dei dai. Nell ambio della regressione i valori anomali sono osservazioni singole che sono paricolarmene lonane dalla rea di regressione. Perano ai valori anomali corrispondono residui molo grandi e quindi possono essere facilmene visualizzai araverso i grafici dei residui. Ogni vola che si visualizza un valore influene è necessario fare uleriori analisi per vedere se è un dao anomalo e per cercare, quindi, di capire perché si colloca lonano dal reso dei dai. Se il dao è anomalo, la sua anomalia può derivare da errori commessi nella fase di raccola o di sisemazione dei dai; in al caso o si corregge il dao oppure lo si elimina dal daa se. Infai se si iene il dao si rischia di individuare una rea di regressione che non rappresena correamene la relazione lineare ra i caraeri. Ma se il dao non è anomalo allora porebbe essere un osservazione uilissima che non va assoluamene cancellaa perché ci dà delle informazioni su uleriori aspei del fenomeno che sudiamo. In ogni caso, come vedremo adesso con un esempio le osservazioni influeni hanno enorme peso nella posizione e inclinazione della rea di regressione.
ESEMPIO x y xy x y* e 7, 7,, -,5,77 5, 7, -,,7 5, 9 9,5, 9 7,,99 7,5 -,9 7, 5,9,5 -,9,,7 9, -,,,,, 5,9,5 5,,9,5 97, 9, -,5 7,,9 9,5 -, 5 5,7,5 5 5,5, Toali 99,5 797,7,5, Disegniamo lo scaerplo Y E noiamo che l osservazione corrispondene al puno di coordinae (x, y ) = (,,7) risula differene dalle alre osservazioni; nonosane il valore della sia coerene con quello delle alre osservazioni, il valore della Y è invece molo più grande. La rea di regressione è uguale a quella dell esempio precedene ovvero Y =,5 +,9 Vediamo il diagramma di dispersione con la rea di regressione.
Y 5 5 y =,997x +,5 Noiamo che ui i puni della nuvola ecceuao il puno (,,7) si disporrebbero lungo una rea ma purroppo non sulla rea di regressione. Queso fenomeno è dovuo all influenza del puno (,,7) che fa sì che la rea di regressione che sia più inclinaa. Calcoliamo i residui e rappreseniamoli Residui rispeo alle y*,,, e,,, -, 5,, 5, -, Y* Osserviamo che i residui hanno un andameno sisemaico e che è presene un residuo paricolarmene grande corrisponde al dao (,,7). Il fao che il residuo sia molo grande ci induce a dire che (,,7) è un dao anomalo. Esso va perano eliminao viso che con la sua influenza ende a rascinare verso se sesso (ovvero verso l alo) la rea di regressione. Perano ora eliminiamo (,,7) dal daa se e ricalcoliamo la rea di regressione. Il daa se divena 5
x y xy x y* e 7, 7, 7,,5,77 5,,77, 9 7,,99 7, -, 7, 5,9 7,,5,,7 9, -,,,,, 5,9,5 5,9,,5 97,,5 -, 7,,9 9, -, 5 5,7,5 5 5,7 -, Toali 9,7,5 9,7, La rea di regressione è daa da Y =,5Y +,5 e il grafico è Y 9 7 5 5 5 Come si vede, una vola eliminao il dao anomalo, i puni sono perfeamene allineai lungo la rea di regressione. Risula perano esremamene evidene quano fosse influene il dao anomalo nella posizione della rea.
E se Y non dipende linearmene da che si fa? Come abbiamo più vole ripeuo può spesso capiare di osservare mediane il semplice scaerplo che Y non è legao ad da una relazione lineare; la nuvola dei puni può però suggerirci che e Y non sono indipendeni fra loro ma che Y è legao ad da un alro ipo di relazione. In queso caso che succede? Possiamo coninuare ad usare le ecniche vise per la regressione lineare? La risposa è: alcune vole sì. Vediamo più in deaglio di capire quesa affermazione e iniziamo con un esempio. ESEMPIO: consideriamo una caena di cenri per foocopie che opera in vari campus americani. Quesa caena ha iniziao la sua aivià con un solo cenro nel 9. Di seguio riporiamo quani puni ha apero a parire dal 9 per anni consecuivi. In sosanza abbiamo una serie sorica e andiamo a vedere mediane il diagramma di dispersione come varia il numero di aivià del cenro copie al passare degli anni. Per comodià indicizziamo il empo come segue: poniamo = in corrispondenza del 9, = in corrispondenza del 9,, = in corrispondenza del 99. Anno y ln y = z z (=N Aivià) 9 9,9,9 95,9 9, 9,79 7,7 97 5, 5,5 9,77, 99 7 5, 9,5 99,7 9,7 99 9,9,5 99 97,57 5,75 99 5 5, 55, 99 5,5, 995 5,95 9 77,9 99 57,9 9, 5,5 5 5,5 7
Y 5 5 5 Dal grafico si vede chiaramene che il numero di puni vendia è cresciuo esponenzialmene al passare degli anni. Quindi non possiamo applicare la regressione lineare ai dai così come sono viso che il modello che ben si presa a rappresenare la crescia dei puni vendia è il modello esponenziale. In sosanza la curva che meglio passa per i puni è del ipo seguene a+ b Y = e e la regressione apparenemene non ci dà le formule per calcolare a e b. Ma analizziamo meglio la siuazione. Possiamo applicare la rasformazione logarimica alla relazione sopra; si oiene a+ b ( ) = a + b ln Y = ln e cioè si oiene una espressione lineare per la relazione ra il logarimo di Y e la variabile. Per essere ancora più convini di quano affermao calcoliamo il logarimo di Y in corrispondenza delle nosre osservazioni e rappreseniamo mediane lo scaerplo la variabile e il logarimo di Y. ln Y 7 5 5 5 Vediamo che adesso i puni così rasformai endono a disporsi lungo una rea perano siamo in grado di applicare le regole della regressione lineare a ln Y = a + b In queso modo possiamo calcolare l inercea a e il coefficiene di regressione b. poi possiamo a+ b sosiuire quesi due valori nell espressione Y = e. In ermini formali, passando al logarimo la relazione esponenziale, l abbiamo linearizzaa ovvero l abbiamo ricondoa ad un problema che siamo in grado di risolvere.
Calcoliamo la rea di regressione ln Y = a + b. Il calcolo avviene come già viso; è la variabile indipendene e ln y è la variabile risposa. Chiamiamo per comodià ln y = z. Troviamo µ = 7,5 µ z =, σ = i 7, 5 =,5 σ z = i= izi 7,5, = 7,5 i= b =, a = -,5 Perano la rea di regressione di ln y rispeo a è ln y =, -,5 Siamo quindi in grado di specificare anche i parameri della relazione esponenziale di Y rispeo a Y = e,5+, In queso caso il coefficiene di regressione b =, non rappresena di quano varia il numero dei puni vendia in un anno ma solo di quano varia il logarimo del numero dei puni vendia. e, = Per calcolare il asso di crescia è necessario calcolare ( ), Supponiamo di volere fare una previsione: quale sarà il numero di puni vendia nel 997? Innanziuo raduciamo 997 in ermini di, ovvero = 5, poi sosiuiamo =5 nell espressione sopra.,5+, 5,9 Y = e = e =, Nel 997 quesa caena avrà un numero molo elevao di puni vendia; ovviamene ciò è vero solamene se anche nel 997 queso modello di crescia esponenziale rimarrà valido. Infai bisogna presare mola aenzione quando si ha a che fare con un modello di queso ipo che rappresena siuazioni in cui il fenomeno (in queso caso il numero di puni vendia) cresce molo rapidamene. La crescia esponenziale non è a lungo sosenibile perano c è da aendersi il raggiungimeno di un cosiddeo livello di saurazione a cui segue un rallenameno della crescia o una diminuzione. Queso fenomeno si presena molo di frequene in analisi aziendali: ad esempio le vendie di un prodoo nuovo e di successo crescono esponenzialmene nel primo periodo di via del prodoo per poi rallenare o inverire quesa endenza. In sosanza con queso esempio abbiamo viso che è possibile linearizzare un problema esponenziale: la curva che rappresena la crescia esponenziale infai viene linearizzaa semplicemene usando la rasformazione logarimica. E possibile fare ancora di più. La possibilià di usare la regressione anche quando la dipendenza di Y da non è lineare non si limia al solo caso in cui Y cresce esponenzialmene con. La meodologia della regressione lineare può essere applicaa in ui i casi in cui ci si possa ricondurre ad avere una funzione lineare nei parameri. Se a e b sono i nosri parameri, una funzione è lineare nei parameri se può essere scria così: Y = a + b f(). 9
Quindi Y = a + b è la più banale espressione lineare nei parameri dove f()= Y = a + b è lineare nei parameri e f()=/ k Y = a + b è lineare nei parameri e f()= k Y = a + b sin è lineare nei parameri e f()=sin Ad esempio nel caso precedene ci è basao applicare la rasformazione logarimica per oenere l espressione lineare nei parameri con f()=. ESEMPIO: Anno Y / = Z Z ZY 99,5,,5 99,7,5,5,75 99,5,,,5 995,,5,,5 99 5,7,,, 997,,7,,77 99 7,,,, 999,,,,5 9,,,,,,,, 9,,9,55 5,9 Innanziuo disegniamo il grafico con sull asse delle ascisse e Y sull asse delle ordinae. Vediamo che il valore di Y cresce rapidamene al passare degli anni. Un modello di queso ipo si presa bene a rappresenare ad esempio l andameno del prezzo di un bene ad alo conenuo ecnologico. Il prezzo è elevao all inizio ma ben preso il bene divena ecnologicamene obsoleo e superao da prodoi ecnologicamene più avanzai e quindi il suo prezzo cala rapidamene. y,5,5,5,5 5 5 Le nosre osservazioni non si dispongono in modo lineare ma piuoso secondo una relazione di queso ipo Y = a + b Quesa relazione, come abbiamo viso è lineare nei parameri a e b e quindi siamo in grado di specificare quesi parameri usando la regressione. A al fine è necessario prima di uo ricondursi ad un problema che sappiamo analizzare.
Si calcola la variabile Z = e si applica il meodo della regressione alla relazione Y = a + b = a + bz Infai possiamo vedere che la relazione ra / e Y è lineare; ecco il grafico y,5,5,5,5,5,5 z=/ In queso modo possiamo calcolare nel solio modo i due coefficieni della rea di regressione. µ Z =,9 µ Y =,9 σ Z = zi, 9 =,9 i= σ ZY = zi yi,9,9 =,7 i= b =, a = -,7 La rea di regressione è Y = -,7 +, Z E cioè, ornando alle variabili orginarie, il modello è Y =,7 +, Possiamo quindi usare queso modello per fare delle previsioni. Quale sarà il valore di Y nel? In corrispondenza del, = quindi Y =,7 +, =,