Regressione K-Nearest Neighbors Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 1/13
Regressione non parametrica I metodi parametrici fanno ipotesi circa la forma di f. Al contrario, i metodi non parametrici, non assumendo esplicitamente alcuna forma per f, forniscono un alternativa flessibile per l analisi nei problemi di regressione. Un metodo non parametrico tra i più semplici e i più noti è quello della regressione K-nearest neighbors (KNN) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 2/13
Regressione KNN {(, ), (, )} Per un insieme di dati training x 1 y 1 x n y n e dato un valore K, la previsione f^ ( x0 ) per un qualsiasi punto nella regressione KNN : x 0 1. individua l insieme, indicato con N 0, delle K osservazioni training { x 1, x n } più vicine a x 0 f( ) 2. stima x 0 usando la media di tutte le risposte training { y 1, y n } in N 0 In altre parole, 1 f^ ( x0 ) = y i K x i N 0 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 3/13
Si noti che nella regressione KNN non esiste una funzione in senso proprio come nella regressione lineare f^ Piuttosto, per ciascun punto in un vicinato N 0 di dimensione K, la regressione KNN usa la media delle corrispondenti alle x i N 0 y i La dimensione del vicinato N 0 aumenta o diminuisce con K file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 4/13
Esempio KNN KNN su un set di dati con p = 2 predittori. K = 1 - diagramma a sinistra; K = 9 - diagramma a destra file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 5/13
Scelta di K In generale, il valore ottimale di bias-varianza K dipende dal trade-off K piccolo fornisce un adattamento più flessibile, con bassa distorsione, ma varianza elevata. Valori più elevati di K forniscono un adattamento più omogeneo e quindi meno variabile poiché la previsione in una regione è una media di più punti. Tuttavia, questo può causare distorsione, mascherando parte della struttura in f. Esistono metodi computazionali per determinare il valore di K ottimale che vedremo nelle prossime lezioni ed esercitazioni. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 6/13
Confronto regressione parametrica-non parametrica In generale l approccio parametrico supera quello non parametrico se la forma parametrica che è stata selezionata è vicino alla vera forma di f. Fig. 3.17; f lineare (in nero) f^ da regressione KNN (in blu); K = 1 K = 9 (destra) (sinistra), file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 7/13
f lineare Fig. 3.18: f^ Sinistra: f lineare (Nero); da RLS (Blu) Destra: Test MSE RLS (Nero), Test MSE KNN (Verde) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 8/13
f non lineare Fig. 3.19: Sinistra: non-lineare (Nero); da KNN, (Blu) e (Rosso) f f^ K = 1 K = 9 Destra: Test MSE RLS (Nero), Test MSE KNN (Verde) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 9/13
file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 10/13
f non-lineare, p elevato alt text Nella figura sopra i predittori aggiuntivi non sono legati a Y e giocano il ruolo di disturbo. Test MSE per RLM (Nero) e KNN (Verde) per la stessa f non-lineare del grafico precedente (in basso); p = 1, 2, 3, 4, 10, 20 All aumentre di p la performance della RLM peggiora di poco mentre quello di KNN peggiora decisamente file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 11/13
Curse of dimensionality La spiegazione del fenomeno visto nella figura precedente sta nel fatto che in uno spazio a p dimensioni la numerosità dei dati, di fatto, si riduce sostanzialmente. In questo caso ci sono unità che, disperse, ad esempio in uno spazio a p = 20 dimensioni non hanno in pratica alcun Nearest Neighbor. n = 100 Il fenomeno è conosciuto come curse of dimensionality. Ossia i K NN di x 0 possono essere effettivamente molto lontani da x 0 in uno spazio altamente dimensionale, dando luogo a previsioni molto imprecise. f^ x0 ( ) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 12/13
Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 13/13