Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione

Documenti analoghi
Selezione del modello Strumenti quantitativi per la gestione

Analisi Discriminante Strumenti quantitativi per la gestione

Analisi Discriminante. Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione

Statistical learning. Strumenti quantitativi per la gestione. Emanuele Taufer

Regolarizzazione (Shrinkage) Strumenti quantitativi per la gestione

Strumenti quantitativi per la gestione (121210) A.a / 2019.

Statistical learning. Strumenti quantitativi per la gestione

Alberi di decisione con R

Quiz di verifica Classificazione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione

Analisi discriminante in R Strumenti quantitativi per la gestione

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Regressione logistica

Regressione logistica. Strumenti quantitativi per la gestione

Classificazione k-nn con R. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione

Valutazione dei modelli matematici

Modelli non lineari e cross validazione. Strumenti quantitativi per la gestione

Strumenti quantitativi per la gestione. Introduzione al corso A.A

Modelli con predittori qualitativi e modelli con interazioni

Regressione lineare semplice

Regressione lineare semplice. Strumenti quantitativi per la gestione

Algoritmi di classificazione supervisionati

Analisi discriminante in R. Strumenti quantitativi per la gestione

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Apprendimento basato sulle istanze

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Multicollinearità Strumenti quantitativi per la gestione

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

DESCRIZIONE DEL DATA SET

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Regressione lineare multipla Strumenti quantitativi per la gestione

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione

Analisi delle CP. Dati USArrests

Validazione dei modelli Strumenti quantitativi per la gestione

Multicollinearità. Strumenti quantitativi per la gestione

STATISTICA. Esercitazione 5

Analisi della varianza

Regressione ridge e LASSO Strumenti quantitativi per la gestione

High Return on Engagement. Analytics Report. per SAMPLE PROJECT

High Return on Engagement

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Esercitazione del

Statistica computazionale. Informazioni sul docente. Parte I. Informazioni preliminari. Stefano Tonellato. Anno Accademico

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Matematica Lezione 22

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)

Tecniche di sondaggio

Metodi statistici per la ricerca sociale

Calcolo I, a.a Primo esonero 11 novembre k + 2 k

Test di ipotesi. Test

Introduzione al Test in Itinere

Classificatore K-NN 1

Università degli Studi di Roma Tor Vergata

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

sperimentale L analisi di sensitività, infine, ci consente di dire che:

29 maggio Distinzione importante: giochi simultanei giochi sequenziali: uno dei giocatori ha la prima mossa; l altro deve rispondere.

Il mercato dei beni e la curva IS

6 Coerenza temporale e politica monetaria ottimale: discrezionalità versus regole

La codifica delle immagini

Capitolo 3 La scelta razionale del consumatore

ANALISI E COMMENTO DEGLI ESITI DELLE PROVE INVALSI 2016

Registro Lezioni di Algebra lineare del 15 e 16 novembre 2016.

1.1 Obiettivi della statistica Struttura del testo 2

Fondamenti statistici : Test d Ipotesi (1)

Computazione per l interazione naturale: processi gaussiani

L OPINIONE DEGLI STUDENTI CHE FREQUENTANO I CORSI

Esercizi di statistica

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

PIXEL. Il valore quantizzato misurato da ciascun sensore diventa un. PICTURE ELEMENT = PIXEL dell immagine. Interazione & Multimedia

Digitalizzazione delle immagini

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Economia Politica e Istituzioni Economiche

La codifica delle immagini

Fondamenti di Data Processing

ESERCITAZIONI Di ECONOMIA POLITICA Canale A-D Prof. E. Felli

Argomenti della lezione:

LEZIONI DI STATISTICA MEDICA

Dipartimento di Samità Pubblica e Malattie Infettive Sapienza Università di Roma

STATISTICA A K (60 ore)

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Statistica. Alfonso Iodice D Enza

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Elementi di Psicometria con Laboratorio di SPSS 1

L interruttore viene montato su un dispositivo di accoppiamento bus.

1 ISCRIVERSI AL SITO. Alla pagina cliccare su «desidero iscrivermi»

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

La curva di regressione è il luogo dei punti aventi come ordinate le medie condizionate

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

STATISTICA ESERCITAZIONE 13

Computazione per l interazione naturale: Regressione probabilistica

Transcript:

Regressione K-Nearest Neighbors Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 1/13

Regressione non parametrica I metodi parametrici fanno ipotesi circa la forma di f. Al contrario, i metodi non parametrici, non assumendo esplicitamente alcuna forma per f, forniscono un alternativa flessibile per l analisi nei problemi di regressione. Un metodo non parametrico tra i più semplici e i più noti è quello della regressione K-nearest neighbors (KNN) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 2/13

Regressione KNN {(, ), (, )} Per un insieme di dati training x 1 y 1 x n y n e dato un valore K, la previsione f^ ( x0 ) per un qualsiasi punto nella regressione KNN : x 0 1. individua l insieme, indicato con N 0, delle K osservazioni training { x 1, x n } più vicine a x 0 f( ) 2. stima x 0 usando la media di tutte le risposte training { y 1, y n } in N 0 In altre parole, 1 f^ ( x0 ) = y i K x i N 0 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 3/13

Si noti che nella regressione KNN non esiste una funzione in senso proprio come nella regressione lineare f^ Piuttosto, per ciascun punto in un vicinato N 0 di dimensione K, la regressione KNN usa la media delle corrispondenti alle x i N 0 y i La dimensione del vicinato N 0 aumenta o diminuisce con K file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 4/13

Esempio KNN KNN su un set di dati con p = 2 predittori. K = 1 - diagramma a sinistra; K = 9 - diagramma a destra file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 5/13

Scelta di K In generale, il valore ottimale di bias-varianza K dipende dal trade-off K piccolo fornisce un adattamento più flessibile, con bassa distorsione, ma varianza elevata. Valori più elevati di K forniscono un adattamento più omogeneo e quindi meno variabile poiché la previsione in una regione è una media di più punti. Tuttavia, questo può causare distorsione, mascherando parte della struttura in f. Esistono metodi computazionali per determinare il valore di K ottimale che vedremo nelle prossime lezioni ed esercitazioni. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 6/13

Confronto regressione parametrica-non parametrica In generale l approccio parametrico supera quello non parametrico se la forma parametrica che è stata selezionata è vicino alla vera forma di f. Fig. 3.17; f lineare (in nero) f^ da regressione KNN (in blu); K = 1 K = 9 (destra) (sinistra), file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 7/13

f lineare Fig. 3.18: f^ Sinistra: f lineare (Nero); da RLS (Blu) Destra: Test MSE RLS (Nero), Test MSE KNN (Verde) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 8/13

f non lineare Fig. 3.19: Sinistra: non-lineare (Nero); da KNN, (Blu) e (Rosso) f f^ K = 1 K = 9 Destra: Test MSE RLS (Nero), Test MSE KNN (Verde) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 9/13

file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 10/13

f non-lineare, p elevato alt text Nella figura sopra i predittori aggiuntivi non sono legati a Y e giocano il ruolo di disturbo. Test MSE per RLM (Nero) e KNN (Verde) per la stessa f non-lineare del grafico precedente (in basso); p = 1, 2, 3, 4, 10, 20 All aumentre di p la performance della RLM peggiora di poco mentre quello di KNN peggiora decisamente file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 11/13

Curse of dimensionality La spiegazione del fenomeno visto nella figura precedente sta nel fatto che in uno spazio a p dimensioni la numerosità dei dati, di fatto, si riduce sostanzialmente. In questo caso ci sono unità che, disperse, ad esempio in uno spazio a p = 20 dimensioni non hanno in pratica alcun Nearest Neighbor. n = 100 Il fenomeno è conosciuto come curse of dimensionality. Ossia i K NN di x 0 possono essere effettivamente molto lontani da x 0 in uno spazio altamente dimensionale, dando luogo a previsioni molto imprecise. f^ x0 ( ) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 12/13

Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/5-5_knn.html#(1) 13/13