Valutazione e Selezione del Modello

Размер: px
Начинать показ со страницы:

Download "Valutazione e Selezione del Modello"

Транскрипт

1 Valutazione e Selezione del Modello Fondamenti Matematici della Teoria dell Apprendimento Statistico Laura Lo Gerfo Dipartimento di Informatica e Scienze dell Informazione 18 maggio 2007 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

2 Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

3 Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

4 Introduzione Il problema di selezionare un modello Quale è la capacità di generalizzazione dell algoritmo di learning su nuovi dati? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

5 Problema di regressione Modello Statistico y = f 0 (x) + ɛ x: Input y: Output ɛ: errore Goal: approssimazione ˆf di f 0 che costituisca la relazione input output. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

6 Regressione Lineare Modello di regressione lineare x = (x 1,..., x d ) d f (x) = β 0 + x j β j j=1 Soluzione ai minimi quadrati Coefficienti: β = (β 0, β 1,..., β d ) Training Set: x i = (x i1, x i2,..., x in ) quindi X è una matrice di dimensione N (d + 1), aggiungendo un vettore di 1 nella prima posizione Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

7 Regressione lineare ˆβ = (X T X) 1 X T y ŷ = X ˆβ Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

8 Regressione quadratica f (x) = β 0 + t j=1 x j β j + d j=t+1 x j 2 β j Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

9 Interpolazione E interpolando i dati? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

10 Quale è meglio? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

11 Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

12 Metodi di Selezione del Modello Che cosa vogliamo? Idealmente vorremmo studiare il rischio atteso legato al modello ˆf In generale, minimizzare l errore empirico non dà garanzie sulla capacità di generalizzazione del metodo Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

13 Errore Quadratico medio MSE MSE(x) = E S [y ˆf (x)] 2 EPE(x) = E y x E S [y ˆf (x)] 2 Decomposizione Bias-Variance Funzione di regressione: f 0 (x) = E y x (y) Termine di Bias: Bias = f 0 E S (ˆf (x)) Termine di Variance: Var S = Var(ˆf (x)) Si può verificare che: EPE(x) = Var y x (y) + Variance + Bias 2 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

14 Errore di Test e di Training Complessità del modello Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

15 Obbiettivi principali Selezione del modello Stimare la performance di modelli differenti allo scopo di scegliere la migliore approssimazione Stima del modello Una volta stabilito il modello ottimale, stimare l errore di predizione su nuovi dati Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

16 Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

17 Approccio Quando ho tanti dati Training Set: modella lo stimatore Validation Set: seleziona il modello tramite l analisi dell errore Test Set: verifica l errore di generalizzazione Se ho pochi dati: usiamo soltanto il Test... Lati positivi: Semplice e veloce Sottostima errore di generalizzazione Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

18 Metodi per approssimare la fase di validazione Tecniche analitiche AIC (Akaike Information Criterion) BIC (Bayesian Information Criterion) MDL (Minimum Description Length) SRM (Structural Risk Minimization) Tecniche basate sul riutilizzo appropriato dei dati CROSS VALIDATION BOOTSTRAP Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

19 Cross Validation Stimare l errore di generalizzazione: Err = E[L(Y,ˆf (X))] LOOCV(Leave-one-out Cross Validation) For k = 1 a N 1 Sia (x k, y k ) il k-esimo elemento di S 2 Rimuoverlo da S 3 Calcolare ˆf rispetto agli N-1 punti del dataset 4 Calcolare l errore rispetto alla loss-function scelta di (x k, y k ) Ottenuti tutti gli errori calcolare una media Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

20 Cross Validation LOOCV cont d Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

21 Cross Validation LOOCV vs. Test set method Test-set: Stima dell errore di generalizzazione inaffidabile (pochi dati) LOOCV: Costoso al livello computazionale, devo calcolare uno stimatore per insieme di N-1 dati Se non si hanno abbastanza dati ma vogliamo una stima affidabile? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

22 K-fold Cross Validation K-fold Cross Validation Si splittano i dati in K parti K - 1 parti si usano per il training set Denotiamo con ˆf k (x) la funzione calcolata. La stima dell errore dato dalla cross validation è CV = 1 N N L(y i,ˆf k(i) (x i )) i=1 Se il mio modello dipende da un parametro...come lo scelgo? Dato un insieme di stime ˆf (x, λ) descritte da un parametro lambda CV (λ) = 1 N N L(y i,ˆf k(i) (x i, λ)) i=1 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

23 K-fold Cross Validation K-fold Cross Validation cont d Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

24 Scelta di K Trade-off Bias Variance? K grande( N): (LOOCV) BIAS basso, VARIANZA alta.. K piccolo( 2): BIAS alto, VARIANZA bassa Allora come scelgo K? 1 Dipende dallo stimatore e dall inclinazione della curva dell errore (ipotetico) al crescere dei dati di training Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

25 GCV - cross validation generalizzata GCV Approssima LOOCV (caso loss quadratica, fitting lineare) Non è più necessario valutare le ˆf sui sottoinsiemi ma: 1 N ( N y i ˆf (x i ) 1 trace(p)/n i=1 ) 2 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

26 Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

27 Dati Dati X: matrice dei dati N x d X i dato i-esimo, estrazione di una riga Funzioni Kernel Lineare: k(x i, X j ) = Xi tx j Polinomiale: k(x i, X j ) = (Xi tx j + 1) d Gaussiano: k(x i, X j ) = e ( X i X j 2 σ 2 ) Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

28 Minimi quadrati Goal Trovare la ˆf che minimizza: min f H 1 2 N (f (X i ) Y i ) 2 + λ 2 f 2 K i=1 Nota: stiamo minimizzando tutto, non solo la loss media (ora non consideriamo il fattore 1/N) Per il teorema di rappresentazione: min β R 1 2 Y K β λ 2 βt K β Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

29 Soluzione RLS Soluzione RLS classica β = (K + λi) 1 Y Ŷ = K β Soluzione RLS in termini di filtro G λ β = G 1 λ Y Ŷ = K β Usiamo la SVD: K = QΛQ t, dove Q t Q = I e Λ ii 0 che implica G 1 λ = Q(Λ + λi) 1 Q t G λ = K + λi = QΛQ t + λi = Q(Λ + λi)q t Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

30 Risolvere RLS a parametri fissati Sistema Il sistema lineare da risolvere è: (K + λi)β = Y Attenzione: Non provate ad invertire direttamente la matrice! Il tutto costa O(N 3 ) Cholesky (K + λi) = L t L Il sistema (K + λi)β = Y diventa: L t Lβ = Y { L t γ = Y Lβ = γ Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

31 Risolvere RLS al variare del parametro Algoritmo Calcola SVD K : O(N 3 ) e per diversi valori di λ: Calcola β λ = Q(Λ + λi) 1 Q t Y : O(N 2 ) Ma devo farlo troppe volte!!!! Validazione: Svantaggi e Soluzioni LOOCV: Il tutto deve essere fatto per diversi valori del parametro λ su training set con N 1 dati Ottenere l errore leave-one-out per RLS è più facile! LOOE = Si può ulteriormente semplificare LOOE = Y KG 1 λ Y diag(i KG 1 λ ) β diag(g 1 λ ) Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

32 Il costo di calcolare LOOE Calcolo K = QΛQ t in O(N 3 ) Per calcolare il LOOE: in O(N 2 ) Calcolo β λ = Q(Λ + λi) 1 Q t Y Calcolo il denominatore come segue: G ii = 1 Λ ii + λ E devo farlo al variare del parametro lambda... Nel caso di Kernel lineare N si può sostituire con d ma le cose rimangono pesanti, soprattutto se vogliamo fare Cross Validation. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

33 Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

34 Idea Funzionale Si minimizza il funzionale K β Y 2 n per mezzo di una procedura iterativa. Devo minimizzare il funzionale dei minimi quadrati: K β Y 2 n = 0 Mi muovo in direzione opposta al gradiente di un certo passo. Più passi facciamo più ci avviciniamo alla vera soluzione: quella che minimizza il rischio empirico. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

35 Procedura iterativa Algoritmo β (0, 0,..., 0); Per i 1,..., t (denota il numero di iterazioni) τ 1 (fisso il passo) β β + τ(y K β) Parametro di regolarizzazione τ non è importante per la regolarizzazione (esiste un τ ottimo fissato) t è fondamentale per la regolarizzazione e corrisponde a λ 1 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

36 CROSS VALIDATION per Landweber t è un parametro fondamentale perché Definisce il numero di iterazioni e quindi la regolarizzazione Mi permette di calcolare automaticamente le t soluzioni precedenti (utile per CV) Procedure con K-fold Cross Validation Spezzo K in K train e K test rispetto all algoritmo di KCV Per i 1,..., k Per j 1,..., t τ 1 β β + τ(y K train β) ERR(i, j) = K test β Y test Calcolo l errore di generalizzazione facendo la media per riga Trovo t opt che lo minimizza Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

37 Vantaggi computazionali Costi per la fase di training Non è più necessario invertire la matrice K o farne la decomposizione in valori singolari Mi servono O(tN 2 ) operazione per calcolare i coefficienti β Costi per la validazione La ricerca del parametro ottimo si fonde con il calcolo della soluzione Il costo computazionale non aumenterà nel caso in cui si voglia trovare il parametro ottimo O(tkN 2 ) (k è trascurabile, di solito 5 o 10) Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

38 Procedura iterativa ν-method ν = 1 Per i 1,..., t u (i 1)(2i 3)(2i+2ν 1) (i+2ν 1)(2i+4ν 1)(2i+2ν 3) w 4 (2i+2ν 1)(i+ν 1) (i+2ν 1)(2i+4ν 1) β β i 1 u(β i 1 βi 2) + w N (Y K β i 1); ν è il parametro di qualificazione t in questo caso vale λ 2 quindi la velocità di convergenza del metodo è maggiore di landweber Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

39 Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

40 Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

41 Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

42 Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

43 Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

44 Risultati #Train #Test Dim #Resampl. Banana B.Canc Diabet F.Solar German Heart Image Ringn Splice Thyroid Titanic Twonorm Wavef Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

45 Risultati Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

46 Risultati cont d LANDWEBER ν RLS TSVD BANANA ± ± ± ± 0.63 σ = 1 t = 116 t = 70 t = 350 t = 301 B.CANC ± ± ± ± 4.32 σ = 2 t = 5 t = 5 t = 41 t = 120 DIABET ± ± ± ± 0.2 σ = 2 t = 18 t = 11 t = 400 t = 300 F.SOLAR ± ± ± ± 0.90 σ = 1 t = 25 t = 8 t = 51 t = 140 GERMAN ± ± ± ± 2.60 σ = 3 t = 119 t = 16 t = 600 t = 1150 HEART ± ± ± ± 3.41 σ = 12 t = 63 t = 16 t = 500 t = 170 RINGN ± ± ± ± 0.33 σ = 3 t = 514 t = 37 t = 820 t = 510 THYROID 4.53 ± ± ± ± 2.21 σ = 1 t = 65 t = 28 t = 100 t = 200 TWONORM 2.39 ± ± ± ± 0.13 σ = 3 t = 20 t = 7 t = 100 t = 61 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

47 Esperimenti: Classificazione facce Patches di Immagini Dati usati 2000 dati di training Split: I dati per la validazione sono stati ricampionati (come sopra) e splittati in training e test Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

48 Risultati facce #TRAIN + #TEST CLASSIFIER RBF-SVM 2.41 ± ± ± 0.71 σ = 800 C = 1 σ = 1000 C = 0.8 σ = 1000 C = 0.8 ν-method 1.63 ± ± ± 0.34 σ = 341 t = 85 σ = 341 t = 89 σ = 300 t = 59 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò Kernel Methods Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 14/05/2018 Kernel Methods Definizione di Kernel Costruzione di Kernel Support Vector Machines Problema primale e duale

Подробнее

Regressione Lineare e Regressione Logistica

Regressione Lineare e Regressione Logistica Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: [email protected] @famo2spaghi http://stegua.github.com 1 Introduzione

Подробнее

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S

Подробнее

Apprendimento statistico (Statistical Learning)

Apprendimento statistico (Statistical Learning) Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x

Подробнее

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Подробнее

Apprendimento statistico (Statistical Learning)

Apprendimento statistico (Statistical Learning) Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x

Подробнее

Metodi computazionali per i Minimi Quadrati

Metodi computazionali per i Minimi Quadrati Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe

Подробнее

Algoritmi di classificazione supervisionati

Algoritmi di classificazione supervisionati Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale

Подробнее

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Подробнее

Introduzione alle Reti Neurali

Introduzione alle Reti Neurali Introduzione alle Reti Neurali Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: [email protected] @famo2spaghi http://stegua.github.com Reti Neurali Terminator

Подробнее

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una

Подробнее

Esercitazione di Calcolo Numerico 1 27 Maggio Calcolare la fattorizzazione P A = LU della matrice A =

Esercitazione di Calcolo Numerico 1 27 Maggio Calcolare la fattorizzazione P A = LU della matrice A = Esercitazione di Calcolo Numerico 1 27 Maggio 29 1. Calcolare la fattorizzazione P A = LU della matrice 1 2 3 A = 2 3 3, ed utilizzarla per risolvere il sistema lineare Ax = b, con b = (1, 2,, 16) T. 2.

Подробнее

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Underfitting e Overfitting Complessità spazio ipotesi SVM: aumenta con kernel non lineari, RBF con maggiore pendenza, aumenta con

Подробнее

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre R - Esercitazione 6 Andrea Fasulo [email protected] Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria

Подробнее

Progettazione di un Sistema di Machine Learning

Progettazione di un Sistema di Machine Learning Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale Rosati Jessica Machine Learning System Un sistema di Machine learning apprende automaticamente

Подробнее

Università di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Università di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi Università di Pavia Econometria Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Università di Pavia Introduzione L econometria si interessa all analisi dei dati economici. I dati economici

Подробнее

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Подробнее

Statistica Inferenziale

Statistica Inferenziale Statistica Inferenziale Prof. Raffaella Folgieri Email: [email protected] aa 2009/2010 Riepilogo lezione 6 Abbiamo visto: Definizione di popolazione, di campione e di spazio campionario Distribuzione

Подробнее

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Stima della qualità dei classificatori per l analisi dei dati biomolecolari Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: [email protected] Rischio atteso e rischio empirico L` apprendimento di una funzione non nota

Подробнее

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6

Подробнее

Risoluzione di sistemi lineari sparsi e di grandi dimensioni

Risoluzione di sistemi lineari sparsi e di grandi dimensioni Risoluzione di sistemi lineari sparsi e di grandi dimensioni Un sistema lineare Ax = b con A R n n, b R n, è sparso quando il numero di elementi della matrice A diversi da zero è αn, con n α. Una caratteristica

Подробнее

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Подробнее

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Подробнее

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme

Подробнее

Apprendimento Automatico (Feature Selection e Kernel Learning)

Apprendimento Automatico (Feature Selection e Kernel Learning) Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli

Подробнее

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime

Подробнее

Metodi di regressione multivariata

Metodi di regressione multivariata Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un

Подробнее

Progettazione di un Sistema di Machine Learning

Progettazione di un Sistema di Machine Learning Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale a.a. 2013-14 Vito Claudio Ostuni Data analysis and pre-processing Dataset iniziale Feature

Подробнее

Statistica 1 A.A. 2015/2016

Statistica 1 A.A. 2015/2016 Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione

Подробнее

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Подробнее

Metodi di Iterazione Funzionale

Metodi di Iterazione Funzionale Appunti di Matematica Computazionale Lezione Metodi di Iterazione Funzionale Il problema di calcolare il valore per cui F() = si può sempre trasformare in quello di trovare il punto fisso di una funzione

Подробнее

Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III)

Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III) Derivazione numerica Introduzione al calcolo numerico Il calcolo della derivata di una funzione in un punto implica un processo al limite che può solo essere approssimato da un calcolatore. Supponiamo

Подробнее

Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di

Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di Problema Cercare la soluzione di Equazioni non lineari dove Se è soluzione dell equazione, cioè allora si dice RADICE o ZERO della funzione Metodo grafico Graficamente si tratta di individuare l intersezione

Подробнее

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Подробнее

Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano

Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano Capitolo 3: Ottimizzazione non vincolata parte III E. Amaldi DEI, Politecnico di Milano 3.4 Metodi di ricerca unidimensionale In genere si cerca una soluzione approssimata α k di min g(α) = f(x k +αd k

Подробнее