Progettazione di un Sistema di Machine Learning

Transcript

1 Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale Rosati Jessica

2 Machine Learning System Un sistema di Machine learning apprende automaticamente programmi a partire dai dati; L apprendimento si basa su tre componenti: representation + optimization + evaluation; Representation: individuare lo spazio delle ipotesi (hypotesis space of the learner) e rappresentare i dati di input (quali features usare)

3 Machine Learning System Optimization: metodo per addestrare il classificatore (e.x. Gradient descent, greedy search ); Evaluation: funzione di valutazione (scoring/objective function) per distinguere un buon learner da un bad learner. Goal: generalizzare oltre gli esempi visti nel training set.

4 Data analysis and pre processing Dataset iniziale Feature Selection Model Choice and Learning Training set Model Selection Validation set Evaluation Test set Application New Data

5 Data analysis and pre processing I dati nel mondo reale sono sporchi: incompleti: manca il valore di alcuni attributi, o mancano del tutto alcuni attributi interessanti. inaccurati: contengono valori errati o che si discostano sensibilmente da valori che ci si aspetta. GIGO: garbage in garbage out Occorre un accurata analisi e bonifica dei dati. Spesso questa parte di pre processing porta via la maggior parte del tempo.

6 Data analysis and pre processing Pre processing: pulizia e trasformazione dei dati pulizia dei dati: rimozione outliers, rimozione rumore, rimozione duplicati trasformazioni: Discretizzazione Aggregazione normalizzazione e re scaling Creazione nuovi attributi

7 Data analysis and pre processing: Normalization Spesso gli attributi assumono valori in intervalli di ampiezza diversa. Questo variabilità può influire molto sull algoritmo di apprendimento. min max normalization: si riscala l'attributo in modo che i nuovi valori cadano un intervallo desiderato [a,b]. Questo approccio può esser fortemente influenzato da outliers. Necessita la conoscenza dei valori min e max. (In fase di predizione potrebbe arrivare un input con un valore oltre il valore massimo). x= ((x min)/(max min) )* (b a)+a Es x=(1,2,3) > [0,1] x=((x 1)/(3 1))*1 >x=(0,0.5,1) z score normalization x= (x mean(x))/(dev std(x)) Questo approccio è meno influenzato da outliers e non risente dei valori min e max.

8 Feature Selection Selezione degli attributi rilevanti. Spesso la dimensione dell input è elevato, ci sono molti attributi ridondanti (ce ne sono alcuni correlati tra loro) e/o irrilevanti. Questo può comportare complicazioni nel modello in quanto il numero di parametri diventa eccessivo (overfitting) e può richiedere anche un tempo maggiore in fase di addestramento. Filtri: si applicano delle misure che valutano quanto un attributo è capace di discriminare tra le classi. Si rimuovono gli attributi poco discriminatori. Misure tipiche: Information Gain, Entropy, Mutual Information Wrappers: metodo iterativo con cui si seleziona un sottoinsieme di attributi e lo si usa per addestrare un modello. Si itera cercando una combinazione di features che da le performance migliori(su un validation set) Algoritmi di riduzione della dimensionalità (PCA, SVD)

9 Model Selection Quale modello scegliamo?

10 Underfitting e Overfitting Underfitting High Bias Overfitting High Variance

11 Vogliamo un modello che sia capace di generalizzare, ovvero che sia capace di predire correttamente input non conosciuti durante l addestramento. Overfitting: il modello è tarato perfettamente sul training set. Si è ottenuto un modello molto complesso, fin troppo. Ha bassa capacità di generalizzare. Buone performance sul training set ma non sul test set. Underfitting: il modello è troppo semplice. Pessime performance sia sul training set che sul test set.

12 Generalization error=err(x)= Bias + Variance Bias misura l errore medio su h(x): misura della tendenza del learner a apprendere la stessa cosa sbagliata Variance Misura quanto un modello varia da un dataset all altro: misura della tendenza del learner ad apprendere cose random, indipendentemente dal segnale reale di input

13

14 High Bias Underfitting High Variance Overfitting C è un tradeoff

15 Model Selection Quale modello scegliamo? Come scegliamo un modello che ci garantisca un buon compromesso tra underfitting(high bias) e overfitting(high variance)? scegliamo SVM o ANN o logistic Regression? se scegliamo la logistic regression, scegliamo un polinomio di grado2, grado3, grado1? se invece scegliamo una ANN quanti neuroni nello strato nascosto? Cross Validation Utilizziamo una parte del Training Set come set di validazione

16 Quale modello scegliamo? Come scegliamo un modello che ci garantisca un buon compromesso tra underfitting(high bias) e overfitting(high variance)? scegliamo SVM o ANN o logistic Regression? se scegliamo la logistic regression, scegliamo un polinomio di grado2, grado3, grado1? se invece scegliamo una ANN quanti neuroni nello strato nascosto? NO! Scegliamo il modello che dà l errore minore sul Training Set L errore sul Training Set è una sottostima dell errore di generalizzazione. Perché il modello è stato appreso proprio minimizzando quell errore. Questo provoca overfitting e il modello non sarà in grado di generalizzare.

17 Cross Validation Come scegliamo un modello che ci garantisca un buon compromesso tra underfitting(high bias) e overfitting(high variance)? scegliamo SVM o ANN o logistic Regression? se scegliamo la logistic regression, scegliamo un polinomio di grado2, grado3, grado1? se invece scegliamo una ANN quanti neuroni nello strato nascosto? SI! Scegliamo il modello che dà l errore minore sul Validation Set Prima dell addestramento togliamo una parte dal Training Set e la utilizziamo come Validation Set. Questo insieme di validazione non viene utilizzato per l addestramento del modello. L errore sul Validation Set è una migliore stima dell errore di generalizzazione.

18 Cross Validation Di solito si sceglie come set di validazione 1/3 dei dati di training (hold out cross validation) oppure si può utilizzare una k folds cross validation. Una volta scelto il modello si può riaddestrare il modello scelto considerando tutto il training set iniziale. La cross validation è utilizzabile anche per trovare dei metaparametri del modello. Ad esempio il fattore di regolarizzazione. Oppure può esser utilizzata per la selezione di un sottoinsieme di features rilevanti.

19 Cross Validation

20 Valutazione del modello Una volta scelto il modello abbiamo bisogni di valutarlo e validarlo. La valutazione viene fatta su un set di dati separati da quelli di addestramento e validazione. La misura di performance finale viene calcolata sul Test Set. Purtroppo è molto facile cadere nella tentazione di dare una sbirciata ai dati di test (peeking). Il peeking si verifica in questo modo: si generano diverse ipotesi(modelli)con varie versioni dell algoritmo si misurano le loro prestazioni sull insieme di test si sceglie l ipotesi che fornisce le migliori predizioni Questa procedura è sbagliata in quanto si dovrebbe utilizzare il validation set per la scelta delle ipotesi e il Test Set deve esser utilizzato solamente una volta scelto il modello finale per validare il modello attraverso una misura di performance. L errore sul validation set è una sottostima dell errore di generalizzazione in quanto il validation set è utilizzato per la scelta del modello finale.

21 Valutazione del modello Ci sono due tecniche principali di valutazione: Holdout Questo metodo ha lo svantaggio che i particolari insiemi di training e test possono influenzare la valutazione. Accorgimento: i campioni scelti potrebbero non esser rappresentativi. Ad esempio la rappresentazione di una classe potrebbe esser sbilanciata tra insieme di addestramento e test. Si può utilizzare una tecnica di stratificazione in cui si controlla che le classi vengano distribuite equamente.

22 Valutazione del modello K folds Cross validation si basa su K iterazioni(esperimenti), alla i ma iterazione si usa la i ma fold come test set e le restanti compongono il training set. Una scelta comune per K è 10. Si potrebbe effettuare l intera procedura più volte scegliendo casualmente la composizione delle folds (rimescolamento del dataset).

23

24 Un ultimo accorgimento. Non è buona pratica utilizzare l informazione sulla classe di appartenenza dei dati di test in una fase di pre processing come la feature selection ad esempio. GOOD BAD

25 Valutazione del modello: Misure di Perfomance Regressione RMSE, MAE, Indice di Determinazione Accuracy Precision/Recall ROC Classificazione

26 classificatore binario Matrice di Confusione Predizioni calcolate con il classificatore che stiamo valutando Training Set Validation Set Test Set

27 Matrice di Confusione Accuracy = (TP+TN)/(TP+TN+FP+FN) Error rate = (FP+FN)/(TP+TN+FP+FN) = 1 accuracy Recall o Sensitivity otrue Positive Rate = TP/(TP+FN) Precision = TP/(TP+FP) F measure = 2*precision*recall/(precision+recall) Specificity o True Negative Rate=TN/(FP+TN) False Positive Rate=FP/(TN+FP) = 1 specificity

28 ROC Curve