Esercizi d esamed. Spazio delle versioni

Documenti analoghi
Machine Learning:Version Space. Sommario

Introduzione alla Modellazione Predittiva Dal ML al DM: Concept Learning

Apprendimento Automatico: Apprendimento di Concetti da Esempi

Apprendimento di Alberi di Decisione: Bias Induttivo

ID3: Selezione Attributo Ottimo

Alberi di Decisione. Fabio Aiolli Sito web del corso

Sistemi Intelligenti 42. Apprendimento PAC

Alberi di Decisione. Corso di AA, anno 2017/18, Padova. Fabio Aiolli. 23 Ottobre Fabio Aiolli Alberi di Decisione 23 Ottobre / 16

Apprendimento basato sulle istanze

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati

Alberi di Decisione (2)

Data Science e Tecnologie per le Basi di Dati

Corso di Intelligenza Artificiale A.A. 2016/2017

Alberi di Decisione (2)

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 21 Giugno 2005 (Punteggio su 30/30; Tempo 2h )

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 13 Settembre 2007 (Punteggio su 30/30; Tempo 2h )

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 13 Luglio 2005 (Punteggio su 30/30; Tempo 2h )

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 12 aprile 2006 (Punteggio su 30/30; Tempo 2h )

Classificazione Bayesiana

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE L-S 23 Giugno 2004 Docente: Michela Milano

Apprendimento Automatico

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 19 marzo 2009 (Punteggio su 30/30; Tempo 2h )

Apprendimento Automatico Esercitazione 15/04/2009 Prof. Roberto Navigli

Introduzione all apprendimento automatico e Spazio delle versioni

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

d. Cancellazione del valore 5 e. Inserimento del valore 1

Apprendimento Bayesiano

Algoritmi di classificazione supervisionati

Alberi di Regressione

Esercizi per il corso di Algoritmi, anno accademico 2011/12

Data mining: classificazione

Esercizio: apprendimento di congiunzioni di letterali

Computazione per l interazione naturale: processi gaussiani

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA

Data Science A.A. 2018/2019

Sistemi Intelligenti 57. Alberi di Decisione. funzioni target con valori di output discreti (in generale più di 2 valori);

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 2 Aprile 2009 (Punteggio su 30/30; Tempo 2h )

Business Intelligence per i Big Data

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 8 Gennaio 2009 (Punteggio su 30/30; Tempo 2h )

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Naïve Bayesian Classification

COMPITO DI APPLICAZIONI DI INTELLIGENZA ARTIFICIALE 15 Luglio 2010 (Punteggio su 30/30; Tempo 2h )

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute.

Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione

Apprendimento di insiemi disgiuntivi di regole

Ingegneria della Conoscenza e Sistemi Esperti Lezione 5: Regole di Decisione

Codifica di Huffman e Lempel-Ziv-Welch

Metodi supervisionati di classificazione

Codifica di Huffman e Lempel-Ziv-Welch

Codifica di Huffman e Lempel-Ziv-Welch A L B E R T O B E L U S S I A N N O A C C A D E M I C O /

Tecniche di riconoscimento statistico

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Apprendimento Automatico

15 Informazione e Predizione

Argomenti della lezione. Criteri di divisibilità fattorizzazione m.c.m. e M.C.D. frazioni ed espressioni

PROGETTAZIONE ANNUALE MATEMATICA CLASSE QUARTA/QUINTA

Classificatori Bayesiani. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

ISTITUTO COMPRENSIVO DI CLUSONE A.S CURRICOLO DI MATEMATICA QUARTO BIMESTRE. Classe QUARTA COMPETENZE

Introduzione al Machine Learning

Esercizi di riepilogo Lezioni

COMPITO DI FONDAMENTI DI INTELLIGENZA ARTIFICIALE INTELLIGENZA ARTIFICIALE (v.o.) PARTE I. 2 Dicembre 2008 (Tempo a disposizione 2h ; su 32 punti)

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

Informatica/ Ing. Meccanica/ Edile/ Prof. Verdicchio/ 17/01/2014/ Foglio delle domande / VERSIONE 1

Approccio statistico alla classificazione

Elementi di Apprendimento Automatico

Alberi di decisione: c4.5

Teoria dell informazione

Estensioni: Regole di classificazione

Cenni di apprendimento in Reti Bayesiane

MATEMATICA OBIETTIVI DI APPRENDIMENTO AL TERMINE DELLA CLASSE PRIMA

5 - Esercizi: Probabilità e Distribuzioni di Probabilità (Uniforme, Gaussiana)

Rischio statistico e sua analisi

C4.5 Algorithms for Machine Learning

3.2 Decision-Tree Learning

Classificazione introduzione

Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche

CORSO DI BASI DI DATI Secondo Compitino

UNITÀ DI APPRENDIMENTO. ANALISI DEI PREREQUISITI Classi quarte Bornato, Cazzago e Pedrocca

Informatica/ Ing. Meccanica/ Edile/ Prof. Verdicchio/ 25/02/2016/ Foglio delle domande / VERSIONE 1

Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria della probabilità A.A

Algoritmi e Strutture Dati Laboratorio 15/12/2008. Daniele Loiacono

Apprendimento Automatico

MATEMATICA E STATISTICA CORSO A III APPELLO 7 Luglio 2009

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Computazione per l interazione naturale: Modelli dinamici

Riconoscimento e recupero dell informazione per bioinformatica

INSIEMI FRATTALI. Dimensione di un insieme. Insiemi frattali elementari. Dimensioni frattali. Insiemi frattali e sistemi dinamici

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Compito di Informatica Grafica 5 appello 06/07/2009. Nome e Cognome Numero di Matricola

Informatica/ Ing. Meccanica/ Edile/ Prof. Verdicchio/ 18/01/2017/ Foglio delle domande / Versione 1

Introduzione al data mining. Sistemi di elaborazione delle informazioni 2 Anno Accademico Prof. Mauro Giacomini

Misura della performance di ciascun modello: tasso di errore sul test set

Informatica/ Ing. Meccanica/ Edile/ Prof. Verdicchio/ 30/06/2016/ Foglio delle domande / VERSIONE 1

CURRICOLO MATEMATICA - CLASSE QUARTA-

Transcript:

Esercizi d esamed Spazio delle versioni Si consideri il problema EnjoySport visto a lezione descritto dagli attributi Sky Air Temp Humid Wind Water Forecast Si definisca uno spazio delle ipotesi costituito da tutte le disgiunzioni di 2 ipotesi nello spazio visto a lezione. Ad esempio, una ipotesi potrebbe essere: <?,cold,high,?,?,?> <sunny,?,high,?,?,same>

Spazio delle versioni Dati gli esempi: Sky Air Temp Humid Wind Water Forecast Enjoy Sport Sunny Warm Normal Strong Warm Same Yes Sunny Warm High Strong Warm Same Yes Rainy Cold High Strong Warm Change No Sunny Warm High Strong Cool Change Yes Si mostri l evoluzione degli insiemi S e G che si ottiene eseguendo l algoritmo Candidate-Elimination G={<?,?,?,?,?,?> <?,?,?,?,?,?>} S={ } G=G S={s=<s,w,n,s,w,s> } G2=G Generalizzazioni di s: <s,w,?,s,w,s>, <s,w,n,s,w,s> <s,w,h,s,w,s> S2={<s,w,?,s,w,s> } 2

G3={<s,?,?,?,?,?> <s,?,?,?,?,?>, <?,w,?,?,?,?> <?,w,?,?,?,?>, <?,?,?,?,?,s> <?,?,?,?,?,s>} S3=S2={s2=<s,w,?,s,w,s> } G4={<s,?,?,?,?,?> <s,?,?,?,?,?>, <?,w,?,?,?,?> <?,w,?,?,?,?>} Generalizzazioni di s2 {<s,w,?,s,?,?>, <s,w,?,s,w,s> <s,w,h,s,c,c>} S4= {<s,w,?,s,w,s> <s,w,h,s,c,c>} Spazio delle versioni Si consideri ancora il problema EnjoySport Sky Air Temp Humid Wind Water Forecast Si consideri ancora uno spazio delle ipotesi costituito da tutte le disgiunzioni di 2 ipotesi nello spazio visto a lezione. 3

Spazio delle versioni Dati gli esempi: Sky Air Temp Humid Wind Water Forecast Enjoy Sport Sunny Warm Normal Strong Warm Same Yes Sunny Warm Medium Strong Warm Same Yes Rainy Cold High Strong Warm Change No Sunny Warm High Strong Cool Change Yes Unica differenza: Humid ha tre valori Si mostri l evoluzione degli insiemi S e G che si ottiene eseguendo l algoritmo Candidate-Elimination G={<?,?,?,?,?,?> <?,?,?,?,?,?>} S={ } G=G S={s=<s,w,n,s,w,s> } G2=G Generalizzazioni di s: <s,w,?,s,w,s>, <s,w,n,s,w,s> <s,w,m,s,w,s> S2={<s,w,n,s,w,s> <s,w,m,s,w,s>} 4

G3={<s,?,?,?,?,?> <s,?,?,?,?,?>, <?,w,?,?,?,?> <?,w,?,?,?,?>, <?,?,?,?,?,s> <?,?,?,?,?,s>} S3=S2={s2=<s,w,n,s,w,s> <s,w,m,s,w,s>} G4={<s,?,?,?,?,?> <s,?,?,?,?,?>, <?,w,?,?,?,?> <?,w,?,?,?,?>} Generalizzazioni di s2 {<s,w,?,s,?,?> <s,w,m,s,w,s>, <s,w,n,s,w,s> <s,w,?,s,?,?>} S4= {<s,w,?,s,?,?> } Spazio delle versioni Si consideri il problema EnjoySport descritto dagli attributi Sky Air Temp Humid Wind Water Forecast. Si dia la sequenza di esempi di lunghezza minima che produce lo spazio delle versioni descritto da G={?,?,normal,?,?,?} S={<?,warm,normal,strong,?,same>} 5

. Una possibile sequenza è <sunny, warm, normal, strong, cool, same>, + <rainy, warm, normal, strong, warm, same>, + <sunny, warm, high, strong, warm, same>, - Domande 2. Quante ipotesi rimangono nello spazio delle versioni descritto sopra? 3. Si supponga che l apprenditore possa fare delle domane al maestro presentandogli una nuova istanza e chiedendo la sua classificazione come esempio positivo o negativo. Quante domande sono necessarie all apprenditore per apprendere esattamente il concetto obiettivo (assumento che utilizzi la strategia di domande ottimale)? Fornire una di tali sequenze di query. 6

Risposte 2. 8 <?,?,n,?,?,?> <?,?,n,?,?,s> <?,?,n,s,?,?> <?,w,n,?,?,?> <?,?,n,s,?,s> <?,w,n,?,?,s> <?,w,n,s,?,?> <?,w,n,s,?,s> Risposte 3. 3. Ad esempio:. <sunny,cold,normal,strong,cool,same> 2. <sunny,warm,normal,light,cool,same> 3. <sunny,warm,normal,strong,cool,change> 7

Risposte. <sunny,cold,normal,strong,cool,same> 2. <sunny,warm,normal,light,cool,same> 3. <sunny,warm,normal,strong,cool,change> <?,?,n,?,?,?> <?,?,n,?,?,s> <?,?,n,s,?,?> <?,w,n,?,?,?> <?,?,n,s,?,s> <?,w,n,?,?,s> <?,w,n,s,?,?> <?,w,n,s,?,s> Alberi decisionali Il maestro Yoda e' preoccupato dal numero di apprendisti Jedi che hanno deciso di darsi al Lato Oscuro, quindi ha deciso di apprendere un albero di decisione su alcuni dati storici per identificare i casi problematici in futuro. La tabella T descrive 2 iniziati specificando se sono passati al Lato Oscuro sulla base dell'eta' in cui il loro apprendistato Jedi e' cominciato, se hanno completato il loro apprendistato, la loro disposizione generale e la loro specie. 8

Tabella T Eta' di inizio Apprendistato Disposizione Specie Lato Oscuro dell'apprendistato completato 5 Felice Umana 9 Felice Gungan 6 Felice Wookie 6 Triste Mon Calamari 7 Triste Umana 8 Arrabbiata Umana 5 Arrabbiata Ewok 9 Felice Ewok 8 Triste Umana 8 Triste Umana 6 Arrabbiata Wookie 7 Arrabbiata Mon Calamari Domande. Qual'e' l'entropia della tabella T rispetto all attributo Lato Oscuro? k freq( C, S) freq( C j, S info( S) = j = log 2 S S j ) 2. Dire ad occhio (senza calcolare la funzione euristica) quale attributo verrebbe scelto come radice dell'albero dall'algoritmo di apprendimento di alberi di decisione? 3. Qual'e' il guadagno di informazione dell'attributo scelto nella risposta precedente? 9

Risposte. info(t)=-5/2log 2 (5/2)-7/2log 2 (5/2)=.98 2. Apprendistato completato 3. gain(app)=info(t)-(5/2*(-/5log 2 (/5)- 5/5log 2 (5/5))+7/2(-5/7log 2 (5/7)-2/7log 2 (2/7)))=.476 Domanda 4. Disegnare l'albero decisionale che sarebbe appreso da questi dati (senza potature) (suggerimento: l'albero ha al massimo 3 divisioni. Si costruisca l'albero guardando solo la composizione degli insiemi, senza calcolare il guadagno di informazione)

Apprendistato compl. No Lato Oscuro Età di inzio app. 7 > 7 Felice Disposizione Triste Lato Oscuro Arrabbiata No Lato Oscuro No Lato Oscuro Lato Oscuro Domanda 5. Si consideri la possibilità che i dati di ingresso siano rumorosi e non completamente accurati, al punto che l albero di decisione appreso può non descrivere accuratamente la funzione che si vuole imparare. Se si dovesse valutare i tre iniziati rappresentati dai dati indicati sotto, per quali saresti più confidente riguardo la tua predizione e perchè Nome Eta' di inizio Apprendistato Disposizione Specie dell'apprendistato completato Ardath 5 Arrabbiato Umana Barbar 8 Arrabbiato Umana Caldar 8 Felice Moon Calamari

Barbar. Motivazione: la regola che è appresa è che ti rivolgi al Lato Oscuro se non hai completato l apprendistato ed eri troppo vecchio oppure eri arrabbiato. Barbar era sia troppo vecchio che arrabbiato quindi soddisfa entrambe le condizioni dell OR, quindi anche se una di esse è sbagliata, esso viene comunque classificato come Lato Oscuro Domanda 6. Si assuma di voler apprendere un albero di decisione per predire Z da A, B e C usando i dati a sinistra (senza potatura e senza arresto nel caso di minimo di due insiemi con più di 2 elementi). Quale sarà l errore sul training set dell albero appreso? Z A B C 2

Ci sono 4 coppie di record che hanno valori duplicati per le variabili di ingresso, ma solo due di queste coppie hanno valori contraddittori per la variabile di output. Uno dei record di queste due coppie sarà sicuramente misclassificato. Quindi gli errori sono 2. Domanda 7. Si consideri un albero di decisione generato da un insieme di dati arbitrario. Se l uscita è discreta e può assumere solo k diversi possibili valori, qual è il massimo errore (espresso come una frazione) dell albero sul training set che ogni insieme di dati possa avere? 3

Si consideri un insieme di record con uguali ingressi ma con uscite distribuite uniformemente tra i k possibili valori. L albero classifichera tutti questi punti in una sola classe che sarà sbagliata per quelli nelle altre k- classi. Dato che le uscite sono distribuite uniformemente, l errore frazionario dell albero sul training set sarà (k-)/k. Se le uscite non fossero distribuite uniformenente tra i record ma ci fosse una classe dominante, questa sarebbe scelta come etichetta della foglia, quindi l errore frazionario sarabbe più basso (perchè la classe di maggioranza avrebbe più di /k dei punti). Classificazione Naive Bayes Data la tabella T relativi agli apprendisti di Yoda, si determini la classe più probabile di Barbar Nome Eta' di inizio Apprendistato Disposizione Specie dell'apprendistato completato Barbar 8 Arrabbiato Umana 4

P(lato oscuro=sì)=5/2=.46 P(lato oscuro=no)=7/2=.583 P(età=8 lato oscuro=sì)=2/5=.4 P(età=8 lato oscuro=no)=/7=.43 P(compl=no lato oscuro=sì)=5/5= P(compl=no lato oscuro=no)=2/7=.286 P(disp=arr lato oscuro=sì)=2/5=.4 P(disp=arr lato oscuro=no)=2/7.286 P(specie=human lato oscuro=sì)=2/5=.4 P(specie= human lato oscuro=no)=3/7=.429 Lato oscuro=sì:.46*.4**.4*.4=.6656 Lato oscuro=no:.583*.43*.286*.286*.429=.2925 Quindi la classe più probabile è lato oscuro=sì con probabilita.6656/(.6656+.2925)=.69478 Apprendimento basato sulle istanze - - + + + + - - + - +. Si indichi la classificazione del punto con -NN, 3-NN e 5-NN 5

- - + + + + - - + - +. -NN=+, 3-NN=-, 5-NN=+ 6