Politecnico di Milano Facoltà di Ingegneria dell Informazione Metodologie per Sistemi Intelligenti Prof. Lanzi e Ing. Rossini 19 Luglio 2005 COGNOME E NOME (IN STAMPATELLO) MATRICOLA Risolvere i seguenti esercizi, scrivendo le risposte ed eventuali tracce di soluzione negli spazi disponibili. NON CONSEGNARE ALTRI FOGLI. (spazio per i docenti) Esercizio 1. (7 punti) Illustrare facendo uso di pseudocodice uno degli algoritmi per l estrazione di regole di decisione visti a lezione. Soluzione: Lezione su regole di classificazione
Esercizio 2. (5 punti) Solo per gli studenti che non hanno presentato l articolo in classe. Dato il seguente insieme di dati di train, in cui l attributo nazionalità rappresenta la classe, calcolare l information gain dei tre attributi rimanenti. Dire inoltre qual è l attributo migliore su cui effettuare lo split. Mangia Suona Baffi Nazionalità Spaghetti Mandolino No A Maccheroni Chitarra Si B Riso Chitarra No A Riso Chitarra Si A Spaghetti Pianoforte Si B Maccheroni Pianoforte Si B Maccheroni Pianoforte No A Riso Chitarra No B
Esercizio 3. (7 punti) Illustrare l algoritmo Agglomerative Nesting (AGNES). Si consideri poi la seguente matrice delle distanze relativa a 5 elementi. 2 7 7 9 4 8 5 3 1 0 A partire da questa si ricavi il dendrogramma utilizzando per il calcolo delle distanze il metodo del Complete Linkage o del Single Linkage (a scelta del candidato). Soluzione: calcolo delle distanze col metodo del Complete Linkage I passo: minima distanza d 45 =1, aggrego gli elementi 4 e 5 d (45)1 =max (d 41, d 51 )=max (7,8)=8 d (45)2 =max (d 42, d 52 )=max (9,5)=9 d (45)3 =max (d 43, d 53 )=max (4,3)=4 Matrice delle distanze D 1 2 7 8 9 4 0 II passo: minima distanza d 12 =2, aggrego gli elementi 1 e 2 d (12)3 =max (d 13, d 23 )=max (5,7)=7 d (12)(45) =max (d 1(45), d 2(45) )=max (8,9)=9 Matrice delle distanze D 2 7 9 4 0 III passo: minima distanza d 3(45) =4, aggrego l elemento 3 con il gruppo (45) d (3 (45))(12) =max (d 3(12), d (45)(12))=max (7,9)=9 Matrice delle distanze D 3 9 0 IV passo: minima distanza d (3 (45))(12)=9, aggrego i due gruppi (345) e (12) in un unico gruppo Dendrogramma 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9
Soluzione: calcolo delle distanze col metodo del Single Linkage I passo: minima distanza d 45 =1, aggrego gli elementi 4 e 5 d (45)1 =min (d 41, d 51 )=min (7,8)=7 d (45)2 =min (d 42, d 52 )=min (9,5)=5 d (45)3 =min (d 43, d 53 )=min (4,3)=3 Matrice delle distanze D 1 2 7 7 5 3 0 II passo: minima distanza d 12 =2, aggrego gli elementi 1 e 2 d (12)3 =min (d 13, d 23 )=min (5,7)=7 d (12)(45) =min (d 1(45), d 2(45) )=min (7,5)=5 Matrice delle distanze D 2 5 3 0 III passo: minima distanza d 3(45) =3, aggrego l elemento 3 con il gruppo (45) d (3 (45))(12) =min (d 3(12), d (45)(12))=min (5,5)=5 Matrice delle distanze D 3 5 0 IV passo: minima distanza d (3 (45))(12)=5, aggrego i due gruppi (345) e (12) in un unico gruppo Dendrogramma 1 2 3 4 5 0 1 2 3 4 5
Esercizio 4. (7 punti) Descrivere il processo di costruzione di un modello previsionale specificando le caratteristiche e le finalità di ciascuno dei set di dati utilizzati. Rappresentare poi per ognuno dei set di dati utilizzati il tipico andamento della curva lift ottenuto nel caso di buoni modelli. Si consideri inoltre il seguente problema. La compagnia assicurativa L&R ha deciso di sviluppare, nell ambito delle campagne di vendita previste per le attività di cross selling (vendita di un prodotto/servizio aggiuntivo rispetto a quanto già posseduto dal cliente), un modello previsionale per la vendita della polizza Infortuni Guidatori ai clienti che hanno una già sottoscritto la polizza Auto R&P. Analizzando i risultati del modello ottenuti dal set di valutazione, si scopre che il primo 10% dei clienti corrisponde ad appena il 18% dei clienti che hanno oltre alla polizza Auto R&P la polizza Infortuni Guidatori. Supponendo che i clienti della polizza Infortuni Guidatori all interno del set di dati analizzato sono pari al 50%, qual è l incremento teorico massimo del modello? Quali le performance del modello? Soluzione Primo quesito: Esercitazione 01 Modelli previsionali, Costruzione di Modelli Previsionali Secondo quesito: se il 10% dei clienti con il miglior punteggio avessero la polizza Infortuni Guidatori, essi inciderebbero per il 20% (il 10% del 50%), che rappresenta l incremento teorico massimo. Il modello ottenuto mostra quindi un risultato soddisfacente.
Esercizio 5. (4 punti) Illustrare brevemente le fasi che compongono il tipico processo preparazione dei dati. Indicare poi le possibili cause che determinano i valori missing nei dati e le tecniche tipicamente utilizzate per la loro gestione. Soluzione Primo quesito: esercitazione 04 Data PreProcessing Secondo quesito: esercitazione 04 Data PreProcessing, Data Cleaning