Introduzione al Data Mining

Documenti analoghi
Le Tecniche di Data Mining

Business Intelligence

Data Mining. Data Mining. Introduzione al Data Mining. Introduzione al Data Mining. Introduzione al Data Mining. Introduzione al Data Mining

Modelli matematici e Data Mining

Data Science A.A. 2018/2019

I Componenti del processo decisionale 7

1. EVOLUZIONE DELLE TECNOLOGIE DI ANALISI DEI DATI

MASTER UNIVERSITARIO

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

QUANTIZZATORE VETTORIALE

Tecnologie, strumenti e processi alle informazioni e l estrazione della conoscenza

Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista

Informatica per le discipline umanistiche 2 lezione 11

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

MATRICE TUNING competenze versus unità didattiche, Corso di Laurea in Informatica (classe L-31), Università degli Studi di Cagliari

CORSO DI LABORATORIO OTTIMIZZAZIONE COMBINATORIA. Informazioni e programma del corso Introduzione al data mining e machine learning

Statistica multivariata 27/09/2016. D.Rodi, 2016

Misura della performance di ciascun modello: tasso di errore sul test set

Che cosa è la statistica oggi?

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Knowledge Management E Business Intelligence

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

Data Journalism. Analisi dei dati. Angelica Lo Duca

Introduzione al data mining. Sistemi di elaborazione delle informazioni 2 Anno Accademico Prof. Mauro Giacomini

SDE Marco Riani

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento automatico di oggetti (Pattern Recognition)

Computazione per l interazione naturale: macchine che apprendono

BICOOP Churn Analisys

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello

NUCLEI FONDANTI COMPETENZE CONTENUTI ABILITA METODOLOGIE E STRUMENTI METODO SCIENTIFICO VEDERE

Ciascuna Unità di Apprendimento sarà adattata alle peculiarità della classe.

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.

Computazione per l interazione naturale: macchine che apprendono

MINISTERO DELL ISTRUZIONE, DELL UNIVERSITÀ E DELLA RICERCA USR-LAZIO ISTITUTO COMPRENSIVO VIA LATINA

INFORMATICA TECNOLOGIE DELLA COMUNICAZIONE SAPERI MINIMI DISCIPLINARI

DEEP LEARNING PER CONTROLLO QUALITA PRODOTTO E CONTROLLO DI PROCESSO Alessandro Liani, CEO e R&D Manager

Sistemi informativi aziendali struttura e processi

CURRICOLO DIPARTIMENTO INFORMATICA PRIMO BIENNIO

Fallimenti delle aziende in Italia

Ore settimanali di lezione: 3 h di cui 2 in compresenza con l insegnante di Lab. di Informatica prof.ssa E.De Gasperi

MATRICE TUNING competenze versus unità didattiche, Corso di Laurea Magistrale in Informatica (classe LM-18), Università degli Studi di Cagliari

Vivisezione di un algoritmo di machine learning. Francesco ESPOSITO Youbiquitous

ISTITUZIONE SCOLASTICA DI ISTRUZIONE TECNICA LYCÉE TECHNIQUE PROGRAMMAZIONE EDUCATIVA E DIDATTICA ANNUALE PER COMPETENZE A.S.

Disciplina: INFORMATICA

Alberi di Regressione

relazioni classe 1 a 2 a 3 a

SISTEMI INFORMATIVI DIREZIONALI BUSINESS INTELLIGENCE

INTRODUZIONE AI DBMS. Inoltre i fogli elettronici. Mentre sono poco adatti per operazioni di. Prof. Alberto Postiglione

INTRODUZIONE AI DBMS

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Reti Neurali (Parte I)

Indicizzazione di feature locali. Annalisa Franco

DATA MINING. Cos'è il Data Mining: Traduzione letterale: Clustering e Reti di Kohonen

Standard per Data Mining

Riconoscimento e recupero dell informazione per bioinformatica

Competenze chiave europee Competenze di base in tecnologia Senso di iniziativa per imparare ad imparare

I sistemi di reporting e i rapporti direzionali

Programmazione educativo-didattica anno scolastico TECNOLOGIA CLASSE PRIMA PRIMARIA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE.

PROGRAMMAZIONE DIDATTICA A. S. : 2018/2019

Computazione per l interazione naturale: macchine che apprendono

UNITA D APPRENDIMENTO. Lo spazio e le figure

CURRICOLO DI TECNOLOGIA

SCUOLA PRIMARIA MONOENNIO

Statistica per l Impresa

Elementi di gestione di dati con MS Access 2000

Le basi di dati. Definizione 1. Lezione 2. Bisogna garantire. Definizione 2 DBMS. Differenza

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Richiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive

CURRICOLO DI MATEMATICA

Segmentazione e Marketing 121. Università di Bologna Andrea De Marco

DISCIPLINA: MATEMATICA

Reti Neurali in Generale

Competenza : 1. Comunicazione efficace Indicatore: 1.1 Comprensione

Algoritmi di classificazione supervisionati

Il confronto di IRIDE con esperienze simili

Competenza matematica e competenze di base in scienza e tecnologia COMPETENZE ABILITA CONOSCENZE

COMPETENZE ABILITA CONOSCENZE

Data warehouse Introduzione

DESCRITTORI II ANNO SCUOLA PRIMARIA. Numerare in ordine progressivo e regressivo anche rispettando semplici algoritmi di calcolo

Segmentazione e Marketing 121

Indice generale. Ringraziamenti...xiii. Introduzione. Capitolo 1 Che cosa si intende per scienza dei dati?... 1

Secondo Anno: Informatica Economico-Turistico

Informazioni sul corso 1

Tecniche di riconoscimento statistico

IL CONTESTO LA SCUOLA LA MATEMATICA LA MATEMATICA LA MATEMATICA LA STATISTICA NELLA SCUOLA DI BASE: COSA SI PUO FARE?

SISTEMI INFORMATIVI E DATABASE

Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse

ISTITUTO D ISTRUZIONE SUPERIORE G.CENA SEZIONE TECNICA ANNO SCOLASTICO 2018/2019 PROGRAMMAZIONE DISCIPLINARE DIPARTIMENTALE DI INFORMATICA DOCENTI

ISTITUTO COMPRENSIVO F. D'ASSISI TEZZE SUL BRENTA (VI)

Analisi previsionale per l ottimizzazione della postalizzazione delle promo. KDD Lab. Pisa

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering

Clustering con Weka Testo degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Numero OBIETTIVI DI APPRENDIMENTO ABILITÀ CONTENUTI Scoprire e costruire la successione numerica entro la classe delle unità semplici.

Obiettivi conoscitivi

Transcript:

Data Mining

Introduzione al Data Mining Il Data Mining è la risposta tecnologica all esigenza di saper analizzare e ricavare conoscenze utili, dalle enormi quantità di dati grezzi che si raccolgono ormai in tutti i contesti operativi della nostra società.

Introduzione al Data Mining Esempi: p Solo il database del settore consegne della UPS ha una dimensione di 17 Tera-Byte. Questi dati vanno analizzati sia per capire come migliorare il servizio ai clienti, sia per migliorare l efficienza interna dell azienda p p I servizi segreti militari raccolgono una infinità di immagini via satellite, che devono saper classificare per riconoscere se è stato fotografato un semplice trattore o un carro armato! Le aziende farmaceutiche, per progettare un nuovo farmaco, utile e sicuro per l uomo, devono analizzare e selezionare milioni di composti chimici (candidati a divenire farmaco)

Introduzione al Data Mining La risposta all esigenza di analisi di queste enormi quantità di dati raccolti è rappresentata dal Data Mining. Il data mining è il processo di analisi, svolto in modo semiautomatico, di una grande quantità di dati grezzi al fine di scoprire il modello ( pattern ) che li governa, o una regola significativa, da cui ricavare conoscenze utili applicabili al nostro contesto operativo (come ad esempio previsioni e classificazioni).

Introduzione al Data Mining p Nota: si usa distinguere il concetto di modello (pattern) da quello di regola, perché per modello si intende uno strumento che oltre a fornire l output richiesto descriva anche con quale logica il sistema reale raggiunge quel output. p Mentre per regola si intende un procedimento che ad un dato input permetta di associare il corrispondente output senza necessariamente conoscere il funzionamento intrinseco del sistema reale (questo è il caso delle reti neurali, una tecnica che vedremo di data mining).

Data Mining p Estrazione di dati p Processo di esplorazione e analisi di dati (automatico e semiautomatico) di un ampia mole di dati, al fine di scoprire modelli (PATTERN) e regole 6

Data Mining: motivazioni p Trovare informazioni nascoste, persone avrebbero bisogno di mesi per scoprirle, p maggior parte dei dati non sono analizzati p Tecniche tradizionali non sono applicabili su dati grezzi (non elaborati) 7

Data Mining: definizioni Estrazione di conoscenza non nota (pattern ricorrenti) da grandi basi di dati n Pattern mining n Knowledge discovery in data base (KDD) n Knowledge discovery of hidden pattern n Knowledge extraction n Pattern analysis n Information haversting (raccolta) n Business intelligence 8

Data Mining: definizioni The non trivial process of identifying valid, novel, potentially useful and ultimately understandable pattern of data Shapiro, 1996 9

Esempio: prestiti in banca p la banca vuole concedere prestiti solo se si aspetta che il cliente pagherà le rate p Questo problema può essere risolto mediante l estrazione di pattern da dati storici p la banca possiede dati storici sui prestiti che ha già erogato nel passato e sa in quali casi le rate sono state pagate regolarmente o meno p per pattern si intende, ad esempio, una regola che descrive in modo succinto delle informazioni estratte dai dati storici per prevedere se un potenziale cliente pagherà le rate di un prestito regolarmente o meno 10

Dati storici 11

Creazione del pattern/modello 12

Applicazione del pattern/modello 13

14

Data Mining p Obiettivi: n Descrittivo: descrivere in modo non evidente (classificare, individuare gruppi in un insieme di dati la cui struttura non è visibile) n Esplicativo: Spiegare (insight), trovare modelli esplicativi (i fattori legati ad un fenomeno, correlazioni) n Predittivo: fare previsioni sul futuro, sul valore di variabili à produzione di nuova conoscenza dai dati 15

Data Mining vr Dw vr DB DB/OLTP DW/OLAP DATA MINING Estrazione di dati Riassunti, aggregazioni, trend (descrizione su caratteristiche statiche) Knowledge discovery of hidden pattern (produrre nuova conoscenza) Informazione Analisi Insight & prediction Chi ha comprato i fondi? Quale è la media degli incassi dei fondi venduti per regione in un anno? Chi comprerà un fondo nei prossimi 6 mesi e perche? 16

Data Mining vr Dw vr DB DB/OLTP DW/OLAP DATA MINING OLTP, query definite espresse con il linguaggio standard SQL Output è un sottoinsieme dei dati Su dati relazionali (db) Query non definite, no standard Output è un sottoinsieme dei dati Su dati relazionali e multidimensionali (dw) Query non definite, no standard Output non è un sottoinsieme dei dati, ma può essere un modello Su dati relazionali (db) dati multidimensionali (dw) Dati multimediali, spaziali (spatial and temporal db) Grafi (www) Testi 17

DATA MINING su TESTI p p Il testo diventa un vettore di termini contenente le occorrenze della parole (numero di volte in cui il termine è presente nel doc) Vettore: insieme di elementi dello stesso tipo, cui si accede per posizione s[0] à accedi al primo elemento del vettore p TEXT MINIG: uso di tecniche di NLP (Natural Language Processing) 18

Data Mining vr Statistica Statistica Non automatica, operatore fa i calcoli Verification-driven: guidato dalla verifica di un ipotesi Moli di dati minore Analisi primaria Data minig semi-automatico, macchina fa i calcoli Discovery-driven, non ci sono ipotesi da verificare, scoprire nuove ipotesi Moli di dati molto grandi Analisi secondaria 19

Task di data mining 20

Task di data mining p Classificare p Stimare p Fare previsioni p Raggruppare p Trovare regole di associazione 21

Le Tecniche di Data Mining Le tecniche di data mining servono per trasformare i dati grezzi in informazioni utili. Quindi servono per risolvere p p Problemi di esplorazione dati (Data Mining Non Supervisionato): problemi in cui non sappiamo cosa dover ricercare nei dati e allora lasciamo che siano i dati stessi a indicarci un risultato, a suggerirci la loro struttura (o pattern). Problemi di classificazione e di regressione (Data Mining Supervisionato). In tutti questi problemi sappiamo bene quello che stiamo cercando: in entrambi i casi l obiettivo è prevedere il valore che assumerà una certa variabile detta target (che sarà di tipo categorico nei problemi di classificazione, di tipo numerico nei problemi di regressione).

Task di data minig supervisionati Alberi decisionali Reti neurali Non supervisionati Cluster analysis Association rules 23

Task supervisionati p Previsione del comportamento di alcune variabili target in funzione delle variabili di input (es previsione di chi sarà insolvente) p Usare i dati disponibili per creare un modello che descriva il comportamento di una variabile target in termini dei dati disponibili 24

Task supervisionati p Obiettivi n Classificazione n Stima n Previsione p Tecniche di data mining n Alberi decisionali n Reti neurali 25

Classificazione p Assegnazione di un nuovo oggetto ad una classe predefinita dopo averne esaminato le caratteristiche p Valori discreti e booleani (si, no) p Es: assegnazione di un nuovo cliente ad un segmento specifico (gold, silver) p Attribuire una parola chiave ad una notizia (nera, rosa, etc) 26

Classificazione Procedimento: p Fase di training su una porzione di dati costituita da esempi già classificati (training set) p Fase di creazione del modello di classificazione applicabile a nuovi dati da classificare p Strumenti: alberi di decisione, reti neurali 27

Stima (regressione) p Tratta valori continui p Individuare il valore di una variabile continua (ad esempio, il reddito, il saldo, la quantità venduta di un prodotto) p Si usa la stima per fare classificazioni p Strumenti: alberi di decisione, reti neurali 28

Previsione p la classificazione e la stima possono essere usate per fare predizioni sul futuro p Es prevedere le dismissioni dal servizio p Prevedere chi attiverà ADSL tra gli abbonati p Dati storici à modello à applicato a nuovi dati à previsione di un comportamento futuro p Strumenti: alberi di decisione, reti neurali 29

Task NON supervisionati p Non c è alcuna variabile target da prevedere (es individuare i gruppi di consumatori con i gusti analoghi) p Obiettivi: n n raggruppare Scoprire associazioni tra variabili p Tecniche di data mining: n Cluster n Regole di associazione 30

Clustering p Raggruppamento per affinita, segmentazione di un gruppo eterogeneo in sottogruppi (cluster) più omogenei per certe caratteristiche p Non fa ricorso a classi predefinite, classificazione a posteriori (vr classificazione a priori) p Non usa esempi da cui apprendere p Sta al ricercatore attribuire significato ai gruppi p Prelude altre tecniche di data mining p Strumento: cluster analysis 31

32

33

Regole di associazione p Stabilire quali oggetti possono abbinarsi n Ex quali prodotti si trovano insieme nel carrello della spesa (market basket analysis) n Usato per pianificare la distribuzione dei prodotti sugli scaffali in modo che gli articoli che di solito vengono acquistati insieme si trovino vicino (o lontano.. Cross-selling) p Sequenze di acquisto che occorrono nel tempo p (analisi degli outlier: oggetto non conforme alle caratteristiche degli altri dati: utili per 34 le frodi)

Data mining: contesto applicativo p Strumento di ricerca: da usare nella fase di ricerca e sviluppo, ad es. industria farmaceutica, quali molecole sono candidate a diventare farmaci p Miglioramento dei processi: risparmio di risorse, controllo di processi, diagnosi di guasti p Marketing e CRM: parte del CRM analitico, analisi del comportamento d acquisto, per segmentare clienti, focalizzare le offerte su clienti migliori 35

Data mining: contesto tecnico p Machine learning (AI): obt far apprendere le macchine da esempi p statistica: uso di tecniche statistiche (come regressione), metodi di campionamento, metodologia sperimentale p DSS: infrastruttura ICT di supporto alle decisioni p HW: elaboratori potenti in grado di elaborare grandi quantità di dati (fino a qualche anno fa non sarebbe stato possibile) 36

Data mining: contesto sociale p Raccolta dati su persone p Problematiche n privacy n Diffusione dei dati n Protezione da uso improprio 37

Data mining: contesto aziendale p Vale la pena raccogliere un informazione se il ritorno dell investimento è superiore al costo dell investimento fatto per acquisire l informazione p Una conoscenza viene considerata utile se la conoscenza che ne deriva vale più de soldi spesi per scoprirla 38

Data mining: applicazioni p marketing p finanza p web p e-commerce p Biotecnologie, farmaceutica, scienze mediche p telecomunicazioni 39

40

Processo di data minig 1. Data cleaning 2. Data integration 3. Data warehousing 4. Data mining 5. Patter description (modelli esplicativi e predittivi) 6. Pattern evaluation 7. Knowledge 41

Processo di data minig p p p p p Fase 1: comprensione del dominio, pulitura dei dati, preprocessing creazione del datawarehouse adatto (60% dello sforzo complessivo) fase 2:individuare tecniche dm utili Fase 3: indivduazione dei pattern, costruzione del modello di realtà: input à modello à output Eta, sesso à modello à il cliente restuirà il prestito Fase 4: Validazione del modello: Fase 5: deployment 42

Valutazione del modello p Valutazione dei pattern estratti p Possono essere moltissimi p Necessario un data minig sul data minig p Modello valido se n Comprensibile n Corretto n Affidabile (se testato su nuovi dati, è valido con un certo livello di certezza) 43

Casi d uso p Banca deve decidere se autorizza un emissione n Ha tanti dati storici n Ciascuna richiesta è classificata in i) autorizzata, ii) richiedi info, iii)non autorizzata, iv) non autorizzata e informata autorità per truffa p A) si costruisce un modello dei dati storici (training set) ( quali valori degli attributi hanno causato l attribuzione a una classe? ) p B) si usa il modello per classificare e prendere decisioni in relazione a nuove richieste ( dove inserire una nuova richiesta? ) 44

Le Tecniche di Data Mining Le principali tecniche di data mining che vedremo sono: Ø Ø Ø Cluster Analysis Alberi Decisionali Reti neurali

Cluster Analysis

Le Tecniche di Data Mining Le principali tecniche di data mining che vedremo sono: Ø Ø Cluster Analysis Alberi Decisionali

Cluster Analysis p p p La Cluster Analysis è una tecnica di data mining non supervisionato (applicato senza ipotesi prima) Per clustering si intende la segmentazione di un gruppo eterogeneo in sottogruppi (cluster) omogenei. Ciò che distingue il clustering dalla classificazione è che qui non si fa ricorso a classi predefinite. Esempi di applicazione: p Rilevare un insieme di sintomi indice di una patologia specifica. p rilevare l appartenenza a sottoculture diverse raggruppando in classi omogenee gli acquisti di materiale video e audio.

Clustering analysis p Raggruppamento di dati con caratteristiche simili: i membri sono simili tra loro e diversi dagli altri p Esigenza umana: classificare sulla base di caratteristiche simili 4

Clustering analysis Scopo: n Suddivisione di un set di dati complessi in un sottoinsieme di dati più semplice al fine di permettere a tecniche di data mining supervisionato di trovare con più facilità spiegazioni al comportamento p Identificare i gruppi che mi serviranno successivamente per fare gli alberi p Scegliere il numero di cluster (k) che vogliamo K = 1 non ha senso K = num di record non ha senso 5

Metodi di rilevazione automatica dei cluster p Metodi agglomerativi: aggregare i record in modo significativo p Metodi divisivi: opposto, tutti i record fanno parte di un unico cluster che viene via via spezzettato finchè ad ogni record corrisponde un cluster 6

Cluster Analysis: Algoritmo K-means p L algoritmo suddivide un determinato set di dati in un numero predefinito di cluster: la k di k- means. Il termine means sta per media statistica: la distribuzione media di tutti i componenti di un particolare cluster. p Per formare i cluster, a ogni record vengono assegnate delle coordinate in un determinato spazio dei record. Lo spazio ha tante dimensioni quanti sono i campi nei record. Il valore di ciascun campo rappresenta una coordinata del record. Perché questa interpretazione geometrica sia utile, tutti i campi devono essere trasformati in numeri e i numeri a loro volta normalizzati, in modo che due variazioni in due dimensioni diverse possano essere comparabili.

Cluster Analysis: Algoritmo K-means p I record vengono assegnati ai cluster, tramite un processo iterativo che inizia da cluster centrati in posizioni casuali all interno dello spazio dei record e sposta i centroidi (ossia i baricentri dei cluster)

Algoritmo k-means 1. Scegliere il num di cluster che si vogliono 2. Prende k record a caso dalla tabella dei fatti e li rende centro di un cluster 3. Per ognuno degli altri punti (record) calcola la distanza* dal centro del cluster e lo posiziona nel cluster del centroide e più vicino 4. Il punto medio del cluster diventa il centroide di un nuovo cluster 5. Si torna al punto 3 (ogni record assegnato al cluster con il centroide più vicino) * (Distanza euclidea) 9

Cluster Analysis: Algoritmo K-means

Cluster Analysis: Algoritmo K-means Passo 1: scegliamo k=3 e i seguenti semi iniziali:

Cluster Analysis: Algoritmo K-means Passo 2: Assegniamo ogni record al cluster con il centroide (o seme) più vicino

Cluster Analysis: Algoritmo K-means Passo 3: Il passo due ha individuato nuovi cluster. Ci calcoliamo i centroidi (o semi) di questi

Cluster Analysis: Algoritmo K-means Passo 2:Riaggrego ogni record al cluster di centroide più vicino. Notare cosa succede a un dato Un dato inizialmente assegnato al cluster 2, nella seconda iterazione viene assegnato al cluster 3

Cluster Analysis: Algoritmo K-means L algoritmo termina perché i centroidi, e quindi i confini dei cluster, non variano piu (i cluster sono definitivi)

Cluster Analysis: Algoritmo K-means p Problema: Nel metodo k-means la scelta di k, che determina il numero di cluster che verranno individuati, è predefinita dall utente. Se il numero non corrisponde alla struttura naturale dei dati, la tecnica non darà buoni risultati p Alcuni software forniscono aiuto per la scelta del valore di k ottimale: l utente può fornire un intervallo per il numero di cluster entro cui cercare.

Algoritmo k-means p Esempio, raggruppare i clienti in base al momento della giornata in cui comprano maggiormente p Attributi: categoria di clienti (studenti, pensionati, impiegati), periodo (mattino, sera) Cluster Cliente periodo c1 98% pensionati 2% studenti 90% mattino, 10% pomeriggio c2 70% impiegati, 30% pensionati 100% sera c3.... 17

Cluster migliore p quello che ha n Distanza minima tra i suoi membri n Distanza massima con i membri degli altri cluster 18

Cluster Analysis Quando usare il rilevamento dei cluster nel data mining Essendo una tecnica non supervisionata, il rilevamento automatico dei cluster può essere applicato quando non conosciamo nulla della struttura da scoprire. D altro canto, però, visto che i cluster individuati automaticamente non hanno alcuna interpretazione naturale, eccetto quella geometrica per cui certi record sono più vicini ad alcuni che non ad altri, potrebbe essere difficile mettere in pratica questi risultati.

Applicazioni tipiche p come strumento stand-alone per capire come i dati sono distributi p come passo di pre-processing per altri algoritmi (alberi di decisione) p GIS: creazione di mappe tematiche à osservare aree terrestri simili p Clustering di web log à per scoprire pattern di comportamento sul web 20

Esercizio 1 p p p p p Partendo dal dataset di una banca (dataset n 2): creare 3 cluster in modo da capire se ci sono dei raggruppamenti significativi in base a sesso, età e regione creare 5 cluster con le stesse informazioni provare a cambiare i seeds e vedere che cosa cambia nei due casi provare a combinare altre feature 21

Esercizio 2 p p Partendo dal dataset di una banca (dataset n 3): creare n cluster in modo da capire se ci sono dei raggruppamenti significativi in base a lunghezza e larghezza del petalo, lunghezza e larghezza del sepalo p 22