K-means clustering con R

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "K-means clustering con R"

Transcript

1 K-means clustering con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 1/10

2 Introduzione K-means è un approccio semplice ed elegante per il partizionamento di un insieme di dati in K cluster non sovrapposti. Per eseguire K-means clustering, dobbiamo prima specificare il numero desiderato di cluster K; quindi l algoritmo K-means assegna ogni osservazione esattamente uno dei cluster K. L idea alla base di K-means è che un buon raggruppamento è quello per cui la variazione intra-cluster è la più piccola possibile. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 2/10

3 f.data Generiamo un semplice set di dati con due cluster ben separati. I dati sono ottenuti generando numeri casuali normali: le prime 25 osservazioni hanno uno spostamento rispetto alla media delle 25 osservazioni successive. Si noti che nel codice sottostante le variabili sono generate direttamente in un data.frame() set.seed(2) f.data=data.frame("group"=c(rep("g1",25),rep("g2",25)), "X1"=c(rnorm(25)+3,rnorm(25)), "X2"=c(rnorm(25)-4,rnorm(25))) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 3/10

4 Plot dei dati I due gruppi (non ancora quelli stimati mediante analisi i cluster) sono distrinti dai due colori. library(ggplot2) gg1=ggplot(f.data,aes(x=x1,y=x2,color=group))+geom_point(size=4) gg1 file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 4/10

5 Implementare K-means con R La funzione kmeans() può essere caricata direttamente in R: kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("hartigan-wong", "Lloyd", "Forgy", "MacQueen"), trace=false) x : i dati (devono essere tutti numerici) centers : o il numero di cluster, K, o un insieme di (distinti) centri iniziali del cluster. iter.max : le iterazioni (dell algoritmo) massime ammesse. nstart : se centers indica il numero K, nstart indica il numero di insiemi casuali iniziali. Si consiglia di eseguire sempre K-means con un valore di nstart elevato, ad esempio 20 o 50, poiché, altrimenti, si potrebbe ottenere un ottimo locale non desiderato. file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 5/10

6 Esempio con K=2 km.out=kmeans(f.data[,2:3],centers=2,nstart=20) km.out K-means clustering with 2 clusters of sizes 25, 25 Cluster means: X1 X Clustering vector: [1] [36] Within cluster sum of squares by cluster: [1] (between_ss / total_ss = 72.8 %) Available components: [1] "cluster" "centers" "totss" "withinss" [5] "tot.withinss" "betweenss" "size" "iter" [9] "ifault" file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 6/10

7 Estrarre risultati dall output Esempio 1: il vettore che assegna il gruppo ad ogni unità del dataset. km.out$cluster [1] [36] Il codice seguente inserisce il vettore di appartenenza ai gruppi (come factor) come una nuova variabile (Cluster) nel data set f.data. Di solito conviene fare quest operazione per analizzare e plottare i risultati. f.data$cluster=as.factor(km.out$cluster) Esempio 2: Coordinata X1 del centroide del gruppo1 km.out$centers[1,1] [1] file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 7/10

8 Plot dei risultati Qui le osservazioni possono essere facilmente riportate sul grafico poiché bidimensionali. Se ci fossero più di due variabili potremmo, se si vogliono riportare graficamente i gruppi, effettuare una PCA e utilizzare le prime due CP. gg2=ggplot(f.data,aes(x=x1,y=x2,color=cluster,shape=group,))+geom_point(size=4) gg2+geom_point(aes(x=km.out$center[1,1],y=km.out$center[1,2]),size=5,color="black")+ geom_point(aes(x=km.out$center[2,1],y=km.out$center[2,2]),size=5,color="black")+ annotate("text", x=km.out$center[1,1],y=km.out$center[1,2]-0.2, label = "Centroid 1")+ annotate("text", x=km.out$center[2,1],y=km.out$center[2,2]-0.2, label = "Centroid 2")+ ggtitle("k-means clustering, k=2")+ theme(plot.title = element_text(size = rel(2))) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 8/10

9 Analisi con K=3 In questo esempio, sappiamo che in realtà ci sono due gruppi. Per i dati reali, in generale, non conosciamo il vero numero di cluster. Analizziamo l output di k-means con K=3 km.out.3=kmeans(f.data[,2:3],centers=3,nstart=20) km.out.3 K-means clustering with 3 clusters of sizes 17, 23, 10 Cluster means: X1 X Clustering vector: [1] [36] Within cluster sum of squares by cluster: [1] (between_ss / total_ss = 79.3 %) Available components: [1] "cluster" "centers" "totss" "withinss" [5] "tot.withinss" "betweenss" "size" "iter" [9] "ifault" file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 9/10

10 Plot f.data$cluster.k3=as.factor(km.out.3$cluster) gg2=ggplot(f.data,aes(x=x1,y=x2,color=cluster.k3,shape=group,))+geom_point(size=4) gg2+geom_point(aes(x=km.out.3$center[1,1],y=km.out.3$center[1,2]),size=4,color="black")+ geom_point(aes(x=km.out.3$center[2,1],y=km.out.3$center[2,2]),size=4,color="black")+ geom_point(aes(x=km.out.3$center[3,1],y=km.out.3$center[3,2]),size=4,color="black")+ annotate("text", x=km.out.3$center[1,1],y=km.out.3$center[1,2]-0.2, label = "Centroid 1")+ annotate("text", x=km.out.3$center[2,1],y=km.out.3$center[2,2]-0.2, label = "Centroid 2")+ annotate("text", x=km.out.3$center[3,1],y=km.out.3$center[3,2]-0.2, label = "Centroid 3")+ ggtitle("k-means clustering, k=3")+ theme(plot.title = element_text(size = rel(2))) file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_k-means.html#(1) 10/10

Analisi dei Gruppi con R

Analisi dei Gruppi con R Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi dei Gruppi

Dettagli

Cluster analysis - Dati World

Cluster analysis - Dati World Cluster analysis - Dati World Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_analysis_food-df.html#(1) 1/47 World data Un data set sui Paesi che contiene

Dettagli

Tesina Intelligenza Artificiale Maria Serena Ciaburri s A.A

Tesina Intelligenza Artificiale Maria Serena Ciaburri s A.A Tesina Intelligenza Artificiale Maria Serena Ciaburri s231745 A.A. 2016-2017 Lo scopo di questa tesina è quello di clusterizzare con l algoritmo K-Means i dati presenti nel dataset MNIST e di calcolare

Dettagli

Classificazione k-nn con R. Strumenti quantitativi per la gestione

Classificazione k-nn con R. Strumenti quantitativi per la gestione Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16 Altezza e peso degli adulti Le statistiche sull

Dettagli

Misura della performance di ciascun modello: tasso di errore sul test set

Misura della performance di ciascun modello: tasso di errore sul test set Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test

Dettagli

LA CLUSTER ANALYSIS IN R

LA CLUSTER ANALYSIS IN R LA CLUSTER ANALYSIS IN R 1 Cluster gerarchica 1.1 Cluster delle unità sperimentali > sanita= read.table(file.choose(), header =TRUE, row.names=2) > str(sanita) 'data.frame': 20 obs. of 6 variables: $ n

Dettagli

Clustering gerarchico con R

Clustering gerarchico con R Clustering gerarchico con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l-10_cluster_h-clust.html#(1) 1/10 Clustering gerarchico in R La funzione di base per

Dettagli

ICA per analisi di gruppo

ICA per analisi di gruppo ICA per analisi di gruppo Simone Romano 1 1 Università degli Studi di Salerno Elaborazione di segnali ed immagini biomediche Prof. Fabrizio Esposito. Romano (Università degli Studi di Salerno) ICA per

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Segmentazione di immagini in scala di grigio basata su clustering

Segmentazione di immagini in scala di grigio basata su clustering Segmentazione di immagini in scala di grigio basata su clustering Davide Anastasia, Nicola Cogotti 24 gennaio 06 1 Analisi del problema La segmentazione di immagini consiste nella suddivisione in un certo

Dettagli

C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.

C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018. AMBIENTE STATISTICO SOFTWARE PER L ANALISI STATISTICA DI DATI PROVENIENTI DAL MONITORAGGIO AMBIENTALE Release 4.0 20/03/2018 Manuale d uso Ambiente Statistico è un software sviluppato nell ambito del Progetto

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici

Dettagli

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare! La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis

Dettagli

Alberi di decisione con R

Alberi di decisione con R Alberi di decisione con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-alberi_di_decisione.html#(1) 1/14 Implementare gli alberi decisionali con R Per adattare

Dettagli

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering Clustering con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme

Dettagli

Clustering con Weka Testo degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Clustering con Weka Testo degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Clustering con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme

Dettagli

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello Tesina di Intelligenza Artificiale Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello Roberto Fortino S228682

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

La sfida dei Big Data

La sfida dei Big Data copyright - Paolo Garza - Tutti i diritti riservati La sfida dei Big Data Laboratorio #3 Data mining: Algoritmi di clustering Obiettivo Applicare algoritmi di data mining per effettuare il clustering di

Dettagli

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano

Dettagli

Laboratorio 1 Strumenti quantitativi per la gestione

Laboratorio 1 Strumenti quantitativi per la gestione Laboratorio 1 Strumenti quantitativi per la gestione Emanuele taufer Lab: Introduzione a R Comandi di base Lab: Introduzione a R Comandi di base R utilizza funzioni per eseguire le operazioni. Per eseguire

Dettagli

Computazione per l interazione naturale: clustering e riduzione di dimensionalità

Computazione per l interazione naturale: clustering e riduzione di dimensionalità Computazione per l interazione naturale: clustering e riduzione di dimensionalità Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it

Dettagli

Maria Brigida Ferraro + Luca Tardella

Maria Brigida Ferraro + Luca Tardella Cluster Maria Brigida Ferraro + Luca Tardella e-mail: mariabrigida.ferraro@uniroma1.it, ferraromb@gmail.com Lezione #3: Cluster Analysis Classificazione non gerarchica Supponiamo di avere a disposizione

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Raggruppare le istanze di un dominio in gruppi tali che gli oggetti nello stesso gruppo mostrino un alto grado di similarità

Dettagli

Cluster Analysis: Metodi non gerarchici

Cluster Analysis: Metodi non gerarchici Cluster Analysis: Metodi non gerarchici Analisi Esplorativa Aldo Solari 1 / 37 1 Cluster Analysis 2 Metodo delle K-medie 2 / 37 Outline 1 Cluster Analysis 2 Metodo delle K-medie 3 / 37 Perchè raggruppare

Dettagli

Bagging e Foreste Casuali con R

Bagging e Foreste Casuali con R Bagging e Foreste Casuali con R Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/labs/l8-bagging-fc.html#(10) 1/10 Bagging e Foreste casuali con R Utilizziamo ancora una

Dettagli

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering

Clustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering Clustering con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme

Dettagli

PON Liceo Scientifico Leonardo da Vinci Vallo della Lucania Nuovi percorsi matematici: Osservare, descrivere, costruire.

PON Liceo Scientifico Leonardo da Vinci Vallo della Lucania Nuovi percorsi matematici: Osservare, descrivere, costruire. PON 2007 2013 Liceo Scientifico Leonardo da Vinci Vallo della Lucania Nuovi percorsi matematici: Osservare, descrivere, costruire. Derive - 1 INTRODUZIONE ALL USO DI DERIVE COMANDI FONDAMENTALI Vallo della

Dettagli

Fondamenti di Informatica

Fondamenti di Informatica Fondamenti di Informatica AlgoBuild: Strutture iterative e selettive Prof. Christian Esposito Corso di Laurea in Ingegneria Meccanica e Gestionale (Classe I) A.A. 2016/17 AlgoBuild: Strutture iterative

Dettagli

Relazione progetto Fondamenti di Analisi dati e Laboratorio

Relazione progetto Fondamenti di Analisi dati e Laboratorio Università degli Studi di Catania Dipartimento di Matematica e Informatica Corso di Laurea in Informatica magistrale Relazione progetto Fondamenti di Analisi dati e Laboratorio Cancemi Damiano - W82000075

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

A.A. 2018/2019. AlgoBuild: Introduzione agli Array FONDAMENTI DI INFORMATICA E PROGRAMMAZIONE. Docente Prof. Raffaele Pizzolante

A.A. 2018/2019. AlgoBuild: Introduzione agli Array FONDAMENTI DI INFORMATICA E PROGRAMMAZIONE. Docente Prof. Raffaele Pizzolante A.A. 2018/2019 AlgoBuild: Introduzione agli Array Docente Prof. Raffaele Pizzolante FONDAMENTI DI INFORMATICA E PROGRAMMAZIONE Caratteristiche Principali Un array è una variabile in cui è possibile memorizzare

Dettagli

(a) Si proponga una formulazione di programmazione nonlineare a variabili misto-intere per problema.

(a) Si proponga una formulazione di programmazione nonlineare a variabili misto-intere per problema. 6. Clustering In molti campi applicativi si presenta il problema del data mining, che consiste nel suddividere un insieme di dati in gruppi e di assegnare un centro a ciascun gruppo. Ad esempio, in ambito

Dettagli

Fondamenti di Informatica

Fondamenti di Informatica Fondamenti di Informatica AlgoBuild: Strutture selettive, iterative ed array Prof. Arcangelo Castiglione A.A. 2016/17 AlgoBuild : Strutture iterative e selettive OUTLINE Struttura selettiva Esempi Struttura

Dettagli

Prova scritta - versione B Si svolgano gli esercizi riportando il risultato dove indicato. Durata: 60 minuti

Prova scritta - versione B Si svolgano gli esercizi riportando il risultato dove indicato. Durata: 60 minuti 3 Luglio 2018 - Analisi Esplorativa Cognome:... Nome: Matricola:... Tipologia d esame: 12 CFU 15 CFU Prova scritta - versione B Si svolgano gli esercizi riportando il risultato dove indicato. Durata: 60

Dettagli

Tecniche di Clustering basate sul Machine Learning

Tecniche di Clustering basate sul Machine Learning UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate

Dettagli

Validazione dei modelli. Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio

Dettagli

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate

Dettagli

Programmare con MATLAB c Parte 5 Cicli: for e while

Programmare con MATLAB c Parte 5 Cicli: for e while Programmare con MATLAB c Parte 5 Cicli: for e while Lucia Gastaldi DICATAM - Sezione di Matematica, http://lucia-gastaldi.unibs.it Indice 1 La notazione due punti 2 Ciclo: for 3 Ciclo con controllo: while

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE

Dettagli

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi Clustering Raggruppare le istanze di un dominio in gruppi tali che gli oggetti nello stesso gruppo mostrino un alto grado di similarità

Dettagli

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato

Dettagli

Laboratorio di Chimica Fisica 3; AA 2014/2015. NOTE SU UTILIZZO ORIGIN (versione 6.0) Elisabetta Collini. Schermata iniziale:

Laboratorio di Chimica Fisica 3; AA 2014/2015. NOTE SU UTILIZZO ORIGIN (versione 6.0) Elisabetta Collini. Schermata iniziale: Laboratorio di Chimica Fisica 3; AA 2014/2015 NOTE SU UTILIZZO ORIGIN (versione 6.0) Elisabetta Collini Schermata iniziale: I files creati da Origin sono dei progetti (Origin Projects, *.opj) che contengono

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I

Dettagli

Ciclo do while in FORTRAN

Ciclo do while in FORTRAN Ciclo do while in FORTRAN Vogliamo tradurre in linguaggio FORTRAN un algoritmo che risponde a questo tipo di struttura: Fino a quando e vera questa espressione logica allora: fai questo fai quest altro

Dettagli

Clustering Mario Guarracino Data Mining a.a. 2010/2011

Clustering Mario Guarracino Data Mining a.a. 2010/2011 Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,

Dettagli

Introduzione all analisi di arrays: clustering.

Introduzione all analisi di arrays: clustering. Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia

Dettagli

Problem Set 2 docente: Luciano Gualà

Problem Set 2 docente: Luciano Gualà Problem Set 2 docente: Luciano Gualà Esercizio 1 (equazioni di ricorrenza) Si risolvano le seguenti equazioni di ricorrenza. Si assuma sempre T (costante) = O(1). (a) T (n) = T (n 10) + 10. (b) T (n) =

Dettagli

6. Partial Least Squares (PLS)

6. Partial Least Squares (PLS) & C. Di Natale: (PLS) Partial Least Squares PLS toolbox di MATLAB 1 Da PCR a PLS approccio geometrico Nella PCR la soluzione del problema della regressione passa attraverso la decomposizione della matrice

Dettagli

Programmare. Condizioni logiche. Condizioni Logiche Costrutti Decisionali Costrutti di Ciclo

Programmare. Condizioni logiche. Condizioni Logiche Costrutti Decisionali Costrutti di Ciclo Programmare Condizioni Logiche Costrutti Decisionali Costrutti di Ciclo Condizioni logiche Le condizioni logiche sono istruzioni che fanno uso di: operatori relazionali (servono a confrontare il valore

Dettagli

Organizzazione Fisica dei Dati (Parte II)

Organizzazione Fisica dei Dati (Parte II) Modello Fisico dei Dati Basi di Dati / Complementi di Basi di Dati 1 Organizzazione Fisica dei Dati (Parte II) Angelo Montanari Dipartimento di Matematica e Informatica Università di Udine Modello Fisico

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.

Dettagli

QUANTIZZATORE VETTORIALE

QUANTIZZATORE VETTORIALE QUANTIZZATORE VETTORIALE Introduzione Nel campo delle reti neurali, la scelta del numero di nodi nascosti da usare per un determinato compito non è sempre semplice. Per tale scelta potrebbe venirci in

Dettagli

Laboratorio di Calcolo Numerico Laboratorio 4: Functions. Soluzione di Equazioni non lineari

Laboratorio di Calcolo Numerico Laboratorio 4: Functions. Soluzione di Equazioni non lineari Laboratorio di Calcolo Numerico Laboratorio 4: Functions. Soluzione di Equazioni non lineari Claudia Zoccarato E-mail: claudia.zoccarato@unipd.it Dispense: Moodle Dipartimento ICEA 29 Marzo 2017 Function

Dettagli

Analisi discriminante in R Strumenti quantitativi per la gestione

Analisi discriminante in R Strumenti quantitativi per la gestione Analisi discriminante in R Strumenti quantitativi per la gestione Emanuele Taufer Default data LDA con R Output Plot Previsione Tabella di classificazione Cambiare il criterio di classificazione Costruire

Dettagli

Vivisezione di un algoritmo di machine learning. Francesco ESPOSITO Youbiquitous

Vivisezione di un algoritmo di machine learning. Francesco ESPOSITO Youbiquitous Vivisezione di un algoritmo di machine learning Francesco ESPOSITO Youbiquitous Argomenti Panoramica di algoritmi e problemi Dentro un algoritmo Definire un approssimazione Definire un errore Minimizzare

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti

Dettagli

Matematica e Consulenza: un connubio perfetto. Mirco Patriarca Università di Pavia, Marzo 2018

Matematica e Consulenza: un connubio perfetto. Mirco Patriarca Università di Pavia, Marzo 2018 Matematica e Consulenza: un connubio perfetto Mirco Patriarca Università di Pavia, Marzo 2018 AGENDA La mia storia Cosa vuol dire essere un consulente «Data is the new Oil» Esempi di progetto Geo-localization

Dettagli

Introduzione al MATLAB c Parte 2

Introduzione al MATLAB c Parte 2 Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 24 settembre 2007 Outline 1 M-file di tipo Script e Function Script Function 2 Elementi di programmazione

Dettagli

Complementi di Algoritmi e Strutture Dati. Soluzioni prova scritta 7 giugno 2017

Complementi di Algoritmi e Strutture Dati. Soluzioni prova scritta 7 giugno 2017 Complementi di Algoritmi e Strutture Dati (III anno Laurea Triennale - a.a. 2016/17) Soluzioni prova scritta 7 giugno 2017 Esercizio Union find (punti 6) Considerare la foresta union-find sottostante e

Dettagli

5. Analisi dei dati di output

5. Analisi dei dati di output Anno accademico 2008/09 Analisi dei dati di Output Y 1, Y 2,..., Y m : output della simulazione. Le variabili casuali Y 1, Y 2,..., Y m non sono in generale indipendenti Se supponiamo però di avere effettuato

Dettagli

Laboratorio di Calcolo Numerico Laboratorio 3: equazioni non lineari

Laboratorio di Calcolo Numerico Laboratorio 3: equazioni non lineari Dipartimento di Matematica Laboratorio di Calcolo Numerico Laboratorio 3: equazioni non lineari Damiano Pasetto E-mail: pasetto@math.unipd.it Dispense: http://dispense.dmsa.unipd.it/putti/calcolo ambientale/index.html

Dettagli

Laboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili Programma gnuplot

Laboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili Programma gnuplot Laboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili Programma gnuplot Andrea Franceschini E-mail: franceschini@dmsa.unipd.it Dispense: http://www.math.unipd.it/ putti/teaching/calcolo

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

E n 1 n. n i. n 2. n 2 ( n

E n 1 n. n i. n 2. n 2 ( n Lezione n. 7 7.1 Ancora sulle proprietà degli stimatori Esempio 7.1 [continua dall Esempio 6.1] Studiare varianza e MSE dei due stimatori e verificare se T n raggiunge il limite di Cramer- Rao. Soluzione.

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Grafici in R Strumenti quantitativi per la gestione

Grafici in R Strumenti quantitativi per la gestione Grafici in R Strumenti quantitativi per la gestione Emanuele Taufer Caricare il dataset da una libreria Plot Boxplot Istogramma Scatterplot matrice Disegnare linee aggiuntive Caricare il dataset da una

Dettagli

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo

Dettagli

Algoritmi e Strutture Dati

Algoritmi e Strutture Dati Analisi di Algoritmi Modelli di calcolo e analisi di algoritmi Maria Rita Di Berardini, Emanuela Merelli 1 1 Dipartimento di Matematica e Informatica Università di Camerino Analisi di Algoritmi Analisi

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Generazione di Numeri Casuali- Parte 2

Generazione di Numeri Casuali- Parte 2 Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Progetto Analisi Numerica

Progetto Analisi Numerica Progetto Analisi Numerica Calcolo degli autovalori di una matrice Fabio Donatantonio INDICE Traccia pg. 4 Metodo delle potenze Scopo, Specifiche d uso, Descrizione pg. 5 Parametri, Accuratezza, Complessità

Dettagli

Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità)

Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità) Computazione per l interazione naturale: modelli a variabili latenti (clustering e riduzione di dimensionalità) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università

Dettagli

Calcolo Numerico (CdS in Matematica) A.A. 2012/13

Calcolo Numerico (CdS in Matematica) A.A. 2012/13 Calcolo Numerico (CdS in Matematica) A.A. 2012/13 Esercitazione di Laboratorio sulla risoluzione di sistemi di equazioni lineari Parte 1. Fattorizzazione di matrici Scrivere una funzione Matlab che implementi

Dettagli

Le Tecniche di Data Mining

Le Tecniche di Data Mining Cluster Analysis Le Tecniche di Data Mining Le rinciali tecniche di data mining che vedremo sono: Ø Ø Cluster Analysis Alberi Decisionali Cluster Analysis La Cluster Analysis è una tecnica di data mining

Dettagli

Sistemi che apprendono: Introduzione

Sistemi che apprendono: Introduzione Sistemi che apprendono: Introduzione SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano

Dettagli

Soluzione di Equazioni non lineari

Soluzione di Equazioni non lineari Soluzione di Equazioni non lineari Corso di Calcolo Numerico 20 Marzo 2018 Function in MATLAB Lo scopo di una funzione è quello di prendere in input un certo numero di valori, fare alcune operazioni con

Dettagli

Sviluppo di programmi

Sviluppo di programmi Sviluppo di programmi Per la costruzione di un programma conviene: 1. condurre un analisi del problema da risolvere 2. elaborare un algoritmo della soluzione rappresentato in un linguaggio adatto alla

Dettagli

Big Data - Sfide e Opportunità. La Prospettiva dell'intelligenza Computazionale

Big Data - Sfide e Opportunità. La Prospettiva dell'intelligenza Computazionale Big Data - Sfide e Opportunità. La Prospettiva dell'intelligenza Computazionale Mauro Castelli Assistant Professor di Intelligenza Artificiale e Apprendimento Automatico - NOVA IMS, Universidade Nova de

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute.

6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute. I due esercizi seguenti su un esempio semplice (trovare il massimo tra due o tra tre numeri) introducono la descrizione di algoritmi con diagrammi a blocchi, le strutture di controllo sequenza e condizione,

Dettagli

Aniello Murano Classe dei problemi NP. Nella lezione precedente abbiamo visto alcuni problemi che ammettono soluzione polinomiale

Aniello Murano Classe dei problemi NP. Nella lezione precedente abbiamo visto alcuni problemi che ammettono soluzione polinomiale Aniello Murano Classe dei problemi NP 13 Lezione n. Parole chiave: Classe NP Corso di Laurea: Informatica Codice: Email Docente: murano@ na.infn.it A.A. 2008-2009 Introduzione alla lezione Nella lezione

Dettagli

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Prova scritta di ASM - Modulo Analisi Esplorativa del

Prova scritta di ASM - Modulo Analisi Esplorativa del Cognome:... Nome:... Matricola:......... Prova scritta di ASM - Modulo Analisi Esplorativa del 14.02.2017 La durata della prova è di 90 minuti. Si svolgano gli esercizi A e B riportando il risultato dove

Dettagli

Laboratorio di Calcolo B 67

Laboratorio di Calcolo B 67 Generazione di numeri casuali Abbiamo già accennato all idea che le tecniche statistiche possano essere utili per risolvere problemi di simulazione di processi fisici e di calcoli numerici. Dobbiamo però

Dettagli

1.3 LA RAPPRESENTAZIONE DEI FLUSSI DI MOBILITÀ ATTRAVERSO LE LINEE DI DESIDERIO

1.3 LA RAPPRESENTAZIONE DEI FLUSSI DI MOBILITÀ ATTRAVERSO LE LINEE DI DESIDERIO Il territorio esterno è rappresentato da 6 macrozone, ad ognuna delle quali corrisponde un centroide a cui sono assegnati gli spostamenti in ingresso ed in uscita dalla Provincia. Questi 6 BOD esterni

Dettagli

Analisi Multivariata Prova intermedia del 20 aprile 2011

Analisi Multivariata Prova intermedia del 20 aprile 2011 Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.

Dettagli

TECNICHE DI CLASSIFICAZIONE

TECNICHE DI CLASSIFICAZIONE TECNICHE DI CLASSIFICAZIONE La tecnica di classificazione più conosciuta è la cluster analysis, che ha l obiettivo di identificare gruppi di soggetti (o oggetti) omogenei al loro interno ed eterogenei

Dettagli

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012 Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo

Dettagli

Calcolo numerico e programmazione Introduzione a Scilab (3)

Calcolo numerico e programmazione Introduzione a Scilab (3) Calcolo numerico e programmazione Introduzione a Scilab (3) Tullio Facchinetti 3 maggio 2012 23:58 http://robot.unipv.it/toolleeo Cos è una funzione le funzioni sono insiemi

Dettagli

Esercizi di Algoritmi e Strutture Dati

Esercizi di Algoritmi e Strutture Dati Esercizi di Algoritmi e Strutture Dati Moreno Marzolla marzolla@cs.unibo.it Ultimo aggiornamento: 3 novembre 2010 1 Trova la somma/1 Scrivere un algoritmo che dati in input un array A[1... n] di n interi

Dettagli

INTRODUZIONE A R. Dott. Giuseppe Sgroi Dipartimento di Matematica e Informatica 29 Maggio 2019

INTRODUZIONE A R. Dott. Giuseppe Sgroi Dipartimento di Matematica e Informatica 29 Maggio 2019 INTRODUZIONE A R Dott. Giuseppe Sgroi Dipartimento di Matematica e Informatica giuseppe.sgroi@unict.it 29 Maggio 2019 COS È R? R è un software OpenSource, che può essere definito come un sistema di analisi

Dettagli

Classificazione di immagini aeree. Annalisa Franco

Classificazione di immagini aeree. Annalisa Franco Classificazione di immagini aeree Annalisa Franco annalisa.franco@unibo.it http://bias.csr.unibo.it/vr/ 2 Classificazione di immagini aeree Scopo di questa esercitazione è l implementazione di una tecnica

Dettagli

Laboratorio di Calcolo Numerico Laboratorio 4: Grafici di convergenza e functions

Laboratorio di Calcolo Numerico Laboratorio 4: Grafici di convergenza e functions Dipartimento di Matematica Laboratorio di Calcolo Numerico Laboratorio 4: Grafici di convergenza e functions Damiano Pasetto E-mail: pasetto@math.unipd.it Dispense: http://dispense.dmsa.unipd.it/putti/calcolo

Dettagli

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli