TESINA INTELLIGENZA ARTIFICIALE

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "TESINA INTELLIGENZA ARTIFICIALE"

Transcript

1 Student Alessio Gallucci Professor Elio Piccolo TESINA INTELLIGENZA ARTIFICIALE Benchmark Classification Model On Kaggle Santander Challange vers.1.0

2 AGENDA Background SLIDE 3 Database SLIDE 4-5 Benchmark SLIDE 6-7 Bias-Variance SLIDE 8-9 vers.1.0 2/9

3 BACKGROUND Kaggle Kaggle è la più grande comunità di data scientist, statistici, e esperti di machine learning. Questa comunità ha risolto molti dei più complessi problemi proposti da moltepli aziende leader nel mondo. Il format classico è quello della competizione/challange in cui un azienda propone una sfida da risolvere è in cambio mette a disposizione un premio di vario genere (spesso in denaro o posto di lavoro). Inoltre mette a disposizione un training set su cui allenarsi e tiene segreto un test set nel quale andrà a misurare e classificare le soluzioni proposte dagli utenti Kaggle. Santander Santader propone ricca Challange su Kaggle con in premio $ di montepremi. Il problema che vuole risolvere è capire il prima possibile se un cliente è contento o meno del servizio offerto infatti la soddisfazione del cliente è una misura importante di successo della banca. Inoltre è difficile capire se un cliente non è soddisfatto prima che esso lasci la banca e sia quindi un cliente perso. Santader chiede di identificare i clienti in maniera preventiva in modo che essa poi possa agire prima che il cliente lasci la banca. Il database che essa offre contiente 370 attributi anonimi per un totale di circa esempi come training set. vers.1.0 3/9

4 DATABASE DESCRIPTION TARGET Il numero di clienti scontenti nel training set è molto basso, circa il 4% come mostra il grafico a torta qui di fianco. Questo sbilanciamento nelle etichette di classe complica molto tutte le fasi del modello di previsione. Un problema in questo tipo di problemi è che molte misure di performance vengono distorte e non rappresentano più un indice di bontà del modello. Si pensi per esempio all'accuratezza (predizioni corrette / totale elementi) che paradossalmente potrebbe essere del 96% per il classificatore banale che assegna a qualsiasi dato di input il valore 0 ovvero contento. Per queste ragioni si è scelto di usare come misura di performance l'auc ovvero l'area sotto la curve ROC. 0:Contenti TARGET 1:Scontenti vers.1.0 4/9

5 DATABASE DESCRIPTION Dimensioni TARGET Gli attributi non vengono descritti nella challenge è sta alla nostra abilità capirne il significato. Vi sono inizialmente 370 attributi tutti di tipo numerico e si distribuiscono in binari, interi, reali il che complica l'analisi in quanto bisogna fare attenzione ad usare modelli che non capiscono la differenza nel dominio degli attributi oppure effettuare una normalizzazione prima. Il training set inoltre contiente esempi numero relativamente grande, ma non necessariamente sufficiente per allenare modelli complessi quali le reti neurali artificiali considerando anche la bassa frequenza della classe positiva. INFORMAZIONI TRAINING SET Int64Index: entries, 1 to Columns: 370 entries, var3 to TARGET dtypes: float64(111), int64(259) memory usage: MB vers.1.0 5/9

6 BENCHMARK Numero di attributi 227. Il numero di attributi si riduce in prima istanza a 306 eliminando le colonne con deviazione standard nulla (colonne costanti) e poi eliminando le colonne duplicate. Da 306 a 227 è stata chiamata la funzione SelectKBest di sklearn. Vista la complessità del database gli unici modelli che possono competere alla gara sono quelli ensamble (insiemi di classificatori deboli) oppure le reti neurali come si evince dal grafico delle curve AUC generate con parametri base di tutti i modelli. vers.1.0 6/9

7 BENCHMARK CODE PYTHON-SKLEARN VARIABLES GP = {'seed':22*7}; np.random.seed(gp['seed']) Models = [GradientBoostingClassifier(), MLPClassifier(), AdaBoostClassifier(), RandomForestClassifier(n_estimators=50,max_depth=5), DecisionTreeClassifier(max_depth=25,class_weight={0:0.96,1:0.04}), KNeighborsClassifier(n_neighbors=5), GaussianNB()] Labels = ['GrdBoost','MLPNN','AdaBoost','RndForest','DecisionTree','KNN','NaiveBayes'] LOADING AND PREPROCESSING training = pd.read_csv("input/train.csv",index_col = 0) training = training.replace( ,2) fdupl = sfs.list_duplicate(training); fcost = sfs.list_constant(training); fall = list(training) fsel = [f for f in fall if (f not in fcost and f not in fdupl)] id_training = training.index X = training[fsel].iloc[:,:-1]; y = training.target X = StandardScaler().fit(X).transform(X) X = SelectKBest(f_classif, k=227).fit(x, y).transform(x) RUNNING MODELS X_train, X_test, y_train, y_test = cv.train_test_split(x1_train, y1_train, test_size=0.33) for clf,lab in zip(models,labels): print("processing", lab) y_score = clf.fit(x_train,y_train).predict_proba(x_test) fpr, tpr, thresholds = roc_curve(y_test, y_score[:,1]) roc_auc = auc(fpr, tpr) vers.1.0 7/9

8 BIAS-VARIANCE TRADEOFF DECISION TREE Analizziamo la il trade-off tra bias e variance nel caso dell albero decisione in quanto è il classificatore debole più usato negli ensamble. Come si può notare dal grafico un ottimo valore di profondità massima dell albero è 9 ovvero quando si distaccano la curva dell errore nel training set e nel test set. Chiaramente negli ensamble si lavorerà con una profondità massima più piccola (eg. 6) in modo da non fare overfitting. vers.1.0 8/9

9 BIAS-VARIANCE CODE PYTHON-SKLEARN MODEL clf = DecisionTreeClassifier(class_weight={0: 0.96, 1: 0.04}, criterion='gini', max_depth=3, max_features=0.85, max_leaf_nodes=none, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, presort=false, random_state=none, splitter='best') X_train, X_test, y_train, y_test = cv.train_test_split(x, y, test_size=0.75) auc_test = []; auc_train = [] dep_list = [6,9,12,15,18,21,24,27,30,33] ITERATION ON DEPTH for n_dep in dep_list: clf.max_depth = n_dep clf.fit(x_train,y_train).predict_proba(x_test) y_score = clf.predict_proba(x_test) y_score_train = clf.predict_proba(x_train) fpr, tpr, thresholds = roc_curve(y_test, y_score[:,1]) fpr_train, tpr_train, thresholds_train = roc_curve(y_train, y_score_train[:,1]) auc_test.append(auc(fpr, tpr)); auc_train.append(auc(fpr_train,tpr_train) vers.1.0 9/9

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti

Dettagli

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello

Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello Tesina di Intelligenza Artificiale Uso dell algoritmo di Quantizzazione Vettoriale per la determinazione del numero di nodi dello strato hidden in una rete neurale multilivello Roberto Fortino S228682

Dettagli

Tesina Intelligenza Artificiale Maria Serena Ciaburri s A.A

Tesina Intelligenza Artificiale Maria Serena Ciaburri s A.A Tesina Intelligenza Artificiale Maria Serena Ciaburri s231745 A.A. 2016-2017 Lo scopo di questa tesina è quello di clusterizzare con l algoritmo K-Means i dati presenti nel dataset MNIST e di calcolare

Dettagli

Classificazione e regressione

Classificazione e regressione Classificazione e regressione Alberto Borghese Università degli Studi di Milano Laboratorio di Sistemi Intelligenti Applicati (AIS-Lab) Dipartimento di Informatica alberto.borghese@unimi.it 1/48 Riassunto

Dettagli

Data Journalism. Analisi dei dati. Angelica Lo Duca

Data Journalism. Analisi dei dati. Angelica Lo Duca Data Journalism Analisi dei dati Angelica Lo Duca angelica.loduca@iit.cnr.it Obiettivo L obiettivo dell analisi dei dati consiste nello scoprire trend, pattern e relazioni nascosti nei dati. di analisi

Dettagli

Progettazione di un Sistema di Machine Learning

Progettazione di un Sistema di Machine Learning Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale a.a. 2013-14 Vito Claudio Ostuni Data analysis and pre-processing Dataset iniziale Feature

Dettagli

Alberi di Decisione (2)

Alberi di Decisione (2) Alberi di Decisione (2) Corso di AA, anno 2018/19, Padova Fabio Aiolli 05 Novembre 2018 Fabio Aiolli Alberi di Decisione (2) 05 Novembre 2018 1 / 19 Apprendimento di alberi di decisione: Bias induttivo

Dettagli

Classificazione k-nn con R. Strumenti quantitativi per la gestione

Classificazione k-nn con R. Strumenti quantitativi per la gestione Classificazione k-nn con R Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l1-knn.html#(1) 1/16 Altezza e peso degli adulti Le statistiche sull

Dettagli

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Multi classificatori Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Combinazione di classificatori Idea: costruire più classificatori di base e predire la classe di appartenza di

Dettagli

Business Intelligence per i Big Data

Business Intelligence per i Big Data Business Intelligence per i Big Data Esercitazione di laboratorio n. 6 L obiettivo dell esercitazione è il seguente: - Applicare algoritmi di data mining per la classificazione al fine di analizzare dati

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

Regressione. Lineare Simple linear regression Multiple linear regression Regression vs Geometrical fitting

Regressione. Lineare Simple linear regression Multiple linear regression Regression vs Geometrical fitting Lineare Simple linear regression Multiple linear regression Regression vs Geometrical fitting Non lineare Variabile indipendente non lineare Ottimizzazione numerica (metodi iterativi) 1 Definizioni Nei

Dettagli

Computazione per l interazione naturale: Regressione lineare

Computazione per l interazione naturale: Regressione lineare Computazione per l interazione naturale: Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it http://homes.dsi.unimi.it/~boccignone/l

Dettagli

Computazione per l interazione naturale: Regressione lineare (MSE)

Computazione per l interazione naturale: Regressione lineare (MSE) Computazione per l interazione naturale: Regressione lineare (MSE) Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Alberi di Decisione (2)

Alberi di Decisione (2) Alberi di Decisione (2) Corso di AA, anno 2017/18, Padova Fabio Aiolli 25 Ottobre 2017 Fabio Aiolli Alberi di Decisione (2) 25 Ottobre 2017 1 / 18 Apprendimento di alberi di decisione: Bias induttivo Come

Dettagli

Progettazione di un Sistema di Machine Learning

Progettazione di un Sistema di Machine Learning Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale Rosati Jessica Machine Learning System Un sistema di Machine learning apprende automaticamente

Dettagli

Corso di Intelligenza Artificiale A.A. 2016/2017

Corso di Intelligenza Artificiale A.A. 2016/2017 Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte IV: valutazione dei Università degli Studi di Udine Cross- In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System

Dettagli

HR analyics. Analisi con le CP e analisi predittiva

HR analyics. Analisi con le CP e analisi predittiva HR analyics Analisi con le CP e analisi predittiva SQG file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l10-hr_predictive.html#(1) 1/24 Dati Human Resources (HR) In questa esercitazione viene analizzato

Dettagli

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018 DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) Secondo Parziale - 11 Giugno 2018 Nome: Cognome: Matricola:

Dettagli

Metodi supervisionati di classificazione

Metodi supervisionati di classificazione Metodi supervisionati di classificazione Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI - Dipartimento di Scienze dell'informazione Classificazione bio-molecolare di tessuti e geni Diagnosi a livello

Dettagli

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti

Classificazione Validazione Decision Tree & kmeans. Renato Mainetti Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato

Dettagli

Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico

Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico Pulse Sense: la matematica per l individuazione di anomalie in un tracciato elettrocardiografico Pasqualina Fragneto Quando i matematici non entrano in aula Trento 2017 1 AST Applied Math Team Che cosa

Dettagli

Apprendimanto automatico

Apprendimanto automatico Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO Apprendimanto automatico Matteo Re Matteo.re@unimi.it http://homes.di.unimi.it/~re DI Dipartimento di Scienze dell Informazione Università degli Studi

Dettagli

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019 DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019 Nome: Cognome: Matricola: Riga: Colonna:

Dettagli

Valutazione di modelli

Valutazione di modelli Valutazione di modelli venerdì, 03 Novembre 2006 Giuseppe Manco References: Chapter 3, Mitchell Chapters 4.5, 5.7, Tan, Steinbach, Kumar Underfitting, Overfitting 500 cerchi, 500 triangoli. Cerchi: 0.5

Dettagli

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Stima della qualità dei classificatori per l analisi dei dati biomolecolari Stima della qualità dei classificatori per l analisi dei dati biomolecolari Giorgio Valentini e-mail: valentini@dsi.unimi.it Rischio atteso e rischio empirico L` apprendimento di una funzione non nota

Dettagli

Esercizio: apprendimento di congiunzioni di letterali

Esercizio: apprendimento di congiunzioni di letterali input: insieme di apprendimento istemi di Elaborazione dell Informazione 18 Esercizio: apprendimento di congiunzioni di letterali Algoritmo Find-S /* trova l ipotesi più specifica consistente con l insieme

Dettagli

Richiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive

Richiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive Sistemi Intelligenti 1 Richiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive Libro di riferimento: T. Mitchell Sistemi Intelligenti 2 Ingredienti Fondamentali Apprendimento Automatico

Dettagli

Statistical learning methods for classification and profiling

Statistical learning methods for classification and profiling Statistical learning methods for classification and profiling AGCom Workshop on the impact of online platforms on information freedom and media pluralism: Fake News and Other regulatory challenges Antonio

Dettagli

MATRICE TUNING competenze versus unità didattiche, Corso di Laurea in Informatica (classe L-31), Università degli Studi di Cagliari

MATRICE TUNING competenze versus unità didattiche, Corso di Laurea in Informatica (classe L-31), Università degli Studi di Cagliari A: CONOSCENZA E CAPACITA DI COMPRENSIONE Conoscere e saper comprendere i fondamenti della matematica discreta (insiemi, interi, relazioni e funzioni, calcolo combinatorio) Conoscere e saper comprendere

Dettagli

Data mining: classificazione

Data mining: classificazione DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group

Dettagli

Intelligenza Artificiale Complementi ed Esercizi

Intelligenza Artificiale Complementi ed Esercizi Intelligenza Artificiale Complementi ed Esercizi Reti Neurali AA 2013-2014 Il riconoscimento dei caratteri scritti a mano Handwritten Recognition Il problema Data una cifra scritta a mano, riconoscere

Dettagli

SUPPORT VECTOR MACHINES. a practical guide

SUPPORT VECTOR MACHINES. a practical guide SUPPORT VECTOR MACHINES a practical guide 1 SUPPORT VECTOR MACHINES Consideriamo un problema di classificazione binaria, a partire da uno spazio di input X R n e uno spazio di output Y = { 1, 1} Training

Dettagli

Reti Neurali in Generale

Reti Neurali in Generale istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono

Dettagli

Preprocessing. Corso di AA, anno 2017/18, Padova. Fabio Aiolli. 27 Novembre Fabio Aiolli Preprocessing 27 Novembre / 14

Preprocessing. Corso di AA, anno 2017/18, Padova. Fabio Aiolli. 27 Novembre Fabio Aiolli Preprocessing 27 Novembre / 14 Preprocessing Corso di AA, anno 2017/18, Padova Fabio Aiolli 27 Novembre 2017 Fabio Aiolli Preprocessing 27 Novembre 2017 1 / 14 Pipeline di Apprendimento Supervisionato Analisi del problema Raccolta,

Dettagli

analisi di sensibilità lezione 22

analisi di sensibilità lezione 22 analisi di sensibilità lezione 22 ultime lezioni [22] oggi h. 13:05-14:55 simulazione esame + sensibilità + ricette [23] 29 Maggio h. 16:45-19:00 DDAY Start-Up Lab - aula magna Lettere [24] 3 Giugno h.

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno Primo Appello

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno Primo Appello DIPARTIMENTO DI INGEGNERIA GESTIONALE, DELL INFORMAZIONE E DELLA PRODUZIONE Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 21 Giugno 2018 - Primo Appello Nome: Cognome: Matricola:

Dettagli

Alberi di Regressione

Alberi di Regressione lberi di Regressione Caso di studio di Metodi vanzati di Programmazione 2015-2016 Corso Data Mining Lo scopo del data mining è l estrazione (semi) automatica di conoscenza nascosta in voluminose basi di

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Programmare in Python

Programmare in Python Programmare in Python Docente: Maurizio De Pra Lingua Italiano Descrizione del corso e obiettivi Il corso mira a far conoscere i fondamenti della programmazione in Python, i cui ambiti di utilizzo sono

Dettagli

Validazione dei modelli. Strumenti quantitativi per la gestione

Validazione dei modelli. Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio

Dettagli

Analisi di un dataset di perizie assicurative. Esercitazione Data Mining

Analisi di un dataset di perizie assicurative. Esercitazione Data Mining Analisi di un dataset di perizie assicurative Esercitazione Data Mining Ricapitoliamo L obiettivo dell analisi che si intende condurre è l estrapolazione di un modello per il riconoscimento automatico

Dettagli

Progetto Machine Learning. Giacomo Lancia Fabio Peluso

Progetto Machine Learning. Giacomo Lancia Fabio Peluso Progetto Machine Learning Giacomo Lancia Fabio Peluso 28 settembre 2017 2 Capitolo 1 Introduzione Il progetto presentato in questa relazione è relativo al dataset Statlog (Landsat Satellite), disponibile

Dettagli

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo. Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente

Dettagli

The Business Game for Data Scientists

The Business Game for Data Scientists The Business Game for Data Scientists Istruzioni Career Service UniPD & Bee-Viva 19 Aprile 2016 Dipartimento di Scienze Statistiche Università degli Studi di Padova Sommario 1 BusinessGame @UniPD 2 Business

Dettagli

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo

Dettagli

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati " #!! Suddivisione tipica ( 3 5 6 & ' ( ) * 3 5 6 = > ; < @ D Sistemi di Elaborazione dell Informazione Sistemi di Elaborazione dell Informazione Principali Paradigmi di Apprendimento Richiamo Consideriamo

Dettagli

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Data Science e Tecnologie per le Basi di Dati

Data Science e Tecnologie per le Basi di Dati Data Science e Tecnologie per le Basi di Dati Esercitazione #3 Data mining BOZZA DI SOLUZIONE Domanda 1 (a) Come mostrato in Figura 1, l attributo più selettivo risulta essere Capital Gain, perché rappresenta

Dettagli

Strutture dati e loro organizzazione. Gabriella Trucco

Strutture dati e loro organizzazione. Gabriella Trucco Strutture dati e loro organizzazione Gabriella Trucco Introduzione I linguaggi di programmazione di alto livello consentono di far riferimento a posizioni nella memoria principale tramite nomi descrittivi

Dettagli

Tecniche avanzate per la progettazione e la gestione dei sistemi produttivi

Tecniche avanzate per la progettazione e la gestione dei sistemi produttivi Tecniche avanzate per la progettazione e la gestione dei sistemi produttivi 1 Panoramica generale Dalle Scienze naturali Dalla matematica Knowledge Based systems Artificial Neural Networks Simulation Chaos

Dettagli

Python Start. Docente: M. Chiara Debernardi. Lingua del corso. Descrizione del corso e obiettivi. Destinatari. Prerequisiti.

Python Start. Docente: M. Chiara Debernardi. Lingua del corso. Descrizione del corso e obiettivi. Destinatari. Prerequisiti. Python Start Docente: M. Chiara Debernardi Lingua del corso Italiano Descrizione del corso e obiettivi Il corso mira a far conoscere i fondamenti di Python, linguaggio di programmazione sempre più diffuso

Dettagli

MODELLI MATEMATICI PER I SISTEMI DI INFORMAZIONE ALL UTENZA: introduzione ai modelli dell ingegneria dei trasporti

MODELLI MATEMATICI PER I SISTEMI DI INFORMAZIONE ALL UTENZA: introduzione ai modelli dell ingegneria dei trasporti Corso di TRASPORTI E TERRITORIO e TEORIA E TECNICA DELLA CIRCOLAZIONE MODELLI MATEMATICI PER I SISTEMI DI INFORMAZIONE ALL UTENZA: introduzione ai modelli dell ingegneria dei trasporti DOCENTI Agostino

Dettagli

Reti Neurali (Parte I)

Reti Neurali (Parte I) Reti Neurali (Parte I) Corso di AA, anno 2017/18, Padova Fabio Aiolli 30 Ottobre 2017 Fabio Aiolli Reti Neurali (Parte I) 30 Ottobre 2017 1 / 15 Reti Neurali Artificiali: Generalità Due motivazioni diverse

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati

Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI Dip. Scienze dell'informazione

Dettagli

CHI SIAMO COME. COSA Capendo esigenze, obiettivi e preoccupazioni attraverso un approccio analitico, per offrire informazioni utili e sensate.

CHI SIAMO COME. COSA Capendo esigenze, obiettivi e preoccupazioni attraverso un approccio analitico, per offrire informazioni utili e sensate. CHI SIAMO Siamo un innovativa startup, un laboratorio per lo studio, la comprensione e la rappresentazione di informazioni e dati. Non ci piace rimanere in superficie, preferiamo guardare in profondità.

Dettagli

Python Start. Docente: M. Chiara Debernardi. Lingua del corso. Descrizione del corso e obiettivi. Destinatari. Italiano

Python Start. Docente: M. Chiara Debernardi. Lingua del corso. Descrizione del corso e obiettivi. Destinatari. Italiano Python Start Docente: M. Chiara Debernardi Lingua del corso Italiano Descrizione del corso e obiettivi Il corso mira a far conoscere i fondamenti di Python i cui ambiti di utilizzo sono molteplici: intelligenza

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine al e applicazioni al dominio del Contact Management Parte I: Il Processo di, Principali tipologie di al Cos è il Il processo di Università degli Studi di Udine Unsupervised In collaborazione con dott.

Dettagli

CAPITOLO V. DATABASE: Il modello relazionale

CAPITOLO V. DATABASE: Il modello relazionale CAPITOLO V DATABASE: Il modello relazionale Il modello relazionale offre una rappresentazione matematica dei dati basata sul concetto di relazione normalizzata. I principi del modello relazionale furono

Dettagli

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua WEKA BIOINFORMATICS AND BIG DATA ANALYTICS Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua Indice Cosa è weka Tecnologie Hands On Weka Weka Explorer KnowledgeFlow /Simple CLI Caricare il dataset Il

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 11 Dicembre 2017 1 / 19 Metodi Bayesiani I metodi Bayesiani forniscono tecniche computazionali

Dettagli

DEEP LEARNING PER CONTROLLO QUALITA PRODOTTO E CONTROLLO DI PROCESSO Alessandro Liani, CEO e R&D Manager

DEEP LEARNING PER CONTROLLO QUALITA PRODOTTO E CONTROLLO DI PROCESSO Alessandro Liani, CEO e R&D Manager DEEP LEARNING PER CONTROLLO QUALITA PRODOTTO E CONTROLLO DI PROCESSO Alessandro Liani, CEO e R&D Manager Smart Vision - Le tecnologie per l industria del futuro Machine Learning Famiglie di machine learning

Dettagli

Indice generale. Introduzione. Ringraziamenti dell autore...xxi. Capitolo 1 Dare ai computer la capacità di apprendere dai dati...

Indice generale. Introduzione. Ringraziamenti dell autore...xxi. Capitolo 1 Dare ai computer la capacità di apprendere dai dati... Premessa Introduzione...xiii...xv Struttura del libro...xvi Dotazione software necessaria...xvii A chi è rivolto questo libro...xviii Convenzioni...xviii Scarica i file degli esempi...xix L autore...xix

Dettagli

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Classificazione Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo target categorico. A partire da un insieme

Dettagli

Reti Neurali (Parte III)

Reti Neurali (Parte III) Reti Neurali (Parte III) Corso di AA, anno 2017/18, Padova Fabio Aiolli 08 Novembre 2017 Fabio Aiolli Reti Neurali (Parte III) 08 Novembre 2017 1 / 16 Reti Neurali Multistrato Fabio Aiolli Reti Neurali

Dettagli

Vivisezione di un algoritmo di machine learning. Francesco ESPOSITO Youbiquitous

Vivisezione di un algoritmo di machine learning. Francesco ESPOSITO Youbiquitous Vivisezione di un algoritmo di machine learning Francesco ESPOSITO Youbiquitous Argomenti Panoramica di algoritmi e problemi Dentro un algoritmo Definire un approssimazione Definire un errore Minimizzare

Dettagli

Relazione progetto Fondamenti di Analisi dati e Laboratorio

Relazione progetto Fondamenti di Analisi dati e Laboratorio Università degli Studi di Catania Dipartimento di Matematica e Informatica Corso di Laurea in Informatica magistrale Relazione progetto Fondamenti di Analisi dati e Laboratorio Cancemi Damiano - W82000075

Dettagli

La simulazione è l'imitazione di un processo o di un sistema reale per un

La simulazione è l'imitazione di un processo o di un sistema reale per un 1 2 La simulazione è l'imitazione di un processo o di un sistema reale per un determinato periodo di tempo. La simulazione è l'imitazione di un processo o di un sistema reale per un determinato periodo

Dettagli

Concetti base programmazione. Antonio Gallo

Concetti base programmazione. Antonio Gallo Concetti base programmazione Antonio Gallo info@laboratoriolibero.com Programma Insieme di istruzioni: Strtturato Ad oggetti Strutturato Ha una struttura più lineare Basato sui concetti di sequenza, selezione,

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Classificazione: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Introduzione

Dettagli

MASTER IN DATA SCIENCE PER LA COMUNICAZIONE DIGITALE PROGRAMMA. Via Larga 13, Milano 13 Settembre Novembre 2019

MASTER IN DATA SCIENCE PER LA COMUNICAZIONE DIGITALE PROGRAMMA. Via Larga 13, Milano 13 Settembre Novembre 2019 MASTER IN DATA SCIENCE PER LA COMUNICAZIONE DIGITALE DATA B I G D A T A PROGRAMMA Via Larga 13, Milano 13 Settembre 2019 30 Novembre 2019 YOU CAN T MANAGE WHAT YOU DON T MEASURE W. Edwards Deming and Peter

Dettagli

Tempo disponibile: 60 minuti

Tempo disponibile: 60 minuti Corso di Specialistica in Biotecnologie Statistica medica. A.A. 005-006 6 Marzo 006 Tempo disponibile: 60 minuti 1. Conducete uno studio clinico controllato randomizzato di fase III per misurare l'effetto

Dettagli

Rischio statistico e sua analisi

Rischio statistico e sua analisi F94 Metodi statistici per l apprendimento Rischio statistico e sua analisi Docente: Nicolò Cesa-Bianchi versione 7 aprile 018 Per analizzare un algoritmo di apprendimento dobbiamo costruire un modello

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 04-Grafici delle distribuzioni vers. 1.0 (17 ottobre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Apprendimento di Alberi di Decisione: Bias Induttivo

Apprendimento di Alberi di Decisione: Bias Induttivo istemi di Elaborazione dell Informazione 54 Apprendimento di Alberi di Decisione: Bias Induttivo Il Bias Induttivo è sulla ricerca! + + A1 + + + A2 + +...... + + A2 A3 + + + A2 A4...... istemi di Elaborazione

Dettagli

Sistemi per la gestione delle basi di dati

Sistemi per la gestione delle basi di dati Sistemi per la gestione delle basi di dati Esercitazione #5 Data mining Obiettivo Applicare algoritmi di data mining per la classificazione al fine di analizzare dati reali mediante l utilizzo dell applicazione

Dettagli

Informatica per la Comunicazione/ Verdicchio/ 19/06/2013/ Domande / Versione 1

Informatica per la Comunicazione/ Verdicchio/ 19/06/2013/ Domande / Versione 1 Informatica per la Comunicazione/ Verdicchio/ 19/06/2013/ Domande / Versione 1 1) L esperimento mentale di Searle ha lo scopo di dimostrare che a) i computer possono parlare cinese b) i computer non possono

Dettagli

Lezione 10 Alberi e gestione delle eccezioni

Lezione 10 Alberi e gestione delle eccezioni Lezione 10 Alberi e gestione delle eccezioni Informatica 5 Maggio 2016 1 Visita in ampiezza ed esercizi Esercizio: stampa per livelli Scrivere una funzione che stampa le etichette di tutti i nodi dell

Dettagli

Rilevazione di messaggi spam con algoritmo Naive-Bayes

Rilevazione di messaggi spam con algoritmo Naive-Bayes Rilevazione di messaggi spam con algoritmo Naive-Bayes Luca Zanetti matricola nr. 808229 luca.zanetti2@studenti.unimi.it Sommario L individuazione di messaggi spam costituisce uno dei più noti esempi di

Dettagli

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica Università del Piemonte Orientale Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia Corso di Statistica Medica Le distribuzioni teoriche di probabilità La distribuzione Normale (o di

Dettagli

COGNOME.NOME...MATR..

COGNOME.NOME...MATR.. STATISTICA 29.01.15 - PROVA GENERALE (CHALLENGE) Modalità A (A) ai fini della valutazione verranno considerate solo le risposte riportate dallo studente negli appositi riquadri bianchi: in caso di necessità

Dettagli

Introduzione all Intelligenza Artificiale a.a. 2016/17

Introduzione all Intelligenza Artificiale a.a. 2016/17 Introduzione all Intelligenza Artificiale a.a. 2016/17 Prima prova intermedia 7 Aprile 2017 PRIMA PARTE Domande (punti 7) La risposta corretta alla maggior parte delle domande abilita la correzione della

Dettagli

Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche

Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche Marco Botta Dipartimento di Informatica Università di Torino www.di.unito.it/~botta/didattica/ botta@di.unito.it Sommario Caratterizzazione

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Comput per l inter naturale: macchine che apprendono Corso di Inter uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it http://boccignone.di.unimi.it/ium2_2014.html

Dettagli

Le previsioni contano

Le previsioni contano Le previsioni contano Marketing Area: previsione della domanda, delle vendite, preferenze dei consumatori. Retail Area: previsione della domanda per ottimizzare i carichi di magazzino. IT Area: previsione

Dettagli

Otacon22 HgComo. Reti neurali artificiali

Otacon22 HgComo. Reti neurali artificiali Otacon22 HgComo Reti neurali artificiali Chi sono? Daniele Iamartino ( aka Otacon22 ) Membro del team HgComo Studente/sperimentatore Futura matricola del PoliMi, ex liceale con tesina sulle reti neurali!

Dettagli

Elaborazione dati dati e costruzione della cartografia georeferenziata

Elaborazione dati dati e costruzione della cartografia georeferenziata AGENZIA REGIONALE Elaborazione dati dati e costruzione della cartografia georeferenziata Acque superficiali: attività di prevenzione per l ambiente, la salute, il tempo libero. Ancona, 17 ottobre 2003

Dettagli

[Giuseppe Alessandri, Appunti]

[Giuseppe Alessandri, Appunti] Partendo da una differenziazione, oramai assodata, fra progettazione sul versante della razionalità tecnica e quello della complessità (Cristianini, tecnodid, 2001), è possibile sviluppare dei parallelismi

Dettagli

Algoritmi di classificazione supervisionati

Algoritmi di classificazione supervisionati Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale

Dettagli

Psicometria con Laboratorio di SPSS 1

Psicometria con Laboratorio di SPSS 1 Psicometria con Laboratorio di SPSS 1 1-Panoramica delle tecniche: Spiegazione intuitiva vers. 1.1 (vers. 1.1, 14 marzo 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università

Dettagli

Il Machine Learning: motore di innovazione guidato dai dati. Rosa Meo

Il Machine Learning: motore di innovazione guidato dai dati. Rosa Meo Il Machine Learning: motore di innovazione guidato dai dati Rosa Meo Di cosa parleremo Il Machine Learning e l Intelligenza Artificiale I principali modelli di apprendimento del Machine Learning Recenti

Dettagli

Economia Politica. Appunti delle lezioni. L alternativa di breve periodo tra inflazione e disoccupazione

Economia Politica. Appunti delle lezioni. L alternativa di breve periodo tra inflazione e disoccupazione Economia Politica ppunti delle lezioni L alternativa di breve periodo tra e disoccupazione Inquadramento generale Questa unità conclusiva della macroeconomia si occupa della relazione che esiste tra due

Dettagli

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018 Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018 18.05.18 Marco Frasca Università degli Studi di Milano SVM - Richiami La Support Vector Machine

Dettagli