Analisi di un dataset di perizie assicurative. Esercitazione Data Mining
|
|
- Achille Filippi
- 5 anni fa
- Visualizzazioni
Transcript
1 Analisi di un dataset di perizie assicurative Esercitazione Data Mining
2 Ricapitoliamo L obiettivo dell analisi che si intende condurre è l estrapolazione di un modello per il riconoscimento automatico di perizie assicurative che riguardano casi in cui la compagnia può rivalersi sull assicurato
3 Struttura del dataset Il dateset sul quale si intende effettuare l analisi è disponibile sotto forma di file txt suddivisi per cartelle Il dataset è strutturato nelle cartelle yes: rimborsabili no: non rimborsabili Unknown: non ancora classificati
4 Operazioni sul dataset I dati vengono puliti da possibili errori o da informazioni inutili. Cleaning: eliminazione caratteri non alfanumerici (;,:,?,@,#,,, ecc..) Stemming: individuazione della radice morfologica della parola (reserved -> reserv) Stopwords: parole troppo comuni (the,if,or,i,you, ecc..)
5 N-grammi Sono insiemi costituiti da n parole consecutive Vengono estratti dal dataset con lo scopo di ottenere una matrice di occorrenze: Ogni riga è un file di testo Ogni colonna è un ngramma
6 Acquisizione Documenti testuali Database File testo classe txt I am to subro. yes txt Rec subro file yes txt No subro file no txt Receive subro no txt Subro receive. unknown txt Go to place. unknown...
7 Acquisizione I dati sono documenti ripartiti in 3 sottocartelle. In ogni sotto cartella sono presenti una serie di documenti suddivisi in base alla classe assegnatagli o no: yes; no; unknown. unknown non è un etichetta di classe, vuol dire che il documento non è stato classificato. Per ridurre i tempi di acquisizione e di generazione degli N-Gramma, nel caso di approcci tradizionali, è possibile evitare l acquisizione di questi dati semplicemente rimuovendo la cartella unknown dal folder principale!
8 Acquisizione: Txt Documents Acquisition
9 Acquisizione Si seleziona il folder con i dati, e si forza a Nominal il terzo attributo. In output sarà creata una tabella con 3 colonne: 1) Nome del file dal quale il testo è stato acquisito; 2) Colonna contenente i termini presenti nel documento (StringAttribute); 3) Colonna di Classe. N.B. L etichetta della colonna di classe è data dal nome del folder da cui il documento è estratto.
10 Acquisizione
11 I dati
12 Distribuzione sui dati Senza considerare i documenti non etichettati la distribuzione per le classi è la seguente: Valore di classe Numero di Percentuale righe Yes ,62 % No ,38 %
13 Distribuzione sui dati
14 Bilanciamo i dati Facciamo oversampling Inseriamo nel workflow un filter resample Size: 2.0 Bias: 2:1
15 Generazione degli N-gramma Per la generazione degli N-Gramma è possibile utilizzare un particolare filtro del tool Il filtro opera su campi di tipo StringAttribute Questo campo sarà sostituito con un nuovo campo di tipo EventCollection
16 StringToNGramFilter Il filtro ha diversi parametri: L indice della colonna dal quale vogliamo estrarre gli N-grammi; Il linguaggio con sui scritti i testi; La frequenza minima per gli N-Grammi da estrarre; La lunghezza massima per gli N-Grammi da estrarre;
17 StringToNGramFilter La lista di caratteri da usare per la suddivisione in token del testo; La lista delle stop word da utilizzare.
18 EventCollectionAttribute Un EventCollectionAttribute è un particolare attributo che al suo interno contiene insiemi di oggetti. Può avere diversi contesti. I contesti non sono altro che proprietà dell attributo. I contesti disponibili al momento sono: Frequency: indica la frequenza con cui quel N- gramma (event) compare nel documento acquisito; Length: indica la lunghezza dell N-gramma.
19 Statistiche sugli Eventi
20 Estrazione degli N-gramma: StringToNGramm Filter
21 Estrazione degli Events più promettenti Non tutti gli eventi rappresentano informazione utile per l analisi in corso Per eliminare Eventi poco significativi è possibile utilizzare il filtro Remove Events By scoring function Il filtro in esame utilizza un indice di qualità per ordinare gli eventi ed estrarre i primi N più promettenti, ove N è un parametro del filtro.
22 Estrazione degli N-gramma più promettenti
23 Rimozione del campo Document Name Come ultimo passo di preprocessing si andrà eliminare l attributo Document_Name Questo campo si comporta come un ID della tupla quindi ininfluente per l analisi di mining Tale rimozione sarà effettuata tramite il filtro remove Attributes già disponibile nel tool
24 Rimozione campo Document Name
25 Estrazione del modello In questa fase andremo ad estrarre un modello predittivo per i documenti estratti In particolare si vuole ottenere un modello cross validato, per tale ragione invece di utilizzare un simple mining task sarà utilizzato un cross validation mining task
26 Che algoritmo utilizzare? Per l esempio in esame si è deciso di utilizzare l algoritmo Rule Learner Gli algoritmi a regole sono particolarmente accurati in situazioni di sbilanciamento fra le classi
27 Risultati del modello cross validato
28 Matrice di Confusione La matrice di confusione per il modello cross-validato sembra molto promettente Real/Predicted no yes no yes
29 Il test set Si è deciso a questo punto di verificare l accuratezza del modello estratto sui dati di test in nostro possesso Come per il training set i dati sono disponibili sotto forma di documenti
30 Applicazione del modello sul test set
31 Risultati del modello sul test set
32 Matrice di Confusione La matrice di confusione risultante dall applicazione del modello al test set è la seguente Real/Predicted no yes no yes
33 Analisi in Weka L analisi finora condotta e riproducibile anche in Weka trasfomarmando la fonte dati in un formato importabile in Weka A tal fine è possibile adoperare un semplice programma, il cui sorgente è disponibile in rete, TextDirectoryToArff.java ytoarff.java In questo modo sarà generato un file arff
34 Analisi in Weka Se importato in Weka il dataset presenta 3 colonne: 1) Etichetta di classe; 2) Testo contenuto nel documento; 3) Nome del file dal quale il testo è stato acquisito. Questa tabella non è direttamente trattabile, è necessario fare del pre-processing!
35 Filtro StringToWordVector Se si utlizza come tokenizer N-Gramm Tokenizer saranno generati un numero di attributi pari al numero di N-Grammi estratti Il valore della colonna sarà pari ad 1 o 0 in base alla presenza/assenza di quel N-Gramma all interno del documento Utilizzando il filtro è altresì possibile specificare lo stemmer da usare per la fase di estrazione
36 Filtro StringToWordVector cleaning Stemming No stoplist
37 NumericToBinary Filter Gli attributi così estratti si presentano come attributi numerici Per proseguire con l analisi è necessario trasformarli in attributi del tipo corretto ossia binari Per l esecuzione di questa trasformazione utilizziamo il filtro NumericToBinary
38 Estrazione degli attributi più promettenti Anche in questo caso è necessario ridurre il numero di attributi/ngrammi a disposizione, in quanto alcuni poco significativi al fine dell analisi in corso Per operare questa operazione è possibile utilizzare un particolare filtro di Weka, l AttributeSelectionFilter
39 Estrazione degli attributi più promettenti Ha 2 parametri: Indice di qualità da utilizzare per valutare i sotto-insiemi; Metodo di ricerca da utilizzare.
40 Che algoritmo utilizzare? Le operazioni viste finora sono le operazioni necessarie per poter iniziare l analisi Da nostre sperimentazioni risultano particolarmente efficaci modelli probabilistici Sta a voi scegliere il modello che riteniate maggiormente indicato per il caso in questione
41 Meccanismo di sottomissione dei modelli Il meccanismo di sottomissione dei modelli è unico ed indipendente dal tool che lo studente deciderà di usare: Verrà consegnato un dataset NON ETICHETTATO (test set); Lo studente applicherà il modello estratto sul training al test set generando una colonna con la predizione; Il test set così etichettato dovrà essere caricato sul sito del torneo.
42 Concetti/NGrammi Tra il materiale disponibile è possibile scaricare un file xls di associazione tra gli N-Grammi e dei possibili concetti individuati di esperti di dominio In particolare la presenza in un dato documento di un certo n-gramma indica che quel concetto è presente nel documento Ogni concetto può essere associato ad uno o più N- Grammi L utilizzo dei concetti potrebbe permettere di migliorare l accuratezza predittiva
43 Modelli avanzati E possibile aumentare la qualità del modello? Possiamo in qualche modo sfruttare la conoscenza fornita dalle tuple unknown? Si! Es. Self-training
44 Self training 1. Sfruttare le tuple unknown per migliorare la qualità del nostro modello 2. Da cosa partiamo? modello addestrato sul training set 3. Classifichiamo con il modello generato le tuple unknown 4. Scegliamo una politica di selezione delle nuove tuple classificate e quindi le uniamo a quelle già presenti nel train 5. Creiamo un nuovo modello in base al nuovo training set così generato 6. Ripetiamo questi passi fino al punto fisso Self training
45 Self training: algoritmo generale Input: L è il training set dei dati etichettati, U è l istanza dei dati non etichettati, C è il classificatore istruito, t è il numero delle iterazioni, Θ è il numero delle istanze non etichettate selezionate nella prossima iterazione, M è la metrica di selezione, S(Ut,Θ,C, M) è la funzione di selezione, e maxiteration è il numero massimo di iterazioni Inizialmente: t=0, Lt=L, Ut =U, dove Lt e Ut rappresentano le istanze etichettate e non etichettate alla iterazione t. Passi dell algoritmo: istruisci C su Lt; St= S(Ut,Θ,C, M), dove St è l istanza dei dati non etichettati selezionati al passo t Ut+1=Ut-St ; Lt+1=Lt+St ; Finché Ut è vuota, oppure abbiamo raggiunto il numero massimo di iterazioni. Politica di selezione
46 Self training: come selezioniamo le tuple unknown Non tutte le istanze Unknown sono utili! Pericolo rumore Un approccio possibile: ad ogni passo vogliamo le tuple più vicine al train set Es. Concetto di vicinanza: % di matching del numero di ngrammi in un documento
47 Self training in Rialto (1/3)
48 Self training in Rialto (2/3)
49 Self training in Rialto (3/3)
50 Risultati
Weka Project. Weka. Weka Project. Formato.arff. Modalità di utilizzo di Weka. Formato.arff
Weka Project Weka Machine Learning Algorithms in Java Waikato Environment for Knowledge Analysis Algoritmi di Data Mining e Machine Learning realizzati in Java Preprocessing Classificazione Clustering
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio n. 6 L obiettivo dell esercitazione è il seguente: - Applicare algoritmi di data mining per la classificazione al fine di analizzare dati
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 6 (Prima parte) Dati strutturati Il dataset denominato UsersSmall (UsersSmall.xls) è disponibile sul sito del corso (http://dbdmg.polito.it/wordpress/teaching/business-intelligence/).
DettagliClustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering
Clustering con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
DettagliClustering con Weka Testo degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Clustering con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
DettagliCorso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN
Corso di Riconoscimento di Forme Sommario: Matrice di confusione Cross validation Prestazioni nel KNN Matrice di confusione Il semplice calcolo dell'errore di classificazione non permette di capire il
DettagliIngegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione
Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione Dipartimento di Elettronica e Informazione Apprendimento Supervisionato I dati considerati considerati degli esempi di un fenomeno
DettagliClassificazione con Weka Testi degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Classificazione con Weka Testi degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Pre processing bank data Il date set bank-data.csv 600 istanze Nessun dato missing Attributo
DettagliClustering con Weka. L interfaccia. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna. Algoritmo utilizzato per il clustering
Clustering con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna L interfaccia Algoritmo utilizzato per il clustering E possibile escludere un sottoinsieme
DettagliSistemi per la gestione delle basi di dati
Sistemi per la gestione delle basi di dati Esercitazione #5 Data mining Obiettivo Applicare algoritmi di data mining per la classificazione al fine di analizzare dati reali mediante l utilizzo dell applicazione
DettagliIl programma è distribuito tramite il file compresso TRASFO.zip contenente i file di programma strutturati in 4 cartelle:
TRASFO V 1.0 Stefano Caldera stefano@geomatica.como.polimi.it M. Grazia Visconti grazia@geomatica.como.polimi.it Il programma è distribuito tramite il file compresso TRASFO.zip contenente i file di programma
DettagliTelerilevamento. Esercitazione 5. Classificazione non supervisionata. Apriamo l immagine multi spettrale relativa alla zona di Feltre che si trova in:
Telerilevamento Esercitazione 5 Classificazione non supervisionata Lo scopo di questa esercitazione è quella di effettuare una classificazione non supervisionata di un immagine SPOT5 acquisita sull area
DettagliRichiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive
Sistemi Intelligenti 1 Richiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive Libro di riferimento: T. Mitchell Sistemi Intelligenti 2 Ingredienti Fondamentali Apprendimento Automatico
DettagliL6 Visual Tracking. Corso di Visione Artificiale Ing. Matteo Panciroli ANNO ACCADEMICO DIPARTIMENTO DI INGEGNERIA DELL INFORMAZIONE
DIPARTIMENTO DI INGEGNERIA DELL INFORMAZIONE L6 Visual Tracking Corso di Visione Artificiale Ing. ANNO ACCADEMICO 2011-2012 Assegnamento Progettare e sviluppare un applicazione che permetta l inseguimento
DettagliAlberi di Decisione (2)
Alberi di Decisione (2) Corso di AA, anno 2017/18, Padova Fabio Aiolli 25 Ottobre 2017 Fabio Aiolli Alberi di Decisione (2) 25 Ottobre 2017 1 / 18 Apprendimento di alberi di decisione: Bias induttivo Come
DettagliPiccolo vademecum sull uso efficiente di Excel
Piccolo vademecum sull uso efficiente di Excel 1 ORGANIZZARE I FILE 1.1 DARE UN NOME PER OGNI VERSIONE CREATA CHE IDENTIFICHI UNIVOCAMENTE IL CONTENUTO, AGGIUNGERE DATA E ORA SE NECESSARIO Esempio: 2015_ANALISI
DettagliApplicazioni della SVD
Applicazioni della SVD Gianna M. Del Corso Dipartimento di Informatica, Università di Pisa, Italy 28 Marzo 2014 1 Le applicazioni presentate 2 Text Mining 3 Algoritmo di riconoscimento di volti Le Applicazioni
DettagliClassificazione Mario Guarracino Data Mining a.a. 2010/2011
Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo
Dettagliexoml xml Fattura Elettronica ver
exoml xml Fattura Elettronica ver. 1.2.1 1 LICENZA TUTTO INCLUSO SUBITO OPERATIVI Introduzione 2 Il prodotto exoml nasce dalla necessità dei nostri clienti di rispondere alla normativa sulla Fatturazione
DettagliAlberi di Decisione (2)
Alberi di Decisione (2) Corso di AA, anno 2018/19, Padova Fabio Aiolli 05 Novembre 2018 Fabio Aiolli Alberi di Decisione (2) 05 Novembre 2018 1 / 19 Apprendimento di alberi di decisione: Bias induttivo
DettagliGUIDA ALL INSERIMENTO DI TESTI E DOCUMENTI NEL NUOVO SITO DEL COMUNE DI CERVIA Versione 1.0
GUIDA ALL INSERIMENTO DI TESTI E DOCUMENTI NEL NUOVO SITO DEL COMUNE DI CERVIA Versione 1.0 Indice - ACCESSO AL BACKEND DEL SITO WEB e LOGIN - INSERIMENTO FILE IN GESTIONE FILE - INSERIMENTO NEWS Realizzato
DettagliSUPPORT VECTOR MACHINES. a practical guide
SUPPORT VECTOR MACHINES a practical guide 1 SUPPORT VECTOR MACHINES Consideriamo un problema di classificazione binaria, a partire da uno spazio di input X R n e uno spazio di output Y = { 1, 1} Training
DettagliEsercizio: apprendimento di congiunzioni di letterali
input: insieme di apprendimento istemi di Elaborazione dell Informazione 18 Esercizio: apprendimento di congiunzioni di letterali Algoritmo Find-S /* trova l ipotesi più specifica consistente con l insieme
DettagliClassificazione Validazione Decision Tree & kmeans. Renato Mainetti
Classificazione Validazione Decision Tree & kmeans Renato Mainetti Apprendimento Supervisionato e Non Supervisionato: forniamo input e output Non supervisionato: forniamo solo input 2 Apprendimento Supervisionato
DettagliCome ordinare facilmente i dati in un foglio di calcolo Excel definendo chiavi e parametri.
Come ordinare facilmente i dati in un foglio di calcolo Excel definendo chiavi e parametri. Visionare i dati senza alcun criterio, richiede molta concentrazione. Ecco allora che ordinare gli elenchi può
DettagliIl proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei suoi 5 negozi, riportato nella seguente tabella
Primo esempio (es. 2.1) Il proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei suoi 5 negozi, riportato nella seguente tabella Negozio Reddito Negozio 1 21.500,00 Negozio 2
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 4 L obiettivo dell esercitazione è: - utilizzare il software Rapid Miner per preparare i dati relativi ad una campagna promozionale
DettagliGUIDA ALLE TABELLE PIVOT *
GUIDA ALLE TABELLE PIVOT * Partendo da una matrice dei dati è possibile ottenere tabelle di dati utilizzando le Tabelle Pivot di Excel. Di seguito ne verranno descritti i singoli passi utilizzando i dati
DettagliNaïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
DettagliApprendimento Automatico Esercitazione 15/04/2009 Prof. Roberto Navigli
Apprendimento Automatico Esercitazione 15/04/2009 Prof. Roberto Navigli Esercizio 1 Si vuole apprendere un classificatore Naive Bayes per le interrogazioni di un motore di ricerca. Ogni interrogazione
DettagliAnalisi dei Dati. Lezione 9 - Preprocessing dei dati
Analisi dei Dati Lezione 9 - Preprocessing dei dati Motivazioni I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi:
DettagliPSICOMETRIA. Esercitazione n.1. C.d.L. Comunicazione e Psicologia a.a. 2012/13
PSICOMETRIA Esercitazione n.1 C.d.L. Comunicazione e Psicologia a.a. 2012/13 ESERCITAZIONE 1: INDICE 1. Informazioni di carattere generale sulle esercitazioni 2. Il foglio di calcolo (Excel) 3. Avviare
DettagliRischio statistico e sua analisi
F94 Metodi statistici per l apprendimento Rischio statistico e sua analisi Docente: Nicolò Cesa-Bianchi versione 7 aprile 018 Per analizzare un algoritmo di apprendimento dobbiamo costruire un modello
DettagliOntoMaker. Creazione dell ontologia
OntoMaker OntoMaker è stato progettato per fornire uno strumento di facile utilizzo anche da parte di utenti non esperti nel campo informatico. Per la realizzazione e la manutenzione costante delle ontologie
DettagliCorso di Microsoft. Access. Marco P. Locatelli.
Corso di Microsoft Access Marco P. Locatelli locatelli@disco.unimib.it Esempio Lo schema Entità Relazione rappresenta parte di un modello relativo ad una palestra, con informazioni sugli istruttori, sulle
DettagliData mining: classificazione
DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group
DettagliIMPORTAZIONE PRESENZE DA RILEVATORI ELETTRONICI. tramite file tracciato
IMPORTAZIONE PRESENZE DA RILEVATORI ELETTRONICI tramite file tracciato 1. Associazione del numero di badge ai nominativi Il programma PowerDIP consente di importare le presenze acquisiste con i rilevatori
DettagliLinguistica computazionale: task sul linguaggio naturale"
Linguistica computazionale: task sul linguaggio naturale" Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale NLP e subtask Ci focalizziamo su alcuni subtask rappresentativi:" Information
DettagliCome importare in Excel le liste
Sistema Bibliotecario Area di Dalmine Come importare in Excel le liste di @UOL.IT Ottobre 2005 by marco@libnet.it Introduzione @UOL.IT offre la possibilità di ottenere gran parte delle liste che produce
DettagliCompilazione rapporto di Audit in remoto
Compilazione rapporto di Audit in remoto Manuale utente CSI S.p.A. V.le Lombardia 20-20021 Bollate (MI) Tel. 02.383301 Fax 02.3503940 E-mail: info@csi-spa.com Rev. 2.1 16/11/09 Indice Indice... 2 Manuale
DettagliWEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua
WEKA BIOINFORMATICS AND BIG DATA ANALYTICS Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua Indice Cosa è weka Tecnologie Hands On Weka Weka Explorer KnowledgeFlow /Simple CLI Caricare il dataset Il
DettagliAgent and Object Technology Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Fondamenti di Informatica.
Agent and Object Technology Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma Fondamenti di Informatica Excel Michele Tomaiuolo Excel Excel è sicuramente il programma più
DettagliMachine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
DettagliFogli di Calcolo. Corso di Informatica. Fogli di Calcolo. Fogli di Calcolo. Corso di Laurea in Conservazione e Restauro dei Beni Culturali
Corso di Laurea in Conservazione e Restauro dei Beni Culturali Corso di Informatica Gianluca Torta Dipartimento di Informatica Tel: 011 670 6782 Mail: torta@di.unito.it Fogli di Calcolo il termine spreadsheet
DettagliPatente Europea del Computer ECDL - MODULO 3
Patente Europea del Computer ECDL - MODULO 3 Lezione 3 di 3 Aiuto Controllo ortografico Opzioni di Word Stampa unione Per richiamare la Guida in linea di Word, possiamo utilizzare il pulsante azzurro a
DettagliPRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE
PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE Gennaro Cordasco e Rosario De Chiara {cordasco,dechiara}@dia.unisa.it Dipartimento di Informatica ed Applicazioni R.M. Capocelli Laboratorio
DettagliMicrosoft Access. Nozioni di base. Contatti: Dott.ssa Silvia Bonfanti
Microsoft Access Nozioni di base Contatti: Dott.ssa Silvia Bonfanti silvia.bonfanti@unibg.it Introduzione In questa lezione vedremo lo strumento Microsoft Access ed impareremo come realizzare con esso
DettagliTipo Livello e Corso di Studio Anno di corso Semestre e modulo Numero di crediti 3 Propedeuticità Docente Cognome Nome
Insegnamento Informatica Tipo Livello e Corso di Studio Anno di corso 2013-2014 Semestre e modulo Numero di crediti 3 Propedeuticità Docente Cognome Nome Vinci Mauro Dipartimento Stanza Telefono Email
DettagliPrimi passi con JFlex
Primi passi con JFlex Luca Chiodini Abstract Ci proponiamo di muovere i primi passi nel mondo dell analisi lessicale e della produzione automatica di un analizzatore lessicale. Verrà mostrato l uso di
DettagliCOMUNICAZIONI AMMINISTRATIVE Guida alla redazione dei comunicati amministrativi
COMUNICAZIONI AMMINISTRATIVE Guida alla redazione dei comunicati amministrativi Scrivere un comunicato Scrivere un comunicato (per utenti autorizzati) Se l utente è abilitato come redattore, può scrivere
DettagliInformatica per la Comunicazione/ Verdicchio/ 22/07/2015/ Domande / VERSIONE 1 Matricola Cognome Nome
Informatica per la Comunicazione/ Verdicchio/ 22/07/2015/ Domande / VERSIONE 1 Matricola Cognome Nome 1) Quale delle seguenti persone ha sicuramente usato un compasso nella sua professione? a) David Cope
DettagliMS Access: Tutorial Tabelle, Relazioni
Università Magna Graecia di Catanzaro Informatica MS Access: Tutorial Tabelle, Relazioni Docente : Alfredo Cuzzocrea e-mail : cuzzocrea@si.deis.unical.it Tel. : 0984 831730 Microsoft Access Tutorial Tabelle,
DettagliLecture 8. Combinare Classificatori
Lecture 8 Combinare Classificatori Giovedì, 18 novembre 2004 Francesco Folino Combinare classificatori Problema Dato Training set D di dati in X Un insieme di algoritmi di learning Una trasformazione s:
DettagliClassificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione
M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione
DettagliScritto di Algoritmi e s.d. (1o anno) 5 Luglio 2005
Scritto di Algoritmi e s.d. (1o anno) Luglio 200 Esercizio 1 (punti in prima approssimazione) Consideriamo il seguente codice C: #include #include typedef struct cella * List; struct
DettagliData Import pulizia dati e Probabilità. Renato Mainetti
Data Import pulizia dati e Probabilità Renato Mainetti Importare dati in Matlab: Abbiamo visto come sia possibile generare array e matrici di dati. Per ora abbiamo sempre inserito i dati manualmente o
DettagliMulti classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Multi classificatori Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Combinazione di classificatori Idea: costruire più classificatori di base e predire la classe di appartenza di
DettagliPre-elaborazione dei dati (Data pre-processing)
Pre-elaborazione dei dati (Data pre-processing) I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi: contengono
DettagliValutazione delle Prestazioni di un Classificatore. Performance Evaluation
Valutazione delle Prestazioni di un Classificatore Performance Evaluation Valutazione delle Prestazioni Una volta appreso un classificatore è di fondamentale importanza valutarne le prestazioni La valutazione
Dettagli1. Unico Uniemens per un azienda con una sola sede (unica matricola INPS)
CASI PRATICI SUPPORTATI Il file Uniemens viene importato a condizione che il codice fiscale presente nel tracciato corrisponda alla partita IVA o al codice fiscale indicati nell anagrafica dell azienda.
DettagliMisura della performance di ciascun modello: tasso di errore sul test set
Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test
DettagliIDENTIFICAZIONE DI SISTEMI DINAMICI
IDENTIFICAZIONE DI SISTEMI DINAMICI MARTINA FAVARO Dipartimento di Ingegneria dell Informazione, Università di Padova Lezione n.3 RAPPRESENTAZIONE E TRATTAMENTO DEI DATI SPERIMENTALI Costruiamo un oggetto
DettagliACCESS. Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati.
ACCESS Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati. Database Relazionale: tipo di database attualmente più diffuso grazie alla
DettagliINTRODUZIONE AI DBMS. Inoltre i fogli elettronici. Mentre sono poco adatti per operazioni di. Prof. Alberto Postiglione
Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : Introduzione alla Gestione dei Dati Prof. Alberto Postiglione
DettagliINTRODUZIONE AI DBMS
Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : Introduzione alla Gestione dei Dati Prof. Alberto Postiglione
DettagliLecture 10. Combinare Classificatori. Metaclassificazione
Lecture 10 Combinare Classificatori Combinare classificatori (metodi ensemble) Problema Dato Training set D di dati in X Un insieme di algoritmi di learning Una trasformazione s: X X (sampling, transformazione,
DettagliLOTTI INTERATTIVI. Quello sopra riportato è un esempio di un file CSV.
LOTTI INTERATTIVI A seguito dell incontro del 05/07/2016, che ha visto coinvolti diversi clienti provenienti da diverse realtà aziendali, è emerso un certo interesse in merito alla nuova funzionalità di
DettagliSiGeM. Manuale utente Modulo Monitoraggio V. 1.0
SiGeM Manuale utente Modulo V. 1.0 Maggio 2018 Indice 1. Modulo... 2 1.1 Sezione Scadenze... 2 1.2 Sezione... 4 1.3 Piano di Test...11 1 1. Modulo Il modulo monitoraggio consente la gestione del flusso
DettagliWEKA Data Mining System
Alma Mater Studiorum Università di Bologna WEKA Data Mining System Sistemi Informativi a supporto delle Decisioni LS - Prof. Marco Patella Presentazione di: Fabio Bertozzi, Giacomo Carli 1 WEKA: the bird
DettagliSQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project
Database and data mining group, SQL Server 2005 Integration Services SQL Server 2005: ETL - 1 Database and data mining group, Integration Services Project Permette di gestire tutti i processi di ETL Basato
DettagliMachine Learning Come dare senso ai dati laboratorio
Martedì 11/Mercoledì 12 Dicembre 2018 Machine Learning Come dare senso ai dati laboratorio Mirko Lai milai@unito.it Schemino Machine learning Testi da classificare (test set) Modello Output Task Testi
DettagliJQuery. <script src=" </script> <script src= js/main.
JQuery Esercizio 1 Implementare un applicazione Web lato client che visualizzi il risultato delle API comuni.php e popolazione.php sottoforma di tabella. In particolare, nel caso della comuni.php prevedere
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 10 Combinazione di classificatori Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliProgettazione di un Sistema di Machine Learning
Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale a.a. 2013-14 Vito Claudio Ostuni Data analysis and pre-processing Dataset iniziale Feature
DettagliStampa Guidata Serie in 19 passi. Creazione di una serie di documenti testualicon la tecnica Stampa Guidata Serie OpenOffice 2.3.0
Stampa Guidata Serie in 19 passi Creazione di una serie di documenti testualicon la tecnica Stampa Guidata Serie OpenOffice 2.3.0 Passo 1 Creazione del foglio di calcolo che servirà come "Sorgente dati".
DettagliMon Ami 3000 Distinta base Produzione articoli con distinta base e calcolo dei fabbisogni
Mon Ami 3000 Distinta base Produzione articoli con distinta base e calcolo dei fabbisogni Introduzione Mon Ami 3000 supporta una funzionalità di produzione automatica che permette di definire articoli
DettagliAprire il programma Microsoft Office Excel 2003 GUIDA UTILIZZO EXCEL. Aprire il file Palestra.xls
Aprire il programma Microsoft Office Excel 2003 GUIDA UTILIZZO EXCEL Aprire il file Palestra.xls 1 CALCOLARE LA SOMMA DELLE QUOTE VERSATE Per calcolare la somma delle quote versate posizioniamo il cursore
DettagliAbilità Informatiche
Abilità Informatiche 2 Indice Excel: cartelle di lavoro, fogli e celle Aspetto dei dati Formule Riferimenti Funzioni Filtri Grafici 3 Cartelle di lavoro I file creati con Excel sono denominati cartelle
DettagliData Science e Tecnologie per le Basi di Dati
Data Science e Tecnologie per le Basi di Dati Esercitazione #3 Data mining BOZZA DI SOLUZIONE Domanda 1 (a) Come mostrato in Figura 1, l attributo più selettivo risulta essere Capital Gain, perché rappresenta
DettagliPROGRAMMAZIONE DI TECNOLOGIE INFORMATICHE PER LA CLASSE: I A CHI ANNO SCOLASTICO 2014/2015
PROGRAMMAZIONE DI TECNOLOGIE INFORMATICHE PER LA CLASSE: I A CHI DOCENTE : Proff. ANTONIO MUSU GIORGIO RESCALDANI ANNO SCOLASTICO 2014/2015 La seguente programmazione è stata elaborata per la classe 1
Dettagli12.1 IL PROBLEMA DEL CAMMINO MINIMO: L ALGORITMO DI DIJKSTRA
Problemi strutturati. IL PROBLEMA DEL CAMMINO MINIMO: L ALGORITMO DI DIJKSTRA Esercizio.. Dato il grafo di Figura.., trovare il peso dei cammini minimi dal nodo a tutti gli altri nodi del grafo (il peso
DettagliManuale Export fatture verso altre contabilità
Manuale Export fatture verso altre contabilità Sommario Gestione dati anagrafici contabili Utenti Gestionale CIA... 2 Gestione DGAE... 5 Estrattore ditte... 5 Importazione file zip in Genya... 10 Gestione
DettagliDistribuzioni campionarie. Antonello Maruotti
Distribuzioni campionarie Antonello Maruotti Outline 1 Introduzione 2 Concetti base Si riprendano le considerazioni fatte nella parte di statistica descrittiva. Si vuole studiare una popolazione con riferimento
DettagliElementi di Apprendimento Automatico
Elementi di Apprendimento Automatico Riferimenti Bibliografici: Tom Mitchell, Machine Learning, McGraw Hill, 1998 1 Quando è Necessario l Apprendimento (Automatico)? Quando il sistema deve... adattarsi
DettagliManuale Utente Webbiobank
Manuale Utente Webbiobank 1. Autenticazione... 2 2. Scelta Unità Operativa... 3 3. Lista pazienti... 4 3.1. Sincronizza server... 4 3.2. Crea nuovo paziente... 4 3.3. Gestione template anagrafica... 5
DettagliDefinire una chiave primaria. Microsoft Access. Definire una chiave primaria. Definire una chiave primaria. Definire una chiave primaria
Microsoft Access Chiavi, struttura delle tabelle 1. Portare la tabella in Visualizzazione struttura Selezionare la tabella sulla quale si desidera intervenire nella finestra del database Poi: Fare clic
DettagliDESCRIZIONE DELL APPROCCIO SIMULATIVO E UTILIZZO DEI SIMULATORI. Analisi delle prestazioni di un sistema
DESCRIZIONE DELL APPROCCIO SIMULATIVO E UTILIZZO DEI SIMULATORI Ing. Michele Savi DEIS Università di Bologna michele.savi@unibo.it Analisi delle prestazioni di un sistema La valutazione delle prestazioni
DettagliManuale per la valutazione del rischio chimico in Alfagest Web
4. Personal 4.0.. Dienststelle für Arbeitsschutz 4. Personale 4.0.. Servizio di prevenzione e protezione Manuale per la valutazione del rischio chimico in Alfagest Web Indirizzo intranet: http://alfagest.prov.bz/gen_login.aspx
DettagliElementi di Informatica. Introduzione. Cos è l informatica. Corso di Laurea in Ingegneria Biomedica aa 2003/2004. Ing.
Elementi di Informatica Corso di Laurea in Ingegneria Biomedica aa 2003/2004 Ing. Antonio Coronato 1 Introduzione 2 Cos è l informatica Scienza della rappresentazione e della elaborazione (trasformazione)
DettagliConfronto tra due algoritmi di machine learning, Random Forest e Support Vector Machine, applicati al telerilevamento da drone
Confronto tra due algoritmi di machine learning, Random Forest e Support Vector Machine, applicati al telerilevamento da drone AIT - ENEA 11 WORKSHOP TEMATICO Osservazione della Terra: Georisorse, Risorse
DettagliCorso di Access Modulo L2 A (Access) I tipi di query
Corso di Access Modulo L2 A (Access) 2.3.2 I tipi di query 1 Prerequisiti Concetto di database relazionale Utilizzo elementare del computer Concetti fondamentali di basi di dati Interrogazione di un DB
DettagliGestione e Analisi dei Dati
Gestione e Analisi dei Dati Lezione 7 Introduzione all analisi dei dati Popolazioni, campioni, unità statistica, variabili Studio e rappresentazione della frequenza Obiettivi del modulo Scopo del corso
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
Dettagli1 PREMESSA consultazione dei dati meteoclimatici
1 PREMESSA La consultazione dei dati meteoclimatici consente all utente di: Selezionare la località di interesse mediante una serie di criteri diversi. Visualizzare le stazioni selezionate in modalità
DettagliADDESTRAMENTO DI UNA RETE NEURALE ED EVENTUALI CONSIDERAZIONI PRESTAZIONALI. (a cura di Buttolo Marco).
ADDESTRAMENTO DI UNA RETE NEURALE ED EVENTUALI CONSIDERAZIONI PRESTAZIONALI. (a cura di Buttolo Marco). Lalgoritmo più utilizzato per addestrare una rete neurale è lalgoritmo di bac-propagation. In sostanza
DettagliMetodi di Analisi dei Dati Sperimentali. AA 2009/2010 Pier Luca Maffettone. Elementi di Matlab
Metodi di Analisi dei Dati Sperimentali AA /2010 Pier Luca Maffettone Elementi di Matlab Sommario Introduzione Variabili Manipolazione di elementi Creazione di vettori/matrici Operazioni elementari Funzioni
DettagliI Componenti del processo decisionale 7
Indice Introduzione 1 I Componenti del processo decisionale 7 1 Business intelligence 9 1.1 Decisioni efficaci e tempestive........ 9 1.2 Dati, informazioni e conoscenza....... 12 1.3 Ruolo dei modelli
DettagliTraining Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati
" #!! Suddivisione tipica ( 3 5 6 & ' ( ) * 3 5 6 = > ; < @ D Sistemi di Elaborazione dell Informazione Sistemi di Elaborazione dell Informazione Principali Paradigmi di Apprendimento Richiamo Consideriamo
DettagliLinguistica Computazionale
Linguistica Computazionale Esercitazione: indici statistici del testo e misure di associazione Calcolare la lunghezza di un corpus C : Calcolare la lunghezza di un corpus C : output sys.argv[0] sys.argv[1]
Dettagli