Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino
|
|
- Leonardo Adamo
- 8 anni fa
- Visualizzazioni
Transcript
1 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati con il me della classe di appartenenza (ting set) L obiettivo della classificazione è trovare un profilo descrittivo per ogni classe, che permetta di assegnare oggetti di classe igta alla classe appropriata DATA MIIG: CLASSIFICAZIOE - 1 Database and data mining group, Database and data mining group, Definizione generale DataBase and Data Mining Group of Ting set La classificazione è un processo in due passi Creazione del modello Costruzione del modello a partire dal ting set, si definisce un modello la qualità del modello è validata mediante una porzione del ting set n utilizzata per la costruzione del modello (test set) Uso del modello mediante il modello si assegna l etichetta di classe a nuovi dati n etichettati Il modello può essere definito mediante Età Tipo auto Classe rischio alberi di decisione reti neurali probabilità regole di associazione support vector machines (SVM) DataBase and Data Mining Group of DATA MIIG: CLASSIFICAZIOE - 2 THE Rischio = IF Età 26 THE Rischio = THE Rischio = DATA MIIG: CLASSIFICAZIOE - 3 Database and data mining group, Database and data mining group, DATA MIIG: CLASSIFICAZIOE - 4 DataBase and Data Mining Group of DataBase and Data Mining Group of Test set Validazione del modello Età Tipo auto berlina Classe rischio Età Tipo auto Classe rischio 35??? THE Rischio = IF Età 26 THE Rischio = THE Rischio = DATA MIIG: CLASSIFICAZIOE - 5 uovo dato THE Rischio = IF Età 26 THE Rischio = THE Rischio = ag. 1 DATA MIIG: CLASSIFICAZIOE - 6
2 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of reparazione dei dati Valutazione delle tecniche di classificazione Accuratezza ulizia dei dati qualità della predizione riduzione del rumore gestione dei dati mancanti Efficienza tempo di costruzione del modello tempo di classificazione Trasformazione dei dati Scalabilità rmalizzazione dell intervallo di variazione rispetto alla dimensione del ting set rispetto al numero di attributi necessaria per alcuni algoritmi (reti neurali,...) Feature selection Robustezza eliminazione di gestione di rumore e dati mancanti Interpretabilità attributi irrilevanti (esempio: codice fiscale) attributi ridondanti comprensibilità del modello compattezza del modello DATA MIIG: CLASSIFICAZIOE - 7 Database and data mining group, Database and data mining group, DataBase and Data Mining Group of age Struttura ad albero in cui i di interni deta un test su un attributo ogni ramo rappresenta un possibile risultato del test unti di forza modello interpretabile buona accuratezza buona efficienza algoritmi recenti con buona scalabilità unti deboli può essere sensibile a dati mancanti income student credit_rating fair excellent fair fair fair excellent excellent fair fair fair excellent excellent fair excellent DATA MIIG: CLASSIFICAZIOE - 10 Database and data mining group, student? DataBase and Data Mining Group of Algoritmo base costruzione dell albero all inizio tutti i dati di ting so alla radice ripetizione iterativa dei passi selezione dell attributo migliore di partizionamento partizionamento del ting set in base all attributo credit rating? excellent fair fi a quando il do contiene solo esempi della stessa classe n ci so più attributi per il partizionamento (classe di maggioranza) n ci so più dati di ting pruning dell albero riduzione del numero di rami serve per evitare l overfitting DATA MIIG: CLASSIFICAZIOE - 11 DataBase and Data Mining Group of age? DataBase and Data Mining Group of Database and data mining group, buys_computer DATA MIIG: CLASSIFICAZIOE - 9 DATA MIIG: CLASSIFICAZIOE - 8 ag. 2 DATA MIIG: CLASSIFICAZIOE - 12
3 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, Selezione dell attributo di partizionamento (split) DataBase and Data Mining Group of DataBase and Data Mining Group of Regole di classificazione Ogni percorso nell albero rappresenta una regola if... then Information gain adatto per attributi categorici basato sul concetto di entropia corpo dato dalla congiunzione dei predicati derivati dai di interni testa data dall etichetta di classe del do foglia quantità d informazione necessaria per classificare il ting set prima e dopo aver applicato lo split sull attributo considerato Gini index IF age = AD student = THE buys_computer = IF age = AD student = THE buys_computer = IF age = THE buys_computer = IF age = AD credit_rating = excellent THE buys_computer = IF age = AD credit_rating = fair THE buys_computer = adatto per attributi continui valuta l insieme di tutti i possibili punti di split per ogni attributo necessarie tecniche per individuare i punti di split migliori DATA MIIG: CLASSIFICAZIOE - 13 DATA MIIG: CLASSIFICAZIOE - 14 Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of associativa baiana Modello definito mediante regole di associazione Basata sul calcolo delle probabilità unti di forza testa della regola è l etichetta di classe le regole so selezionate mediante soglie di supporto, confidenza, correlazione database coverage: procedimento di copertura dei dati di ting mediante le regole estratte, ordinate second opportuni criteri unti di forza modello interpretabile accuratezza maggiore degli alberi di decisione considera contemporaneamente la correlazione di più attributi unti di debolezza classificazione efficiente insensibile a dati mancanti buona scalabilità nella dimensione del ting set la generazione del modello di riferimento è computazionalmente intrattabile unti di debolezza ipotesi semplificativa: ipotesi naïve generazione delle regole può essere lenta scarsa scalabilità nel numero degli attributi modello di riferimento, se calcolato in modo completo modello facilmente aggiornabile in modo incrementale classificazione efficiente modello con interpretabilità discreta ipotesi naïve riduce significativamente l accuratezza DATA MIIG: CLASSIFICAZIOE - 15 DATA MIIG: CLASSIFICAZIOE - 16 Database and data mining group, Database and data mining group, baiana DataBase and Data Mining Group of baiana Applicazione del teorema di Ba Outlook (C X) = probabilità che X=<x1,,xk> appartenga alla classe C Assegnazione a X della classe per cui (C X) è massima Teorema di Ba (C X) = (X C) (C) / (X) (X) costante per tutte le C (C) probabilità a priori di C (X C) n può essere computata in modo esaustivo Ipotesi naïve indipendenza statistica degli attributi x1,,xk n è sempre verificata la qualità del modello può essere affetta Reti baiane permetto di specificare un sottinsieme di dipendenze tra attributi DataBase and Data Mining Group of Temperature Humidity Windy Class rmal rmal rmal rmal rmal rmal rmal DATA MIIG: CLASSIFICAZIOE - 17 ag. 3 DATA MIIG: CLASSIFICAZIOE - 18
4 DataBase and Data Mining Group of Database and data mining group, outlook Database and data mining group, baiana DataBase and Data Mining Group of (p) = 9/14 ( p) = 2/9 ( p) = 3/9 (n) = 5/14 neuroni come unità di elaborazione sinapsi come rete di collegamento ( n) = 2/5 temperature ( p) = 2/9 ( n) = 2/5 ( p) = 4/9 ( n) = 2/5 ( p) = 3/9 ( n) = 1/5 humidity ( p) = 3/9 ( n) = 4/5 (rmal p) = 6/9 (rmal n) = 2/5 windy ( p) = 3/9 ( n) = 3/5 ( p) = 6/9 ( n) = 2/5 unti di forza Dato da classificare X = <,,, > (X p) (p) = ( p) ( p) ( p) ( p) (p) = 3/9 2/9 3/9 6/9 9/14 = accuratezza elevata robusto in presenza di outliers e rumore efficienza di classificazione output discreto o continuo unti di debolezza (X n) (n) = ( n) ( n) ( n) ( n) (n) = 2/5 2/5 4/5 2/5 5/14 = processo di apprendimento lento modello n interpretabile difficile introdurre coscenza del dominio applicativo Tratto da Han, Kamber, Data mining; Concepts and Techniques, Morgan Kaufmann 2002 DATA MIIG: CLASSIFICAZIOE - 19 DataBase and Data Mining Group of Ispirate alla struttura del cervello uma ( n) = 3/5 ( p) = 4/9 ( n) = 0 Reti neurali DATA MIIG: CLASSIFICAZIOE - 20 Database and data mining group, Database and data mining group, Struttura della rete neurale DataBase and Data Mining Group of DataBase and Data Mining Group of Struttura di un neurone Vettore di output - µk odi di output x0 w0 x1 w1 xn wn odi hidden peso wij Vettore Vettore di input x pesi w odi di input f output y Somma pesata Funzione di attivazione Vettore di input: xi DATA MIIG: CLASSIFICAZIOE - 21 DATA MIIG: CLASSIFICAZIOE - 22 Database and data mining group, Database and data mining group, Misure di qualità DataBase and Data Mining Group of Costruzione della rete neurale Obiettivo DataBase and Data Mining Group of Misura di qualità per il modello di classificazione definire un insieme ottimale di pesi e offset Accuratezza = num. dati classifica ti correttame nte num. dati classifica ti Algoritmo di base Assegnazione iniziale di valori casuali a pesi e offset Elaborazione delle istanze del ting set una per volta n adatta per distribuzioni sbilanciate delle etichette di classe importanza diversa delle classi er ogni neurone, calcolo del risultato dell applicazione di pesi, offset e funzione di attivazione per l istanza ropagazione in avanti fi al calcolo dell output Confronto con l output atteso e calcolo dell errore ropagazione all indietro dell errore (backpropagation), ricalcolando pesi e offset Misure di qualità per una singola classe C Richiamo= num. dati classificati correttamente in C num. dati appartenenti a C Il processo termina quando recisione = num. dati classificati correttamente in C num. dati assegnati a C % di accuratezza sopra soglia data % di errore sotto soglia data numero massimo di epoche raggiunto DATA MIIG: CLASSIFICAZIOE - 23 ag. 4 DATA MIIG: CLASSIFICAZIOE - 24
5 DataBase and Data Mining Group of DataBase and Data Mining Group of D B DATA MIIG: CLASSIFICAZIOE - 25 Database and data mining group, Validazione di un classificatore artizionamento dei dati in dati di ting, utilizzati per costruire il modello dati di test, utilizzati per validare il modello generato Tecniche di partizionamento partizionamento fisso ting set 2/3 test set 1/3 adatto per dataset molto grandi cross validation (K-fold) divisione del ting set in k sottinsiemi, detti folds a rotazione su tutti i K fold, 1 fold è utilizzato per il test e gli altri K-1 per il ting bootstrapping (leave-one-out) cross validation con un solo record di test per volta richiede la generazione di un numero di classificatori pari alla cardinalità del dataset adatto per dataset molto piccoli D B M G ag. 5
Data mining: classificazione
DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group
DettagliClassificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione
M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione
DettagliRicerca di outlier. Ricerca di Anomalie/Outlier
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliSVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14
SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la
DettagliPage 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo
Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi
DettagliSistemi Informativi Aziendali. Sistemi Informativi Aziendali
DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,
DettagliIntroduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida
Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di
DettagliFeature Selection per la Classificazione
1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione
DettagliRegressione non lineare con un modello neurale feedforward
Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale
DettagliMining Positive and Negative Association Rules:
Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una
DettagliIntroduzione al MATLAB c Parte 2
Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione
DettagliSistemi Informativi Territoriali. Map Algebra
Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori
DettagliClassificazione e Predizione
Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:
DettagliDr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013
Alberi di Decisione Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013 Data Mining Lo scopo del data mining è l estrazione (semi) automatica di conoscenza nascosta in voluminose basi di dati
DettagliUniversità di Pisa A.A. 2004-2005
Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica
DettagliEsperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale
Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione
DettagliUno standard per il processo KDD
Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo
DettagliData mining e rischi aziendali
Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento
DettagliRegole di Associazione
Metodologie per Sistemi Intelligenti Regole di Associazione Prof. Pier Luca Lanzi Laurea in Ingegneria Informatica Politecnico di Milano Polo regionale di Como Esempio Esempio Regole di Associazione Scopo
DettagliPro e contro delle RNA
Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;
DettagliSistemi Informativi Territoriali. Paolo Mogorovich www.di.unipi.it/~mogorov
Sistemi Informativi Territoriali Paolo Mogorovich www.di.unipi.it/~mogorov Avvio di un nuovo Progetto e Caricamento layer vettoriali Avviare QGIS Desktop Menù > Impostazioni > Proprietà Progetto > Generale
DettagliStima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una
DettagliI Sistemi Informativi
I Sistemi Informativi Definizione Un Sistema Informativo è un mezzo per acquisire, organizzare, correlare, elaborare e distribuire le informazioni che riguardano una realtà che si desidera descrivere e
DettagliDATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction
DettagliLE BASI DI DATI. Seconda parte La progettazione di database Relazionali SCHEMA CONCETTUALE LE ASSOCIAZIONI
LE BASI DI DATI Seconda parte La progettazione di database Relazionali SCHEMA CONCETTUALE LE ASSOCIAZIONI L'associazione (in inglese Relationship) descrive eventuali legami concettuali tra una, due o più
DettagliIdentificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale
Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete euronale Descrizione Il presente lavoro, facente segiuto a quanto descritto precedentemente, ha il fine di: 1) introdurre
DettagliLezione 8. La macchina universale
Lezione 8 Algoritmi La macchina universale Un elaboratore o computer è una macchina digitale, elettronica, automatica capace di effettuare trasformazioni o elaborazioni su i dati digitale= l informazione
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html
DettagliElaborazione dei dati su PC Regressione Multipla
21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione
DettagliData Mining in SAP. Alessandro Ciaramella
UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence
DettagliCapitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano
Capitolo 4: Ottimizzazione non lineare non vincolata parte II E. Amaldi DEIB, Politecnico di Milano 4.3 Algoritmi iterativi e convergenza Programma non lineare (PNL): min f(x) s.v. g i (x) 0 1 i m x S
DettagliSistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P 1 2 0 0 P 1 1 2 2 3 3 2 P 2 3 0 2 P 2 6 0 0 P 3 2 1 1 P 3 0 1 1 < P 1, >
Algoritmo del banchiere Permette di gestire istanze multiple di una risorsa (a differenza dell algoritmo con grafo di allocazione risorse). Ciascun processo deve dichiarare a priori il massimo impiego
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com
DettagliMetodi Computazionali
Metodi Computazionali Elisabetta Fersini fersini@disco.unimib.it A.A. 2009/2010 Catene di Markov Applicazioni: Fisica dinamica dei sistemi Web simulazione del comportamento utente Biologia evoluzione delle
DettagliTecniche di Simulazione: Introduzione. N. Del Buono:
Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire
DettagliCos è ACCESS? E un programma di gestione di database (DBMS) Access offre: un ambiente user frendly da usare (ambiente grafico)
Cos è ACCESS? E un programma di gestione di database (DBMS) Access offre: un ambiente user frendly da usare (ambiente grafico) 1 Aprire Access Appare una finestra di dialogo Microsoft Access 2 Aprire un
DettagliModelli probabilistici
Modelli probabilistici Davide Cittaro e Marco Stefani Master bioinformatica 2003 Introduzione L obiettivo di presente lavoro è la classificazione di un insieme di proteine, definite da 27 valori numerici,
DettagliRaggruppamenti Conti Movimenti
ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli
DettagliIstruzioni condizionali. Istruzioni condizionali IF-THEN- ELSE IF-THEN-ELSE. Statistica computazionale Carla Rampichini a.a.
Istruzioni condizionali Istruzioni condizionali Statistica computazionale Carla Rampichini a.a. 2008/09 Subsetting I I espressione; I-THEN-ELSE I espress THEN istr; [ELSE istr;] DO WHILE DO UNTIL I-THEN-
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliSQL Server. Applicazioni principali
SQL Server Introduzione all uso di SQL Server e utilizzo delle opzioni OLAP Applicazioni principali SQL Server Enterprise Manager Gestione generale di SQL Server Gestione utenti Creazione e gestione dei
DettagliUn po di statistica. Christian Ferrari. Laboratorio di Matematica
Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di
DettagliSISTEMI INFORMATIVI TERRITORIALI
Filippo Licenziati SISTEMI INFORMATIVI TERRITORIALI qualità dei dati QUALITA' DEI DATI NEI SIT 2 INDICE concetti generali controllo di qualità acquisizione, elaborazione, restituzione test di qualità esigenze
DettagliAnalisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali
Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi
DettagliTecniche di Clustering basate sul Machine Learning
UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate
DettagliOttimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni
Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni CARLO MANNINO Università di Roma La Sapienza Dipartimento di Informatica e Sistemistica
DettagliInterpolazione ed approssimazione di funzioni
Interpolazione ed approssimazione di funzioni Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 9 novembre 2007 Outline 1 Polinomi Valutazione di un polinomio Algoritmo di Horner
DettagliNozione di algoritmo. Gabriella Trucco
Nozione di algoritmo Gabriella Trucco Programmazione Attività con cui si predispone l'elaboratore ad eseguire un particolare insieme di azioni su particolari informazioni (dati), allo scopo di risolvere
DettagliLE CARTE DI CONTROLLO (4)
LE CARTE DI CONTROLLO (4) Tipo di carta di controllo Frazione difettosa Carta p Numero di difettosi Carta np Dimensione campione Variabile, solitamente >= 50 costante, solitamente >= 50 Linea centrale
DettagliSISTEMI INFORMATIVI AZIENDALI
SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità
Dettagli2. Simulazione discreta: approcci alla simulazione
Anno accademico 2007/08 Elementi di un programma di simulazione Controllore Tempo di simulazione Generatore dei dati di input Entità Eventi Attività Stati Processi Simulazione per eventi: le classi L approccio
DettagliIngegneria del Software T
Home Finance 1 Requisiti del cliente 1 Si richiede di realizzare un sistema per la gestione della contabilità familiare. Il sistema consente la classificazione dei movimenti di denaro e la loro memorizzazione.
DettagliSPC e distribuzione normale con Access
SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,
DettagliCPM - PERT CPM - PERT. Rappresentazione di un progetto. Gestione di un progetto. Critical Path Method Project Evaluation and Review Technique
CPM - PERT CPM - PERT CPM e PERT sono metodologie per la gestione di progetti composti da più attività in cui esistano relazioni di precedenza. Critical Path Method Project Evaluation and Review Technique
DettagliAnalisi dei requisiti e casi d uso
Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................
DettagliIndice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE
VII INDICE SOMMARIO Prefazione... xv CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE 1. Analisi dei dati e data mining... 1 2. La matrice dei dati «unità pervariabili»... 6 3. Idatiricavatidaun
DettagliRelazioni tra tabelle
Relazioni tra tabelle Una delle caratteristiche principali di Access è la possibilità di definire le relazioni fra tabelle in modo molto semplice vista l interfaccia grafica visuale. Le relazioni possono
DettagliData Mining. Gabriella Trucco gabriella.trucco@unimi.it
Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi
DettagliAlgoritmo. I dati su cui opera un'istruzione sono forniti all'algoritmo dall'esterno oppure sono il risultato di istruzioni eseguite precedentemente.
Algoritmo Formalmente, per algoritmo si intende una successione finita di passi o istruzioni che definiscono le operazioni da eseguire su dei dati (=istanza del problema): in generale un algoritmo è definito
DettagliTecniche di riconoscimento statistico
Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliC4.5 Algorithms for Machine Learning
C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato
DettagliBarriere assorbenti nelle catene di Markov e una loro applicazione al web
Università Roma Tre Facoltà di Scienze M.F.N Corso di Laurea in Matematica a.a. 2001/2002 Barriere assorbenti nelle catene di Markov e una loro applicazione al web Giulio Simeone 1 Sommario Descrizione
Dettagliregola(1,[e,f],b) regola(2,[m,f],e) regola(3,[m],f) regola(4,[b,f],g) regola(5,[b,g],c) regola(6,[g,q],a)
ESERCIZIO1 PREMESSA Per risolvere problemi spesso esistono delle regole che, dai dati del problema, permettono di calcolare o dedurre la soluzione. Questa situazione si può descrivere col termine regola(,
DettagliEquazioni non lineari
Equazioni non lineari Data una funzione f : [a, b] R si cerca α [a, b] tale che f (α) = 0. I metodi numerici per la risoluzione di questo problema sono metodi iterativi. Teorema Data una funzione continua
DettagliMetodologie per la Progettazione Concettuale
Metodologie per la Progettazione Concettuale Raccolta e analisi dei requisiti Scegliere il corretto livello di astrazione Standardizzare la struttura delle frasi Evitare frasi contorte Individuare sinonimi
DettagliRelatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi)
Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi) Allievo Matteo Bardini Genova, 15/7/2011 1 Indice Il Process Mining.
DettagliPDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD
Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da
DettagliDistributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo
Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo
DettagliCORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato
DettagliCapitolo 2 Distribuzioni di frequenza
Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.
DettagliProgettazione concettuale
Progettazione concettuale Strategie top-down A partire da uno schema che descrive le specifiche mediante pochi concetti molto astratti, si produce uno schema concettuale mediante raffinamenti successivi
DettagliALGORITMI e PROGRAMMI Programmazione: Lavoro che si fa per costruire sequenze di istruzioni (operazioni) adatte a svolgere un dato calcolo
ALGORITMI e PROGRAMMI Programmazione: Lavoro che si fa per costruire sequenze di istruzioni (operazioni) adatte a svolgere un dato calcolo INPUT: dati iniziali INPUT: x,y,z AZIONI esempio: Somma x ed y
DettagliTecniche di analisi multivariata
Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza
DettagliInnovazione continua nella elaborazione di dati telerilevati per la gestione del territorio
Elisabetta Carfagna Innovazione continua nella elaborazione di dati telerilevati per la gestione del territorio Progetto PRIN 2005 Progettazione Statistica dell innovazione continua di prodotto U.O. Bologna
DettagliPremesse alla statistica
Premesse alla statistica Versione 22.10.08 Premesse alla statistica 1 Insiemi e successioni I dati di origine sperimentale si presentano spesso non come singoli valori, ma come insiemi di valori. Richiamiamo
DettagliDAL PROBLEMA ALL'ALGORITMO AL PROGRAMMA SCRITTO IN Come. Scopo principale dell informatica è risolvere problemi con i calcolatori.
DAL PROBLEMA ALL'ALGORITMO AL PROGRAMMA SCRITTO IN Come Scopo principale dell informatica è risolvere problemi con i calcolatori. Non tutti i problemi sono risolvibili con i calcolatori. Si può dimostrato
DettagliCon il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.
Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione. Compito fondamentale di un S.O. è infatti la gestione dell
DettagliTecniche di DM: Alberi di decisione ed algoritmi di classificazione
Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli
DettagliDott. Francesco Caruso. www.francescocaruso.ch. Copyright 2010- All Rights Reserved
Francesco Caruso Individuazione del trend e dei punti di intervento: utilizzo combinato di RSI, medie e tecniche di stop TOL Expo Milano, 30 Ottobre 2009 Copyright 2010- All Rights Reserved PROGRAMMA DELLA
DettagliVC-dimension: Esempio
VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio
DettagliStrutture di Memoria 1
Architettura degli Elaboratori e Laboratorio 17 Maggio 2013 Classificazione delle memorie Funzionalitá: Sola lettura ROM, Read Only Memory, generalmente usata per contenere le routine di configurazione
DettagliProgetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario
Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,
DettagliAnalisi di dati di frequenza
Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato
DettagliBasi di dati Progettazione logica. Elena Baralis Politecnico di Torino
Progettazione logica Progettazione logica Richiede di scegliere il modello dei dati!modello relazionale Obiettivo: definizione di uno schema logico relazionale corrispondente allo schema ER di partenza
DettagliServizi di consulenza specialistica per IGRUE 2009 2012
Allegato 9A Metodo della stima delle differenze Descrizione della procedura Il metodo della stima delle differenze è indicato qualora il controllore ritenga che la popolazione sia affetta da un tasso di
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis
DettagliUniversità di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A. 2013-14. Pietro Frasca.
Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A. 2013-14 Pietro Frasca Lezione 11 Martedì 12-11-2013 1 Tecniche di allocazione mediante free list Generalmente,
DettagliSono casi particolari di MCF : SPT (cammini minimi) non vi sono vincoli di capacità superiore (solo x ij > 0) (i, j) A : c ij, costo di percorrenza
Il problema di flusso di costo minimo (MCF) Dati : grafo orientato G = ( N, A ) i N, deficit del nodo i : b i (i, j) A u ij, capacità superiore (max quantità di flusso che può transitare) c ij, costo di
DettagliTECNOLOGIE INFORMATICHE DELLA COMUNICAZIONE ORE SETTIMANALI 2 TIPO DI PROVA PER GIUDIZIO SOSPESO PROVA DI LABORATORIO
CLASSE DISCIPLINA MODULO Conoscenze Abilità e competenze Argomento 1 Concetti di base Argomento 2 Sistema di elaborazione Significato dei termini informazione, elaborazione, comunicazione, interfaccia,
DettagliCorso di Informatica Corso di Laurea in Ingegneria Gestionale a.a. 2005-06 Secondo Compitino 17 Dicembre 2005
Studente (Cognome Nome): Matricola: Corso di Informatica Corso di Laurea in Ingegneria Gestionale a.a. 2005-06 Secondo Compitino 17 Dicembre 2005 Si noti che le soluzioni ai quesiti saranno considerate
DettagliREGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE
30.11.2011 Gazzetta ufficiale dell Unione europea L 317/17 REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE del 29 novembre 2011 recante modifica del regolamento (CE) n. 1222/2009 del Parlamento europeo
DettagliLezione 1. Concetti Fondamentali
Lezione 1 Concetti Fondamentali 1 Sonetto di Trilussa Sai ched è la statistica? E E na cosa che serve pe fa un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa.
DettagliFUSIONI E ACQUISIZIONI
FUSIONI E ACQUISIZIONI 1. Fusioni e acquisizioni: concetti introduttivi 2. Il valore del controllo di un impresa 3. La redditività di un acquisizione 4. Alcuni tipi particolari di acquisizioni: LBO, MBO
DettagliOttimizzazione delle interrogazioni (parte I)
Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di
Dettagli1. Distribuzioni campionarie
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie
DettagliDatabase 3 affitto veicoli. Testo del quesito
Database 3 affitto veicoli Testo del quesito La società salento trasporti dispone di diversi tipi di veicoli (moto, auto, furgoni, camion, ) che affitta ai propri clienti. La società vuole informatizzare
DettagliA.A. 2015/2016. Statistica Medica. Corso di. CdL in Fisioterapia CdL in Podologia
A.A. 2015/2016 Corso di Statistica Medica CdL in Fisioterapia CdL in Podologia La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi in cui
DettagliInformatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati
Informatica 3 Informatica 3 LEZIONE 10: Introduzione agli algoritmi e alle strutture dati Modulo 1: Perchè studiare algoritmi e strutture dati Modulo 2: Definizioni di base Lezione 10 - Modulo 1 Perchè
DettagliEsercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test
STATISTICA (2) ESERCITAZIONE 6 05.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test Il preside della scuola elementare XYZ sospetta che
Dettagli