Tecniche di riconoscimento statistico

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Tecniche di riconoscimento statistico"

Transcript

1 On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com A.A Ennio Ottaviani- 2017

2 Introduzione L albero di decisione rappresenta il modo più semplice di definire una partizione di un insieme di dati X in classi La suddivisione viene ottenuta attraverso passi successivi in cui l insieme X viene suddiviso in sottoinsiemi sempre più omogenei rispetto alla etichetta di classe La suddivisione produce una gerarchia in cui a partire dal nodo iniziale (radice) i vari sottoinsiemi interni si chiamano nodi e quelli finali (a contenuto omogeneo) foglie I rami che collegano i nodi (padre-figlio) realizzano un criterio numerico o logico basato su una particolare feature del vettore X

3 Introduzione

4 Introduzione In fase di classificazione, è sufficiente percorrere l albero con il vettore di features a classe ignota, verificando in quale nodo portano le operazioni di split Il processo termina su un nodo foglia, dove la classe è definita univocamente La valutazione del risultato avviene come quella di ogni altro classificatore, in base al conteggio degli errori Dal punto di vista delle superfici di separazione, genera poligonali con i lati paralleli agli assi nello spazio delle features

5 Introduzione L albero decisionale è un modo semplice per rappresentare il processo logico che porta alla attribuzione di una classe ad un vettore di features E molto semplice da capire ed efficiente da implementare, una volta costruito in modo ottimale Consente di motivare il perchè di un particolare risultato (white box) Gestisce bene dati numerici e dati simbolici Problemi complessi portano però ad alberi troppo grandi per risultare comprensibili e sono ad elevato rischio di overfitting

6 Criteri di suddivisione Occorre definire un criterio per decidere come suddividere un nodo (split) in 2 o più nodi in modo da avvicinarsi al risultato finale Avendo come obiettivo foglie omogenee, una buona idea è definire una misura di omogeneità (o purezza) dei dati contenuti in un nodo Data una misura di omogeneità H, si definisce il guadagno informativo G come la differenza tra i valori di H prima e dopo lo split Il valore di H dopo lo split (con due nodi figli) è la media pesata dei valori di H con pesi pari alla % di dati contenuti nei sottoinsiemi Lo split migliore tra tutti quelli possibili è quello che ottimizza G

7 Criteri di suddivisione Se in un nodo t ciascuna classe j ha una frequenza p(j,t), si possono definire diverse misure di omogeneità combinando le frequenze Indice di entropia Indice di Gini Questi indici hanno in comune il fatto di valere 0 su nodi puri e di avere il valore massimo su nodi con le classi equamente distribuite Altri indici sono proponibili, mantenendo il principio di avere i valori estremi per nodi puri e per nodi con distribuzione uniforme

8 Esempio

9 Esempio

10 Pruning L albero ottimale sul training set potrebbe non esserlo sul test set, a causa della sua eccessiva complessità Sono necessarie tecniche di potatura (pruning) per assicurare capacità di generalizzazione Il criterio più semplice prevede di non splittare nodi con pochi elementi, attribuendo a questi la classe maggioritaria. Si evitano quindi split a basso impatto sull errore complessivo Altri criteri sono basati su concetti simili a quelli della selezione delle features per problemi di classificazione

11 Metodo CART Il metodo CART (Classification And Regression Tree) codifica una procedura standard per generare alberi di decisione Usa una procedura esaustiva di ricerca dello split binario ottimale in base al massimo guadagno informativo misurato dalla variazione dell indice di Gini Usa un criterio di pruning basato sul compromesso tra errore di classificazione e numero di foglie La sua standardizzazione lo rende un metodo molto efficace in ambito industriale

12 Metodo CART Esistono diverse varianti possibili alla metodologia CART, sia a livello di splitting sia di pruning (es. C4.5, CHAID, SLIQ,...) Queste portano ad alberi diversi per lo stesso problema, indicando una forte dipendenza del risultato dalla strategia impiegata Analoga elevata dipendenza si ha per la scelta del primo split, che di solito condiziona il resto dell albero (problema comune ai metodi greedy) Le perplessità teoriche sulla efficacia degli alberi decisionali non ne limitano però l applicazione a problemi abbastanza semplici

13 Bagging La variabilità dei risultati ottenibili con un singolo albero porta a definire criteri di combinazione di alberi multipli Bagging: il training set viene ricampionato estraendo ogni volta un sottoinsieme diverso dei dati originali (Bootstrap AGgregation) estraendo N campioni a caso (anche ripetuti). Ognuno produce un albero e la classe finale da assegnare ai dati ignoti è quella maggioritaria tra quelle prodotte dai singoli alberi Il bagging permette di stimare le prestazioni senza usare un test set, grazie all uso dei vettori out-of-bag (OOB). Sono quelli non usati da ogni albero (che usa in media 2/3 dei dati originali).

14 Random forests Random forest: come nel bagging si generano alberi multipli ma a partire sempre dallo stesso training set, scegliendo però lo split ottimale in un sottoinsieme casuale degli split possibili. In questo modo ogni albero risulta diverso e si evitano polarizzazioni Date m features, il numero p tra cui scegliere ogni singolo split può essere qualunque, ma la scelta suggerita è p = radice(k) Le prestazioni del metodo, valutate sui dai OOB, migliorano al crescere del numero di alberi, e tendono ad un valore asintotico, pari all errore finale che ci si deve attendere su dati nuovi

15 Random forests

16 Random forests

17 Misura di importanza Le random forest forniscono un semplice meccanismo per stabilire una graduatoria di importanza delle features utilizzate E sufficiente ad esempio valutare in ogni split il miglioramento in termini di purezza dei nodi, e pesare le features in base a tale valore

18 Vantaggi delle RF Una naturale forma di cooperazione per ridurre l errore Facile valutazione di importanza per ogni feature Possibilità di associare alla classificazione un indice di confidenza Stima robusta dell errore senza cross-validation Possibilità di combinare dati numerici e dati categorici Gestione di dati mancanti mediante stime di prossimità Al massimo 3 parametri da definire (a valori interi) Processo di apprendimento semplice e controllabile Nessun rischio di overfitting dei dati di training Approccio valido anche per problemi multi-classe e di regressione

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine e applicazioni al dominio del Contact Management Parte V: combinazione di Università degli Studi di Udine In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/10 Contenuti

Dettagli

Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista

Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Alberi Decisionali Per l analisi del mancato rinnovo all abbonamento di una rivista Il problema L anticipazione del fenomeno degli abbandoni da parte dei propri clienti, rappresenta un elemento fondamentale

Dettagli

Albero di decisione binaria

Albero di decisione binaria Segmentazione Binaria Obiettivo Classificare un collettivo di individui in gruppi (segmentazione), omogenei al loro interno e quanto più possibile differenziati, mediante una successione di divisioni dicotomiche

Dettagli

Teoria e tecniche dei test

Teoria e tecniche dei test Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

Strutture di accesso ai dati: B + -tree

Strutture di accesso ai dati: B + -tree Strutture di accesso ai dati: B + -tree A L B E R T O B E L U S S I S E C O N D A P A R T E A N N O A C C A D E M I C O 2 0 0 9-2 0 0 Osservazione Quando l indice aumenta di dimensioni, non può risiedere

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione

Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione Ingegneria della Conoscenza e Sistemi Esperti Lezione 4: Alberi di Decisione Dipartimento di Elettronica e Informazione Apprendimento Supervisionato I dati considerati considerati degli esempi di un fenomeno

Dettagli

LETTI PER VOI: Figura 1: la struttura ad albero

LETTI PER VOI: Figura 1: la struttura ad albero LETTI PER VOI: " Classification And Regression Trees " a cura di Cinzia Di Novi Università del Piemonte Orientale, Dipartimento di Politiche Pubbliche e Scelte Collettive Classification And Regression

Dettagli

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con

Dettagli

CART: Classification And Regression Trees

CART: Classification And Regression Trees CART: Classification And Regression Trees Antonio Manno mannoanto@libero.it, www.statistica.too.it Indice 1 Classificazione e regressione ad albero, CART 1 1.1 Classification trees............................

Dettagli

Bag of (visual) Words. BoW. Input image. Dizionario visuale. Rappresentazione

Bag of (visual) Words. BoW. Input image. Dizionario visuale. Rappresentazione Bag of (visual) Words BoW Il modello è stato proposto con l obiettivo di rappresentare un immagine tramite un dizionario visuale. Il metodo BoW si ispira alle tecniche di rappresentazione dei documenti

Dettagli

3.4 Metodo di Branch and Bound

3.4 Metodo di Branch and Bound 3.4 Metodo di Branch and Bound Consideriamo un generico problema di Ottimizzazione Discreta dove X è la regione ammissibile. (P ) z = max{c(x) : x X} Metodologia generale di enumerazione implicita (Land

Dettagli

Apprendimento Automatico (Feature Selection e Kernel Learning)

Apprendimento Automatico (Feature Selection e Kernel Learning) Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli

Dettagli

Applicazioni statistiche in ambito bancario

Applicazioni statistiche in ambito bancario Ph.D. Federico De Marchi Credit Risk Management Banca Carige federico.demarchi@carige.it Struttura del corso Lezione 1 Teoria dei test statistici Lezione 2 Teoria della regressione Lezione 3 Davanti al

Dettagli

Luigi Santoro. Hyperphar Group S.p.A., MIlano

Luigi Santoro. Hyperphar Group S.p.A., MIlano Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi

Dettagli

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27 Introduzione Le regole associative si collocano tra i metodi di apprendimento non supervisionato e sono volte

Dettagli

Progettazione di Algoritmi

Progettazione di Algoritmi Corso di laurea in Informatica Prova scritta del: Progettazione di Algoritmi 29/01/2016 Prof. De Prisco Inserire i propri dati nell apposito spazio. Non voltare la finché non sarà dato il via. Dal via

Dettagli

Teoria dell informazione

Teoria dell informazione Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria dell informazione A.A. 2008-09 Alberto Perotti DELEN-DAUIN Modello di sistema di comunicazione Il modello di

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

standardizzazione dei punteggi di un test

standardizzazione dei punteggi di un test DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la

Dettagli

Distribuzioni e inferenza statistica

Distribuzioni e inferenza statistica Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione

Dettagli

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone Il problema dell assegnamento degli stati versione del 9/1/03 Sintesi: Assegnamento degli stati La riduzione del numero

Dettagli

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici 1 Metodi non parametrici Statistica classica La misurazione avviene con

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi: DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano paola.magnano@unikore.it si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme

Dettagli

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI

Dettagli

Scienze tecniche di Medicina di Laboratorio

Scienze tecniche di Medicina di Laboratorio Corso di Laurea Magistrale delle Professioni Sanitarie Tecnico-Diagnostiche LM/SNT3 2 anno Scienze tecniche di Medicina di Laboratorio Argomenti della lezione Il controllo di qualità nella diagnostica

Dettagli

Albero di Riscorsione

Albero di Riscorsione Albero di Riscorsione Albero di ricorsione Un albero di ricorsione è un modo di visualizzare cosa accade in un algoritmo divide et impera L etichetta della radice rappresenta il costo non ricorsivo della

Dettagli

Alberi di Decisione. Fabio Aiolli Sito web del corso

Alberi di Decisione. Fabio Aiolli  Sito web del corso Alberi di Decisione Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Alberi di Decisione In molte applicazioni del mondo reale non è sufficiente

Dettagli

Strategie top-down. Primitive di trasformazione top-down. Primitive di trasformazione top-down

Strategie top-down. Primitive di trasformazione top-down. Primitive di trasformazione top-down Strategie top-down A partire da uno schema che descrive le specifiche mediante pochi concetti molto astratti, si produce uno schema concettuale mediante raffinamenti successivi che aggiungono via via più

Dettagli

pluriparametrici di stima

pluriparametrici di stima I procedimenti pluriparametrici di stima 29.X.2013 Perché impiegare modelli pluriparametrici p del valore? Il caso più importante stime in contesti in cui è impossibile pervenire ad un campione di transazioni

Dettagli

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo.

Reti Neurali. Corso di AA, anno 2016/17, Padova. Fabio Aiolli. 2 Novembre Fabio Aiolli Reti Neurali 2 Novembre / 14. unipd_logo. Reti Neurali Corso di AA, anno 2016/17, Padova Fabio Aiolli 2 Novembre 2016 Fabio Aiolli Reti Neurali 2 Novembre 2016 1 / 14 Reti Neurali Artificiali: Generalità Due motivazioni diverse hanno spinto storicamente

Dettagli

Modelli matematici e Data Mining

Modelli matematici e Data Mining Modelli matematici e Data Mining Introduzione I modelli matematici giocano un ruolo critico negli ambienti di business intelligence e sistemi di supporto alle decisioni. Essi rappresentano un astrazione

Dettagli

UN MODERNO APPROCCIO ALLA CREAZIONE DEI PRODOTTI NON VITA

UN MODERNO APPROCCIO ALLA CREAZIONE DEI PRODOTTI NON VITA UN MODERNO APPROCCIO ALLA CREAZIONE DEI PRODOTTI NON VITA Valerio Scacco Ordine Nazionale degli Attuari Bologna, 16 Giugno 2016 INTRODUZIONE L evoluzione normativa degli ultimi anni fa emergere una maggiore

Dettagli

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo TOPOGRAFIA 2013/2014 L operazione di misura di una grandezza produce un numero reale che esprime il rapporto della grandezza stessa rispetto a un altra, a essa omogenea, assunta come unità di misura. L

Dettagli

NUMERI CASUALI E SIMULAZIONE

NUMERI CASUALI E SIMULAZIONE NUMERI CASUALI E SIMULAZIONE NUMERI CASUALI Usati in: statistica programmi di simulazione... Strumenti: - tabelle di numeri casuali - generatori hardware - generatori software DESCRIZIONE DEL PROBLEMA

Dettagli

CAPITOLO 11 ANALISI DI REGRESSIONE

CAPITOLO 11 ANALISI DI REGRESSIONE VERO FALSO CAPITOLO 11 ANALISI DI REGRESSIONE 1. V F Se c è una relazione deterministica tra due variabili,x e y, ogni valore dato di x,determinerà un unico valore di y. 2. V F Quando si cerca di scoprire

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

viii Indice generale

viii Indice generale Indice generale 1 Introduzione al processo di ricerca 1 Sommario 1 Il processo di ricerca 3 Concetti e variabili 5 Scale di misura 8 Test di ipotesi 10 Evidenza empirica 10 Disegni di ricerca 11 Sintesi

Dettagli

Definisce e rappresenta gli insiemi. Riconosce i sottoinsiemi. Esegue le operazioni di unione e intersezione.

Definisce e rappresenta gli insiemi. Riconosce i sottoinsiemi. Esegue le operazioni di unione e intersezione. GRIGLIA VALUTAZIONE PER DISCIPLINA OK MATEMATICA CLASSE 1 Insiemi Insiemi Rappresenta dati. Coglie il rapporto tra linguaggio matematico e linguaggio naturale Conosce, rappresenta ed opera con gli insiemi

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Unità A1. Informazioni e dati. Obiettivi. Informazione automatica. Informatica. Informazione e conoscenza. Il concetto di informazione

Unità A1. Informazioni e dati. Obiettivi. Informazione automatica. Informatica. Informazione e conoscenza. Il concetto di informazione Obiettivi Unità A1 Informazioni e dati Conoscere i principali concetti legati all informatica Saper distinguere tra informazioni e dati Conoscere il concetto di rappresentazione analogica e digitale Conoscere

Dettagli

Indici multilivello dinamici (B-alberi e B + -alberi) Alberi di ricerca - 1. Un esempio. Alberi di ricerca - 3. Alberi di ricerca - 2

Indici multilivello dinamici (B-alberi e B + -alberi) Alberi di ricerca - 1. Un esempio. Alberi di ricerca - 3. Alberi di ricerca - 2 INDICI MULTILIVELLO DINAMICI Indici multilivello dinamici (B-alberi e B + -alberi) Gli indici multilivello dinamici (B-alberi e B + -alberi) sono casi speciali di strutture ad albero. Un albero è formato

Dettagli

Problemi, algoritmi, calcolatore

Problemi, algoritmi, calcolatore Problemi, algoritmi, calcolatore Informatica e Programmazione Ingegneria Meccanica e dei Materiali Università degli Studi di Brescia Prof. Massimiliano Giacomin Problemi, algoritmi, calcolatori Introduzione

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

INFORMATICA PER LE SCIENZE UMANE a.a. 2015/2016

INFORMATICA PER LE SCIENZE UMANE a.a. 2015/2016 INFORMATICA PER LE SCIENZE UMANE a.a. 2015/2016 Francesca Levi Dipartimento di Informatica E-mail: francesca.levi@unipi.it levifran@di.unipi.it Francesca Levi Dipartimento di Informatica Informatica per

Dettagli

Decision trees. Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza iodicede@unicas.it

Decision trees. Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza iodicede@unicas.it Decision trees Analisi statistica e matematico-finanziaria II Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale Outline Decision trees Decision trees (DT)

Dettagli

Indice Aspetti generali sul campionamento da popolazioni finite Campionamento probabilistico Disegno campionario semplice

Indice Aspetti generali sul campionamento da popolazioni finite Campionamento probabilistico Disegno campionario semplice Indice 1 Aspetti generali sul campionamento da popolazioni finite.. 1 1.1 Rilevazionicensuarieerilevazionicampionarie... 1 1.2 Lineemetodologichediunarilevazionestatistica... 3 1.3 Popolazioni, etichette,

Dettagli

Gruppo di lavoro 3 «Le nuove classi di ricoveri»

Gruppo di lavoro 3 «Le nuove classi di ricoveri» Gruppo di lavoro 3 «Le nuove classi di ricoveri» dott. Cristiano Visser Responsabile gruppo di lavoro linea 3 Roma, 11 Marzo 2015 OBIETTIVI della Linea di Attività III It.DRG Prodotti attesi Manuale italiano

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

Algoritmi e strutture dati

Algoritmi e strutture dati Algoritmi e strutture dati Roberto Cordone A. A. 2015-16 Capitolo 4 Implementazioni delle partizioni Nota: queste dispense sono un rapido riassunto delle lezioni svolte nel dicembre 2015 e gennaio 2016.

Dettagli

Esercitazione 2 Classificazione dei Temi

Esercitazione 2 Classificazione dei Temi Esercitazione 2 Classificazione dei Temi CdL Riassetto del Territorio e Tutela del Paesaggio (RTTP) Università degli Studi di Padova 1 Argomenti 1. Classificazione di un tema Introduzione 2. Metodi di

Dettagli

Un esempio: l ADT Dizionario (mutabile) Definizione. Alberi binari di ricerca (BST = binary search tree) search(chiave k) -> elem

Un esempio: l ADT Dizionario (mutabile) Definizione. Alberi binari di ricerca (BST = binary search tree) search(chiave k) -> elem Un esempio: l ADT Dizionario (mutabile) Algoritmi e Laboratorio a.a. 2006-07 Lezioni Gli alberi di ricerca sono usati per realizzare in modo efficiente il tipo di dato astratto dizionario Parte 19-D Alberi

Dettagli

Compressione Dati. Teorema codifica sorgente: Entropia fornisce un limite sia inferiore che superiore al numero di bit per simbolo sorgente.. p.

Compressione Dati. Teorema codifica sorgente: Entropia fornisce un limite sia inferiore che superiore al numero di bit per simbolo sorgente.. p. Compressione Dati Teorema codifica sorgente: Entropia fornisce un limite sia inferiore che superiore al numero di bit per simbolo sorgente.. p.1/21 Compressione Dati Teorema codifica sorgente: Entropia

Dettagli

IMPUTAZIONE MULTIPLA: UN APPLICAZIONE ALL ANALISI DI DATI DI REDDITO

IMPUTAZIONE MULTIPLA: UN APPLICAZIONE ALL ANALISI DI DATI DI REDDITO Università degli studi di Firenze Dipartimento Statistico DOTTORATO IN STATISTICA APPLICATA VII CICLO IMPUTAZIONE MULTIPLA: UN APPLICAZIONE ALL ANALISI DI DATI DI REDDITO Anna Giraldo Relatore: Prof. Luigi

Dettagli

I S T I T U T O T E C N I C O I N D U S T R I A L E S T A T A L E

I S T I T U T O T E C N I C O I N D U S T R I A L E S T A T A L E I S T I T U T O T E C N I C O I N D U S T R I A L E S T A T A L E G u g l i e l m o M a r c o n i V e r o n a Dipartimento di Progetto didattico disciplinare per le classi terze della articolazione Anno

Dettagli

Il calcolo del VAR operativo mediante la metodologia stocastica parametrica. Simona Cosma

Il calcolo del VAR operativo mediante la metodologia stocastica parametrica. Simona Cosma Il calcolo del VAR operativo mediante la metodologia stocastica parametrica Simona Cosma Contenuti Il VAR operativo: inquadramento concettuale La metodologia attuariale EVT (Extreme Value Theory) Il VAR

Dettagli

a) 36/100 b) 1/3 c)

a) 36/100 b) 1/3 c) Da un urna contenente 10 palline, di cui 6 bianche e 4 nere, si estraggono due palline. Determinare la probabilità del seguente evento E=«le due palline sono bianche» nel caso di estrazioni a) con rimbussolamento

Dettagli

La simulazione è l'imitazione di un processo o di un sistema reale per un

La simulazione è l'imitazione di un processo o di un sistema reale per un 1 2 La simulazione è l'imitazione di un processo o di un sistema reale per un determinato periodo di tempo. La simulazione è l'imitazione di un processo o di un sistema reale per un determinato periodo

Dettagli

Il Corso di Fisica per Scienze Biologiche

Il Corso di Fisica per Scienze Biologiche Il Corso di Fisica per Scienze Biologiche Ø Prof. Attilio Santocchia Ø Ufficio presso il Dipartimento di Fisica (Quinto Piano) Tel. 75-585 278 Ø E-mail: attilio.santocchia@pg.infn.it Ø Web: http://www.fisica.unipg.it/~attilio.santocchia/

Dettagli

Progettazione di un Sistema di Machine Learning

Progettazione di un Sistema di Machine Learning Progettazione di un Sistema di Machine Learning Esercitazioni per il corso di Logica ed Intelligenza Artificiale a.a. 2013-14 Vito Claudio Ostuni Data analysis and pre-processing Dataset iniziale Feature

Dettagli

Il concetto di calcolatore e di algoritmo

Il concetto di calcolatore e di algoritmo Il concetto di calcolatore e di algoritmo Elementi di Informatica e Programmazione Percorso di Preparazione agli Studi di Ingegneria Università degli Studi di Brescia Docente: Massimiliano Giacomin Informatica

Dettagli

Laboratorio di Calcolo B 68

Laboratorio di Calcolo B 68 Generazione di numeri casuali Abbiamo già accennato all idea che le tecniche statistiche possano essere utili per risolvere problemi di simulazione di processi fisici e di calcoli numerici. Dobbiamo però

Dettagli

Sistemi Intelligenti 57. Alberi di Decisione. funzioni target con valori di output discreti (in generale più di 2 valori);

Sistemi Intelligenti 57. Alberi di Decisione. funzioni target con valori di output discreti (in generale più di 2 valori); Sistemi Intelligenti 57 Alberi di Decisione In molte applicazioni del mondo reale non è sufficiente apprendere funzioni booleane con ingressi binari. Gli Alberi di Decisione sono particolarmente adatti

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario

Dettagli

Alberi binari e alberi binari di ricerca

Alberi binari e alberi binari di ricerca Alberi binari e alberi binari di ricerca Violetta Lonati Università degli studi di Milano Dipartimento di Scienze dell Informazione Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica

Dettagli

pluriparametrici di stima

pluriparametrici di stima I procedimenti pluriparametrici di stima 01.IV.2011 Perché impiegare modelli pluriparametrici p del valore? Il caso più importante stime in contesti in cui è impossibile pervenire ad un campione di transazioni

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Progettazione di basi di dati

Progettazione di basi di dati Progettazione di basi di dati Sistemi Informativi L-B Home Page del corso: http://www-db.deis.unibo.it/courses/sil-b/ Versione elettronica: progettazionedb.pdf Sistemi Informativi L-B Progettazione di

Dettagli

Alberi ed Alberi Binari

Alberi ed Alberi Binari Alberi ed Alberi Binari Il tipo di dato Albero Un albero è una struttura di data organizzata gerarchicamente. È costituito da un insieme di nodi collegati tra di loro: ogni nodo contiene dell informazione,

Dettagli

Progettazione logica relazionale (1/2) Progettazione logica. Progettazione logica relazionale (2/2) Introduzione. Progettazione logica

Progettazione logica relazionale (1/2) Progettazione logica. Progettazione logica relazionale (2/2) Introduzione. Progettazione logica Progettazione logica Progettazione logica relazionale (1/2) Introduzione Ristrutturazione dello schema ER Eliminazione delle gerarchie Partizionamento di concetti Eliminazione degli attributi multivalore

Dettagli

La codifica. dell informazione

La codifica. dell informazione 00010010101001110101010100010110101000011100010111 00010010101001110101010100010110101000011100010111 La codifica 00010010101001110101010100010110101000011100010111 dell informazione 00010010101001110101010100010110101000011100010111

Dettagli

Metodologia di lavoro: PCM & GOPP

Metodologia di lavoro: PCM & GOPP Metodologia di lavoro: PCM & GOPP Obiettivo del Laboratorio Approfondire le metodologie e le tecniche di progettazione nell ambito dei programmi a gestione diretta del ciclo 2014-2020 attraverso l identificazione

Dettagli

Instradamento per servizi di tipo circuito virtuale. Dr. S. Greco Polito,

Instradamento per servizi di tipo circuito virtuale. Dr. S. Greco Polito, Instradamento per servizi di tipo circuito virtuale Servizio circuito virtuale: tabelle di instradamento e di inoltro q Ogni nodo contiene due tabelle: Tabella di instradamento Tabella di inoltro q La

Dettagli

I giochi con avversario. I giochi con avversario. Introduzione. Giochi come problemi di ricerca. Il gioco del NIM.

I giochi con avversario. I giochi con avversario. Introduzione. Giochi come problemi di ricerca. Il gioco del NIM. I giochi con avversario I giochi con avversario Maria Simi a.a. 26/27 Regole semplici e formalizzabili eterministici, due giocatori, turni alterni, zero-sum, informazione perfetta (ambiente accessibile)

Dettagli

Statistica descrittiva e statistica inferenziale

Statistica descrittiva e statistica inferenziale Statistica descrittiva e statistica inferenziale 1 ALCUNI CONCETTI POPOLAZIONE E CAMPIONE Popolazione: insieme finito o infinito di unità statistiche classificate secondo uno o più caratteri Campione:

Dettagli

Istituto Comprensivo di Pralboino Curricolo Verticale

Istituto Comprensivo di Pralboino Curricolo Verticale MATEMATICA CLASSE SECONDA SECONDARIA INDICATORE NUMERI TRAGUARDI OBIETTIVI di APPRENDIMENTO CONTENUTI L alunno si muove con sicurezza nel calcolo anche con i numeri razionali, ne padroneggia le diverse

Dettagli

MODELLISTICA DI IMPIANTI E SISTEMI Syllabus e Testi di Riferimento Prof. Giuseppe Iazeolla

MODELLISTICA DI IMPIANTI E SISTEMI Syllabus e Testi di Riferimento Prof. Giuseppe Iazeolla Syllabus e Testi di Riferimento MIS 1 di 7 MODELLISTICA DI IMPIANTI E SISTEMI Syllabus e Testi di Riferimento Prof. Giuseppe Iazeolla Syllabus da testo 1 (la numerazione fa riferimento ai capitoli del

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

GESTIONE QUANTITATIVE DELLA COMPLESSITA UN NUOVO APPROCCIO ALLA GESTIONE DEL RISCHIO ONTONIX

GESTIONE QUANTITATIVE DELLA COMPLESSITA UN NUOVO APPROCCIO ALLA GESTIONE DEL RISCHIO ONTONIX GESTIONE QUANTITATIVE DELLA COMPLESSITA UN NUOVO APPROCCIO ALLA GESTIONE DEL RISCHIO ONTONIX Disclaimer I concetti e I metodi presentati in questo documento hanno valore esclusivamete illustrativo e non

Dettagli

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate

Dettagli

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA UNIVERSIT DEGLI STUDI DI PRM FCOLT DI ECONOMI Indice della lezione Corso di Pianificazione Finanziaria Introduzione al rischio Rischio e rendimento per titoli singoli La Teoria di Portafoglio di Markowitz

Dettagli

18/05/2014. Università di Ferrara Corso di Ingegneria del Software AA 2013/2014

18/05/2014. Università di Ferrara Corso di Ingegneria del Software AA 2013/2014 Università di Ferrara Corso di Ingegneria del Software AA 2013/2014 La misura come strumento scientifico Misure, metriche e indicatori Metriche del software Metriche per software orientato agli oggetti

Dettagli

ISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO

ISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO ISTITUTO OMNICOMPRENSIVO ALTO ORVIETANO FABRO PROGRAMMAZIONE ANNUALE MATEMATICA CLASSE II SECONDARIA I GRADO MACRO INDICA TORI OBIETTIVI DI APPRENDIMENTO Curricolo verticale OBIETTIVI DI APPRENDIMENTO

Dettagli

Statistica Inferenziale

Statistica Inferenziale Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione

Dettagli

Quantificare la variabilità dei processi ecologici

Quantificare la variabilità dei processi ecologici Scopo ecologia Quantificare la variabilità dei processi ecologici Comprensione dei meccanismi fondamentale per identificare gli effetti del disturbo antropico e per prevenire alterazioni su scala globale

Dettagli

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing Erminio A. Bonizzoni Congresso nazionale BIAS 9/3 aprile 9 Sesto Fiorentino Firenze Stimatori di Massima

Dettagli

5 La valutazione dell attività di ricerca dei dipartimenti

5 La valutazione dell attività di ricerca dei dipartimenti 5 La valutazione dell attività di ricerca dei dipartimenti La VQR aveva, tra i suoi compiti, quello di fornire alle istituzioni una graduatoria dei dipartimenti universitari in riferimento a ciascuna area

Dettagli

Distribuzione Gaussiana - Facciamo un riassunto -

Distribuzione Gaussiana - Facciamo un riassunto - Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura

Dettagli

CURRICOLO DI MATEMATICA SCUOLA SECONDARIA DI PRIMO GRADO

CURRICOLO DI MATEMATICA SCUOLA SECONDARIA DI PRIMO GRADO CURRICOLO DI MATEMATICA SCUOLA SECONDARIA DI PRIMO GRADO Nuclei tematici Il numero Traguardi per lo sviluppo della competenza - Muoversi con sicurezza nel calcolo anche con i numeri razionali e stimare

Dettagli

Statistica. Lezione 1

Statistica. Lezione 1 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 1 a.a 2011-2012 Dott.ssa Daniela

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

Il ruolo del referente della valutazione

Il ruolo del referente della valutazione Il ruolo del referente della valutazione prof. Ivan Graziani I.C. Santa Sofia (FC) Bolzano 29 ottobre 2015 Che ruolo ha il referente di valutazione? Un referente per la valutazione deve occuparsi nel proprio

Dettagli

Reti Neurali in Generale

Reti Neurali in Generale istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono

Dettagli

e analisi dell impegno

e analisi dell impegno Pianificazione e analisi dell impegno Tecniche di Programmazione Lez. 06 Università di Firenze a.a. 2009/10, I semestre 1/16 contenuti Pianificazione WBS di buon senso Modelli per la stima dell impegno

Dettagli

Tamara Verdolini ARPAT Dipartimento Provinciale di Firenze

Tamara Verdolini ARPAT Dipartimento Provinciale di Firenze Risultati della mappatura: quanto rumore c è a Firenze. Potenzialità e limiti di questo strumento di governo del territorio. Come si consulta e come si può migliorare. Tamara Verdolini ARPAT Dipartimento

Dettagli

ESPERIENZA DI LABORATORIO N 1. 1) Misura diretta mediante tester della resistenza elettrica dei resistori R1, R2, R3 e calcolo degli errori di misura.

ESPERIENZA DI LABORATORIO N 1. 1) Misura diretta mediante tester della resistenza elettrica dei resistori R1, R2, R3 e calcolo degli errori di misura. ESPERIENZA DI LABORATORIO N. ) Misura diretta mediante tester della resistenza elettrica dei resistori R, R, R3 e calcolo degli errori di misura. Dalla misurazione diretta delle singole resistenze abbiamo

Dettagli

Le graduatorie basate su una molteplicità di indicatori. I pericoli della sintesi di variabili disomogenee.

Le graduatorie basate su una molteplicità di indicatori. I pericoli della sintesi di variabili disomogenee. Le graduatorie basate su una molteplicità di indicatori. I pericoli della sintesi di variabili disomogenee. Sovente è necessario stabilire delle graduatorie tra unità statistiche. In azienda il problema

Dettagli

Caratterizzazione dei consumi energetici (parte 3)

Caratterizzazione dei consumi energetici (parte 3) ESERCITAZIONE 4 Caratterizzazione dei consumi energetici (parte 3) 4.1 CuSum: elementi di analisi statistica Il diagramma delle somme cumulate dei residui in funzione del tempo (CuSum) può essere in generale

Dettagli