Naive bayes. Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata. Giorgio Gambosi. a.a.

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Naive bayes. Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata. Giorgio Gambosi. a.a."

Transcript

1 Naive bayes Course of Machine Learning Master Degree in Computer Science University of Rome Tor Vergata Giorgio Gambosi a.a

2 Features numerose In presenza di numerose features, definire un modello generativo può risultare inaccettabilmente costoso. La dimensione del training set cresce esponenzialmente con il numero di features, per permettere di considerare tutte le possibili combinazioni di valori delle features stesse In presenza di d features, ad esempio binarie, in un classificatore binario, sarà necessario stimare approssimativamente 2 d+1 parametri: le probabilità p ij = p(x i C j). 2

3 Esempio: antispam per Esempio di text classifier: cerca di individure spam. Nell ipotesi di avere un training set (messaggi marcati come spam o non-spam), le features da associare ad un messaggio saranno le parole che esso contiene (o non contiene). Un messaggio è rappresentato da un vettore di features x di dimensione pari al numero di termini di un dizionario: se il messaggio contiene l i-esimo termine del dizionario allora x i = 1 (o x i è pari al numero di occorrenze del termine), altrimenti x i = 0. 3

4 Esempio: antispam per Se il dizionario contiene termini e si rappresenta la sola occorrenza o meno di ogni termine (per cui il vettore è binario), allora N = Questo comporta la necessità di stimare 2( ) parametri per p(x C 1) e altrettanti per p(x C 2). 4

5 Classificatori Naive Bayes Le features x i sono condizionalmente indipendenti rispetto alle classi C 1, C 2. Per ogni coppia i, j con 1 i, j d, i j e per k {1, 2} Sotto questa ipotesi, abbiamo che e quindi p(x i x j, C k ) = p(x i C k ) p(x i, x j C k ) = p(x i x j, C k )p(x j C k ) = p(x i C k )p(x j C k ) p(x C k ) = p(x 1,..., x d C k ) = p(x i C k ) e i parametri da stimare sono ϕ ik = p(x i = 1 C k ) per i = 1,..., d e k = 1, 2, per numero totale di parametri pari a 2d. Inoltre, sarà necessario stimare π = p(c 1). 5

6 Classificatori Naive Bayes Rappresentazione grafica (reti bayesiane) Nodi: variabili casuali Archi: relazioni di dipendenza Ombreggiatura: variabili visibili C i x 1 x 2 x d 6

7 ML e naive bayes Dato un training set (x i, y i), i = 1,..., n, possiamo scrivere la corrispondente verosimiglianza come L = = n p(x i, y i) n p(x i y i)p(y i) n = p(y i) p(x ij y i) = j=1 n π y i (1 π) 1 y i j=1 ϕ x ij y i j1 (1 ϕ j1) (1 x ij )y i ϕ x ij (1 y i ) j2 (1 ϕ j2) (1 x ij )(1 y i ) 7

8 ML e naive bayes E la log-verosimiglianza quindi come l = = n n d log p(y i) + log p(x ij y i) j=1 n n y i log π + (1 y i) log(1 π) n d n d + x ijy i log ϕ j1 + (1 x ij)y i log(1 ϕ j1) j=1 j=1 n d n d + x ij(1 y i) log ϕ j2 + (1 x ij)(1 y i) log(1 ϕ j2) j=1 j=1 8

9 ML e naive bayes Massimizziamo la log-verosimiglianza annullando la relativa derivata. Per π questo dà n l π = n y i π 1 y i = n1 π π n2 1 π ponendo la derivata pari a 0 otteniamo quindi π = n1 = n1 n 1 + n 2 n 9

10 ML e naive bayes Per ϕ j1 abbiamo: l ϕ j1 = n d j=1 x ijy i ϕ j1 n d j=1 (1 x ij)y i = nj1 n1 nj1 1 ϕ j1 ϕ j1 1 ϕ j1 dove n jk è il numero di elementi del training set nella classe C k aventi la j-esima componente x j = 1 e n k n jk è il numero di elementi aventi la j-esima componente x j = 0. Ponendo la derivata pari a 0 otteniamo ϕ j1 = Allo stesso modo, otteniamo per ϕ j2 n j1 n j1 + (1 n j1) = nj1 n 1 ϕ j2 = nj2 n 2 10

11 ML e naive bayes Per classificare x si calcolano p(c 1 x) e p(c 2 x), assegnando x alla classe di maggiore probabilità. Dato che p(c 1 x) = p(x C1)p(C1) d = p(xi C1)p(C1) p(x) p(x) e p(c 2 x) = p(x C2)p(C2) p(x) per classificare x è sufficiente confrontare p(x i C 1)p(C 1) = π ϕ x i i1 (1 ϕi1)1 x i = n1 n d = p(xi C2)p(C2) p(x) ( ) xi ( ) ni1 1 1 xi ni1 e p(x i C 2)p(C 2) = (1 π) ϕ x i i2 (1 ϕi2)1 x i = n2 n n 1 n 1 ( ) xi ( ) ni2 1 1 xi ni2 n 2 n 2 11

12 ML e naive bayes In definitiva, è sufficiente confrontare e 1 n d n d 1 2 n x i i1 (1 ni1)1 x i n x i i2 (1 ni2)1 x i 12

13 Esempio docid termini in c = Cina? training set 1 Cinese Pechino Cinese yes 2 Cinese Cinese Shanghai yes 3 Cinese Macao yes 4 Tokyo Giappone Cinese no test set 5 Cinese Cinese Cinese Tokyo Giappone? 13

14 Esempio: stima parametri Priors: P (c) = π = 3/4 e 1 π = 1/4 Probabilità condizionate: ˆP (Cinese c) = 3/3 = 1 ˆP (Shanghai c) = ˆP (Macao c) = 1/3 ˆP (Tokyo c) = ˆP (Giappone c) = 0 ˆP (Cinese c) = 1 ˆP (Tokyo c) = ˆP (Giappone c) = 1 ˆP (Shanghai c) = ˆP (Macao c) = 0 14

15 Esempio Classificazione ˆP (c d 5) ( 1/3) (1 1/3) = 0 ˆP (c d 5) (1 0) (1 0) = 1 Classificato come non Cina Ma se avessi Cinese Cinese Cinese Tokyo Macao? 15

16 Smoothing Pericolo: valori nulli. Ad esempio, se n k1 = 0 (nel training set non compare nessun elemento di C 1 con feature x k = 1), per classificare un elemento con x k = 1 abbiamo 1 n d 1 1 n x i i1 (1 ni1)1 x i = 0 e il modello non classificherà mai tale elemento in C 1. Se al tempo stesso n k2 = 0 allora, per classificare lo stesso elemento, 1 n d 1 2 Quindi la classificazione è impossibile. n x i i2 (n2 ni2)1 x i = 0 16

17 Smoothing In generale, sia z IR k. Dato un training set z 1,..., z n, la probabilità ϕ i = p(z = i) stimata con ML risulta ϕ j = nj n dove n j è il numero di elementi z = j: se n j = 0 allora ϕ j = 0. Questo equivale ad escludere che la caratteristica z = j, non osservata nel training set, possa mai comparire. 17

18 Smoothing e classificatori binari Laplace smoothing: assegna valori non nulli a probabilità stimate pari a 0. Applicazione di smoothing: Anche in questo caso ϕ j1 = nj1 + 1 n ϕ j = nj + 1 n + k d ϕ j = 1 j=1 ϕ j2 = nj2 + 1 n π = n1 + 1 n

19 Esempio docid termini in c = Cina? training set 1 Cinese Pechino Cinese yes 2 Cinese Cinese Shanghai yes 3 Cinese Macao yes 4 Tokyo Giappone Cinese no test set 5 Cinese Cinese Cinese Tokyo Giappone? 19

20 Esempio: stima parametri Priors: P (c) = π = 3/4 e 1 π = 1/4 Probabilità condizionate: ˆP (Cinese c) = (3 + 1)/(3 + 2) = 4/5 ˆP (Shanghai c) = ˆP (Macao c) = (1 + 1)/(3 + 2) = 2/5 ˆP (Tokyo c) = ˆP (Giappone c) = (0 + 1)/(3 + 2) = 1/5 ˆP (Cinese c) = (1 + 1)/(1 + 2) = 2/3 ˆP (Tokyo c) = ˆP (Giappone c) = (1 + 1)/(1 + 2) = 2/3 ˆP (Shanghai c) = ˆP (Macao c) = (0 + 1)/(1 + 2) = 1/3 20

21 Esempio Classificazione ˆP (c d 5) 4/5 1/5 1/5 (1 2/5) (1 2/5) ˆP (c d 5) 2/3 2/3 2/3 (1 1/3) (1 1/3)

22 Esempio: estensione Consideriamo il numero di occorrenze Priors: P (c) = π = 3/4 e 1 π = 1/4 Probabilità condizionate: ˆP (Cinese c) = (5 + 1)/(8 + 6) = 6/14 = 3/7 ˆP (Tokyo c) = ˆP (Giappone c) = (0 + 1)/(8 + 6) = 1/14 ˆP (Cinese c) = (1 + 1)/(3 + 6) = 2/9 ˆP (Tokyo c) = ˆP (Giappone c) = (1 + 1)/(3 + 6) = 2/9 I denominatori sono (8 + 6) e (3 + 6) in quanto il numero di occorrenze di termini in c e c è 8 e 3, rispettivamente, e in quanto ci sono 6 termini nel vocabolario 22

23 Esempio Classificazione ˆP (c d 5) 4/5 1/5 1/5 (1 2/5) (1 2/5) ˆP (c d 5) 2/3 2/3 2/3 (1 1/3) (1 1/3)

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Metodi Bayesiani - Naive Bayes Fabio Aiolli 13 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 13 Dicembre 2017 1 / 18 Classificatore Naive Bayes Una delle tecniche più semplici

Dettagli

Computazione per l interazione naturale: classificazione probabilistica

Computazione per l interazione naturale: classificazione probabilistica Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it

Dettagli

Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri

Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri Corso di Modelli di Computazione Affettiva Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano

Dettagli

Rilevazione di messaggi spam con algoritmo Naive-Bayes

Rilevazione di messaggi spam con algoritmo Naive-Bayes Rilevazione di messaggi spam con algoritmo Naive-Bayes Luca Zanetti matricola nr. 808229 luca.zanetti2@studenti.unimi.it Sommario L individuazione di messaggi spam costituisce uno dei più noti esempi di

Dettagli

Approccio statistico alla classificazione

Approccio statistico alla classificazione Approccio statistico alla classificazione Approccio parametrico e non parametrico Finestra di Parzen Classificatori K-NN 1-NN Limitazioni dell approccio bayesiano Con l approccio bayesiano, sarebbe possibile

Dettagli

Naïve Bayesian Classification

Naïve Bayesian Classification Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo

Dettagli

Classificazione Bayesiana

Classificazione Bayesiana Classificazione Bayesiana Selezionare, dato un certo pattern x, la classe ci che ha, a posteriori, la massima probabilità rispetto al pattern: P(C=c i x)>p(c=c j x) j i Teorema di Bayes (TDB): P(A B) =

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 11 Dicembre 2017 1 / 19 Metodi Bayesiani I metodi Bayesiani forniscono tecniche computazionali

Dettagli

Analisi Discriminante Strumenti quantitativi per la gestione

Analisi Discriminante Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante

Dettagli

Computazione per l interazione naturale: classificazione probabilistica

Computazione per l interazione naturale: classificazione probabilistica Computazione per l interazione naturale: classificazione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html

Dettagli

Metodi di Geometria Algebrica per la ricostruzione statistica degli alberi filogenetici Luigi Biondi

Metodi di Geometria Algebrica per la ricostruzione statistica degli alberi filogenetici Luigi Biondi Metodi di Geometria Algebrica per la ricostruzione statistica degli alberi filogenetici Luigi Biondi 20 Luglio 2011 Specie 1: ACGTACTACTGCAGTCCTAGCTGATCGT... Specie 2: ACTGTCGATCATGCTAATCGATGCATCG... Specie

Dettagli

Computazione per l interazione naturale: fondamenti probabilistici (2)

Computazione per l interazione naturale: fondamenti probabilistici (2) Computazione per l interazione naturale: fondamenti probabilistici (2) Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Università degli Studi di Roma Tor Vergata

Università degli Studi di Roma Tor Vergata Funzioni kernel Note dal corso di Machine Learning Corso di Laurea Specialistica in Informatica a.a. 2010-2011 Prof. Giorgio Gambosi Università degli Studi di Roma Tor Vergata 2 Queste note derivano da

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html

Dettagli

Teoria delle Decisioni Bayesiana

Teoria delle Decisioni Bayesiana Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 14 gennaio 2009 Sommario Introduzione Teoria delle decisioni Bayesiana - nel continuo Classificazione

Dettagli

Analisi Discriminante. Strumenti quantitativi per la gestione

Analisi Discriminante. Strumenti quantitativi per la gestione Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/classes/4-2_ad.html#(33) 1/39 AD Tecnica di classificazione che sfrutta combinazioni

Dettagli

CP210 Introduzione alla Probabilità: Esame 2

CP210 Introduzione alla Probabilità: Esame 2 Dipartimento di Matematica, Roma Tre Pietro Caputo 2018-19, II semestre 9 luglio, 2019 CP210 Introduzione alla Probabilità: Esame 2 Cognome Nome Matricola Firma Nota: 1. L unica cosa che si può usare durante

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Pivoting e stabilità Se la matrice A non appartiene a nessuna delle categorie precedenti può accadere che al k esimo passo risulti a (k) k,k = 0, e quindi il

Dettagli

Cenni di apprendimento in Reti Bayesiane

Cenni di apprendimento in Reti Bayesiane Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono

Dettagli

Rischio statistico e sua analisi

Rischio statistico e sua analisi F94 Metodi statistici per l apprendimento Rischio statistico e sua analisi Docente: Nicolò Cesa-Bianchi versione 7 aprile 018 Per analizzare un algoritmo di apprendimento dobbiamo costruire un modello

Dettagli

5. Analisi dei dati di output

5. Analisi dei dati di output Anno accademico 2008/09 Analisi dei dati di Output Y 1, Y 2,..., Y m : output della simulazione. Le variabili casuali Y 1, Y 2,..., Y m non sono in generale indipendenti Se supponiamo però di avere effettuato

Dettagli

II Appello di Calcolo delle Probabilità Laurea Triennale in Matematica 2016/17

II Appello di Calcolo delle Probabilità Laurea Triennale in Matematica 2016/17 II Appello di Calcolo delle Probabilità Laurea Triennale in Matematica 6/7 Martedì 4 febbraio 7 Cognome: Nome: Email: Se non è espressamente indicato il contrario, per la soluzione degli esercizi è possibile

Dettagli

Minimi quadrati e massima verosimiglianza

Minimi quadrati e massima verosimiglianza Minimi quadrati e massima verosimiglianza 1 Introduzione Nella scorsa lezione abbiamo assunto che la forma delle probilità sottostanti al problema fosse nota e abbiamo usato gli esempi per stimare i parametri

Dettagli

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi

Stima dei Parametri. Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica Università degli Studi di Bari 20 gennaio 2009 Sommario Introduzione Stima dei parametri di massima verosimiglianza Stima dei

Dettagli

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c.

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c. Stima dei parametri Sia il carattere X rappresentato da una variabile casuale (v.c.) che si distribuisce secondo la funzione di probabilità f(x). Per investigare su tale carattere si estrae un campione

Dettagli

Classificatori Bayesiani. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Classificatori Bayesiani. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna lassificatori Bayesiani rof. Matteo Golfarelli lma Mater Studiorum - Università di Bologna lassificatori Bayesiani Rappresentano un approccio probabilistico per risolvere problemi di classificazione In

Dettagli

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale

Dettagli

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html

Dettagli

Computazione per l interazione naturale: classificazione supervisionata

Computazione per l interazione naturale: classificazione supervisionata Computazione per l interazione naturale: classificazione supervisionata Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Teoria della decisione di Bayes Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario

Dettagli

Introduzione alle Reti Bayesiane

Introduzione alle Reti Bayesiane Introduzione alle Reti Bayesiane Giovedì, 18 Novembre 2004 Francesco Folino Riferimenti: Chapter 6, Mitchell A Tutorial on Learning with Bayesian Networks, Heckerman Bayesian Network Perchè ci interessano?

Dettagli

Elementi di Probabilità e Statistica - 052AA - A.A

Elementi di Probabilità e Statistica - 052AA - A.A Elementi di Probabilità e Statistica - 05AA - A.A. 014-015 Prima prova di verifica intermedia - 9 aprile 015 Problema 1. Dati due eventi A, B, su uno spazio probabilizzato (Ω, F, P), diciamo che A è in

Dettagli

Computazione per l interazione naturale: fondamenti probabilistici (2)

Computazione per l interazione naturale: fondamenti probabilistici (2) Computazione per l interazione naturale: fondamenti probabilistici (2) Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@di.unimi.it

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html

Dettagli

Machine Learning GIORGIO GAMBOSI UNIVERSITÀ DI ROMA TOR VERGATA

Machine Learning GIORGIO GAMBOSI UNIVERSITÀ DI ROMA TOR VERGATA 1 Machine Learning GIORGIO GAMBOSI UNIVERSITÀ DI ROMA TOR VERGATA Che cos è? 2! Programmazione di computer in modo tale da fornire risultati sulla base dell esame di dati o di esperienza passata! Le azioni

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Stima Puntuale Prof. Livia De Giovanni statistica@dis.uniroma.it Esercizio In ciascuno dei casi seguenti determinare quale tra i due stimatori S e T per il parametro θ è distorto

Dettagli

Esercitazione del 29 aprile 2014

Esercitazione del 29 aprile 2014 Esercitazione del 9 aprile 014 Esercizio 10.13 pg. 94 Complemento: Calcolare la probabilità che un negozio apra tra le sette e venti e le nove e quaranta del mattino. Soluzione: Siccome non è nota la distribuzione

Dettagli

5. Analisi dei dati di output

5. Analisi dei dati di output Anno accademico 2006/07 Analisi dei dati di Output Y 1, Y 2,..., Y m : output della simulazione. Le variabili casuali Y 1, Y 2,..., Y m non sono in generale indipendenti Se supponiamo però di avere effettuato

Dettagli

UNIVERSITÀ di ROMA TOR VERGATA

UNIVERSITÀ di ROMA TOR VERGATA UNIVERSITÀ di ROMA TOR VERGATA Corso di Laurea Magistrale in Scienze della Nutrizione Umana Corso di Statistica Medica, anno 05-6 P.Baldi Lista di esercizi, 8 gennaio 06. Esercizio Si sa che in una schedina

Dettagli

Stima dei parametri. I parametri di una pdf sono costanti che caratterizzano la sua forma. r.v. parameter. Assumiamo di avere un campione di valori

Stima dei parametri. I parametri di una pdf sono costanti che caratterizzano la sua forma. r.v. parameter. Assumiamo di avere un campione di valori Stima dei parametri I parametri di una pdf sono costanti che caratterizzano la sua forma r.v. parameter Assumiamo di avere un campione di valori Vogliamo una funzione dei dati che permette di stimare i

Dettagli

Regressione Lineare e Regressione Logistica

Regressione Lineare e Regressione Logistica Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: stefano.gualandi@unipv.it @famo2spaghi http://stegua.github.com 1 Introduzione

Dettagli

Calcolo delle Probabilità e Statistica. Test di verifica - 05/04/2005

Calcolo delle Probabilità e Statistica. Test di verifica - 05/04/2005 Corso di Laurea in Informatica - a.a. 2004/05 Calcolo delle Probabilità e Statistica Test di verifica - 05/04/2005 Il candidato risolva due (e solo due) problemi tra i seguenti, motivando le proprie risposte.

Dettagli

1 L analisi discriminante lineare

1 L analisi discriminante lineare 1 L analisi discriminante lineare L analisi discriminante lineare presuppone che p variabili (quantitative) Y 1,... Y p siano state misurate su osservazioni appartenenti a 2 o più gruppi: G 1,...,G k,

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Analisi della disponibilità d acqua. Valutazione dell impianto attraverso il calcolo di un indice economico (criterio)

Analisi della disponibilità d acqua. Valutazione dell impianto attraverso il calcolo di un indice economico (criterio) Analisi della disponibilità d acqua Valutazione dell impianto attraverso il calcolo di un indice economico (criterio) Approccio diverso a seconda del criterio di valutazione Nel caso di criterio statistico

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Classificazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sistema di classificazione

Dettagli

Fin qui si sono considerate le variabili casuali ciascuna per proprio conto. Ora consideriamo la possibilità di relazioni tra variabili.

Fin qui si sono considerate le variabili casuali ciascuna per proprio conto. Ora consideriamo la possibilità di relazioni tra variabili. Sistemi di variabili casuali Fin qui si sono considerate le variabili casuali ciascuna per proprio conto. Ora consideriamo la possibilità di relazioni tra variabili. Esempi: - il massimo annuale della

Dettagli

Secondo scritto. 8 luglio 2010

Secondo scritto. 8 luglio 2010 Secondo scritto 8 luglio 010 1 Parte 1 Esercizio 1.1. Facciamo riferimento alle pagine e 3 del libro di testo. Quando si ha a che fare con la moltiplicazione o la divisione di misure bisogna fare attenzione,

Dettagli

Regressione. Apprendimento supervisionato //Regressione. Corso di Sistemi di Elaborazione dell Informazione

Regressione. Apprendimento supervisionato //Regressione. Corso di Sistemi di Elaborazione dell Informazione Regressione SCUOLA DI SPECIALIZZAZIONE IN FISICA MEDICA Corso di Sistemi di Elaborazione dell Informazione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it

Dettagli

Modelli Log-lineari Bivariati

Modelli Log-lineari Bivariati Modelli Log-lineari Bivariati Luca Stefanutti Università di Padova Dipartimento di Psicologia Applicata Via Venezia 8, 35131 Padova L.Stefanutti (Università di Padova) Modelli Log-lineari 1 / 71 Contenuti

Dettagli

CP110 Probabilità: Esame 13 settembre Testo e soluzione

CP110 Probabilità: Esame 13 settembre Testo e soluzione Dipartimento di Matematica, Roma Tre Pietro Caputo 2011-12, II semestre 13 settembre, 2012 CP110 Probabilità: Esame 13 settembre 2012 Testo e soluzione 1. (6 pts) Una scatola contiene 10 palline, 8 bianche

Dettagli

Richiami di probabilità. Decision Theory e Utilità. Richiami di probabilità. assumere certi valori in un insieme x 1, x 2, x n (dominio)

Richiami di probabilità. Decision Theory e Utilità. Richiami di probabilità. assumere certi valori in un insieme x 1, x 2, x n (dominio) 9 lezione Scaletta argomenti: Probabilità Richiami di probabilità Reti Bayesiane Decision Theory e Utilità 1 Richiami di probabilità - La formalizzazione deriva da Boole - Concetto di VARIABILE CASUALE

Dettagli

Esercizi di Calcolo delle Probabilità

Esercizi di Calcolo delle Probabilità Esercizi di Calcolo delle Probabilità Versione del 1/05/005 Corso di Statistica Anno Accademico 00/05 Antonio Giannitrapani, Simone Paoletti Calcolo delle probabilità Esercizio 1. Un dado viene lanciato

Dettagli

Apprendimento Bayesiano

Apprendimento Bayesiano Apprendimento Automatico 232 Apprendimento Bayesiano [Capitolo 6, Mitchell] Teorema di Bayes Ipotesi MAP e ML algoritmi di apprendimento MAP Principio MDL (Minimum description length) Classificatore Ottimo

Dettagli

Scrivere su ogni foglio NOME e COGNOME. Le risposte devono essere giustificate sui fogli protocollo e riportate nel foglio RISPOSTE.

Scrivere su ogni foglio NOME e COGNOME. Le risposte devono essere giustificate sui fogli protocollo e riportate nel foglio RISPOSTE. Corso di Laurea Triennale in Matematica Corso di Calcolo delle Probabilità (docenti G. Nappo, F. Spizzichino prova scritta giugno 5 (tempo a disposizione: ore La prova scritta consiste nello svolgimento

Dettagli

Corso Avanzato di Statistica

Corso Avanzato di Statistica Corso Avanzato di Statistica Test chi-quadrato per la verifica dell indipendenza Posa D, De Iaco S posa@economiaunileit sdeiaco@economiaunileit UNIVERSITÀ del SALENTO DIPTO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE

Dettagli

Classificazione introduzione

Classificazione introduzione - Classificazione introduzione Vittorio Maniezzo Università di Bologna 1 Ringraziamenti Questi lucidi derivano anche da adattamenti personali di materiale prodotto (fornitomi o reso scaricabile) da: A.

Dettagli

CP210 Introduzione alla Probabilità: Esonero 2

CP210 Introduzione alla Probabilità: Esonero 2 Dipartimento di Matematica, Roma Tre Pietro Caputo 218-19, II semestre 4 giugno, 219 CP21 Introduzione alla Probabilità: Esonero 2 Cognome Nome Matricola Firma Nota: 1. L unica cosa che si può usare durante

Dettagli

PROBABILITÀ I. a.a. 2011/2012 DIARIO DELLE LEZIONI

PROBABILITÀ I. a.a. 2011/2012 DIARIO DELLE LEZIONI PROBABILITÀ I. a.a. 2011/2012 DIARIO DELLE LEZIONI Settimana 5-9 marzo. Elementi di analisi combinatoria (vedasi capitolo I del Ross). Integrazioni: triangolo di Tartaglia, dimostrazione diretta della

Dettagli

Verifica parte IV. Rif. Ghezzi et al

Verifica parte IV. Rif. Ghezzi et al Verifica parte IV Rif. Ghezzi et al. 6.8-6.9 Debugging Individuazione e correzione degli errori Conseguente a un fallimento Attività non banale: Quale errore ha causato il fallimento? Come correggere l

Dettagli

La Decisione Statistica Campione aleatorio: risultato dell osservazione di un fenomeno soggetto a fluttuazioni casuali.

La Decisione Statistica Campione aleatorio: risultato dell osservazione di un fenomeno soggetto a fluttuazioni casuali. La Decisione Statistica Campione aleatorio: risultato dell osservazione di un fenomeno soggetto a fluttuazioni casuali. Analisi del campione: - descrizione sintetica (statistica descrittiva) - deduzione

Dettagli

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione: si

Dettagli

Apprendimento statistico (Statistical Learning)

Apprendimento statistico (Statistical Learning) Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x

Dettagli

UNIVERSITÀ di ROMA TOR VERGATA

UNIVERSITÀ di ROMA TOR VERGATA UNIVERSITÀ di ROMA TOR VERGATA Corso di Statistica, anno 00- P.Baldi Lista di esercizi. Corso di Laurea in Biotecnologie Esercizio Si sa che in una schedina del totocalcio i tre simboli, X, compaiono con

Dettagli

Basi matematiche per il Machine Learning

Basi matematiche per il Machine Learning Basi matematiche per il Machine Learning Corso di AA, anno 2017/18, Padova Fabio Aiolli 04 Ottobre 2017 Fabio Aiolli Basi matematiche per il Machine Learning 04 Ottobre 2017 1 / 14 Probabilità Un esperimento

Dettagli

costruzione di un modello a partire dai dati Quale modello potrebbe essere utilizzato per riprodurre dei dati simili a questi?

costruzione di un modello a partire dai dati Quale modello potrebbe essere utilizzato per riprodurre dei dati simili a questi? Inferenza statistica costruzione di un modello a partire dai dati segnale analogico in microvolt: 222 190 193 201 187 203 214 199 187 194 218 218 215 190 203 192 197 224 194 207 188 205 191 221 170 231

Dettagli

Computazione per l interazione naturale: Regressione lineare

Computazione per l interazione naturale: Regressione lineare Computazione per l interazione naturale: Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it http://homes.dsi.unimi.it/~boccignone/l

Dettagli

Ragionamento Bayesiano Esercizi

Ragionamento Bayesiano Esercizi Ragionamento Bayesiano Eserizi Classifiatore Naïve Bayes: rihiami (redits:. Velardi-uniroma1 Si applia quando le ipotesi in H sono rappresentabili mediante una ongiunzione di valori di attributi e la lassifiazione

Dettagli

a 11 a 12 a 1n a 21 a 22 a 2n a m1 a m2 a mn mentre le variabili decisionali sono rappresentate dal vettore colonna n-dimensionale x,

a 11 a 12 a 1n a 21 a 22 a 2n a m1 a m2 a mn mentre le variabili decisionali sono rappresentate dal vettore colonna n-dimensionale x, Università degli Studi di Roma Tor Vergata Facoltà di Ingegneria Appunti dal corso di Metodi e Modelli di Ottimizzazione Discreta 1 A.A. 2018-2019 Prof. Sara Nicoloso A seconda del tipo di variabili che

Dettagli

8 Derivati dell entropia

8 Derivati dell entropia (F1X) Teoria dell Informazione e della Trasmissione 8 Derivati dell entropia Docente: Nicolò Cesa-Bianchi versione 23 marzo 2016 Siano X e Y due variabili casuali con valori in insiemi finiti X e Y. Detta

Dettagli

Apprendimento statistico (Statistical Learning)

Apprendimento statistico (Statistical Learning) Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x

Dettagli

I Sessione I Prova Scritta o Recupero Esonero di Probabilità e Statistica a.a. 2012/ Giugno 2013

I Sessione I Prova Scritta o Recupero Esonero di Probabilità e Statistica a.a. 2012/ Giugno 2013 I Sessione I Prova Scritta o Recupero Esonero di Probabilità e Statistica a.a. / 9 Giugno Recupero I esonero o prova scritta di Probabilità da 5 cfu o di Probabilità e Statistica da cfu: esercizio ; esercizio

Dettagli

LEZIONE 12. v = α 1 v α n v n =

LEZIONE 12. v = α 1 v α n v n = LEZIONE 12 12.1. Combinazioni lineari. Definizione 12.1.1. Sia V uno spazio vettoriale su k = R, C e v 1,..., v n V vettori fissati. Un vettore v V si dice combinazione lineare di v 1,..., v n se esistono

Dettagli

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Dettagli

10 Proprietà di Equipartizione Asintotica

10 Proprietà di Equipartizione Asintotica FX Teoria dell Informazione e della Trasmissione 0 Proprietà di Equipartizione Asintotica Docente: Nicolò Cesa-Bianchi versione 6 aprile 206 Come nel caso della codifica sorgente, anche nel caso della

Dettagli

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le

Dettagli

Matematica e Statistica per Scienze Ambientali

Matematica e Statistica per Scienze Ambientali per Scienze Ambientali Variabili aleatorie - Appunti 1 1 Dipartimento di Matematica Sapienza, Università di Roma Roma, Gennaio 2013 Variabili aleatorie Un numero aleatorio è un esempio di variabile aleatoria.

Dettagli

Modelli a effetti misti

Modelli a effetti misti Probabilità e Statistica per l analisi di dati sperimentali Modelli a effetti misti Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN

Dettagli

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Pivoting e stabilità Se la matrice A non appartiene a nessuna delle categorie precedenti può accadere che al k esimo passo risulti a (k) k,k = 0, e quindi il

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

lezione 4 AA Paolo Brunori

lezione 4 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente

Dettagli

c) Ancora in corrispondenza allo stesso valore di p e ponendo Y = minorazione, fornita dalla diseguaglianza di Chebichev, per la probabilita

c) Ancora in corrispondenza allo stesso valore di p e ponendo Y = minorazione, fornita dalla diseguaglianza di Chebichev, per la probabilita Laurea Triennale in Matematica Corso di Calcolo delle Probabilita I A.A. 00/00 (Docenti: M. Piccioni, F. Spizzichino) a prova di esonero 6 giugno 00 Risolvere almeno tre dei seguenti esercizi.. Indichiamo

Dettagli

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2016/17 - Prima prova in itinere

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2016/17 - Prima prova in itinere Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (69AA) A.A. 016/17 - Prima prova in itinere 017-01-13 La durata della prova è di tre ore. Le risposte devono essere adeguatamente giustificate.

Dettagli

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo

Dettagli

Metodi di classificazione

Metodi di classificazione I metodi di classificazione sono metodi utilizzati per trovare modelli statistici capaci di assegnare ciascun oggetto di provenienza incognita ad una delle classi esistenti. L applicazione di questi metodi

Dettagli

4. Stime & Test. Corso di Simulazione. Anno accademico 2008/09

4. Stime & Test. Corso di Simulazione. Anno accademico 2008/09 Anno accademico 2008/09 Media campionaria X 1, X 2,..., X n v.c. indipendenti con distribuzione F, e: E[X i ] = µ Var[X i ] = σ 2, i = 1,..., n Media campionaria: X n è uno stimatore di µ. È uno stimatore

Dettagli

E (X 2 ) = E (G) + E (E 2 ) = 1, V ar (X 2 ) = V ar (G) + V ar (E 2 ) = 5, Cov(X 1, X 2 ) = Cov(G + E 1, G + E 2 ) = V ar (G) = 4,

E (X 2 ) = E (G) + E (E 2 ) = 1, V ar (X 2 ) = V ar (G) + V ar (E 2 ) = 5, Cov(X 1, X 2 ) = Cov(G + E 1, G + E 2 ) = V ar (G) = 4, Laurea Triennale in Matematica, Università La Sapienza Corso di Probabilità, AA 04/05 Prova di Esonero Maggio 05 degli esercizi proposti Siano G, E, E tre variabili aleatorie gaussiane indipendenti, rispettivamente

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Teoria e applicazioni industriali Parte 3 Costruzione di un classificatore Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Esercitazione del 03/06/2014 Probabilità e Statistica

Esercitazione del 03/06/2014 Probabilità e Statistica Esercitazione del 03/06/2014 Probabilità e Statistica David Barbato Esercizio 1. Sia (X i ) i N una successione di variabili aleatorie i.i.d. con distribuzione geometrica di parametro p = 1 2. Sia Y i

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/google%20drive/2%20corsi/3%20sqg/classes/4a_rlg.html#(22) 1/28 Metodi di classificazione I

Dettagli

ASSEGNAZIONE STOCASTICA. SU RETI NON CONGESTIONATE SNL (Stochastic Network Loading)

ASSEGNAZIONE STOCASTICA. SU RETI NON CONGESTIONATE SNL (Stochastic Network Loading) ASSEGNAZIONE STOCASTICA SU RETI NON CONGESTIONATE SNL Stochastic Network Loading algoritmo di DIAL Ipotesi: 1. La scelta del percorso è basata sul modello LOGIT 2. Si considerano solamente percorsi efficienti

Dettagli

Computazione per l interazione naturale: Regressione lineare Bayesiana

Computazione per l interazione naturale: Regressione lineare Bayesiana Computazione per l interazione naturale: Bayesiana Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@di.unimi.it

Dettagli

Constraint Satisfaction Problems

Constraint Satisfaction Problems Constraint Satisfaction Problems Corso di Intelligenza Artificiale, a.a. 2017-2018 Prof. Francesco Trovò 19/03/2018 Constraint Satisfaction problem Fino ad ora ogni stato è stato modellizzato come una

Dettagli

Corso di Laurea in Ingegneria Robotica e dell Automazione Probabilità e Processi Stocastici (455AA) A.A. 2018/19 - Prova in itinere

Corso di Laurea in Ingegneria Robotica e dell Automazione Probabilità e Processi Stocastici (455AA) A.A. 2018/19 - Prova in itinere Corso di Laurea in Ingegneria Robotica e dell Automazione Probabilità e Processi Stocastici (455AA) A.A. 208/9 - Prova in itinere 208--2 La durata della prova è di due ore e mezzo. Le risposte devono essere

Dettagli