Tecniche di riconoscimento statistico
|
|
|
- Rosa Geraldina Barone
- 9 anni fa
- Visualizzazioni
Transcript
1 On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 2 Teoria della decisione Ennio Ottaviani On AIR srl [email protected] A.A Ennio Ottaviani
2 Impostazione del problema decisionale Consideriamo un problema con C classi ω 1... ω C e siano α 1... α C le corrispondenti decisioni su un oggetto (pattern) incognito X Supponiamo note le probabilità a priori P(ω j ) delle singole classi e le funzioni di costo λ(α i,ω j ), cioè quanto costa decidere per la classe i quando la classe vera è la j L oggetto X è descritto da un vettore di features ad N componenti, distribuite in base ad una certa distribuzione di probabilità condizionata alla classe di appartenenza p(x ω j ) Supponiamo che queste probabilità condizionate (dette anche verosimiglianze) siano note o comunque stimabili sulla base di un training set
3 Principio MAP Da un punto di vista puramente probabilistico, dato un pattern X, la decisione ottimale αj sarà quella che lo associa alla massima probabilità a posteriori p(ω j X) La probabilità a posteriori p(ω j X) si calcola con il teorema di Bayes Le probabilità a posteriori è il prodotto (normalizzato) della probabilità a priori e della verosimiglianza Il principio MAP minimizza di fatto la probabilità di sbagliare (fatto dimostrabile se si assumono note tutte le d.d.p)
4 Esempio C= 2, P(1)=2/3, P(2)=1/3
5 Osservazioni Se le probabilità a priori sono uguali (classi equiprobabili), conta solo la verosimiglianza. Questo accade anche quando non sono note e neppure stimabili (assenza di informazioni a priori) Se le probabilità a posteriori sono uguali (per almeno 2 classi), significa che X non fornisce informazioni sufficienti per decidere in modo univoco Il termine di normalizzazione non ha alcun impatto sulla decisione e non viene quindi mai considerato La regola di decisione induce nel feature space un insieme di regioni di decisione
6 Errore bayesiano La probabilità di errore può essere scritta come
7 Errore bayesiano Applicando il principio MAP, per ogni x viene scelta la classe che massimizza in modo da minimizzare p(error) Ne segue che la minima probabilità di errore (errore bayesiano) vale Se le distribuzioni di probabilità sono note, si potrebbe quindi calcolare il limite inferiore ottenibile per l errore di classificazione (ma è un calcolo proibitivo) Esistono tecniche matematiche efficienti per ottenere buone stime del vero errore bayesiano
8 Caso binario Nel caso binario si possono fare due tipi di errore L errore bayesiano è una media pesata dei due Nel linguaggio tecnico, si intende di solito la classe 1 come classe di segnale e la classe 2 come classe di rumore. Le relative probabilità vengono allora dette probabilità di mancata detezione probabilità di falso allarme I due tassi di errore vengono rappresentati nella curva ROC
9 Caso binario La curva ROC rappresenta tutte le possibili coppie di errori per un dato classificatore (punti di lavoro). Dipende solo dalle d.d.p. Oltre al caso bayesiano sono quindi possibili altre strategie (es. falso allarme costante, CFAR)
10 Caso binario Nella pratica, gli errori vengono valutati tramite la matrice di confusione Stima-verità Positivo Negativo Positivo VP FP Negativo FN VN Valutazioni sintetiche si ottengono tramite i rapporti Sensitività = VP / (VP+FN) quanti casi P sono stati identificati correttamente Predittività = VP / (VP+FP) quanti casi identificati come P lo sono davvero Specificità = VN / (VN+FP) quanti casi N sono stati identificati correttamente Diversi domini applicativi usano diverse terminologie, per cui è facile fare confusione
11 Funzioni di rischio In presenza di costi di classificazione, la decisione ottima non può basarsi solo sul principio MAP ma deve tenere conto anche del costo degli errori Si deve scegliere la decisione αi che minimizza il rischio condizionale R(α i X) Se i costi sono tutti noti, il criterio del minimo rischio è una ovvia conseguenza del calcolo bayesiano delle probabilità a posteriori per tutte le classi
12 Funzioni di rischio Se C=2, ci sono 4 costi λ da considerare e due quantità R La condizione di minimo rischio diventa allora Ricordando il teorema di Bayes si può riscrivere ancora come Questo test è detto Likelyhood Ratio Test (LRT)
13 Classificazione con scarto Nella pratica sono a volte possibili casi in cui anche la decisione ottimale produce una probabilità di errore (o un costo) inaccettabile Si ammette quindi la possibilità di scarto (o rigetto), cioè di decidere di non decidere. Se il costo dello scarto è inferiore al costo di un errore, la cosa può essere vantaggiosa
14 Funzioni discriminanti Un modo efficace di rappresentare un classificatore a C classi è tramite le funzioni discriminanti g i (X) i=1...c Un pattern X è assegnato alla classe ω i se g i (X) > g j (X) j i Per il classificatore bayesiano g i (X)=p(X ω i )P(ω i ), ma la scelta non è unica. In generale ogni funzione monotona di P(ω i X) va bene (es. logaritmo) Date le g i le regioni di decisione e le frontiere sono date da.
15 Distribuzioni gaussiane La teoria delle decisioni risulta particolarmente semplificata quando le distribuzioni di probabilità coinvolte sono di tipo gaussiano La distribuzione gaussiana è una ipotesi appropriata per p(x ω i ) quando i vettori X generati possono essere pensati come una versione rumorosa di un unico prototipo µi Vettore medio Matrice di covarianza
16 Proprietà della covarianza E una matrice simmetrica per costruzione Gli elementi diagonali sono le varianze delle componenti di X Gli elementi extradiagonali sono tale per cui Se due componenti i e j sono indipendenti allora
17 Distribuzione dei dati I vettori estratti da una distribuzione gaussiana tendono a concentrasi in una nuvola Il centro della nuvola è il vettore medio, mentre la forma della nuvola è determinata dalla matrice di covarianza I vettori equiprobabili appartengono a curve su cui è costante la quantità Essa è detta distanza di Mahalanobis
18 Classificatore quadratico Nel caso gaussiano, la forma più conveniente per le funzioni discriminanti è In termini di medie e covarianze, esse assumono la forma Le funzioni discriminanti sono quindi di tipo quadratico Il classificatore quadratico risulta quindi ottimale ogni volta che si può assumere che i dati siano distribuiti in modo gaussiano Medie e covarianza vengono di norma valutate tramite apprendimento statistico
19 Classificatore lineare Spesso si può assumere che la matrice di covarianza Σ sia unica, cioè non dipenda dalla classe. Omettendo i termini costanti si ha Sviluppando il termine quadratico e tralasciando le costanti si ha Le funzioni discriminanti diventano semplici funzioni lineari di X (iperpiani). Questa è in assoluto la forma più semplice, ed anche la più usata, di funzione discriminante
20 Naive Bayes Un approccio intermedio tra quadratico completo e lineare è il classificatore bayesiano naive Si assume che le matrici di covarianza delle classi siano tutte diagonali, cioè si ignorano le correlazioni tra i dati L approccio, per quanto semplice, fornisce spesso buoni risultati. Questo perché la decisione corretta si può spesso ottenere anche se le probabilità sono modellate in modo grezzo. Dal punto di vista geometrico equivale ad usare una distanza euclidea pesata al posto della distanza di Mahalanobis
21 Classificatore regolarizzato Il classificatore quadratico può essere di difficile addestramento per campioni squilibrati e/o poco popolati. Per tenere comunque conto delle correlazioni, si introduce un primo termine di regolarizzazione in base alla covarianza totale Sw Un secondo termine di regolarizzazione modifica le singole covarianze rinforzando le componenti diagonali Giocando su λ e γ si ottengono comportamenti intermedi tra quadratico, lineare e naive bayes
22 Misture gaussiane L approccio bayesiano si generalizza facilmente a combinazioni convesse di probabilità generiche, del tipo Il caso più comune è la mistura gaussiana (GMM). Ma mentre con g=1 è facile ottenere stime dei parametri (media e covarianza), con g>1 non esiste una soluzione diretta Esiste però un algoritmo iterativo (Expectation-Maximization, EM) che a g fissato, data una partizione dei dati in g componenti, determina media e covarianza di ogni componente
23 Misture gaussiane L algoritmo EM pò essere descritto sinteticamente con una sequenza di passi, basati sulla stima di una matrice wij che misura la probabilità di appartenenza del i-esimo dato alla j-esima componente della mistura Inizializzazione: si assegna un valore iniziale ai parametri della mistura, ad esempio partizionando i dati e calcolando media e covarianza di ogni partizione Passo E: si stima wij applicando
24 Misture gaussiane Passo M: Si aggiornano i parametri delle componenti gaussiane con Si iterano i passi E-M fino al raggiungimento di una condizione di stabilità della soluzione (massimo locale della likelyhood) La convergenza di EM è però molto lenta, ed il risultato dipende criticamente dalla scelta iniziale
25 Misture gaussiane L uso di GMM presenta però diverse criticità pratiche: E difficile decidere a priori il numero di componenti della mistura, e si deve procedere per tentativi Durante EM, alcune componenti possono degenerare, se la loro varianza tende a zero Non è possibile definire per le misture una distanza analoga a quella di Mahalanobis Il passo E tende ad essere computazionalmente instabile (elevato rischio di underflow)
Riconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
Distribuzioni di Probabilità
Distribuzioni di Probabilità Distribuzioni discrete Distribuzione uniforme discreta Distribuzione di Poisson Distribuzioni continue Distribuzione Uniforme Distribuzione Gamma Distribuzione Esponenziale
Cenni di apprendimento in Reti Bayesiane
Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE
Naïve Bayesian Classification
Naïve Bayesian Classification Di Alessandro rezzani Sommario Naïve Bayesian Classification (o classificazione Bayesiana)... 1 L algoritmo... 2 Naive Bayes in R... 5 Esempio 1... 5 Esempio 2... 5 L algoritmo
Analisi Discriminante Strumenti quantitativi per la gestione
Analisi Discriminante Strumenti quantitativi per la gestione Emanuele Taufer Un esempio introduttivo Approccio con Bayes Perchè un altro metodo di classificazione? Classificazione con Bayes Analisi discriminante
Teorema del limite centrale TCL
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazione lineare di N variabili aleatorie le cui funzioni
Algoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
STIMA DELLA VARIANZA CAMPIONARIA
STIMA DELLA VARIANZA CAMPIONARIA Abbiamo visto che una stima puntuale corretta per il valore atteso µ delle variabili aleatorie X i è x n = (x 1 +.. + x n )/n. Una stima puntuale della varianza σ 2 delle
Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri
Modelli Probabilistici per la Computazione Affettiva: Learning/Inferenza parametri Corso di Modelli di Computazione Affettiva Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano
Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A
Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime
Introduzione alla probabilità
Introduzione alla probabilità Osservazione e studio dei fenomeni naturali: a. Caso deterministico: l osservazione fornisce sempre lo stesso risultato. b. Caso stocastico o aleatorio: l osservazione fornisce
Approccio statistico alla classificazione
Approccio statistico alla classificazione Approccio parametrico e non parametrico Finestra di Parzen Classificatori K-NN 1-NN Limitazioni dell approccio bayesiano Con l approccio bayesiano, sarebbe possibile
Esercizi di riepilogo Lezioni
Esercizi di riepilogo Lezioni 16-17-18 1 Es1: Statistiche del secondo ordine [Pap, 9-2] Si ha un processo X con Determinare media, varianza, e covarianza delle v.a. Z=X(5) e W=X(8) Il processo X è stazionario?
LA DISTRIBUZIONE NORMALE o DI GAUSS
p. 1/2 LA DISTRIBUZIONE NORMALE o DI GAUSS Osservando gli istogrammi delle misure e degli scarti, nel caso di osservazioni ripetute in identiche condizioni Gli istogrammi sono campanulari e simmetrici,
PROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
Distribuzioni campionarie. Antonello Maruotti
Distribuzioni campionarie Antonello Maruotti Outline 1 Introduzione 2 Concetti base Si riprendano le considerazioni fatte nella parte di statistica descrittiva. Si vuole studiare una popolazione con riferimento
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo
Statistica 2 Esercitazioni Dott. L 1 1 Dipartimento di Scienze Statistiche e Matematiche S. Vianelli, Università di Palermo ricevimento: lunedì ore 15-17 mercoledì ore 15-17 e-mail: [email protected]
Classificazione Bayesiana
Classificazione Bayesiana Selezionare, dato un certo pattern x, la classe ci che ha, a posteriori, la massima probabilità rispetto al pattern: P(C=c i x)>p(c=c j x) j i Teorema di Bayes (TDB): P(A B) =
Generazione di Numeri Casuali- Parte 2
Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali
1 PROCESSI STOCASTICI... 11
1 PROCESSI STOCASTICI... 11 Introduzione... 11 Rappresentazione dei dati biomedici... 11 Aleatorietà delle misure temporali... 14 Medie definite sul processo aleatorio... 16 Valore atteso... 16 Esercitazione
Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003
Compito di Statistica del 7/1/2003 I giovani addetti all agricoltura in due diverse regioni sono stati classificati per età; la distribuzione di frequenze congiunta è data dalla tabella seguente Età in
1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
8a. Teorema di Bayes, rapporto di verosimiglianza (likelihood ratio, LR) e odds
8a. Teorema di Bayes, rapporto di verosimiglianza (likelihood ratio, LR) e odds Se partiamo dalla forma classica (5.13) del teorema di Bayes che possiamo anche riscrivere come e se consideriamo il rapporto
Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva
Probabilità classica Distribuzioni e leggi di probabilità La probabilità di un evento casuale è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili, purchè siano tutti equiprobabili.
Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson
Levine, Krehbiel, Berenson Statistica Capitolo 7 Distribuzioni campionarie Insegnamento: Statistica Applicata Corsi di Laurea in "Scienze e tecnologie Alimentari" Unità Integrata Organizzativa Agraria,
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion
Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazione lineare di N variabili aleatorie le cui funzioni
Online Gradient Descent
F94 Metodi statistici per l apprendimento Online Gradient Descent Docente: Nicolò Cesa-Bianchi versione 9 aprile 06 L analisi del Perceptrone ha rivelato come sia possibile ottenere dei maggioranti sul
La regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
Il metodo delle osservazioni indirette
Il metodo delle osservazioni indirette Teoria della stima ai minimi quadrati Il criterio di massima verosimiglianza Sia data una grandezza η e si abbiano n osservazioni indipendenti l i (i=1,...,n) di
Campionamento La statistica media campionaria e la sua distribuzione
Campionamento La statistica media campionaria e la sua distribuzione 1 Definisco il problema da studiare: es. tempo di percorrenza tra abitazione e università Carattere: tempo ossia v.s. continua Popolazione:
Statistica Metodologica Avanzato Test 1: Concetti base di inferenza
Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con
Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
Luigi Santoro. Hyperphar Group S.p.A., MIlano
Come modellare il rischio Luigi Santoro Hyperphar Group S.p.A., MIlano Gli argomenti discussi Le definizioni del termine rischio L utilità di un modello predittivo di rischio Come costruire modelli predittivi
Concetti principale della lezione precedente
Corso di Statistica medica e applicata 9 a Lezione Dott.ssa Donatella Cocca Concetti principale della lezione precedente I concetti principali che sono stati presentati sono: Variabili su scala nominale
TEORIA DELL INFORMAZIONE ED ENTROPIA FEDERICO MARINI
TEORIA DELL INFORMAZIONE ED ENTROPIA DI FEDERICO MARINI 1 OBIETTIVO DELLA TEORIA DELL INFORMAZIONE Dato un messaggio prodotto da una sorgente, l OBIETTIVO è capire come si deve rappresentare tale messaggio
METODI DI CLASSIFICAZIONE. Federico Marini
METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi
Apprendimento statistico (Statistical Learning)
Apprendimento statistico (Statistical Learning) Il problema dell apprendimento Inquadriamo da un punto di vista statistico il problema dell apprendimento di un classificatore Un training set S={(x,y ),,(x
Problemi di Flusso: Il modello del Trasporto
Problemi di Flusso: Il modello del rasporto Andrea Scozzari a.a. 2014-2015 April 27, 2015 Andrea Scozzari (a.a. 2014-2015) Problemi di Flusso: Il modello del rasporto April 27, 2015 1 / 25 Problemi su
Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing
Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing Erminio A. Bonizzoni Congresso nazionale BIAS 9/3 aprile 9 Sesto Fiorentino Firenze Stimatori di Massima
