Tecniche di riconoscimento statistico



Documenti analoghi
Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Database. Si ringrazia Marco Bertini per le slides

ISTITUTO COMPRENSIVO MONTEGROTTO TERME SCUOLA PRIMARIA DISCIPLINA: MATEMATICA - CLASSE PRIMA OBIETTIVI DI APPRENDIMENTO

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

PROGETTO EM.MA PRESIDIO

APPUNTI DI MATEMATICA ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1)

RECOGNITION ProductInfo

PROGRAMMAZIONE DIDATTICA DIPARTIMENTO

Slide Cerbara parte1 5. Le distribuzioni teoriche

Sistema operativo: Gestione della memoria

Immagini binarie. Binarizzazione di immagini a livelli di grigio

A.S CLASSE PRIMA SCUOLA PRIMARIA D ISTITUTO COMPETENZA CHIAVE EUROPEA DISCIPLINA

Scuola Primaria Statale Falcone e Borsellino

Suggerimenti per l approccio all analisi dei dati multivariati

Alla ricerca dell algoritmo. Scoprire e formalizzare algoritmi.

CRITERI DI VALUTAZIONE SCUOLA PRIMARIA SCUOLA PRIMARIA

Settori di attività economica

Mining Positive and Negative Association Rules:

Come archiviare i dati per le scienze sociali

CURRICOLO DI GEOGRAFIA

Università degli Studi di L Aquila. Facoltà di Ingegneria. Corso di Laurea in Ingegneria Elettronica Corso di Sistemi Informativi

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

COMPETENZE INFORMATICHE DI BASE PER ADULTI

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

DATABASE. A cura di Massimiliano Buschi

EXPLOit Content Management Data Base per documenti SGML/XML

Sistema di Gestione Documentale V.2.5.x. ARCHIVIAZIONE OTTICA, FASCICOLAZIONE E PROTOCOLLO V.2.5.x

Corso di Visione Artificiale. Il corso. Samuel Rota Bulò

Introduzione all Information Retrieval

Uso di base delle funzioni in Microsoft Excel

PROCEDURA INVENTARIO DI MAGAZZINO di FINE ESERCIZIO (dalla versione 3.2.0)

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

PIANO BIENNALE PER I DIRITTI DELLE PERSONE CON DISABILITÀ

Plate Locator Riconoscimento Automatico di Targhe

TECNOLOGIA - SCUOLA PRIMARIA

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Corso di Visione Artificiale. Stereopsi. Samuel Rota Bulò

PROGETTAZIONE FORMATIVA ANNUALE PROGETTAZIONE ANNUALE DIDATTICA:

LA FIRMA DIGITALE. Evoluzione della normativa italiana e componenti di base

Informatica per la comunicazione" - lezione 7 -

Il Bilancio di esercizio

Sistema Informativo Geografico:

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Non cercate di soddisfare la vostra vanità, insegnando loro troppe cose. Risvegliate la loro curiosità.

REGOLE PER L ESAME (agg.te settembre 2015)

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

SCRUTINIO WEB MANUALE D USO. Scrutinio Web. Manuale d uso - Docente. Versione del Pagina 1 di 12

Cosa è un foglio elettronico

Indice. Introduzione...6. Capitolo 1: Realtà virtuale e computer vision..10. Capitolo 2: Riconoscimento facciale..34

SCUOLA PRIMARIA GEOGRAFIA. Competenza: 1. Comunicazione efficace Indicatore: 1.1 Comprensione

IL CODICE UNICO DI PROGETTO (CUP) FAQ PER L AREA RICERCA

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

La georeferenziazione delle banche dati gli Uffici Giudiziari in Toscana

Un ripasso di aritmetica: Conversione dalla base 10 alla base 16

Logica e codifica binaria dell informazione

Linguistica Computazionale. Tokenizzazione

Sistemi Informativi Territoriali. Map Algebra

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi

ManPro.Net: Principali caratteristiche del prodotto.

MAPPE DI KARNAUGH. Nei capitoli precedenti si è visto che è possibile associare un circuito elettronico o elettrico ad una funzione logica.

Informazione analogica e digitale

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

DESCRIZIONE. Introduzione

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

Corso di Informatica

Istituto Centrale per il Catalogo Unico delle Biblioteche Italiane. e per le Informazioni bibliografiche. Manuali utente per SBN WEB. Versione 1.

La digitalizzazione della Pubblica Amministrazione ed il dato territorlale

IL SOFTWARE SECONDO LA NORMA UNI EN ISO :2008 (IIA PARTE) 1

Considerazioni sulla leggibilità del codice a barre e dei caratteri OCR

Gli aggiornamenti della normativa italiana e Il Codice dell Amministrazione digitale dlgs 82/05

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

Ottimizzazione delle interrogazioni (parte I)

DISCIPLINA: ARTE E IMMAGINE SCUOLA PRIMARIA: CLASSE PRIMA COMPETENZE OBIETTIVI DI APPRENDIMENTO ATTIVITA VERIFICA E VALUTAZIONE

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

Linguaggi di programmazione

PROCEDURA DI SISTEMA GESTIONE E ORGANIZZAZIONE DELLA DOCUMENTAZIONE

Corso di Automazione industriale

PROGRAMMAZIONE di MATEMATICA CLASSE PRIMA

PROCESSO DI INDICIZZAZIONE SEMANTICA

Tecniche di riconoscimento statistico

INDICATORI OBIETTIVI DI APPRENDIMENTO classe prima

II.f. Altre attività sull euro

Regolamento del Settore Attività Giovanile. Approvato dal Consiglio Federale Del 13 aprile 2013 con delibera n. 124

GEOGRAFIA CLASSE PRIMA

SCUOLA PRIMARIA GEOGRAFIA. Competenza: 1. Comunicazione efficace Indicatore: 1.1 Comprensione

SCUOLA SECONDARIA DI PRIMO GRADO

SCUOLA PRIMARIA SCIENZE NATURALI E SPERIMENTALI. Competenza: 1. Comunicazione efficace Indicatore: 1.1 Comprensione

PROGETTAZIONE DISCIPLINARE DI DIPARTIMENTO

L analisi dei costi: il costing

E F G H I

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

1. Oggetto e struttura del disegno di legge

CLASSE PRIMA - SCUOLA PRIMARIA

SymCAD/C.A.T.S. modulo Canali Schema

Gli oggetti di plastica. Abilità interessate Conoscenze Nuclei coinvolti Collegamenti esterni Decodificare informazioni di tipo grafico.

Transcript:

On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 5 Tecniche OCR Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr A.A. 2014-2015

Introduzione L obiettivo delle tecniche OCR è classificare dei pattern 2D (espressi come immagini digitali) in simboli alfanumerici, ottenendo una versione digitale (ASCII) di una immagine contenente testo Le tecniche utilizzate combinano aspetti di tipo statistico con aspetti di elaborazione delle immagini Applicazioni tipiche: Data entry di archivi cartacei Smistamento della corrispondenza Lettura di moduli Riconoscimento targhe e testi strutturati Estrazione testi generici in scene complesse

Il processo OCR Un qualsiasi processo OCR viene di norma suddiviso logicamente in 4 passi base che si ritrovano in tutte le applicazioni Localizzazione del testo Segmentazione dei caratteri Classificazione dei caratteri Analisi contestuale I primi due sono strettamente connessi alla problematica applicativa e coinvolgono metodi di elaborazione delle immagini La classificazione dei caratteri è un problema classico di PR L analisi contestuale impiega metodi di ragionamento simbolico

Segmentazione caratteri Il processo di segmentazione è responsabile della estrazione dei singoli caratteri dall immagine Vengono estratti di norma anche oggetti 2D che non sono caratteri, che il classificatore dovrà scartare Per le immagini binarie, la segmentazione deve semplicemente analizzare la connessione tra pixel adiacenti Spesso è utile la morfologia matematica per regolarizzare le forme e correggere difetti (es. caratteri fusi o frammentati) La tendenza moderna è superare la segmentazione esplicita ed univoca, utilizzando ipotesi multiple o sliding windows

Esempio Anche su immagini di buona qualità, gli errori sono inevitabili Un buon segmentatore deve usare strategie correttive, legate alla conoscenza della struttura del testo da leggere

Features per OCR Dal punto di vista del PR, le applicazioni OCR richiedono innanzitutto una definizione delle features da utilizzare Le features ideali devono rispondere a diversi requisiti: Computabilità Discriminatività Invarianza Il concetto di invarianza assume particolare importanza nelle applicazioni OCR dove il testo da leggere può essere deformato: geometricamente (ruotato, scalato, distorto prospetticamente) pittoricamente (chiaro, scuro, rumoroso, corrotto)

Zonatura Il metodo della zonatura prevede che l immagine 2D a livelli di grigio del carattere da riconoscere venga tassellata in MxN regioni disgiunte rettangolari, e di ciascuna venga misurato il grigio medio Il metodo è adatto per immagini binarie, mentre nel caso generico occorre una normalizzazione dei livelli di grigio prima della zonatura La scelta di M,N è critica valori piccoli poco discriminanti valori grandi computazione onerosa

Momenti Uno schema per generare feature invarianti per trasformazioni assegnate di una immagine f(x,y) si basa sui momenti L immagine viene interpretata come una distribuzione di probabilità Se le coordinate (x,y) sono riferite al baricentro (m 10 /m 00, m 10 /m 00 ), si parla di momenti centrali µ pq (invarianti per traslazione) I momenti centrali del secondo ordine misurano le varianze di x,y. I momenti di ordine superiore (normalizzati), sono utili per la classificazione

Momenti invarianti Descrittori di forma Invarianti di scala Invarianti per rotazione (Hu).

Altri insiemi di feature per OCR Non esiste un insieme di features che sia il migliore in qualunque applicazione, e la scelta è spesso frutto di tentativi Schemi di feature extraction molto diffusi sono: coefficienti di Fourier 2D codifiche del contorno mappe di punti salienti La prassi suggerisce di calcolare molte più features di quanto realmente necessario, e di selezionare in seguito le migliori feature selection (selezione di sottoinsiemi) feature generation (combinazioni lineari ottimali)

Istogramma dei gradienti orientati Utilizza come features di base le componenti dell istogramma delle direzioni del gradiente dell immagine segmentata (HOG)

Classificazione caratteri In un sistema OCR, se la segmentazione ha operato correttamente, la classificazione di solito non presenta problemi, almeno per applicazioni con testi basati su simbologie standardizzate Anche poche features riescono già a ottenere discriminazioni La classificazione è difficile quando la distribuzione delle classi contiene anche una variabilità indotta dagli stadi precedenti, che complica la definizione delle superfici di separazione A volte il training iniziale non è sufficiente per rappresentare tutte le possibili variabilità. E importanza quindi la capacità di generalizzare

Esempio Esempio di OCR a font fisso usando solo due features (orientazione e skewness)

OCR Postale Lo smistamento della corrispondenza usa da anni sistemi OCR per leggere indirizzi Le lettura del dattiloscritto o del manoscritto stampatello sono oggi considerate quasi banali Ancora non disponibili invece OCR efficaci per il corsivo La localizzazione dell indirizzo (Address Block Location, ABL) è il vero problema delle applicazioni postali, a causa di: ambiguità (indirizzi multipli) complessità dei pezzi postali (es. riviste) diverse tipologie di scrittura dell indirizzo

Evoluzione OCR

Evoluzione OCR L amministrazione postale USA pubblica un database di caratteri manoscritti reali (MNIST) su cui i fornitori devono competere

Evoluzione OCR Su questo dataset molto complesso (e su altri a contenuto molto eterogeneo) i risultati migliori sono stati ottenute mediante una rete neurale convolutiva (CNN)

Sistemi ICR-IWR I normali sistemi OCR vanno del tutto ripensati quando si opera con testo manoscritto Si definiscono sistemi ICR quelli che, di solito grazie alla presenza di caselle, mantengono una segmentazione esplicita del testo in caratteri I sistemi IWR (Intelligent Word Recognition) analizzano invece la singola parola come un oggetto unico (approccio olistico) In questi sistemi è fondamentale la modellazione del linguaggio, per sfruttare al meglio l informazione contestuale

Sistemi ICR-IWR Il modello sintattico del linguaggio consente di correggere errori Il modello semantico consente di creare frasi di senso compiuto

Sistemi OCV Nella produzione di oggetti, occorre verificare che le informazioni testuali (codici) siano stampati correttamente Non interessa leggere ma verificare la leggibilità. E un tipico problema binario: codice ok o nok