Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval per associazione Navigazione ipertesti/ipermedia l utente naviga nello spazio dei alla ricerca dei nodi di interesse
Ricerca della risposta esatta es. quanti sono i siti Web a marzo 2005? RICERCA Ricerca esplorativa es. articoli, manuali su progettazione di siti Web Tutto Qualcosa di simile Mezzi di ricerca su WEB: Il risultato preciso navigare (percorrere link), ricercare (immettere interrogazioni), domandare (e-mail, chat) Recuperare i che soddisfano condizioni chiaramente definite E DIVERSO DA Es: i clienti di una banca che hanno una giacenza media di C/C nel 2004 superiore a 5000 euro Recuperare i che contengono informazioni su un determinato argomento ES: turismo culturale
Ricerca Per valore esatto DBMS si cercano i record i cui campi soddisfano un certo valore Per contenuto semantico IRS si cercano che contengono parole o frasi di interesse per l utente DATA BASE MANAGEMENT SYSTEM (DBMS) È un sistema software in grado di memorizzare, mantenere e recuperare l informazione L informazione è strutturata Il recupero avviene mediante confronto di valori di query con il contenuto di campi indice
Information Retrieval System (IRS) È un sistema software in grado di memorizzare, mantenere e recuperare l informazione L informazione non è strutturata (testi e multimedia) Il recupero avviene mediante elaborazione di query espresse in un linguaggio di interrogazione e il confronto con descrittori di estratti da questi con procedure di analisi DBMS e IRS Sistemi capaci di memorizzare, gestire e recuperare dati sulla base di richieste dell utente In entrambi i casi, l'archivio è costituito da una collezione di informazioni correlate
Cos'è un database? Un db e' un insieme di dati strutturati e permanenti, raggruppati per insiemi omogenei in relazione tra loro, organizzati con la minima ridondanza per essere usati da applicazioni diverse, in modo controllato. Caratteristiche la ridondanza e' minima e controllata: e' assicurata la consistenza delle informazioni i dati sono disponibili per utenze diverse e concorrenti (anche contemporanee):es. prenotazione aerei i dati sono controllati: protetti da malfunzionamenti hardware e software indipendenza dei dati dal programma dal programma che li gestisce
Cos e un DBMS? un DBMS e' un insieme di programmi che permettono di creare, usare e gestire un db quindi un DBMS e' un sistema software che facilita il processo di definizione, costruzione e manipolazione del database per varie applicazioni Tre fasi: Creazione di un database definizione creazione/popolazione gestione
Creazione di un database Creazione di un database
Creazione di un database Creazione di un database
Interrogazione di un db SELECT [Nome], [Cognome], [Indirizzo], [Città] FROM Studenti WHERE [Cognome]="Rossi"; Interrogazione di un db L'efficacia della query dipende da: conoscenza del contenuto del db esperienza del linguaggio di interrogazione Ma anche semplicità ed efficacia dell'interfaccia di interrogazione
Cos e un sistema di Information Retrieval? Un sistema di Information Retrieval (IRS) e un sistema capace di gestire archivi di di grandi dimensioni. Permette all utente la memorizzazione, la ricerca, il recupero e la visualizzazione dei che soddisfano le sue richieste query indicizzazione indicizzazione query indicizzata indici matching recuperati
query indicizzazione indicizzazione Documenti query indicizzata matching indici costituiscono l input per l archivio recuperati query indicizzazione indicizzazione Query query indicizzata matching recuperati indici esprime la necessita di informazioni dell utente puo essere espressa in linguaggio naturale presenza di operatori Booleani
query indicizzazione indicizzazione Indicizzazione query indicizzata matching recuperati indici consiste nell assegnare a ciascun documento un insieme di termini indice o parole chiave (index e keyword) capaci di caratterizzarlo per contenuto manuale vs automatica controllata vs non controllata stop-word query indicizzazione indicizzazione Matching query indicizzata indici matching recuperati consiste nel confronto tra i termini indice della query e quelli dei dell archivio e porta al recupero dei pertinenti esatto vs parziale
query indicizzazione indicizzazione Documenti recuperati query indicizzata indici matching recuperati come si valuta? solo l utente puo dire se sono pertinenti pero non sa se sono tutti efficacia vs efficienza documento Accenti, spazi, etc. testo Stop words Sostantivi Stemming Indicizzazione automatica o manuale Riconoscimento della struttura Full text La vista logica di un documento: Termini indice Dal full text ai termini indice
Parola Frequenza Rank A Abandon Abbey 2.186.369 4.249 1.110 5 2107 5204 Ability Able 10.468 30.454 966 321 Frequenza x Rank = Costante (legge di Zipf) Recall & Precision Rilevante, Recuperato Rilevante, non Recuperato Non rilevante, Recuperato Non Rilevante, Non recuperato
Rilevanti e Recuperati Tutti i Retrieved Relevant Precision vs. Recall RelRetrieved Precision = Retrieved RelRetrieved Recall = Rel in Collection All docs Retrieved Relevant
Very high precision, very low recall Relevant Very low precision, very low recall (0 in fact) Relevant
High recall, but low precision Relevant Retrieved vs. Relevant Documents High precision, high recall (at last!) Relevant
Precision/Recall Curves Difficult to determine which of these two hypothetical results is better: precision x x x x recall LivellidiCUT OFF Un modo differente di valutare Fissare il numero di recuperati a differenti livelli top 5 top 10 top 20 top 50 top 100 top 500 Misurare la precisione a ciascun livello Prendere la media (pesata) dei risultati In questo modo si può valutare l efficacia con cui un sistema ordina I primi k
Ricerca efficace query + navigazione integrazione di paradigmi Database di immagini
E più facile fotografare una scena che una fotografia E più facile fotografare una scena che digitalizzare una fotografia
Costruire un database di immagini digitali 1 : Quali sono i fattori che determinano la qualità dell immagine digitale? 2 : Quale livello di qualità è realmente necessario? Alta qualità produce immagini versatili ma files voluminosi e difficili da gestire Bassa qualità significa gestione più facile ma spesso impedisce l uso in contesti quali editoria o mostre Decidere il livello di qualità implica un analisi accurata degli usi previsti a medio e lungo termine TONI (i gradi di luminosità, range dinamico) DETTAGLI (la definizione dei particolari, sharpness, risoluzione spaziale) COLORE (intento percettivo, intento colorimetrico) Non esistono Guidelines o Standard accettati per determinare il livello di qualità necessario per la creazione di un archivio digitale nei progetti di digitalizzazione di collezioni fotografiche a scopo conservativo e per consentirne l accesso..
Digitalizzare per un archivio Digitalizzare per pre-print Più complicato Non si conoscono a priori gli usi Non si conoscono i cambiamenti tecnologici Pratica accettata: Immagine Master a cui assicurare qualità e longevità Immagini derivate per l accesso e la comunicazione Si possono calcolare esattamente i parametri con formule matematiche La differenza è fondamentale
Le immagini sono usualmente passivi, considerati come un appendice di testuali. Esempio: soggetto: collezione di opere d arte schede che descrivono l opera immagini digitali che ritraggono l opera Boccale ceramica 1745 Faenza decoro geometrico Un immagine può anche essere descritta da un insieme di attributi che la identificano e la descrivono di per sé. Esempi di attributi sono: fotografo (es. Mario Rossi) data foto tipo foto soggetto supporto Esempio : www.edu.alinari.it
Esempio: Creazione di archivi di immagini digitali di opere d arte DUE PASSI:.Passo 1: creare le immagini digitali A A PARTIRE DA IMMAGINI SURROGATO A A PARTIRE DALL OPERA ORIGINALE oppure.passo 2: associare le immagini a un database I campi descrivono L OPERA e L IMMAGINE SURROGATO LA DOCUMENTAZIONE DA GESTIRE INFORMAZIONI SULL OPERA ORIGINALE INFORMAZIONI SULLA RAPPRESENTAZIONE FOTOGRAFICA (IMMAG. SURROGATO) INFORMAZIONI SULL IMMAGINE DIGITALE (DOCUMENTAZIONE TECNICA) OPERA IMMAGINE DESCRIZIONE SURROGATO INDICI DESCRIZIONE INDICI IMMAGINE DIGITALE DOCUM. TECNICA
N Plico IdDoc TipoDoc N Cat. N Cat. Dim. Opera Autore Id. File DimFile StatoFile N CD Electa Brera Stampa Operatore Mantegna III/3 014224/C col III/165g 180067 S. Giuliano Andrea 014224/C 32,3 definitivo 47 A4 giuseppe III/3 014224/C col III/165g 180067 S. Giuliano Mantegna Andrea 014224/W 7,8 definitivo 47 A4 giuseppe III/3 014225/C col III/165c 180067 Madonna Mantegna Andrea 014225/C 13,3 definitivo 47 A4 giuseppe III/3 014225/C col III/165c 180067 Madonna Mantegna Andrea 014225/W 2,8 definitivo 47 A4 giuseppe III/3 014226/C col III/165d 180067 Cristo in pietà Mantegna Andrea 014226/C 27,3 definitivo 47 A4 giuseppe III/3 014226/C col III/165d 180067 Cristo in pietà Mantegna Andrea 014226/W 6,5 definitivo 47 A4 giuseppe III/3 014227/C col III/165e 180067 S. Giovanni Mantegna Andrea 014227/C 13,6 definitivo 47 A4 giuseppe III/3 014227/C col III/165e 180067 S. Giovanni Mantegna Andrea 014227/W 3,1 definitivo 47 A4 giuseppe III/3 014228/C col III/165b 180067 S. Girolamo Mantegna Andrea 014228/C 29 provvisorio A4 giuseppe III/3 014228/C col III/165b 180067 S. Girolamo Mantegna Andrea 014228/W 6,9 provvisorio A4 giuseppe III/3 014229/C col III/165a 180067 S. Daniele da Padova Mantegna Andrea 014229/C 30,2 provvisorio A4 giuseppe III/3 014229/C col III/165a 180067 S. Daniele da Padova Mantegna Andrea 014229/W 7 provvisorio A4 giuseppe III/3 039964/CE col III/165 180067 Polittico di S. Luca Mantegna Andrea 039964/CE 59,4 definitivo 47 A3 giuseppe III/3 039964/CE col III/165 180067 Polittico di S. Luca Mantegna Andrea 039964/W 14,4 definitivo 47 A3 giuseppe Montagna III/3 089524/CE col III/178 88954 S. Girolamo Bartolomeo 089524/CE 29,3 definitivo 48 A4 Montagna III/3 089524/CE col III/178 88954 S. Girolamo Bartolomeo 089524/W 6,4 definitivo 48 A4 Cristo morto nel sepolcro e tre Mantegna III/3 069366/C col III/166 180068 dolenti Andrea 069366/C 36,7 definitivo 48 A4 Il database associato alla collezione di Brera
http://pro.corbis.com/default.aspx
Esercizio n.4 Dato un database di 1000, dei quali 6 sono rilevanti, Se vengono recuperati 5 di cui 3 rilevanti e 2 non rilevanti Cosa sono Recall e Precision? Calcolare Recall e Precision in altre due situazioni a vostra scelta