Analisi, progettazione e sviluppo di un software di Information Retrieval con Tecnologie J2EE
|
|
- Valeria Gasparini
- 8 anni fa
- Visualizzazioni
Transcript
1 Scuola Politecnica e delle Scienze di Base Corso di Laurea Triennale in Ingegneria Informatica Tesi di Laurea Triennale in Ingegneria Informatica Analisi, progettazione e sviluppo di un software di Information Retrieval con Tecnologie J2EE Anno Accademico relatore Ch.mo Prof. Ing. Vincenzo Moscato Correlatore Ch.mo Dott. Antonio Agliata Candidato Pasquale Ragozzino N
2 A chi, ogni giorno, incessantemente, non ha mai dubitato ed esitato.
3 Indice Introduzione 5 1. Sistemi di Information Retrieval Cosa sono i sistemi di Information Retrieval Document Repository Indexer Query Processor Scopo di un motore di Information Retrieval Fasi di un motore di Information Retrieval Definizione formale di IR Fasi dell'ir Indicizzazione Tipologie di motori di Information Retrieaval Il modello Booleano Il modello Vettoriale Il modello Probabilistico Apache Lucene library Cos è Apache Lucene Indicizzazione con Lucene Ricerca con Lucene 16 3
4 2.2 Esempio d implementazione di un motore di Information Retrieval Tecnologie utilizzate Esempio di sviluppo di un motore di IR Progetto Indexer Progetto Searcher Ottimizzazione della ricerca con l algoritmo di Edit Distance Vocabolario dei sinonimi Thesaurus Somiglianza lessicale Somiglianza semantica Conclusioni Sviluppi futuri 24 Bibliografia 25 Ringraziamenti 26 4
5 Introduzione Questa tesi di laurea riguarda l Information Retrieval, ovvero quella disciplina che si occupa di studiare, progettare e realizzare sistemi informativi finalizzati al reperimento di documenti, immagini, video, suoni, riguardanti le richieste dell utente finale. Questa tematica ha suscitato l interesse di numerose comunità Open Source come Apache, poiché, nella società moderna, l Information Retrieval rappresenta e rappresenterà sempre maggiormente il modo più veloce ed efficace per memorizzare e ricercare informazioni su qualsivoglia argomento. Inoltre la branca dell IR abbraccia diverse discipline quali la letteratura, la psicologia, la filosofia, la linguistica, la scienza dell informazione e l informatica, segno inequivocabile che la materia è ostica e di difficile lettura ed interpretazione. I dati resi disponibili al reperimento possono essere di tre diverse tipologie : - Dati Strutturati ; - Dati Non-strutturati ; - Dati Semistrutturati. I primi sono dati conservati in un database, organizzati secondo schemi e tabelle rigide; questa è la tipologia di dati più indicata per i modelli di gestione relazionale delle informazioni. I secondi sono quei dati che non hanno nessun tipo di schema organizzativo ( ad esempio file testuali elaborati con uno dei softwares di scrittura disponibili ) e che per questo motivo, necessitano di essere gestiti con motori di IR. Mentre nei terzi s incontrano alcune delle caratteristiche dei dati strutturati e alcune delle caratteristiche dei non-strutturati. Un esempio esplicativo di quest ultima tipologia di organizzazione di dati è il file compilato con 5
6 sintassi XML. Nonostante non vi siano limiti strutturali all inserimento dei dati, le informazioni vengono, comunque, organizzate secondo logiche strutturate e interoperabili. In questo caso, i sistemi di gestione dei dati possono organizzare i documenti sia attraverso i modelli relazionali, sia attraverso modelli di information retrieval. Nel caso specifico dello sviluppo di un motore di IR d esempio, vengono trattati dati semistrutturati e non-strutturati per cui l uso di un IR rispetto ad un DBMS è risultato più vantaggioso e funzionale ; il motivo sta nella natura dei dati trattati ( Curriculum Vitae ) che hanno una struttura tale da rendere il caricamento di quest ultimi complesso e dispendioso nelle tabelle di un DBMS. Al contrario un IR si incaricherà di parserizzare il file e di renderlo persistente grazie all uso di strutture dati ( indici ) molto più funzionali ed accessibili dal sistema, per favorire la ricerca dei risultati da parte dell utente. Infine, quest elaborato, descriverà il funzionamento e l impiego di una delle librerie più potenti ( scritta in Java ) e flessibili per lo sviluppo di un motore di IR, dal nome Apache Lucene. La parte conclusiva dell elaborato, racchiude tutti quelli che sono i possibili sviluppi futuri e le conclusioni generali in merito alla sperimentazione avuta. 6
7 Capitolo 1: Sistemi di Information Retrieval Il termine Information Retrieval fu coniato nel 1952 dall informatico americano Calvin Mooers il quale, citando la legge da lui stesso formulata ( Legge di Mooer s ), dichiarò che: Un sistema di reperimento delle informazioni tenderà a non essere usato, quando, trovare le informazioni è più noioso e doloroso che non trovarle. I primi motori di IR erano utilizzati in modalità batch, attualmente invece, vengono utilizzati in Real-Time con modalità interattive a vari fini, come ad esempio la ricerca di contenuti documentali, la ricerca sul Web di contenuti di varia natura, il reperimento di informazioni aziendali ecc. Lo sviluppo e l evoluzione degli IR sono dovuti a molti fattori quali il basso costo e le capacità sempre più elevate dei dispositivi di memorizzazione, i softwares per la creazione di documenti digitali, strumenti e softwares per l acquisizione in digitale dei documenti cartacei, il web stesso, ecc. In generale un IR si occuperà di rendere semplice e funzionale la reperibilità di files mediante strutture dati ( indici ) facilmente accessibili e di semplificare la ricerca di tali files, opportunamente lavorati. 1.1 Cosa sono i sistemi di Information Retrieval L'IR è un campo interdisciplinare che nasce dalla fusione di discipline eterogenee. Esso coinvolge la psicologia cognitiva, l'architettura informativa, la filosofia, il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell informazione e l informatica. Nello specifico un motore di IR si occuperà di soddisfare l'information need dell'utente che ne fa uso, con tecniche e metodologie atte a restituire il contenuto voluto e cercato. In particolare l information need è il bisogno informativo dell utente 7
8 il quale anche se sembra banale, non lo è se l applicazione sviluppata non mette a disposizione i giusti strumenti per esprimerlo al meglio. Le componenti fondamentali di un sistema di IR sono tre: il document repository, l'indexer e il query processor Document-Repository Il document-repository è la componente che si occupa di raccogliere documenti e files contenuti in genere, assieme alla struttura che li interconnette, e li indicizza per rendere disponibile il tutto all'utente che fa uso del sistema Indexer L'indexer, si occupa di costruire opportune strutture dati per memorizzare le informazioni necessarie al recupero dei documenti ricevuti in input dal document-repository. Le strutture di cui in generale, i motori di ricerca si avvalgono sono il lessico, contenente i termini distinti che compaiono nella collezione di documenti e il posting file, il quale nella sua forma meno complessa, contiene tutte le liste dei documenti in cui i termini del lessico compaiono. 8
9 1.1.3 Query Processor Il query processor invece, si occupa del reperimento dei documenti nell'indice preventivamente creato dall'indexer e di restituirli all'utente ordinati in base alla loro presunta rilevanza e all'information need. Il concetto di rilevanza è di fondamentale importanza nei sistemi di IR ed è fonte di studi approfonditi e continui, inoltre, un approccio ibrido per la restituzione dei contenuti richiesti, è quello più utilizzato in quanto si sfrutta un motore di IR per l informazione non strutturata e una base di dati per i suoi metacaratteri descrittivi. 1.2 Scopo di un motore di Information Retrieval Lo scopo di un IR non è solo quello di progettare le tecniche di reperimento dei dati bensì anche quello di ricercare materiale ( generalmente dati non-strutturati ma in alcuni casi anche dati strutturati ) al fine di soddisfare l'information need dell utente che usufruisce di tale sistema; inoltre un IR aiuta l'utente ad esprimere in maniera chiara e consona il suo l'information need, oltre che della presentazione dei risultati ottenuti in forma adeguata. A tal proposito vi sono due tipi di approccio alla presentazione dei risultati: il clustering e la classificazione. Il primo dispone i risultati in gruppi secondo una serie di parametri, mentre il secondo dispone i risultati per tipo. Infine l'ir è ampiamente utilizzato anche nel mondo del data mining per l'elaborazione e la gestione di grosse moli di dati ed informazioni. 1.3 Fasi di un motore di Information Retrieval Definizione formale di IR Formalmente un modello di Information Retrieval è una quadrupla ( D, Q, F, R ), dove: - D è un insieme di viste logiche dei documenti della collezione; - Q è un insieme di viste logiche ( query ) dei bisogni informativi dell utente; - F è un sistema per modellare documenti, query e le relazioni tra loro; - R (q i, d j ) è una funzione di ranking che associa un numero reale positivo ad una query q i e un documento d j, definendo un ordinamento tra i documenti con riferimento alla query q i. 9
10 1.3.2 Fasi dell'ir Viste le attuali esigenze di operare sul Web, gli algoritmi che gestiscono la ricerca "per rilevanza" dei contenuti desiderati, risulterebbero poco efficienti e computazionalmente complessi da eseguire in real-time. La soluzione adoperata dai moderni IR è quella di utilizzare delle strutture dati dette indici. Le fasi principali di un IR sono fondamentalmente due: - Indicizzazione che non avviene in real-time, ma gli indici sono creati dai crawlers e dagli spiders e sono composti da valori del tipo [ term, id ]; - Ricerca che viene effettuata dall'utente e che grazie alla costruzione degli indici, ha complessità sub-lineare evitando anche l'appesantimento del Web, visto che solitamente gil indici sono in locale. Nel paragrafo successivo verrà descritta in dettaglio solo la fase di indicizzazione, mentre per quella di ricerca, vi sarà una panoramica nei capitoli e paragrafi seguenti Indicizzazione La fase di indicizzazione è la più importante delle fasi di un progetto di sviluppo di un motore di IR efficace ed efficiente, ma prima di effettuare questa operazione, è necessario compiere una serie di operazioni preliminari con lo scopo di ottimizzare i documenti/testi/dati da rendere disponibili alla struttura che si occuperà della ricerca. Il trattamento dei testi ha come scopo l individuazione degli elementi caratterizzanti un testo e la generazione di una rappresentazione formale ( in genere un array ). Il trattamento dei testi può essere più o meno complesso e si divide in due fasi fondamentali: Tokenizzazione: identificazione dei singoli elementi token ( parole, spazi ); Lemmatizzazione: identificazione della radice dei termini ( vadano andare ); La tokenizzazione può essere effettuata secondo diversi principi che risulteranno essere più o meno validi a seconda del sistema e del contesto dell IR da sviluppare. La lemmatizzazione, invece, è composta da più fasi, ed è di diversa natura a seconda della lingua e del testo da analizzare. In particolar modo sono di fondamentale importanza alcune fasi che 10
11 rendono il testo, preventivamente tokenizzato, più efficientemente indicizzabile. Si utilizza, per esempio, un vocabolario di Stop Words, contenente tutte quelle parole che hanno una frequenza di comparsa nel documento molto elevata. Un esempio possono essere le congiunzioni, la punteggiatura, le preposizioni ecc. Questi dizionari possono avere natura statica ( implementati in strutture dati personalizzate a seconda del contesto e del caso di studio ), oppure natura dinamica e di apprendimento ( in base ad un limite di frequenza è possibile decidere se includere le parole nel dizionario delle Stop Words o meno ). A valle della costruzione di tale dizionario, secondo uno dei metodi più comodo e consono al contesto di sviluppo, verrà effettuata un operazione di rimozione o non inclusione delle parole appartenenti allo stesso, al fine di ottimizzare il testo per la fase successiva di Stemming. Questa fase prevede che i tokens precedentemente lavorati, vengano ridotti dalla forma flessa o estesa, nella loro forma radice ( Es. andai, andare, andato and ). Gli algoritmi di Stemming sono tutt'oggi materia di studio e sviluppo e tra quelli di maggior impiego e utilizzo vi è sicuramente quello di Porter. Nel 1968 Julie Beth Lovins progetta e sviluppa il primo algoritmo di stemming che, nel 1980, dopo diversi miglioramenti, viene standardardizzato per la lingua inglese sotto il nome di "algoritmo di Martin Porter". Solo dopo le fasi di Tokenizzazione e Lemmatizzazione è possibile passare alla fase di Indicizzazione dei term lavorati e memorizzati. 11
12 La creazione dell'indice restituisce delle coppie di valori del tipo [ term, docid ], dove term rappresenta i termini del documento e docid, il documento stesso. E' buon uso, oltre che comodo e funzionale, costruire una matrice term/docid che rappresenterà il rapporto di frequenza e comparsa tra termini e documenti. d1 d2 d3... t t t In particolar modo, se nella matrice compare uno "0", allora il term non è presente nel documento, nel caso invece ci sia un "1", il termine sarà presente all'interno del documento. Grazie a questa matrice possiamo definire due parametri, ossia il Document Frequency ( DM ) e il Term Frequency ( TF ) corrispondenti relativamente al numero di documenti in cui appare il termine e il numero di occorrenze di termini presente nel documento. 1.4 Tipologie di motori di Information Retrieval Diverse sono le tipologie dei motori di IR che operano sui dati/file da ricercare; esse variano in base al modo in cui vengono interrogati i sitemi, oppure dal modo in cui vengono acceduti ecc. In particolarmodo abbiamo tre tipologie diverse di motori di IR che sono rispettivamente: - Il modello Booleano; - Il modello Vettoriale; - Il modello Probabilistico Il modello Booleano Il modello standard booleano dell'information Retrieval è un modello di base, in cui l'informazione associata ad un documento è composta da due valori possibili: un documento può 12
13 essere rilevante ( 1 ) o irrilevante ( 0 ), in base alla presenza o assenza di un termine richiesto all'interno del medesimo. Viene usato un sistema di "match" esatto per il recupero delle informazioni e le query sono fatte combinando i termini con gli operatori booleani AND, OR, NOT, quindi il sistema restituisce tutti i documenti che soddisfano tale query Il modello Vettoriale Il modello vettoriale prevede la rappresentazione di query e documenti mediante vettori pesati, in uno spazio vettoriale. Lo spazio ha una dimensionalità pari al numero "N" di termini nel vocabolario. La similarità tra le query e il documento, sfrutta le misure geometriche di similarità tra vettori. Alcuni vantaggi qualificano il modello Vettoriale tra i più efficienti modelli di IR attualmente utilizzati, infatti, il peso dei termini e la ricerca gerarchica grazie alla clusterizzazione dei documenti, migliora la qualità delle risposte e rispetta quindi l IN utente Il modello Probabilistico Il modello probabilistico, come quello vettoriale, risulta uno dei più utilizzati sia a livello teorico che a livello sperimentale. Questo modello, in particolare, rappresenta l incertezza e il costo della decisione presa dall IR nel reperire un documento. Il costo e l incertezza sono modellati con gli strumenti del calcolo delle probabilità e della statistica delle decisioni. 13
14 Capitolo 2: Apache Lucene library Lucene è una libreria di API ( application programming interface ) con licenza Open Source, utilizzata per il reperimento di informazioni, inizialmente sviluppata in Java e successivamente in C#, C++, Perl, Phyton, Ruby, PHP. Sebbene inizialmente il suo ideatore e sviluppatore, Doug Cutting, aveva ideato questa collezioni di API per l indicizzazione e la ricerca full-text di documenti e files, è attualmente utilizzata per la realizzazione e lo sviluppo di motori di ricerca sia nel World Wide Web che nelle intranet aziendali o private. L uso sempre più vasto e svariato di questa libreria, ha portato ad assumere la percezione del prodotto come di un motore di ricerca dotato di web-spider e parser HTML. In realtà non è così, infatti Lucene, richiede che tali strumenti siano forniti da terzi esternamente. I dati gestiti da Lucene sono rappresentati come documenti ( document ) e campi ( fields <nome,valore> ) testuali. Questa genericità, permette, di sviluppare motori di ricerca e di IR a prescindere dal tipo di file da trattare. Infatti Lucene ci permette di trattare ed indicizzare file testuali di tipo PDF, DOC, HTML, così come altri tipi di files dai quali sia possibile trarre ed estrarre informazioni. Alcuni esempi di utilizzo di Lucene si possono riscontrare nel codice di alcuni grandi Siti Web quali, Wikipedia, CNET, Alfresco ecc. 14
15 2.1 Cos è Apache Lucene Analisi, progettazione e sviluppo di un software di Information Retrieval con tecnologie J2EE Apache Lucene è un progetto maturo e open-source che consente di aggiungere alla propria applicazione funzionalità come la ricerca e l'indicizzazione, nascondendo la complessità di tali operazioni allo sviluppatore, in quanto, fornisce tramite un interfaccia, semplici ma potenti funzionalità che richiedono solo una minima conoscenza su argomenti quali la ricerca full-text. Inoltre opera senza fare assunzioni su ciò che indicizza e ciò che ricerca. Si può pensare a Lucene come ad uno strato situato sotto quello su cui poggia l applicazione Indicizzazione con Lucene L indicizzazione, come già descritto nei paragrafi precedenti, non è altro che un processo il quale elabora i dati originali in collezioni di riferimenti ordinati al fine di agevolarne la ricerca rapida. È utilizzato anche per eliminare il lento processo di scansione sequenziale di un testo. Il risultato di tale operazione è un indice ( Lucene index ), memorizzato per esempio, sul file 15
16 system e interrogabile in fase di ricerca mediante delle particolari query ( query Lucene ). Si può pensare a un indice come ad una serie di dati che consentono un accesso diretto alle parole memorizzate al suo interno; ne è un esempio l indice analitico di un libro che permette di individuare rapidamente le pagine che contengono un determinato termine. Nel caso di Lucene, un indice è una struttura dati appositamente progettata e archiviata sul file system sotto forma di file. La classe Lucene che si occupa dell indicizzazione è Analyzer ( analizzatore ) che incapsula, al suo interno, il processo di analisi, e marca pezzi di testo eseguendo su di esso una serie di operazioni quali: estrazione delle parole, rimozione degli accenti, della punteggiatura e dei termini comuni ( Es. il, un, dei, etc... ), trasformazione in forma minuscola dei caratteri, stemming e lemmatizzazione come descritto nei paragrafi precedenti Ricerca con Lucene Per effettuare una ricerca su di un indice precostituito è necessario aprire l indice in questione mediante un IndexSearcher, su cui, in seguito, effettuare le ricerche desiderate mediante delle opportune query. La query in Lucene è una perfetta astrazione del concetto classico di query per il recupero di informazioni da un database; tale astrazione a sua volta è fornita da un QueryParser, il quale ha come obiettivo quello di acquisire la keyword di ricerca ( una o più parole, anche generiche ), analizzarla con lo stesso Analyzer usato per la creazione dell indice ed infine rendere la stringa di ricerca come una query che rispetti una determinata sintassi. L ultimo passo consiste nel restituire l oggetto query che sarà passato all IndexSearcher per poter effettuare la ricerca sull indice ed immagazzinare i risultati di tale ricerca all interno di un oggetto ScoreDoc. 16
17 2.2 Esempio d implementazione di un motore di Information Retrieval In questo paragrafo verrà presentata una rapida descrizione dello sviluppo di un motore di IR d esempio progettato e sviluppato per testare quanto illustrato finora. In particolar modo verranno discussi i due progetti INDEXER e SEARCHER che implementano il motore di IR d esempio preso in esame e verranno inoltre presentate le tecnologie utilizzate per operare tale sviluppo. I progetti sono entrambi dei Web Application Java adoperati rispettivamente per indicizzare e per ricercare nel repository dei CV in base all IN utente Tecnologie utilizzate Di seguito una breve descrizione delle tecnologie adoperate, farà da introduzione allo sviluppo vero e proprio del motore di IR d esempio citato precedentemente. - Apache Lucene, di cui si è già abbondantemente discusso nei paragrafi precedenti; - Apache Tomcat, application server che ci permette lo sviluppo delle pagine JSP ( Java Server Pages ) o delle Servlet e l esecuzione di applicazioni web sviluppate in Java ; - Xaamp, piattaforma software, che mette a disposizione gli strumenti come, MySql e Apache HttpServer, per la creazione di pagine sviluppate con linguaggi di programmazione lato Server come PHP; - Eclipse Luna, IDE per la programmazione e lo sviluppo di software di varia natura e uso Esempio di sviluppo di un motore di IR In questo paragrafo verrà implementato un esempio di motore di IR e per comodità il progetto verrà diviso in due parti : - Indexer, che si occuperà dell indicizzazione dei documenti in ingresso al sistema ; - Searcher, che metterà a disposizione un interfaccia utente per la ricerca dei files. 17
18 Progetto Indexer In questa fase del progetto di costruzione di un motore di IR verrà implementata la parte relativa all indicizzazione dei termini nei documenti uplodati nel sistema. In particolare, i documenti trattati, saranno dei Curriculum Vitae in formato europeo ( per comodità con estenzioni *PDF o *DOC ). Tali CV verranno parserizzati ( verrà analizzato il flusso continuo di dati in ingresso, letti per esempio da un file, in modo da determinare la sua struttura grazie ad una data grammatica formale ) prima di essere passati alla classe Lucene che si occuperà della loro tokenizzazione e successiva indicizzazione. Questa fase produrrà un documento formattato secondo alcuni parametri comodi per le fasi successive e con lo scopo di accedere il file per essere elaborato. Successivamente il file storato in un oggetto di tipo Document verrà dapprima spostato in una struttura dati di tipo String ( necessaria per operare sul testo ), dopodichè il testo, opportunamente formattato, verrà matchato con un dizionario di Stop Words opportunamente creato per il caso d uso specifico e disposto in una struttura dati di tipo ArrayList <String> e se esistono corrispondenze di valore tra il testo e il dizionario stesso, verranno esclusi tali termini dalla struttura dati finale, che sarà poi utilizzata per l indicizzazione. Solo ora si otterrà una serie di term privi di Stop Words e tokenizzati. A questo punto i term verrano dapprima lemmatizzati e 18
19 successivamente indicizzati. La lemmatizzazione, in questo specifico caso d uso, consiste nella correzione del testo presente nella struttura dati contenente i token confrontandoli con un ulteriore dizionario ( in questo caso un dizionario della lingua italiana senza voci verbali coniugate per risalire alla radice dei verbi ) sfruttando un algoritmo di Distanza di Edit. Quest ultimo si occupa di effettuare una correzione o associazione di termini in base a quelli presenti nel dizionario, sostituendo i term con i termini che hanno distanza minima con gli stessi termini del dizionario. Questo algoritmo è illustrato in dettaglio nel paragrafo successivo. Infine, i term risultanti dalle operazioni precedenti, saranno indicizzati sfruttando la classe Analyzer di Lucene, la quale, mette a disposizione metodi e funzionalità per una corretta creazione dell indice Progetto Searcher Nella seconda ed ultima fase del progetto, verrà implementata un interfaccia grafica e la sezione che si occupa della ricerca, sfruttando ancora una volta i metodi e le classi di Apache Lucene. In particolare vi è una pagina di ricerca sviluppata con HTML5 e CSS3, che mette a disposizione una input per la digitazione del testo da ricercare e una veste grafica di esempio per il compimento di varie operazioni. A tale strumento è applicata una funzione, sottoforma di Servlet JSP con chiamata asicrona AJAX, per il suggerimento di parole da cercare al posto delle parole digitate nella barra di ricerca ( simil Google ). L algoritmo che gestisce il suggerimento di parole in alternativa al testo digitato nella input è la Distanza di Edit o Distanza di Levenshtein, il quale unitamente alla chiamata AJAX, da ausilio 19
20 all utente che digita il testo in merito alla correzione ortografica o al senso del testo digitato. 2.3 Ottimizzazione della ricerca con l algoritmo di Edit Distance In questo paragrafo è descritto dettagliatamente l algoritmo distanza di edit di Vladmir Levenshtein ( scienziato russo che ne 1965 introdusse il concetto di distanza di edit tra stringhe ) il quale è sfruttato per controllare la similitudine e l associazione tra testi, ma che è possibile sfruttare anche per immagini, suoni ecc. In generale la distanza di Levenshtein tra due stringhe A e B è il numero minimo di modifiche elementari che consentono di trasformare la stringa A in quella B. Per modifica elementare si intende : - cancellazione di un carattere contenuto nel termine ; - sostituzione di un carattere con un altro ; - inserimento ex-novo di un carattere nella stringa. Un esempio esplicativo dell algoritmo di edit è la trasformazione del termine "casa" in "carato": 1. casa -> cara ( sostituzione di S in R ); 2. cara -> carat ( inserimento di T ); 3. carat -> carato ( inserimento di O ). Percui, nel caso preso in esempio, non è possibile passare dalla prima parola alla seconda con meno di 3 operazioni, quindi la distanza di Levenshtein è 3. A supporto di questo esempio è sopra riportato lo sviluppo in Java dell algoritmo e un Main di prova per testarlo. 20
21 2.4 Vocabolario dei sinonimi Analisi, progettazione e sviluppo di un software di Information Retrieval con tecnologie J2EE Le difficoltà nell implementazione di un valido motore di IR stanno non tanto nelle fasi descritte fin qui, le quali sono ben definite e facili da implementare grazie all uso di algoritmi ben strutturati e studiati, ma sta nella restituzione e reperimento della IN utente. Diversamente dalle altre lingue mondiali, l italiano ha una sintassi e una morfologia estremamente complessa e articolata, percui, una parola può avere molti significati in base al contesto, alla posizione, all uso, ecc. Inoltre il vocabolario dei sinonimi in italiano, complica ancor di più la restituzione di un risultato valido e preciso all utente. E proprio su questo punto che attualmente vi è un forte studio per l ottimizzazione e l efficienza di strumenti già esistenti ma che vanno sicuramente perfezionati. Uno degli strumenti che permette di poter restituire risultati validi e quindi rispettare l IN dell utente è il Thesaurus, il quale si occupa di confrontare tuple di termini e restituire il sinonimo associato ai termini cercati dall utente. Il Thesaurus fa parte della più grande famiglia degli algoritmi di prossimità semantica, i quali sono di fondamentale utilità per aumentare le capacità di analisi testuale e per il soddisfacimento dell IN utente Thesaurus In sintesi un Thesaurus è sostanzialmente un dizionario dei sinonimi ( nel nostro specifico caso d uso in italiano ), nel quale nello specifico, vengono memorizzari i valori di somiglianza tra coppie di termini. Inoltre esistono diverse tecniche per la costruzione dei Thesaurus che si distinguono principalmente in due gruppi principali : - Somiglianza lessicale: si basano sull analisi della radice comune dei termini fornendo un indice che rappresenta quanto due parole derivino da una radice comune. - Somiglianza semantica: si basano sull analisi delle relazioni concettuali dei termini fornendo un indice che rappresenta quanto due termini sono concettualmente legati. 21
22 2.4.2 Somiglianza lessicale Esistono due tecniche per individuare le affinità semantiche tra coppie di termini di un documento: l individuazione di una radice comune tra i termini ( troncamento ) e l analisi tra stringhe. Nell utilizzo della prima metodologia si riscontrano ambiguità nella determinazione della radice comune e nell impossibilità di analizzare correttamente le forme irregolari dei termini. Nel confronto tra stringhe, invece, la procedura è più semplice ma più dispendiosa e consiste nel trovare una rappresentazione numerica al grado di somiglianza tra le parole Somiglianza semantica La somiglianza semantica si basa sulla ricerca di termini nel documento che possono essere considerati vocaboli simili. Due parole sono sinonimi se il loro utilizzo in un determinato contesto è neutrale ai fini del significato. Si possono analizzare diverse tipologie di correlazioni semantiche; i termini gatto e micio, ad esempio, sono sinonimi, ma anche i termini gatto e felino oppure gatto e animale, se pur in forma minore, sono dei sinonimi. In questi ultimi due casi si parla di iponimia della parola gatto in quanto i termini felino e animale sono concetti più generali rispetto al termine gatto. Oltre ai sinonimi vi sono anche altre correlazioni tra i termini, come esistono tra le parole cane e gatto. L individuazione di questi legami di termini è una fase molto complessa che non può prescindere dall intervento umano; la valutazione automatica di relazioni come quelle che esistono tra i termini cane e gatto, infatti, deve essere valutata manualmente in base al contesto di utilizzo. Per valutare le dipendenze di somiglianza semantica che esistono tra i termini di un documento si può pensare di prendere in considerazione come unità fondamentale, una frase. E logico pensare che se due termini compaiono assieme in diverse frasi è plausibile che queste parole siano correlate tra loro. Su questa idea di base si sviluppano le principali tecniche di analisi automatica della somiglianza semantica di termini. 22
Introduzione all Information Retrieval
Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information
DettagliModulo 1: Motori di ricerca
Contenuti Architettura di Internet Principi di interconnessione e trasmissione World Wide Web Posta elettronica Motori di ricerca Antivirus Personal firewall Tecnologie delle reti di calcolatori Servizi
DettagliCorso Analista Programmatore Web PHP Corso Online Analista Programmatore Web PHP
Corso Analista Programmatore Web PHP Corso Online Analista Programmatore Web PHP Accademia Futuro info@accademiafuturo.it Programma Generale del Corso Analista Programmatore Web PHP Tematiche Trattate
DettagliDatabase. Si ringrazia Marco Bertini per le slides
Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida
DettagliTelerilevamento e GIS Prof. Ing. Giuseppe Mussumeci
Corso di Laurea Magistrale in Ingegneria per l Ambiente e il Territorio A.A. 2014-2015 Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci Strutture di dati: DB e DBMS DATO E INFORMAZIONE Dato: insieme
DettagliMANUALE MOODLE STUDENTI. Accesso al Materiale Didattico
MANUALE MOODLE STUDENTI Accesso al Materiale Didattico 1 INDICE 1. INTRODUZIONE ALLA PIATTAFORMA MOODLE... 3 1.1. Corso Moodle... 4 2. ACCESSO ALLA PIATTAFORMA... 7 2.1. Accesso diretto alla piattaforma...
DettagliIl database management system Access
Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio
DettagliMODULO 5 Appunti ACCESS - Basi di dati
MODULO 5 Appunti ACCESS - Basi di dati Lezione 1 www.mondopcnet.com Modulo 5 basi di dati Richiede che il candidato dimostri di possedere la conoscenza relativa ad alcuni concetti fondamentali sui database.
DettagliProgettaz. e sviluppo Data Base
Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo
DettagliUniversità degli Studi "Roma Tre" Dipartimento di Informatica ed automazione. Facoltà di Ingegneria
Università degli Studi "Roma Tre" Dipartimento di Informatica ed automazione Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica Tesi di Laurea AUTENTICAZIONE PER APPLICAZIONI WEB Relatore
DettagliBASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone
BASI DI DATI per la gestione dell informazione Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone Libro di Testo 22 Chianese, Moscato, Picariello e Sansone BASI DI DATI per la Gestione dell
DettagliIntroduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni
Introduzione Ai Data Bases Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni I Limiti Degli Archivi E Il Loro Superamento Le tecniche di gestione delle basi di dati nascono
DettagliCorso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati
Corso di Access Modulo L2A (Access) 1.1 Concetti di base 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione Un ambiente DBMS è un applicazione che consente
DettagliUso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database
Uso delle basi di dati Uso delle Basi di Dati Il modulo richiede che il candidato comprenda il concetto di base dati (database) e dimostri di possedere competenza nel suo utilizzo. Cosa è un database,
DettagliLE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE
LE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE Che cosa sono e a cosa servono le caratteristiche? Oltre a descrivere le qualità di un prodotto con un testo generico (descrizione) è possibile dettagliare
DettagliGestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.
Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare. E stato previsto l utilizzo di uno specifico prodotto informatico (denominato
DettagliPROCEDURA PER LA GESTIONE ESAMI DI STATO AREA ALUNNI AXIOS
PROCEDURA PER LA GESTIONE ESAMI DI STATO AREA ALUNNI AXIOS Lo scopo di questa guida rapida è quello di fornire all utente, sia del prodotto SISSI in RETE che del prodotto Axios, un vademecum per la corretta
DettagliIpertesti e Internet. Ipertesto. Ipertesto. Prof.ssa E. Gentile. a.a. 2011-2012
Corso di Laurea Magistrale in Scienze dell Informazione Editoriale, Pubblica e Sociale Ipertesti e Internet Prof.ssa E. Gentile a.a. 2011-2012 Ipertesto Qualsiasi forma di testualità parole, immagini,
DettagliAnalisi dei requisiti e casi d uso
Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................
DettagliMetodologie Informatiche Applicate al Turismo
Metodologie Informatiche Applicate al Turismo 1. Introduzione Paolo Milazzo Dipartimento di Informatica, Università di Pisa http://www.di.unipi.it/ milazzo milazzo di.unipi.it Corso di Laurea in Scienze
DettagliIntroduzione alla teoria dei database relazionali. Come progettare un database
Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare
DettagliCercare documenti Web
Pagine web (struttura html) Cercare documenti Web Motori di Ricerca I MOTORI DI RICERCA Sulla rete Web vi sono strumenti specifici chiamati motori di ricerca (research engines) per la ricerca di siti e
DettagliStrumenti di modellazione. Gabriella Trucco
Strumenti di modellazione Gabriella Trucco Linguaggio di modellazione Linguaggio formale che può essere utilizzato per descrivere (modellare) un sistema Il concetto trova applicazione soprattutto nell
Dettagli. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i pro- grammi
Capitolo Terzo Primi passi con Microsoft Access Sommario: 1. Aprire e chiudere Microsoft Access. - 2. Aprire un database esistente. - 3. La barra multifunzione di Microsoft Access 2007. - 4. Creare e salvare
DettagliGenerazione Automatica di Asserzioni da Modelli di Specifica
UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea Magistrale in Informatica Generazione Automatica di Asserzioni da Modelli di Specifica Relatore:
DettagliLinguaggi di programmazione
Linguaggi di programmazione Un calcolatore basato sul modello di von Neumann permette l esecuzione di un programma, cioè di una sequenza di istruzioni descritte nel linguaggio interpretabile dal calcolatore
DettagliLa gestione del documento
Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non
DettagliCORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)
Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni
DettagliLe Basi di Dati. Le Basi di Dati
Le Basi di Dati 20/05/02 Prof. Carlo Blundo 1 Le Basi di Dati Le Base di Dati (database) sono un insieme di tabelle di dati strutturate in maniera da favorire la ricerca di informazioni specializzate per
DettagliAutomazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it
Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione
Dettagli1. BASI DI DATI: GENERALITÀ
1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente
DettagliProgetto ittorario Anno scol. 2013-2014
PROGETTO ittorario Scopo: Creazione di una pagina web che mostri l orario di un docente, della classe della materia o dell aula a discrezione dell utente. Sviluppatori: Progetto sviluppato dalla classe
DettagliScuola Digitale. Manuale utente. Copyright 2014, Axios Italia
Scuola Digitale Manuale utente Copyright 2014, Axios Italia 1 SOMMARIO SOMMARIO... 2 Accesso al pannello di controllo di Scuola Digitale... 3 Amministrazione trasparente... 4 Premessa... 4 Codice HTML
DettagliBasi di Dati Multimediali. Fabio Strocco
Basi di Dati Multimediali Fabio Strocco September 19, 2011 1 Contents 2 Introduzione Le basi di dati (o database) hanno applicazioni in molti campi, in cui è necessario memorizzare, analizzare e gestire
DettagliIL SISTEMA INFORMATIVO
IL SISTEMA INFORMATIVO In un organizzazione l informazione è una risorsa importante al pari di altri tipi di risorse: umane, materiali, finanziarie, (con il termine organizzazione intendiamo un insieme
DettagliUniversità Politecnica delle Marche. Progetto Didattico
Università Politecnica delle Marche Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica e dell Automazione Sede di Ancona Anno Accademico 2011-2012 Corso di Tecnologie WEB Docente prof. Alessandro
DettagliLA PROGETTAZIONE DI UN NUOVO STRUMENTO PER IL WEB
UNIVERSITÀ DEGLI STUDI DI PADOVA FACOLTÀ DI LETTERE E FILOSOFIA CORSO DI LAUREA MAGISTRALE IN STRATEGIE DI COMUNICAZIONE LA PROGETTAZIONE DI UN NUOVO STRUMENTO PER IL WEB LA PROPOSTA DI UN MODELLO MIRATO
DettagliFunzioni in C. Violetta Lonati
Università degli studi di Milano Dipartimento di Scienze dell Informazione Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Funzioni - in breve: Funzioni Definizione di funzioni
DettagliUso dei modelli/template
Uso dei modelli/template Il modello (o template, in inglese) non è altro che un normale file di disegno, generalmente vuoto, cioè senza alcuna geometria disegnata al suo interno, salvato con l estensione.dwt.
DettagliStefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse
Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le
DettagliI motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi
I motori di ricerca Stefania Marrara Corso di Sistemi Informativi a.a 2002/2003 Che cosa sono Un motore di ricerca è uno strumento per mezzo del quale è possibile ricercare alcuni termini (parole) all
DettagliProgramma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione
Programma del Corso Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Normalizzazione (I prova scritta) (II prova scritta) Interazione fra linguaggi di programmazione e basi di dati Cenni
DettagliLa ricerca delle informazioni nei siti web di Ateneo con Google Search Appliance Progetto, implementazione e sviluppi
La ricerca delle informazioni nei siti web di Ateneo con Google Search Appliance Progetto, implementazione e sviluppi Il progetto del sistema di ricerca delle informazioni L'esigenza del sistema di ricerca
DettagliSistema G.U.S. Capitolato di Gara ALLEGATO A
Procedura volta alla realizzazione di un nuovo sistema informatico, denominato G.U.S.-N., finalizzato all automazione dei processi di raccolta, condivisione ed elaborazione dei dati nazionali concernenti
DettagliControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi
ControlloCosti Cubi OLAP I cubi OLAP Un Cubo (OLAP, acronimo di On-Line Analytical Processing) è una struttura per la memorizzazione e la gestione dei dati che permette di eseguire analisi in tempi rapidi,
DettagliSistemi avanzati di gestione dei Sistemi Informativi
Esperti nella gestione dei sistemi informativi e tecnologie informatiche Sistemi avanzati di gestione dei Sistemi Informativi Docente: Email: Sito: Eduard Roccatello eduard@roccatello.it http://www.roccatello.it/teaching/gsi/
DettagliVADEMECUM PER UNA STRATEGIA SEO VINCENTE
F a b r i z i o C a r u s o VADEMECUM PER UNA STRATEGIA SEO VINCENTE L esperienza maturata e i risultati raggiunti nel corso degli anni attraverso l insegnamento e la consulenza SEO mi hanno indotto a
DettagliArchiviazione ottica documentale
Archiviazione ottica documentale Le informazioni che cercate sempre disponibili e condivise, nel pieno rispetto delle norme di sicurezza Chi siamo Cos è Charta Il processo di archiviazione I nostri punti
DettagliLinguaggi e Paradigmi di Programmazione
Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una
DettagliAnalisi e catalogazione automatica dei Curriculum Vitae
Analisi e catalogazione automatica dei Curriculum Vitae CV Manager è lo strumento di Text Mining che automatizza l analisi, la catalogazione e la ricerca dei Curriculum Vitae L esigenza Quanto tempo viene
DettagliA tal fine il presente documento si compone di tre distinte sezioni:
Guida on-line all adempimento Questa guida vuole essere un supporto per le pubbliche amministrazioni, nella compilazione e nella successiva pubblicazione dei dati riguardanti i dirigenti sui siti istituzionali
DettagliLezione 8. Motori di Ricerca
Lezione 8 Motori di Ricerca Basi di dati Un campo prevalente dell applicazione informatica è quello costituito dall archiviazione e dalla gestione dei dati (basi di dati). Sistema Informativo. Un sistema
DettagliIl software di gestione immobiliare più facile da usare. Modulo Web v5.2. www.gestim.it
Il software di gestione immobiliare più facile da usare Modulo Web v5.2 www.gestim.it Introduzione Il Modulo Web è un componente di Gestim che permette di pubblicare in automatico gli annunci sul sito
DettagliDispensa di database Access
Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di
DettagliVolumi di riferimento
Simulazione seconda prova Esame di Stato Gestione di un centro agroalimentare all ingrosso Parte prima) Un nuovo centro agroalimentare all'ingrosso intende realizzare una base di dati per l'attività di
DettagliCapitolo 5. Cercare informazioni sul Web
Capitolo 5 Cercare informazioni sul Web Cercare nel posto giusto Posti logici e noti per reperire informazioni sui nostri contributi pensionistici, chiediamo all INPS Biblioteche on-line La maggior parte
DettagliAlfa Layer S.r.l. Via Caboto, 53 10129 Torino ALFA PORTAL
ALFA PORTAL La struttura e le potenzialità della piattaforma Alfa Portal permette di creare, gestire e personalizzare un Portale di informazione in modo completamente automatizzato e user friendly. Tramite
DettagliSOMMARIO... 3 INTRODUZIONE...
Sommario SOMMARIO... 3 INTRODUZIONE... 4 INTRODUZIONE ALLE FUNZIONALITÀ DEL PROGRAMMA INTRAWEB... 4 STRUTTURA DEL MANUALE... 4 INSTALLAZIONE INRAWEB VER. 11.0.0.0... 5 1 GESTIONE INTRAWEB VER 11.0.0.0...
DettagliSoftware per Helpdesk
Software per Helpdesk Padova - maggio 2010 Antonio Dalvit - www.antoniodalvit.com Cosa è un helpdesk? Un help desk è un servizio che fornisce informazioni e assistenza ad utenti che hanno problemi nella
DettagliSommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.
Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell
Dettagli2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso
2.0 Gli archivi All interno della sezione archivi sono inserite le anagrafiche. In pratica si stratta di tutti quei dati che ricorreranno costantemente all interno dei documenti. 2.1 Inserire gli archivi
DettagliAl termine del lavoro ad uno dei componenti del gruppo verrà affidato l incarico di relazionare a nome di tutto il gruppo.
Pag. 1 di 5 6FRSR analizzare problemi complessi riguardanti la gestione di un sito interattivo proponendo soluzioni adeguate e facilmente utilizzabili da una utenza poco informatizzata. 2ELHWWLYL GD UDJJLXQJHUH
DettagliExcel. A cura di Luigi Labonia. e-mail: luigi.lab@libero.it
Excel A cura di Luigi Labonia e-mail: luigi.lab@libero.it Introduzione Un foglio elettronico è un applicazione comunemente usata per bilanci, previsioni ed altri compiti tipici del campo amministrativo
DettagliDispensa di Informatica I.1
IL COMPUTER: CONCETTI GENERALI Il Computer (o elaboratore) è un insieme di dispositivi di diversa natura in grado di acquisire dall'esterno dati e algoritmi e produrre in uscita i risultati dell'elaborazione.
DettagliCome costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali
PowerPoint Come costruire una presentazione PowerPoint 1 Introduzione! PowerPoint è uno degli strumenti presenti nella suite Office di Microsoft! PowerPoint permette la realizzazione di presentazioni video
DettagliARCHIVIAZIONE DOCUMENTALE NEiTdoc
ARCHIVIAZIONE DOCUMENTALE NEiTdoc PROCESS & DOCUMENT MANAGEMENT La documentazione può essere definita un complesso di scritture prodotte da entità pubbliche o private nell espletamento della loro attività,
DettagliI WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011
I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA Palermo 9 novembre 2011 UNIVERSITÀ DEGLI STUDI DI PALERMO Webquest Attività di indagine guidata sul Web, che richiede la partecipazione attiva degli studenti,
DettagliEXPLOit Content Management Data Base per documenti SGML/XML
EXPLOit Content Management Data Base per documenti SGML/XML Introduzione L applicazione EXPLOit gestisce i contenuti dei documenti strutturati in SGML o XML, utilizzando il prodotto Adobe FrameMaker per
DettagliSviluppata da: Lo Russo - Porcelli Pag. 1 di 6 6FRSR utilizzare il DBMS Postgresql per imparare il linguaggio SQL.
Pag. 1 di 6 6FRSR utilizzare il DBMS Postgresql per imparare il linguaggio SQL. 2ELHWWLYL GD UDJJLXQJHUH SHU JOL VWXGHQWL alla fine dell esercitazione gli studenti dovranno essere in grado di: 1. utilizzare
DettagliProgetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario
Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,
DettagliTesi di Laurea Automazione del testing delle Interfacce utente di applicazioni WEB:
Tesi di Laurea Automazione del testing delle Interfacce utente di applicazioni WEB: un caso di studio Anno accademico 2009 / 2010 Relatore Ch.mo prof. Porfirio Tramontana Correlatore Ch.mo Ing. Domenico
DettagliLight CRM. Documento Tecnico. Descrizione delle funzionalità del servizio
Documento Tecnico Light CRM Descrizione delle funzionalità del servizio Prosa S.r.l. - www.prosa.com Versione documento: 1, del 11 Luglio 2006. Redatto da: Michela Michielan, michielan@prosa.com Revisionato
DettagliProgettazione della componente applicativa
7 Progettazione della componente applicativa In questo capitolo illustreremo la progettazione della componente applicativa di un sistema informativo. La metodologia da noi utilizzata sarà basata sull utilizzo
DettagliUNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria
ESAME DI STATO DI ABILITAZIONE ALL'ESERCIZIO DELLA PROFESSIONE DI INGEGNERE PRIMA PROVA SCRITTA DEL 22 giugno 2011 SETTORE DELL INFORMAZIONE Tema n. 1 Il candidato sviluppi un analisi critica e discuta
DettagliDefinizione Parte del software che gestisce I programmi applicativi L interfaccia tra il calcolatore e i programmi applicativi Le funzionalità di base
Sistema operativo Definizione Parte del software che gestisce I programmi applicativi L interfaccia tra il calcolatore e i programmi applicativi Le funzionalità di base Architettura a strati di un calcolatore
DettagliRegistratori di Cassa
modulo Registratori di Cassa Interfacciamento con Registratore di Cassa RCH Nucleo@light GDO BREVE GUIDA ( su logiche di funzionamento e modalità d uso ) www.impresa24.ilsole24ore.com 1 Sommario Introduzione...
DettagliRegione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da
ARPA Fonte Dati Regione Toscana Redatto da L. Folchi (TAI) Rivisto da Approvato da Versione 1.0 Data emissione 06/08/13 Stato DRAFT 1 Versione Data Descrizione 1,0 06/08/13 Versione Iniziale 2 Sommario
DettagliBanca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste
Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste versione 2.1 24/09/2015 aggiornamenti: 23-set-2015; 24-set-2015 Autore: Francesco Brunetta (http://www.francescobrunetta.it/)
DettagliLa Metodologia adottata nel Corso
La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema
DettagliI database relazionali (Access)
I database relazionali (Access) Filippo TROTTA 04/02/2013 1 Prof.Filippo TROTTA Definizioni Database Sistema di gestione di database (DBMS, Database Management System) Sistema di gestione di database relazionale
DettagliArchivi e database. Prof. Michele Batocchi A.S. 2013/2014
Archivi e database Prof. Michele Batocchi A.S. 2013/2014 Introduzione L esigenza di archiviare (conservare documenti, immagini, ricordi, ecc.) è un attività senza tempo che è insita nell animo umano Primi
DettagliLezione 1. Introduzione e Modellazione Concettuale
Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and
DettagliMANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA
MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA Fornitore: Publisys Prodotto: Intranet Provincia di Potenza http://www.provincia.potenza.it/intranet Indice 1. Introduzione... 3 2. I servizi dell Intranet...
DettagliGUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE
GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE L applicazione elaborata da Nordest Informatica e disponibile all interno del sito è finalizzata a fornirvi un ipotesi dell impatto economico
DettagliManuale Utente. Gestione Richieste supporto BDAP. Versione 1.0
Manuale Utente Gestione Richieste supporto BDAP Versione 1.0 Roma, Settembre 2015 1 Indice 1 Generalità... 3 1.1 Scopo del documento... 3 1.2 Versioni del documento... 3 1.3 Documenti di Riferimento...
DettagliStrumenti e metodi di ausilio didattico per i dislessici
Strumenti e metodi di ausilio didattico per i dislessici La Dislessia è un Disturbo specifico dell Apprendimento (DSA) di cui soffrono dal 3 al 4% degli studenti in età evolutiva. Da almeno 10 anni viene
DettagliPROCESSO DI INDICIZZAZIONE SEMANTICA
PROCESSO DI INDICIZZAZIONE SEMANTICA INDIVIDUAZIONE DEI TEMI/CONCETTI SELEZIONE DEI TEMI/CONCETTI ESPRESSIONE DEI CONCETTI NEL LINGUAGGIO DI INDICIZZAZIONE TIPI DI INDICIZZAZIONE SOMMARIZZAZIONE INDICIZZAZIONE
DettagliDocumento di accompagnamento: mediane dei settori bibliometrici
Documento di accompagnamento: mediane dei settori bibliometrici 1. Introduzione Vengono oggi pubblicate sul sito dell ANVUR e del MIUR 3 tabelle, deliberate nel CD dell ANVUR del 13 agosto 2012, relative
Dettaglisito web sito Internet
Siti Web Cos è un sito web Un sito web o sito Internet è un insieme di pagine web correlate, ovvero una struttura ipertestuale di documenti che risiede, tramite hosting, su un web server e accessibile
DettagliIntroduzione al corso
Introduzione al corso Sistemi Informativi L-B Home Page del corso: http://www-db.deis.unibo.it/courses/sil-b/ Versione elettronica: introduzione.pdf Sistemi Informativi L-B Docente Prof. Paolo Ciaccia
DettagliInfiXor. il programma facile e versatile per preventivi veloci e completi. il software di preventivazione per produttori e rivenditori di infissi
InfiXor il software di preventivazione per produttori e rivenditori di infissi di Paolo Audisio SOFTWARE PROGRAMMAZIONE CONSULENZA INFORMATICA sito internet: www.infixor.it Via Carlo Zucchi 19 40134 BOLOGNA
DettagliGuida alla registrazione on-line di un DataLogger
NovaProject s.r.l. Guida alla registrazione on-line di un DataLogger Revisione 3.0 3/08/2010 Partita IVA / Codice Fiscale: 03034090542 pag. 1 di 17 Contenuti Il presente documento è una guida all accesso
DettagliSUAP. Per gli operatori SUAP/amministratori. Per il richiedente
Procedura guidata per l inserimento della domanda Consultazione diretta, da parte dell utente, dello stato delle sue richieste Ricezione PEC, protocollazione automatica in entrata e avviamento del procedimento
DettagliCorso di. Dott.ssa Donatella Cocca
Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile
Dettagliconnessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI
Documenti su Internet LINGUAGGI DI MARKUP Internet permette (tra l altro) di accedere a documenti remoti In generale, i documenti acceduti via Internet sono multimediali, cioè che possono essere riprodotti
DettagliSCENARIO. Personas. 2010 ALICE Lucchin / BENITO Condemi de Felice. All rights reserved.
SCENARIO Personas SCENARIO È una delle tecniche che aiuta il designer a far emergere le esigente dell utente e il contesto d uso. Gli scenari hanno un ambientazione, attori (personas) con degli obiettivi,
DettagliRIFERIMENTI ATTORI GLOSSARIO. ERRORI COMUNI REV. REQUISITI INGEGNERIA DEL SOFTWARE Università degli Studi di Padova
RIFERIMENTI ERRORI COMUNI REV. REQUISITI INGEGNERIA DEL SOFTWARE Università degli Studi di Padova Dipartimento di Matematica Corso di Laurea in Informatica, A.A. 2014 2015 I riferimenti devono essere precisi
DettagliIntroduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico
Introduzione alle basi di dati Introduzione alle basi di dati Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS Gestione delle
DettagliText mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali
Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio
DettagliUNIVERSITA DEGLI STUDI ROMA TRE
UNIVERSITA DEGLI STUDI ROMA TRE COMUNITA DI PRATICA E COMUNICAZIONE ON LINE : IL CASO MASTER GESCOM RELATORE Prof.ssa Giuditta ALESSANDRINI Laureanda Chiara LOLLI Matr. n. 203597 CORRELATORE Prof.ssa Isabella
Dettagli