Automatic Text Processing

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Automatic Text Processing"

Transcript

1 Automatic Text Processing Ing. Leonardo Rigutini Dipartimento di Ingegneria dell Informazione Università di Siena Via Roma SIENA ITALY

2 Outlines L era dell informazione Information Retrieval I documenti di testo Rappresentazione del testo: Vettori di feature Rappresentazione Bag-OF-Word Importanza di un termine Misura di similarità Normalizzazione del testo: Tokenization Conversion to lower case Lemming Stop-Word

3 L era dell informazione Documento inteso come contenitore di informazione di qualunque tipo Varie forme di informazione: Testo, Radio, Televisione, INTERNET Vari tipi di documenti: Testo, Audio, Immagini e Video, Tutti Incredibile il numero di documenti esistenti oggi: Nel 2000 si stima la dimensione del web in più di 1 BILIONE di pagine I motori di ricerca classici (Google, AltaVista, Yahoo indicizzano centinaia di milioni di documenti Gli archivi delle aziende raggiungono milioni di documenti Moltissime anche le pubblicazioni memorizzate nei database dei search-engine specializzati (citeseer, cora, IEEE, ecc Newsgroup, forum, le Archivi fotografici Ecc..

4 Information Retrieval Necessità di organizzare questa informazione Aziende: documenti relativi all azienda, regolamento interno, bollettini interni, comunicazioni varie, workflow, ecc.. Enti pubblici: Regolamenti, modulistica, notizie, bandi ecc.. WEB: Qualunque informazione Altro Necessità di studiare tecniche per un recupero intelligente dell informazione: IR (Information Retrieval

5 Information Retrieval Disciplina che studia tecniche per il recupero dell informazione Es. Motori di ricerca Scopo: Recupero dei documenti giusti durante la ricerca da parte dell utente Misure per l IR: RECALL: n relevant items retrieved n relevant items in collection PRECISION: n relevant items retrieved total n items retrieved

6 Information Retrieval Misurare la similarità tra due o più documenti in modo da restituire all utente i documenti più significativi: Trovare una rappresentazione adeguata dei documenti Definire una metrica (distanza per tale rappresentazione La macchina determina la similarità tra la query e tutti i documenti nel database, restituendo i documenti con punteggio più elevato.

7 Documenti di testo La maggioranza di documenti presenti sulla rete sono documenti di testo La maggioranza delle tecniche di classificazione e di recupero dell informazione sono relative al testo La maggioranza delle ricerche effettuate sul web riguarda documenti di testo Le ultime due affermazioni sono strettamente correlate: Ad oggi pochi sono i motori per immagini che funzionano, quasi nessuno per i video o audio, ciò spiega perché l utente si muove su documenti di testo Inoltre molte ricerche multimediali si risolvono in ricerche testuali in appositi campi un video viene etichettato con un insieme di keyword e la sua ricerca avviene per tali parole

8 Text-IR Text Information Retrival raccoglie: Text Retrieval: Data una query, recuperare i documenti più attinenti Text Segmentation: Dato un documento, suddividerlo in sub-topic Text Classification: Determinare la classe del documento tra un insieme di classi prestabilito Document Clustering: Dato un database documentale, determinare l insieme delle classi e gli abbinamenti classe-doumento

9 Rappresentazione del testo Documento di testo: Sequenza (flusso di parole contenente uno o più topic (argomenti, concetti ecc.. Feature: Parole Punteggiatura Stile del testo (Grassetto, Corsivo, ecc Struttura del testo (Titolo, paragarafo, nota ecc Bi-grammi o tri-grammi

10 Vettori - 1 Un punto in uno spazio può essere rappresentato come un insieme di valori, ognuno dei quali si riferisce ad una dimensione dello spazio stesso Es. 2-D : P = ( x 1, x 2 x 2 P (x 1,x 2 x 1 3-D : P = ( x 1, x 2, x 3 x 3 P (x 1,x 2,x 3 x 1 x 2 Formalmente: Un vettore è una n-pla di valori dove n è la dimensione dello spazio P = ( x 1, x 2,, x n

11 Vettori - 2 Rappresentazione alternativa di un vettore in R 2 : Modulo: misura del vettore Angolo: angolo che il vettore forma con le ascisse N.B. sempre due dimensioni (cambia la base x 2 P (x 1,x 2 P α x 1 Operazioni: Modulo: Per calcolare il modulo si utilizza il teorema di pitagora: E si indica con P Prodotto scalare < A, B > = a1 b1 + a 2 b 2 Il prodotto scalare tra A e B si indica con < A,B> o A B P = (x (x 2

12 Vettore differenza Dati due punti (vettori è possibile calcolare il vettore differenza: a 2 A (a 1,a 2 b 2 B (b1,b 2 a 1 b 1 Quanto vale A-B? A-B= C (a 1 -b 1, a 2 -b 2 C (a 1 -b 1, a 2 -b 2 a 2 -b 2 a1-b1

13 Distanza - 1 Possiamo definire due tipi di distanze: Distanza euclidea : modulo del vettore differenza A B = (a b1 + (a 2 b 2 Distanza del coseno: Angolo formato dai due vettori: cos ( α = < A,B > A B Se due vettori hanno pendenze vicine allora l angolo che essi formano è piccolo ed il coseno tende ad 1 a 2 A (a 1,a 2 b 2 B (b1,b 2 α a 1 b 1

14 Distanza - 2 La seconda formula è 0 quando α = 90 In tale situazione infatti il prodotto scalare è 0 Ed i due vettori si dicono ortogonali a 2 A (0,a 2 α =90 Infatti: < A,B > = 0 b 1 + a 2 0 = 0 b 1 B (b 1,0

15 Vector Space Model Un documento è visto come un punto (vettore nello spazio delle parole del dizionario (feature: D i = ( w i,1, w i,2, w i,3,, w i,n Ogni termine w i,k è il peso della parola k nel documento i: w i,k w i, k = n i 3. tf.tdf: 4. altri 1 se il termine k appare nel documento i = 0 altrimenti numero di volte cheil termine k appare nel w i, k = documento i frequenza del termine k nel documento i frequenza del termine k nell'intera collezione Tale rappresentazione è detta comunemente Bag-of-Word

16 Es. BOW (Bag( Bag-of-Word Supponiamo di avere due documenti: D 1 = ingredienti pizza: farina, acqua, lievito, olio D 2 = descrizione computer: CPU, RAM, Hard disk Il dizionario è l unione dei due insiemi: T = {ingredienti,pizza,farina,acqua,lievito,olio,descrizione,computer,cpu,ram,hard Disk} n=11 dimensione dello spazio La rappresentazione BOW dei due documenti: D 1 = (1,1,1,1,1,1,0,0,0,0,0 D 2 = (0,0,0,0,0,0,1,1,1,1,1 Se un utente esegue una query Q= ingredienti pizza essa viene rappresentata come: Q = (1,1,0,0,0,0,0,0,0,0,0

17 Grado di similarità Il calcolo della similitudine tra due documenti diventa il calcolo della distanza tra due vettori: Sim(D i, D j = d (D i, D j Normalmente si utilizza la distanza del coseno: < D Sim(D i, D j = cos (D i, D j = D i i, D D j j >

18 Es. (reprise Nell esempio precedente avevamo: D 1 = (1,1,1,1,1,1,0,0,0,0,0 D 2 = (0,0,0,0,0,0,1,1,1,1,1 Q = (1,1,0,0,0,0,0,0,0,0,0 Calcolando sim( avremo: Sim (D 1, D 2 = 0 Sim (Q, D 1 = 0.37 Sim (Q, D 2 = 0 Ed il sistema restituisce il documento D 1

19 Soglia di similarità Nella realtà: Databases con milioni di documenti Dizionario formato da migliaia di parole (vettori di ~ componenti Conseguenze: Molti confronti con un valore di similarità prossimo a zero ma non zero Soluzione: Soglia di similarità

20 Limiti: Bag-Of Of-Word Rappresentazione cruda del testo (non viene analizzata la semantica Parole uguali che assumono nel documento significati differenti sono trattate come la stessa parola Presenza di elevato rumore (vedremo più avanti Vantaggi: Semplice e veloce Relativamente bassa complessità computazionale Buoni risultati (60 % 70 % in classificazione Studiata da 15 anni

21 Rumore Con rumore si intende qualunque cosa che disturba il buon comportamento del sistema In questo caso: Parole poco informative sul topic del documento (articoli, congiunzioni, avverbi Parole diverse con significati simili (sinonimi Parole uguali con significati diversi (es. àncora e ancòra Verbi coniugati (vado e andare Per limitare alcuni di questi problemi sono stati studiati metodi di pre-processing

22 Normalizzazione del testo Consiste in quattro step di cui due opzionali: 1. Tokenization 2. Conversion to lowercase 3. Lemming 4. Stop-word Tali operazioni tentano di ridurre il rumore introdotto dalla rappresentazione bag-of-word del documento

23 Tokenization Evita che parole e punteggiatura siano incorporate in un unico termine, separandoli come due parole disgiunte Es. Today, stocks closed higher on heavy trading. Many stocks, despite early losses, reached all time highs. Today, stocks closed higher on heavy trading. Many stocks, despite early losses, reached all time highs. Ovviamente non è tutto così semplice: Se il punto fa parte del termine deve rimanere tale (es. nomi di società, indirizzi ecc

24 Conversion to lower case Evita che termini scritti totalmente o parzialmente in maiuscolo e in minuscolo vengano considerati diversamente Es. today, stocks closed higher on heavy trading. many stocks, despite early losses, reached all time highs.

25 Stemming Riporta i termini alla loro radice: Verbi coniugati Plurale e singolare Maschile e femminile Es. Today, stocks closed higher on heavy trading. Many stocks, despite early losses, reached all time highs. Today, stock close high on heavy trade. Many stock, despite early loss, reach all time high.

26 Stop Words Elimina le parole comuni con un grado di informazione minimo sul topic del documento: Articoli Congiunzioni Avverbi Verbi ausiliari Verbi che non portano informazione (es. potere, fare, ecc I termini sono così suddivisi in due tipi: Stop Words: inutili all individuazione del topic Function Words: importanti per capire il topic

27 Text-IR Avevamo visto che Text Information Retrival raccoglie: Text Retrieval: Data una query, recuperare i documenti più attinenti Text Segmentation: Dato un documento, suddividerlo in sub-topic Text Classification: Determinare la classe del documento tra un insieme di classi prestabilito Document Clustering: Dato un database documentale, determinare l insieme delle classi e gli abbinamenti classe-doumento Vediamo come analizzare tali problemi utilizzando la filosofia Bag-Of-Word

28 Text-IR - 1 Text Retrieval: La query Q è vista come un documento Calcolo di sim(q, D j per ogni documento D j Documenti con sim(q, D j abbastanza elevato vengono ritenuti significativi per la ricerca e restituiti all utente Text Segmentation: Si definiscono unità testuali atomiche lunghe k word dette sentenze: S i Si calcola la similarità tra ogni unità e la sua successiva: sim( S j, S j+1 Si considera un taglio quando tale valore scende sotto una soglia Nomi eccellenti: Salton, Hearst, Reinar, Beeferman

29 Text-IR - 2 Text Classification: Ogni classe C i è vista come un documento (vettore Dato un documento D j, si calcola sim(c i, D j per ogni C i D j viene inserito nella classe per cui sim(c i, D j è massimo Document Clustering: Si prendono due o più punti a caso detti centroidi C i Per ogni documento D j si calcola la sua similarità con i centroidi C i : sim(c i, D j Si assegna D j al centroide per cui sim(c i, D j è massimo Si calcola di nuovo i centroidi come media dei vettori che vi appartengono Si ripete il procedimento fino a che il centroide non si stabilizza

30 Text-IR conclusioni Come si vede si può riportare ogni problema al calcolo di sim(c i, D j Utilizzando il Bag-Of-Word si possono risolvere tutti i problemi relativi al IR in maniera semplice ed elegante Ovviamente vi sono altre tecniche (specialmente per la segmentazione ed il clustering ma si rifanno comunque ad una rappresentazione BOW del testo Segmentazione: dot-plot, entropiche, a regole, ecc.. Clustering: gerarchico

31 Altri approcci Considerando il testo come sequenza temporale di parole: HMM Reti Neurali Si cerca di: Sfruttare l informazione sulla posizione della parola Individuare contesti Scopo: Determinare i topic all interno dei documenti (segmentazione Classificare un documento in base ai sub-topic Restituire documenti della classe desiderata

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

La gestione del documento

La gestione del documento Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non

Dettagli

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Corso di Web Mining & Retrieval Introduzione all Information Retrieval (a.a. 2008-2009) Roberto Basili 1 Outline Accesso e Ricerca delle informazioni distribuite Il processo di base dell IR Rilevanza Applicazioni

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5

1 Introduzione 1 1.1 Information Retrieval: promesse e problemi... 1 1.2 Presentazione del lavoro... 3 1.3 Sommario... 5 Indice 1 Introduzione 1 1.1 Information Retrieval: promesse e problemi..................... 1 1.2 Presentazione del lavoro................................ 3 1.3 Sommario........................................

Dettagli

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Introduzione alle Biblioteche Digitali Sommario [1/2] Cenni storici Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Cos è una Biblioteca

Dettagli

Clustering semi-supervisionato di documenti di testo tramite SVM

Clustering semi-supervisionato di documenti di testo tramite SVM Università degli Studi di Siena Facoltà di Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica Clustering semi-supervisionato di documenti di testo tramite SVM Relatore: Prof. Marco Maggini

Dettagli

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval per associazione Navigazione ipertesti/ipermedia l utente naviga nello spazio

Dettagli

RICERCA DELL INFORMAZIONE

RICERCA DELL INFORMAZIONE RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Laboratorio di Apprendimento Automatico. Fabio Aiolli aiolli@math.unipd.it Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli aiolli@math.unipd.it Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli aiolli@math.unipd.it Università di Padova Informazioni Aula (16 ore) e Laboratorio (16 ore) Sempre il giovedi dalle 15:30 alle 17:00, cercheremo di

Dettagli

Macchine per l elaborazione dell informazion e. Sistemi di Elaborazione delle Informazioni. Informatica II

Macchine per l elaborazione dell informazion e. Sistemi di Elaborazione delle Informazioni. Informatica II Macchine per l elaborazione dell informazion e Sistemi di Elaborazione delle Informazioni Informatica II Ing. Mauro Iacono Seconda Università degli Studi di Napoli Facoltà di Studi Politici e per l Alta

Dettagli

Indicizzazione di documenti testuali

Indicizzazione di documenti testuali Indicizzazione di documenti testuali Generazione di un archivio di Documenti Testuali E eseguita off-line necessaria per accelerare il reperimento dei documenti E un processo che esegue le seguenti attività:

Dettagli

Progetto e realizzazione di un sistema per la generazione di dialoghi in linguaggio naturale

Progetto e realizzazione di un sistema per la generazione di dialoghi in linguaggio naturale Progetto e realizzazione di un sistema per la generazione di dialoghi in linguaggio naturale Candidato: Daniele Mori Relatore: Chiar.mo Prof. Alessandro De Gloria Obiettivo Utilizzare tecniche NLP in contesti

Dettagli

Sistemi di information retrieval e HCIR

Sistemi di information retrieval e HCIR Sistemi di information retrieval e HCIR Dott. Giuseppe Desolda Outline! Panoramica sui sistemi IR! Progettazione di interfacce per i sistemi IR! Framework di valutazione! Tecniche di visualizzazione e

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE Il sistema di ricerca della biblioteca virtuale permette di accedere in maniera rapida ai materiali didattici di interesse degli studenti presenti all interno del

Dettagli

Come cercare in Google

Come cercare in Google Come cercare in Google Monica Bianchini monica@dii.unisi.it Dipartimento di Ingegneria dell Informazione Università di Siena Guida pratica all utilizzo di Google Introduzione Le ricerche più frequenti

Dettagli

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Esempi di Applicazioni Web page Ranking Quali documenti sono rilevanti per una determinata query? Quali sorgenti di informazione

Dettagli

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA Ing. Simone SCARDAPANE Circuiti e Algoritmi per l Elaborazione dei Segnali Anno Accademico 2012/2013 Indice della Lezione 1. Analisi delle Componenti Principali 2. Auto-Associatori 3. Analisi delle Componenti

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Annotazione automatica di immagini con sistemi desktop grid

Annotazione automatica di immagini con sistemi desktop grid Annotazione automatica di immagini con sistemi desktop grid Marco Ferrante (ferrante@csita.unige.it) Laura Lo Gerfo (logerfo@disi.unige.it) DISI - Università di Genova Tagging e retrieval di immagini Nell'annotazione

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa.

Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa. Indicizzazione di Immagini (1) Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa.it/people/nappi Agenda Introduzione al Problema

Dettagli

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è diventato il più grande contenitore di informazioni del mondo? 2. Perché non è sempre facile reperire

Dettagli

Università degli studi di Napoli Federico II

Università degli studi di Napoli Federico II Università degli studi di Napoli Federico II Facoltà di Sociologia Corso di Laurea in culture digitali e della comunicazione Corso di Elementi di informatica e web Test ingresso per il bilancio delle competenze

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica

UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea in Informatica Costruzione di un thesaurus per gli algoritmi di prossimità semantica DISCo LET

Dettagli

Strutture dati efficienti per la ricerca della similarità

Strutture dati efficienti per la ricerca della similarità Strutture dati efficienti per la ricerca della similarità Anche utilizzando i metodi di filtraggio visti in precedenza, il numero di confronti tra query e oggetti presenti nel database rimane alto. L efficienza

Dettagli

WEB Information Retrieval

WEB Information Retrieval WEB Information Retrieval Materiale tratto dal corso di Gabriella Pasi Materiale tratto da cap. 13 Modern Information Retrieval by Ricardo Baeza-Yates and Berthier Ribeiro-Neto http://www.sims.berkeley.edu/~hearst/irbook/

Dettagli

Analisi delle opinioni dei clienti in ambito automotive: due casi studio

Analisi delle opinioni dei clienti in ambito automotive: due casi studio Analisi delle opinioni dei clienti in ambito automotive: due casi studio Negli ultimi anni le decisioni strategiche o di business di un azienda si affidano sempre più alla tecnologia: nuovi strumenti di

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

Basi di Dati Multimediali. Fabio Strocco

Basi di Dati Multimediali. Fabio Strocco Basi di Dati Multimediali Fabio Strocco September 19, 2011 1 Contents 2 Introduzione Le basi di dati (o database) hanno applicazioni in molti campi, in cui è necessario memorizzare, analizzare e gestire

Dettagli

Introduzione. Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD... 6

Introduzione. Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD... 6 Appunti di Calcolatori Elettronici Esecuzione di istruzioni in parallelo Introduzione... 1 Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD...

Dettagli

WOSM (World Open Source Monitoring): Il migliore sistema al mondo di media intelligence

WOSM (World Open Source Monitoring): Il migliore sistema al mondo di media intelligence 1 WOSM (World Open Source Monitoring): Il migliore sistema al mondo di media intelligence WOSM è un sistema di media monitoring unico al mondo. Restituisce percorsi di lettura dei dati trasversali, fruibili,

Dettagli

Metodi basati sugli autovettori per il Web Information Retrieval

Metodi basati sugli autovettori per il Web Information Retrieval Metodi basati sugli autovettori per il Web Information Retrieval HITS, PageRank e il metodo delle potenze LSI e SVD LSI è diventato famoso per la sua abilità nel permettere di manipolare i termini (all

Dettagli

EQUAZIONI non LINEARI

EQUAZIONI non LINEARI EQUAZIONI non LINEARI Francesca Pelosi Dipartimento di Matematica, Università di Roma Tor Vergata CALCOLO NUMERICO e PROGRAMMAZIONE http://www.mat.uniroma2.it/ pelosi/ EQUAZIONI non LINEARI p.1/44 EQUAZIONI

Dettagli

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video @Giusi Castagnetta tutti i diritti riservati Seo e contenuti video SEO facile Quando cerchiamo qualcosa sui motori di ricerca, ci aspettiamo di trovare per primi i risultati migliori, cioè quelli più pertinenti

Dettagli

WordNet A lexical Database

WordNet A lexical Database Università degli Studi di Bari Corso di Gestione della Conoscenza d Impresa Anno Accademico 2003-2004 2004 WordNet A lexical Database Dott. Marco Degemmis Ringraziamenti Domenico Ladisa, Caso di studi

Dettagli

Base Dati Introduzione

Base Dati Introduzione Università di Cassino Facoltà di Ingegneria Modulo di Alfabetizzazione Informatica Base Dati Introduzione Si ringrazia l ing. Francesco Colace dell Università di Salerno Gli archivi costituiscono una memoria

Dettagli

INFORMATICA. Corso di Laurea in Scienze dell'educazione

INFORMATICA. Corso di Laurea in Scienze dell'educazione INFORMATICA Corso di Laurea in Scienze dell'educazione Introduzione all Informatica Docente: Mario Alviano Studio: Dipartimento di Matematica Cubo 30B 2 Piano Ricevimento: giovedì 18:30 19:30 (avvisare

Dettagli

*** QUESTO DOCUMENTO E' INCOMPLETO ED IN FASE AMPLIAMENTO CONTINUO. ***

*** QUESTO DOCUMENTO E' INCOMPLETO ED IN FASE AMPLIAMENTO CONTINUO. *** *** QUESTO DOCUMENTO E' INCOMPLETO ED IN FASE AMPLIAMENTO CONTINUO. *** PREFAZIONE Questo progetto nasce perchè mi sono reso conto dell'importanza che i motori di ricerca hanno su Internet. Internet rappresenta

Dettagli

Informatica per la Storia dell Arte. Anno Accademico 2014/2015

Informatica per la Storia dell Arte. Anno Accademico 2014/2015 Università degli Studi di Palermo Dipartimento di Ingegneria Chimica, Gestionale, Informatica, Meccanica Informatica per la Storia dell Arte Anno Accademico 2014/2015 Docente: ing. Salvatore Sorce Architettura

Dettagli

Fondamenti di Automatica

Fondamenti di Automatica Fondamenti di Automatica Funzioni di trasferimento: stabilità, errore a regime e luogo delle radici Dott. Ing. Marcello Bonfè Dipartimento di Ingegneria - Università di Ferrara Tel. +39 0532 974839 E-mail:

Dettagli

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è il più grande contenitore di info del mondo? 2. Perché non è sempre facile reperire informazione utile

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 5 Tecniche OCR Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Informatica per le discipline umanistiche 2 lezione 12

Informatica per le discipline umanistiche 2 lezione 12 Informatica per le discipline umanistiche 2 lezione 12 Nella lezione precedente: In realtà non tutto il data mining è dettato dagli interessi economici (commercial) data mining Abbiamo visto risvolti commerciali

Dettagli

UNIVERSITA DEGLI STUDI DI FIRENZE. Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica

UNIVERSITA DEGLI STUDI DI FIRENZE. Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica UNIVERSITA DEGLI STUDI DI FIRENZE Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica Esercitazioni per l esame di Intelligenza Artificiale Prof. G. Soda Classic di Sauro Menchetti A.A.1998-99

Dettagli

Fondamenti di Elaborazione di Immagini Estrazione dei Bordi e Segmentazione. Raffaele Cappelli raffaele.cappelli@unibo.it

Fondamenti di Elaborazione di Immagini Estrazione dei Bordi e Segmentazione. Raffaele Cappelli raffaele.cappelli@unibo.it Fondamenti di Elaborazione di Immagini Estrazione dei Bordi e Segmentazione Raffaele Cappelli raffaele.cappelli@unibo.it Contenuti Estrazione dei bordi Calcolo del gradiente Operatori di Roberts Operatori

Dettagli

Presentazione della Tesi di Laurea:

Presentazione della Tesi di Laurea: UNIVERSITÀ DEGLI STUDI DI NAPOLI "FEDERICO II" FACOLTA' DI INGEGNERIA Dipartimento di Informatica e Sistemistica Anno Accademico 1992-93 Presentazione della Tesi di Laurea: "Sistemi Informativi per la

Dettagli

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Introduzione alle Biblioteche Digitali Sommario [1/2] Cenni storici Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Cos è una Biblioteca

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

Indicizzazione e ricerca delle immagini

Indicizzazione e ricerca delle immagini Indicizzazione e ricerca delle immagini E un settore della ricerca dove sono stati raggiunti risultati molto importanti e avanzati. Ora tali tecniche sono anche incluse nei database relazionali di tipo

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

SOFTWARE PER LA RILEVAZIONE PRESENZE TIME & WORK

SOFTWARE PER LA RILEVAZIONE PRESENZE TIME & WORK SOFTWARE PER LA RILEVAZIONE PRESENZE TIME & WORK Descrizione Per la gestione del rilevamento presenze, nell ambiente Start, Solari ha concepito Time&Work, un applicazione che rappresenta una soluzione

Dettagli

1 - I segnali analogici e digitali

1 - I segnali analogici e digitali 1 1 - I segnali analogici e digitali Segnali analogici Un segnale analogico può essere rappresentato mediante una funzione del tempo che gode delle seguenti caratteristiche: 1) la funzione è definita per

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Calcolatore: Elaborare: Input: Output: John von Neumann: Device: Embedded: Sistemi programmabili:

Calcolatore: Elaborare: Input: Output: John von Neumann: Device: Embedded: Sistemi programmabili: Autore: Maria Chiara Cavaliere Informatica di base Lezione 1 del 21/3/2016 Il corso di Informatica di base si baserà sulla spiegazione di tre moduli: -Architettura Hardware; -Sistema operativo; Parte teorica

Dettagli

Modelli di Information Retrieval: I modelli base

Modelli di Information Retrieval: I modelli base Modelli di Information Retrieval: I modelli base Gabriella Pasi 1 Università degli Studi di Milano Bicocca Via Bicocca degli Arcimboldi 8 e-mail: pasi@disco.unimib.it Struttura base di un IRS ARCHIVIO

Dettagli

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi I motori di ricerca Stefania Marrara Corso di Sistemi Informativi a.a 2002/2003 Che cosa sono Un motore di ricerca è uno strumento per mezzo del quale è possibile ricercare alcuni termini (parole) all

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com

Dettagli

Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it

Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it Università Ca Foscari di Venezia Linguistica Informatica Mod. 1 Anno Accademico 2010-2011 Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it Schema Input Text Teoria informazione Espressioni Regolari

Dettagli

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web.

Questa pagina e tutti i capitoli della guida che trovate elencati a destra costituiscono il cuore di questo sito web. Posizionamento sui motori di ricerca. Cos'è il "posizionamento"? Per posizionamento si intente un insieme di tecniche che hanno l'obiettivo di migliorare la posizione di un sito web nei risultati delle

Dettagli

Search Engine Optimization per Calciomercato.it

Search Engine Optimization per Calciomercato.it www.mamadigital.com Search Engine Optimization per Calciomercato.it Mamadigital srl - Sede legale e operativa: Via Conegliano, 18-00182 Roma C.F. e P. iva 09738901009 Phone: +39 0670614560 Fax: +39 0670391132

Dettagli

SOFTWARE PER LA RILEVAZIONE PRESENZE TIME & WORK

SOFTWARE PER LA RILEVAZIONE PRESENZE TIME & WORK SOFTWARE PER LA RILEVAZIONE PRESENZE TIME & WORK Descrizione Per la gestione del rilevamento presenze, nell ambiente Start, Solari ha concepito Time&Work, un applicazione che rappresenta una soluzione

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

RICONOSCIMENTO DI TARGHE AUTOMOBILISTICHE

RICONOSCIMENTO DI TARGHE AUTOMOBILISTICHE PROGETTO DEL CORSO DI VISIONE E PERCEZIONE PARTE 2 RICONOSCIMENTO DI TARGHE AUTOMOBILISTICHE Scopo del progetto Il progetto ha come obiettivo quello di riconoscere il testo di una targa automobilistica

Dettagli

browser Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero

browser Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 7. Ricerca delle informazioni in rete, browsers, portali, motori di ricerca browser Un browser è un programma

Dettagli

CLASSIFICAZIONE DEI CARATTERI

CLASSIFICAZIONE DEI CARATTERI CLASSIFICAZIONE DEI CARATTERI Come abbiamo visto, su ogni unità statistica si rilevano una o più informazioni di interesse (caratteri). Il modo in cui un carattere si manifesta in un unità statistica è

Dettagli

1. I database. La schermata di avvio di Access

1. I database. La schermata di avvio di Access 7 Microsoft Access 1. I database Con il termine database (o base di dati) si intende una raccolta organizzata di dati, strutturati in maniera tale che, effettuandovi operazioni di vario tipo (inserimento

Dettagli

dei documenti audiovisivi e delle informazioni

dei documenti audiovisivi e delle informazioni I criteri di usabilità e l organizzazione on-line dei documenti audiovisivi e delle informazioni Ornella Nicotra A.A. 2001-2002 Modulo europeo Action Jean Monnet Scuola Speciale per Archivisti e Bibliotecari

Dettagli

Lezione2 Ricerca di zeri. http://idefix.mi.infn.it/~palombo/didattica/lab-tnds/corsolab/lezionifrontali. Fernando Palombo

Lezione2 Ricerca di zeri. http://idefix.mi.infn.it/~palombo/didattica/lab-tnds/corsolab/lezionifrontali. Fernando Palombo Lezione2 Ricerca di zeri http://idefix.mi.infn.it/~palombo/didattica/lab-tnds/corsolab/lezionifrontali Fernando Palombo Aritmetica Finita nel Computer Nel computer l aritmetica è a precisione finita cioè

Dettagli

Question Answering e semantica Tecnologie emergenti per le imprese. IKL 08 - Intercultural Knowledge Landscapes

Question Answering e semantica Tecnologie emergenti per le imprese. IKL 08 - Intercultural Knowledge Landscapes Question Answering e semantica Tecnologie emergenti per le imprese Cos è QuestIT? QuestIT nasce nell ambito di attività di ricerca in Intelligenza Artificiale presso il Dipartimento di Ingegneria dell

Dettagli

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO Descrizione Nell ambito della rilevazione dei costi, Solari con l ambiente Start propone Time&Cost, una applicazione che contribuisce a fornire

Dettagli

Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web

Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web Rapporto tecnico contenente la selezione dei dataset per l addestramento e la convalida del caso di studio relativo all analisi web 16 febbraio 2015 Indice 1 Individuazione dei dataset 1 2 Dataset Repositories

Dettagli

Motori di ricerca e Directory

Motori di ricerca e Directory Motori di ricerca e Directory Relatore: Andrea Baioni (abaioni@andreabaioni.it) Utilizzo dei Motori di Ricerca il 93% degli italiani online ritiene i motori di ricerca lo strumento più efficace per cercare

Dettagli

2.2 Gestione dei file

2.2 Gestione dei file 2.2 Gestione dei file Concetti fondamentali Il file system Figura 2.2.1: Rappresentazione del file system L organizzazione fisica e logica dei documenti e dei programmi nelle memorie del computer, detta

Dettagli

Scuola Secondaria di Primo Grado Anna Frank Nome Cognome classe anno sc. 2008/09 INFORMATICA

Scuola Secondaria di Primo Grado Anna Frank Nome Cognome classe anno sc. 2008/09 INFORMATICA Scuola Secondaria di Primo Grado Anna Frank Nome Cognome classe anno sc. 2008/09 INFORMATICA Il termine informatica riassume due parole, informazione automatica, e si occupa dei sistemi per l elaborazione

Dettagli

Di testi ed immagini

Di testi ed immagini Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori

Dettagli

Canale Web Aerospaziale Edizione 2011-2012 Concorso a premi Space Adventure. Premessa

Canale Web Aerospaziale Edizione 2011-2012 Concorso a premi Space Adventure. Premessa Canale Web Aerospaziale Edizione 2011-2012 Premessa L Agenzia Spaziale Italiana ha tra i suoi obiettivi principali quello della diffusione della ricerca scientifica e tecnologica applicata al campo aerospaziale

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Informatica e Bioinformatica: Sistemi Operativi

Informatica e Bioinformatica: Sistemi Operativi Informatica e Bioinformatica: Sistemi Operativi 11 marzo 2013 Macchina Hardware/Software Sistema Operativo Macchina Hardware La macchina hardware corrisponde alle componenti fisiche del calcolatore (quelle

Dettagli

Webinar e Manuale Operativo Tecnica di Trading

Webinar e Manuale Operativo Tecnica di Trading Webinar e Manuale Operativo Tecnica di Trading Intraday guida passo passo per operare su time frame H1 e 5/15/30 min v.1.2 29 Novembre 2011 19:30 Premessa Per fare trading ci vuole la giusta mentalità

Dettagli

Architettura del Personal Computer AUGUSTO GROSSI

Architettura del Personal Computer AUGUSTO GROSSI Il CASE o CABINET è il contenitore in cui vengono montati la scheda scheda madre, uno o più dischi rigidi, la scheda video, la scheda audio e tutti gli altri dispositivi hardware necessari per il funzionamento.

Dettagli

2) Codici univocamente decifrabili e codici a prefisso.

2) Codici univocamente decifrabili e codici a prefisso. Argomenti della Lezione ) Codici di sorgente 2) Codici univocamente decifrabili e codici a prefisso. 3) Disuguaglianza di Kraft 4) Primo Teorema di Shannon 5) Codifica di Huffman Codifica di sorgente Il

Dettagli

Università degli studi di Genova. Implementazione e Valutazione di Tecniche di Information Retrieval basate su Stem, Lemma e Synset

Università degli studi di Genova. Implementazione e Valutazione di Tecniche di Information Retrieval basate su Stem, Lemma e Synset Università degli studi di Genova Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Diploma in Informatica Anno Accademico 2003/2004 Implementazione e Valutazione di Tecniche di Information Retrieval

Dettagli

Finalmente anche in Italia il partner del 3D semplice e intuitivo più diffuso al mondo. Modellazione 3D intuitiva

Finalmente anche in Italia il partner del 3D semplice e intuitivo più diffuso al mondo. Modellazione 3D intuitiva Finalmente anche in Italia il partner del 3D semplice e intuitivo più diffuso al mondo In pochi anni SketchUp Pro è diventato il modellatore 3D più diffuso al mondo, con oltre 32 milioni di utenti. Il

Dettagli

BART SIMPSON!! Caratterizzazione e analisi segnali multidimensionali. Classificazione supervisionata. Biometria: riconoscimento impronte digitali

BART SIMPSON!! Caratterizzazione e analisi segnali multidimensionali. Classificazione supervisionata. Biometria: riconoscimento impronte digitali Ingegneria g Elettronica e delle Telecomunicazioni Orientamento Caratterizzazione e analisi segnali multidimensionali Classificazione supervisionata Biometria: riconoscimento impronte digitali Riconoscimento

Dettagli

Introduzione ai database I concetti fondamentali Database e DBMS Per comprendere appieno cos'è un Database e quali sono i vantaggi legati al suo impiego, soprattutto nel settore gestionale, è necessario

Dettagli

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici I MOTORI DI RICERCA Il numero di siti Internet è infinito e ormai ha raggiunto una crescita esponenziale; inoltre, ogni sito è costituito da diverse pagine, alcune volte centinaia, e individuare un informazione

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Automatic Ontology-Based Knowledge Extraction from Web Documents

Automatic Ontology-Based Knowledge Extraction from Web Documents Automatic Ontology-Based Knowledge Extraction from Web Documents 5 gennaio 2009 1 Introduzione Al ne di ottenere un eettivo WEB semantico bisogna essere in grado di costruire servizi che consentano l'estrazione

Dettagli

Che cosa è un VIRUS?

Che cosa è un VIRUS? Virus & Antivirus Virus Nella sicurezza informatica un virus è un software, appartenente alla categoria dei malware, che è in grado, una volta eseguito, di infettare dei file in modo da riprodursi facendo

Dettagli

UNIVERSITÀ DEGLI STUDI DI ROMA TOR VERGATA

UNIVERSITÀ DEGLI STUDI DI ROMA TOR VERGATA UNIVERSITÀ DEGLI STUDI DI ROMA TOR VERGATA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA TESI DI LAUREA SPECIALISTICA FEATURE SELECTION IN SISTEMI DI CATEGORIZZAZIONE AUTOMATICA DI DOCUMENTI

Dettagli