CORSO DI SISTEMI INFORMATIVI III

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "CORSO DI SISTEMI INFORMATIVI III"

Transcript

1 CORSO DI SISTEMI INFORMATIVI III Indicizzazione di documenti testuali e di immagini Gloria Bordogna CNR IDPA Via Pasubio 5, c/o POINT, Dalmine (BG) gloria.bordogna@idpa.cnr.it

2 Come rappresentare i documenti? Tipicamente l indicizzazione genera degli indici come elementi base della rappresentazione formale di un documento (o di una query). Nell IR testuale gli indici possono essere: 1. Singoli Termini indice cioè parole automaticamente estratte dal documento, possibilmente pesate; 2. Radici di parole (per esempio class-) automaticamente estratte dal documento. Questa opzione è la più frequente; 3. Frasi (ad esempio classificazione di processi industriali ) automaticamente estratte dal documento. Questo tipo di indici non hanno dato risultati migliori di 1 e 2; 4. parole (o frasi) estratte da un vocabolario controllato; 5. (in modo addizionale) metadati (ad esempio titolo, autori, data di creazione ecc. ) 6.Concetti (estratti da un ontologia o individuati automaticamente per es. tramite Latent Semantic Analysis) 7. Rete semantica rappresentata da un grafo diretto etichettato

3 Metodi di Indicizzazione di documenti Insieme di termini o keywords (parole chiave) specificati da un esperto - metadati (Rappresentazione Controllata) più concisa qualità scadente del retrieval estratti automaticamente dall intero testo (Rappresentazione Full text) Dizionari Subject Codes più completa Tesauri costi computazionali alti Grosse collezioni documenti Selezione dell insieme di termini Eliminazione delle stop words Stemming Identificazione di frasi nominali Compressione Rappresentazione della struttura Capitoli, sezioni, sotto-sezioni, ecc.. Generazione di descrittori del testo a mano mediante analisi del testo

4 Indicizzazione: output Matrice sparsa! (presenza di molti 0 in ogni colonna) I pesi w possono essere binari, o valori reali o interi positivi: sono calcolati in fase di indicizzazione

5 Indicizzazione: esaustività e specificità Obbiettivi: esaustività: Per ogni indice l esaustività è definita dal numero di topic (argomenti) indicizzati specificità: l abilità di un indice di descrivere a fondo un argomento termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi è rilevante Modalità: +specificità estrazione diretta dal documento intero (full text) o mediante l utilizzo di fonti esterne (es: dizionari controllati) +esaustività Tecniche associative (tesauri, pseudo-tesauri, clustering)

6 Frequenza dei termini in relazione a Recall e Precisione favoriscono il recall: i termini ad alta frequenza Tecniche associative di espansione degli indici (tesauri, clustering) la precisione alta è data dalla capacità dell indicizzazione di distinguere i contenuti dei documenti i termini ad alta frequenza servono a favorire la precisione quando la loro frequenza non è alta in tutti i documenti della collezione.

7 Fasi del Processo di Indicizzazione Documenti Analisi Lessicale Eliminazione Stopwords stemming Le fasi del processo di indicizzazione automatica che devono essere attuate in sequenza: 1. Analisi lessicale e selezione delle parole 2. Rimozione delle parole molto comuni o stop-words 3. Riduzione delle parole originali alle rispettive radici semantiche 4. Eventuale pesatura degli elementi dell indice (significatività) 5. Creazione dell indice I sistemi commerciali per il recupero delle informazioni non implementano necessariamente tutte queste funzionalità. Termini indice

8 Analisi lessicale e selezione delle parole E il processo di trasformazione di un flusso di caratteri di input (il testo originario del documento) in un flusso di parole (o tokens ), ovvero in una sequenza di caratteri portatore di uno specifico significato. Nel testo le parole possono essere facilmente identificate grazie alla presenza di spazi, a capo, segni di interruzione, ecc

9 Riconoscimento di parole (token) Es: Parole estratte dai documenti (spazi ; :. ) Scelte euristiche: aren t aren t, arent,? O Neill Oneill, O Neill? coeditor coeditor, co editor? Hewlett-Packard HewlettPackard, Hewlett Packard? lower case = lowercase? Particolari sequenze: address: carlo@tin.it URL: Progr. Languages: C++, FORTRAN 90 IP addresses: nomi composti: Volo Los Angeles-San Francisco Volo Los AngelesSan Francisco? - co-editor coeditor NB: si usa lo stesso criterio anche per le query Dipende dalla lingua ad esempio in cinese le parole non sono separate da blank segmentazione di parole mediante uso di vocabolario

10 NORMALIZZAZIONE Conversione in lettere minuscole eliminazione simboli diacritici Normalizzazione date Normalizzazione nomi : Usa usa naïve naive March 1 st /01/07 Bejing peking

11 Alternativa al riconoscimento di parole (tokens) Uso di brevi sequenze di caratteri (n-grams) utile per le lingue orientali elimina i possibili errori degli approcci euristici utile nel caso di multilingual IR 4-grams D1: università degli studi di bologna

12 Rimozione delle Stopwords Metodi: 1.Termini funzionali (articoli, preposizioni, verbi ausiliari) sono Parole molto frequenti nella lingua in cui sono scritti i documenti: Analisi statistica della frequenza dei termini nella collezione e eliminazione dei termini con basso potere discriminante 2.note a priori indipendentemente dalla collezione e raccolte in una tabella (stop list per l inglese termini) Ad es: been", a", about", otherwise, the Tali parole, stop-words, possono essere eliminate dalla lista dei token. L eliminazione delle stopword permette una riduzione tra il 30% e il 50% dei token Può diminuire la recall es: to be or not to be let it be vengono eliminate NB: La maggior parte dei WEB search engine non identificano le stopwords

13 Stemming: Riduzione delle parole alle rispettive radici semantiche L efficacia del retrieval aumenta se la query è espansa con i termini che hanno lo stesso significato di quelli contenuti in essa. Gli algoritmi di Stemming sono procedure di conflation (fusione) che riducono tutte le parole con stessa radice a una singola radice In molte lingue, parole che iniziano allo stesso modo (o che hanno delle sequenze di caratteri in comune) possono avere la stessa origine etimologica. Tali parole hanno un contenuto informativo molto simile. Generalmente rimuovono la parte finale delle parole riducendo tutte le parole affini ad un unica radice (in inglese stem). Es computer, computational, computing e computed comput paint painting painted painter paint Colour colours color different difference differ Computers are painted different colours comput ar paint differ color Altri approcci sono basati sulla lemmatizzazione mediante sull uso di dizionari

14 Scansione dei documenti (parsing) Associazione di un identificatore univoco a ogni documento e scansione del contenuto del documento: file contiene 0 o più documenti seguiti da un simbolo di EOF S --> <document> EOF. void Input(): int DocId = 0; d = new Document(DocId); (parsedocument(d) d.output(); ++DocId; d = new Document(DocId); )* <EOF>

15 Scansione dei documenti (parsing) Esempio: Il Documento consiste di una headline o dateline opzionali seguite dal testo. <document> (<headline> <dateline>) <text> <text> (<token_begin> <token> <token_end>)+ <token> <model> <acronym> <integer> <word> ecc. <Model>: ["a"-"z","a"-"z"] "-" (["0"-"9"])* Ex: F-16, C-25 <Acronym>: (["A"-"Z"]) (["A"-"Z"])* Ex: NCR, IBM, ecc. <Abbreviation>: (["A"-"Z"] ".")* Ex: U.S.A. <Word>: ["a"-"z","a"-"z"]( ["a"-"z","a"-"z" ])*> Ex: Big, big <Integer>: ["0"-"9"] (["0"-"9"])* > Ex: 123 <Decimal>: (["0"-"9"])* "." (["0"-"9"])+ > Ex:

16 Altre operazioni Compressione del testo per la riduzione dei tempi i trasmissione (tipico nell IR su web) Criptografia del testo per problemi di sicurezza e riservatezza delle informazioni Costruzione di categorie di termini e di documenti Uso o costruzione di tesauri e cluster di documenti per aumentare il richiamo del sistema di IR Identificazione di gruppi nominali parole la cui distanza nel testo non supera un valore di soglia. Es: information retrieval, computer science,

17 Relazioni tra i termini indice Indicizzazione basata su termini singoli i termini singoli sono spesso ambigui. Molti termini singoli sono o troppo specifici o troppo generici Individuazione di indici composti esperti indicizzatori analisi linguistica (NLP) metodi di espansione dei termini mediante tesauri o clustering dei termini

18 Uso di tesauri per la risoluzione di sinonimia Un tesauro può essere: tematico; in questo caso è una mappa del lessico specifico di una certa disciplina in un dato linguaggio; questo è il caso più frequente; generale; in questo caso è una mappa di un intero linguaggio. Per applicazioni di IR, sono stati sviluppati vari tipi di tesauro, tra cui : tesauri gerarchici, tesauri clustered, e tesauri associativi o pseudo-tesauri.

19 Tesauri Gerachici Elenco classificato dei termini usati in una disciplina: RELAZIONI: sinonimia (RT) Related Term quasi-sinonimia: (UF) Use For Es.: UF(hg, mercury (metal)), UF(planet Mercury,mercury (planet)). RELAZIONI DI GERARCHIA generalizzazione (BT) Broader Term specializzazione (NT) Narrower Term I tesauri gerarchici sono stati oggetto di standardizzazioni ISO e ANSI e sono quasi sempre tematici.

20 Tesaurigerarchiciin IR Uso per espandere la query per espandere gli indici dei documenti (indicizzazione manuale) Scopi normalizzazione uso di termini controllati Generalizzazione sostituzione con termini più generali Specificazione sostituzione con termini più specifici (disambiguazione) Espansione con termini correlati RT Svantaggi dei tesauri gerarchici: devono essere costruiti manualmente, da esperti nel dominio; una loro generazione automatica è molto difficile, poichè, una volta che un algoritmo ha stabilito che esiste una forte connessione semantica tra due termini, è molto difficile capire di quale tipo di relazione si tratti (NT, BT, RT, UF/USE); richiedono un aggiornamento costante (manuale), poichè nella maggior parte dei domini della conoscenza la terminologia è in evoluzione costante.

21 Tesauro di Arte e Architettura

22 Clustered tesauri Un tesauro clustered è un grafo di gruppi (o cluster, o synset) di parole. Ogni gruppo e un insieme di parole tra cui esiste una forte correlazione semantica (quasi-sinonimia). Tra due gruppi collegati da un ramo esiste una relazione semantica; ES: WordNet, costruito manualmente contiene circa 150,000 parole e circa 115,000 synsets; le parole hanno associato l ordine di polisemia (# synset); e solo legate da relazioni lessicali, Es: antonimia ( nome opposto ; per esempio pesante-leggero); iperonimia (per esempio animale-elefante); iponimia ( per esempio elefante-animale); meronimia ( parte-nome ; e.g. orecchio-testa); troponimia ( maniera-nome ; e.g. correre-camminare); implicazione, presupposizione (e.g. divorzio - sposare). I tesauri clustered possono essere generati automaticamente, in tal caso non è fatta alcuna distinzione tra i tipi differenti di relazioni semantiche.

23 ESEMPIO tratto da Wordnet

24 ESEMPIO tratto dal Tesauro clustered di Roget Class Indicator Entry Class Indicator Entry permission offer leave presentation 760 sanction tender allowance 763 overture tolerance advance authorization submission prohibition proposal veto proposition 761 disallowance invitation injunction refusal ban declining taboo 764 noncompliance consent rejection acquiescence denial 762 compliance agreement acceptance

25 Tesauri associativi o Pseudo-Tesauri Un tesauro associativo è un grafo di parole, i cui nodi rappresentano parole e i rami rappresentano una (generica) relazione di similarità semantica tra le due parole. I rami: possono essere o meno orientati, dipendentemente dal fatto che si assume che la relazione di similarità sia simmetrica o no; possono avere un peso numerico associato wij, che indica la forza dell associazione semantica (es fuzzy pseudo-tesauri).

26 Proprietà statistiche dei testi Quanto velocemente cresce il vocabolario all aumentare della dimensione del testo? determina la dimensione dell indice Com è distribuita la frequenza delle parole in un testo? caratterizza la significatività dei termini indice Come sfruttare queste proprietà per migliorare l efficienza e l efficacia di un sistema di IR?

27 Crescita del Vocabolario (legge di Heap) Come cresce il vocabolario (numero di parole singole) con la dimensione della collezione (Numero di documenti)? Non esiste un valore limite a causa dei nomi propri e errori tipografici. V = dimensione del Vocabolario e N =lunghezza della collezione in numero di parole Costanti: Crescita del vocabolario : V = KN β K β < β < 1

28 Frequenza delle parole Poche parole sono molto comuni Le 2 parole più frequenti ( the, of ) hanno un numero di occorrenze che è circa il 10% delle occorrenze totali delle parole in un testo inglese. La maggior parte delle parole sono rare. Metà delle parole in un corpus appaiono solo 1 volta. La distribuzione è detta heavy tailed

29 Legge di Zipf (1949) Distribuzione della frequenza in funzione del rank Per ogni parola w f(w) è il numero di occorrenze di w nel testo r(w) è l indice rank (posizione) di w nella lista ordinata in funzione decrescente di frequenza f(w), es. la parola che appare più spesso ha un indice di rank r(w) uguale a 1 f f 1 r f r = c ( c COSTANTE) w ha un rank r e e frequenza f 6 r

30 Legge di Zipf r(w) * f(w) = c se N è il numero totale di occorrenze delle parole in una collezione, la probabilità p r di occorrenza di una parola w con rank r : f A p r = = per una costante A = N r c N indipendente dal corpus Nei testi in lingua Inglese, A tende a circa Zipf, G. K., Human Behaviour and the Principle of Least Effort. Adison-Wesley, 1949 Li (1992) ha mostrato che stringhe random separate da spazi create manualmente generano parole con una distribuzione di Zipf.

31 Previsioni basate sull analisi della legge di Zipf r(w) * f(w) = c = A * N A=0.1 per l inglese, ove N è il numero di parole nella collezione. r=an/f # di parole con almeno f occorrenze r=an/(f+1) # di parole con almeno f+1 occorrenze r=an/f-an/(f+1)=an/(f(f+1)) # di parole con f occorrenze # Parole con almeno 1 occorrenza (f=1)(cioè il Vocabolario) AN # Parole con 1 sola occorrenza = AN/2 50% Vocabolario

32 Analisi statistica dei testi di Luhn Non tutte le parole di un documento lo descrivono con la stessa precisione. Luhn nel 1958 aveva enunciato che la frequenza con cui alcune parole compaiono in un testo forniscono un parametro importante della significatività delle parole. Inoltre la posizione di queste parole nelle frasi è un altro parametro importante che indica la significatività delle frasi. IDEA: I termini indice possono essere assegnati ai documenti della collezione con un dato peso. Associando ai termini un peso si intende tenere conto della significatività (importanza) del termine nel documento. La funzione di pesatura tiene conto della frequenza del termine nel documento e nella collezione.

33 Analisi di Luhn funzione di risoluzione delle parole : capacità delle parole di discriminare il contenuto dei documenti è massima nella posizione intermedia tra i due livelli di cut-offs

34 Criteri di indicizzazione basati sull analisi di Luhn l esaustività si può assumere essere legata al numero di termini indice assegnati ad un dato documento Richiamo la specificità invece al numero di documenti a cui un termine indice è assegnato in una collezione Precisione 10

35 Criteri di indicizzazione basati sull analisi di Luhn Alternative: Pesatura dei Termini indice: le parole più frequenti assumono un peso di significatività più basso Stop lists: Le parole più frequenti vengono eliminate dagli indici (cut-off superiore) Parole significative: Le parle più frequenti e meno frequenti vengono eliminate dagli indici (cut-off superiore e inferiore) 10

36 Significatività dei termini indice E una funzione composta da due fattori: w td =f td * Discr-value t f td frequenza del termine t in d è in relazione alla esaustività, fattore di recall Discr-value t è in relazione alla specificità, fattore di precisione

37 Inverse Document Frequency Inverse Document Frequency (IDF) del termine t j idf j = log N df j ove df j (frequenza del termine t j nei documenti) è il numero di documenti in cui t j appare e N il numero di documenti nella collezione Favorisce la precisione è alta se il termine appare in pochi documenti della collezione

38 Significatività dei termini indice Il peso w ij del termine t i in un documento d j w ij = tf ij log N df i Dopo aver eliminato le parole funzionali si calcola w ij per ogni termine t i in ogni documento d j Si assegnano ai documenti della collezione tutti i termini con valori alti di w ij

39 Significatività dei termini indice normalizzazione rispetto alla lunghezza dei documenti La frequenza assoluta tf ij di un termine t i cresce con la lunghezza del documento d j. Per questo il peso w ij del termine t i in un documento d j viene normalizzato w ij = tf ij maxtf j log N df i tfij w ij = log maxtf j maxtf j èla frequenza massima dei termini nel documento d j Il primo fattore èla frequenza relativa del termine t i in d j N dfi

40 Significatività dei termini indice normalizzazione in [0,1] Si normalizza anche IDF per calcolare gradi di significatività nell intervallo [0,1] w ij = tf ij maxtf j max log t T N df i log N df t

41 Significatività dei termini indice Pesatura Okapi BM25 Si normalizza anche IDF per calcolare gradi di significatività nell intervallo [0,1] wtd = ln N df t dft k1(1 b + ( k 1 + 1)tf td b(l( d ) / laverage)) + tftd k1 = 2.0 and b = l(d)= lunghezza in parole del documento d laverage= lunghezza media dei documenti della collezione D

42 Indicizzazione basata su metodi di analisi Linguistica Indicizzazione basata su frasi: Frasi migliori hanno una significatività di termini accoppiati più alta dei termini isolati costruzione di gruppi nominali: Biword index: Assegnamento di indicatori sintattici ai termini che appaiono nel testo dei documenti. nome-nome, aggettivo-nome Phrase index: Costruzione di frasi da sequenze di termini che hanno dei marcatori sintattici di un certo tipo

43 Identificazione di Frasi Frasi sequenza di termini che identificano un contenuto più specifico del termine singolo es., computer science vs. computer Espansione stem con Tesauro Indicizzazione con Frasi Frequenza nei documenti Frequenza bassa Frequenza media Frequenza alta N

44 Identificazione di frasi semplici: analisi linguistica Tecniche di linguistica computazionale Vengono assegnati Identificatori sintattici ai termini selezionati e una frase viene selezionata se è associata a una sequenza sintattica specifica: nome-nome; aggettivo-nome. Gli elementi della frase sono scelti dalla stessa unità sintattica

45 Indentificazione di Entità Nominali Estrazione di Entità Nominali dal testo dei documenti appartenenti a categorie nomi propri di politici, storici, scienziati, VIP, Nomi di organizzazioni ad es. ONU, FAO, IBM, ecc. ad esempio nelle news località geografiche quali nomi di città, regioni, nazioni, entità geografiche fisiche quali fiumi, montagne, laghi, ecc.) nell IR geografico. E necessario poi associare al documento di footprints o georiferimenti Questo documento tratta di attrattive turistiche della provincia di bergamo

46 Indentificazione di Entità Nominali Obbiettivo: effettuare un tagging dei termini riconosciuti come Entità Nominali (EN) in una gerarchia di un certo tipo Tecniche: Si applicano preliminarmente delle regole per filtrare le parole candidate EN Iniziano con una lettera Maiuscola, sono lettere maiuscole seguite da. Sono precedute/seguite da parole prefisso/suffisso del tipo Sig. Prof. Ministro Città, provincia, stato, Mont, lago, ecc. Si impiegano fonti esterne per il riconoscimento Wikipedia Gazeteer (es. geonames) Si impiegano tecniche di learning (utilizzano dati classificati per il training)

47 Entità Nominali geografiche: Gazeteer ID Name Alternate name Latitude Longitude Country code Population Martinengo 45,57 9,76 IT Mozzanica 45,47 9,69 IT Romano di Lombardia 45,52 9,74 IT Sedrina 45,78 9,62 IT Vaprio d Adda Italian Republic Vaprio 45,58 9,52 IT Italia, Italy, An Eadailt, Bel Paese, Bergamo Bergam, Bergame, Berghem, Dublin Dublino, Dublina, Baile Atha Cliath, 42,83 12,83 IT ,69 9,67 IT ,55-6,25 IE Georeferenziazione automatica di testi e analisi di query spaziali -- Giorgio Ghisalberti 47

48 Retrieval di Immagini Cos è il documento? Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc

49 Indici per il Retrieval di Immagini Indici testuali Annotazioni associate manualmente, estratte dalla URL, estratte dal contenuto dell immagine Didascalie testuali indicizzate in full text Testo estratto dall immagine segmentazione + OCR Semantic (Optical Gap Character Recognition) Indici visuali (Content-Based Image Retrieval) sintetizzano proprietà caratteristiche visuali nell immagine (forme presenti, colori dominanti, tessitura, ecc)

50 Indici Visuali per il Retrieval di Immagini per Contenuto (CBIR) Generalmente si definiscono gli indici dipendentemente da un contesto applicativo N Signatures n maschere di bit associate a quadranti Fingerprints n maschere di bit estratte dall immagine Indici di colore istogramma RGB o dei livelli di grigio (h1, h2, hn) hi= num di Pixels nell immagine (o nel quadrante) con colore nell intervallo i-esimo Indici di Tessitura dimensione frattale, contrasto, omogeneità, Entropia (su tutta l immagine o su un quadrante Indici di Forma Circolarità, direzionalità, Coeff. di Fourier, Curvature Scale Space, spettro multifrattale

51 Metadati per documenti multimediali TIFF 6.0 per codificare metadati per l immagini es. ImageWidth, ImageLength, Compression,.. Xresolution, Yresolution,.. M-PEG 7 (Moving Picture Experts Group ): standard ISO per sequenze audio e video definito per Il retrieval e filtering per contentuto di informazioni multimediali INSPIRE per codificare metadati per dati geografici (mappe o immagini georeferenziate )

52 Istogramma livelli di Grigio Picchi

53 Istogramma livelli di Grigio Es: Segmentazione della porosità in un materiale ceramico Immagine iniziale Immagine segmentata Picchi

54 Indici di tessitura es: Spettro Multifrattale Misura di frastagliamento di una curva Deriva dalla dimensione frattale tenendo conto delle differenze di frastagliamento fra le varie porzioni della curva Algoritmo box-counting Introduzione di un parametro lente di ingrandimento

55 Spettro Multifrattale Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc

56 Gli Oggetti nelle Immagini Digitali Un oggetto è una regione di immagine che può essere identificata e distinta dal resto dell immagine stessa (sfondo). Segmentazione Immagine originale: Matrice di pixels Es: v ij {0,255} Immagine binaria segmentata: matrice di pixel con v ij {0,1} Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc Rappresentazione vettoriale degli oggetti

57 Rappresentazione del Contorno degli Oggetti Rappresentazione vettoriale del contorno Rappresentazione funzionale del contorno Funzione di distanza dal centroide Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc

58 Analisi statistica delle forme Log(N) Percentuale di porosità totale Suddivisione dei pori in classi areali 4 3,5 3 2,5 2 1,5 Campione C - 0% Campione 18-12% Campione % 1 0, Aree di soglia (μm 2 ) Costruzione della curva granulometrica della porosità Calcolo del coefficiente angolare della retta ottenuta dall interpolazione dei punti della curva granulometrica

59 Coefficienti di Fourier Il triangolo presenta coefficienti di Fourier in posizioni multiple di 3 Una forma irregolare presenta generalmente coefficienti di Fourier in tutte le posizioni Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc

60 Conclusione: efficacia dei metodi di indicizzazione automatica Base: indicizzazione automatica basata su singoli termini Utilizzo di un tesauro tematico per raggruppare termini in un settore specifico +10% al +20% Uso di tesauri associativi (pseudo-tesauri) derivati automaticamente in una sottocollezione campione 0% al +10% Uso di frasi di termini ottenute sulla base delle cooccorrenze nei testi +5% al +10%

Indicizzazione di documenti testuali

Indicizzazione di documenti testuali Indicizzazione di documenti testuali Generazione di un archivio di Documenti Testuali E eseguita off-line necessaria per accelerare il reperimento dei documenti E un processo che esegue le seguenti attività:

Dettagli

Librerie digitali. Strumenti di ricerca. Ricerca di informazioni nelle Digital library

Librerie digitali. Strumenti di ricerca. Ricerca di informazioni nelle Digital library Librerie digitali Strumenti di ricerca Ricerca di informazioni nelle Digital library Data un interrogazione da parte di un utente gli strumenti di ricerca permetto di identificare i dati che soddisfano

Dettagli

Bag of (visual) Words. BoW. Input image. Dizionario visuale. Rappresentazione

Bag of (visual) Words. BoW. Input image. Dizionario visuale. Rappresentazione Bag of (visual) Words BoW Il modello è stato proposto con l obiettivo di rappresentare un immagine tramite un dizionario visuale. Il metodo BoW si ispira alle tecniche di rappresentazione dei documenti

Dettagli

I SISTEMI DI RECUPERO DELL INFORMAZIONE

I SISTEMI DI RECUPERO DELL INFORMAZIONE I SISTEMI DI RECUPERO DELL INFORMAZIONE Sistemi specializzati nella gestione di documenti di testo e nel recupero in base al loro contenuto Sempre più spesso i documenti nascono direttamente in forma elettronica

Dettagli

1.2d: La codifica Digitale dei caratteri

1.2d: La codifica Digitale dei caratteri 1.2d: La codifica Digitale dei caratteri 2 12 ott 2011 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 12 ott 2011 La codifica dei caratteri Un testo

Dettagli

La codifica dell informazione

La codifica dell informazione La codifica dell informazione Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze di due soli simboli : 0 e 1 L unità elementare di informazione si chiama bit

Dettagli

Fasi di un Compilatore

Fasi di un Compilatore Dipartimento di Matematica e Informatica Università di Camerino Un implementazione compilativa di un linguaggio di programmazione viene realizzata tramite un programma che prende il nome di compilatore

Dettagli

informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia sesta lezione: la dinamica del testo vito

Dettagli

La codifica dell informazione. Rappresentazione binaria. Rappresentazione posizionale in base 10

La codifica dell informazione. Rappresentazione binaria. Rappresentazione posizionale in base 10 La codifica dell informazione Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze di due soli simboli : 0 e 1 L unità elementare di informazione si chiama bit

Dettagli

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice

Indicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice Fasi del processo di IR Indicizzazione Information need text input Pre-process documents Parse Query Index Rank Indicizzazione: due aspetti Costruzione delle viste logiche dei documenti: Per ogni documento

Dettagli

Numeri interi. Laboratorio di Calcolo Paola Gallo

Numeri interi. Laboratorio di Calcolo Paola Gallo Numeri interi Alfabeto binario anche il segno può essere rappresentato da 0 o 1 è indispensabile indicare il numero k di bit utilizzati Modulo Modulo e segno 1 bit di segno (0 positivo, 1 negativo) k 1

Dettagli

Lez. 7 Immagini Digitali. Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1

Lez. 7 Immagini Digitali. Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1 Lez. 7 Immagini Digitali Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1 Dott. Pasquale De Michele Dott. Raffaele Farina Dipartimento di Matematica e Applicazioni Università di Napoli

Dettagli

Pag. 1. La Rappresentazione e la Codifica delle informazioni (parte 2) Tipi di dati. Informatica Facoltà di Medicina Veterinaria

Pag. 1. La Rappresentazione e la Codifica delle informazioni (parte 2) Tipi di dati. Informatica Facoltà di Medicina Veterinaria 1 Università degli studi di Parma Dipartimento di Ingegneria dell Informazione Informatica a.a. 2012/13 Tipi di dati Informatica Facoltà di Medicina Veterinaria La Rappresentazione e la Codifica delle

Dettagli

Modulo 1. Concetti base della Tecnologia dell informazione. Prof. Nicolello Cristiano. Modulo 1

Modulo 1. Concetti base della Tecnologia dell informazione. Prof. Nicolello Cristiano. Modulo 1 Concetti base della Tecnologia dell informazione Algoritmi Come interpreta un computer un problema? Algoritmi Algoritmo: sequenza ordinata di istruzioni per risolvere un problema (tradotto: sequenza di

Dettagli

Linguistica Computazionale

Linguistica Computazionale Linguistica Computazionale La Legge di Zipf 13 ottobre 2014 Distribuzione della frequenza delle parole Rango di una parola (r v ) posizione occupata da una parola in un ordinamento di frequenza discendente

Dettagli

Modulo 1: Le I.C.T. UD 1.2d: La codifica Digitale dei caratteri

Modulo 1: Le I.C.T. UD 1.2d: La codifica Digitale dei caratteri Modulo 1: Le I.C.T. : La codifica Digitale dei caratteri Prof. Alberto Postiglione Corso di Informatica Generale (AA 07-08) Corso di Laurea in Scienze della Comunicazione Università degli Studi di Salerno

Dettagli

INTRODUZIONE AL TESTO FILOSOFICO

INTRODUZIONE AL TESTO FILOSOFICO INTRODUZIONE AL TESTO FILOSOFICO MEDIANTE FORME DI ANNOTAZIONE SEMANTICA Ciclo seminariale 4 febbraio 2011 4 marzo 2011 Fra ontologie e mappe: un introduzione Francesco Bianchini DI COSA PARLEREMO Mappe

Dettagli

Un applicazione di Text Mining

Un applicazione di Text Mining Un applicazione di Text Mining Knowledge Discovery in Text (KDT) Problema Un azienda erogatrice di servizi intende analizzare il testo delle telefonate in arrivo al proprio numero verde al fine di migliorare

Dettagli

Analogico vs digitale

Analogico vs digitale Analogico vs digitale Informazione classificatoria e più che classificatoria Informazione classificatoria: è questo, ma avrebbe potuto essere quest altro altro. Informazione più che classificatoria: riconoscere

Dettagli

La codifica del testo

La codifica del testo La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni I slide Informatica e sistemi

Dettagli

1.2d: La codifica Digitale dei caratteri

1.2d: La codifica Digitale dei caratteri 1.2d: La codifica Digitale dei caratteri 2 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 La codifica dei caratteri Un testo è rappresentato attraverso

Dettagli

Sistemi di Elaborazione delle Informazioni

Sistemi di Elaborazione delle Informazioni Università degli Studi di Messina Policlinico G. Martino - Sistemi di Elaborazione delle Informazioni A.A. 26/27 Università degli Studi di Messina Policlinico G. Martino - Sistemi di Elaborazione delle

Dettagli

Tecnologie per il web e lo sviluppo multimediale. Rappresentazione delle informazioni

Tecnologie per il web e lo sviluppo multimediale. Rappresentazione delle informazioni Tecnologie per il web e lo sviluppo multimediale Rappresentazione delle informazioni Luca Pulina Corso di Laurea in Scienze della Comunicazione Università degli Studi di Sassari A.A. 2015/2016 Luca Pulina

Dettagli

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp) Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp) Malvina Nissim malvina.nissim@unibo.it 1 Aprile 2009 1 ssh gollum.sitlec.unibo.it login passwd cqp 1 Cercare e contare 1.1 Contare

Dettagli

La Rappresentazione dell Informazione

La Rappresentazione dell Informazione La Rappresentazione dell Informazione Parte III I codici Codici a.a. 27-28 Un codice è una funzione che associa ad una sequenza di simboli un significato Codice : {entità} {sequenze di simboli} Un codice

Dettagli

Elaborazione dell informazione. Elaborazione dell informazione. Rappresentazione dei numeri INFORMATICA PER LE DISCIPLINE UMANISTICHE 2 (13042)

Elaborazione dell informazione. Elaborazione dell informazione. Rappresentazione dei numeri INFORMATICA PER LE DISCIPLINE UMANISTICHE 2 (13042) Elaborazione dell informazione INFORMATICA PER LE DISCIPLINE UMANISTICHE 2 (13042) Elaborazione di informazione prevede una codifica come: Dato: insieme di simboli rappresentati su un supporto Negli elaboratori:

Dettagli

Informazione e sua rappresentazione: codifica

Informazione e sua rappresentazione: codifica Corso di Calcolatori Elettronici I Informazione e sua rappresentazione: codifica ing. Alessandro Cilardo Corso di Laurea in Ingegneria Biomedica Il concetto di informazione Qualunque informazione è definita

Dettagli

FILE E INDICI Architettura DBMS

FILE E INDICI Architettura DBMS FILE E INDICI Architettura DBMS Giorgio Giacinto 2010 Database 2 Dati su dispositivi di memorizzazione esterni! Dischi! si può leggere qualunque pagina a costo medio fisso! Nastri! si possono leggere le

Dettagli

La codifica. dell informazione

La codifica. dell informazione 00010010101001110101010100010110101000011100010111 00010010101001110101010100010110101000011100010111 La codifica 00010010101001110101010100010110101000011100010111 dell informazione 00010010101001110101010100010110101000011100010111

Dettagli

Rappresentazione di immagini a colori. Rappresentazione dei colori. Rappresentazione dei colori LA RAPPRESENTAZIONE DELL INFORMAZIONE - II

Rappresentazione di immagini a colori. Rappresentazione dei colori. Rappresentazione dei colori LA RAPPRESENTAZIONE DELL INFORMAZIONE - II Rappresentazione di immagini a colori LA RAPPRESENTAZIONE DELL INFORMAZIONE - II Per rappresentare immagini utilizzando i colori, a ogni elemento della griglia si dovranno dedicare più bit. Se dedichiamo

Dettagli

Parole e frequenze. Alessandro Lenci

Parole e frequenze. Alessandro Lenci Parole e frequenze Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 5600 Pisa, Italy alessandro.lenci@ilc.cnr.it Linguaggio e comunicazione - LO042 Rango di una parola

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Introduzione al Semantic Web

Introduzione al Semantic Web Corso di Laurea Specialistica in Ingegneria Informatica Corso di Linguaggi e Tecnologie Web A. A. 2011 - Introduzione al Semantic Web Eufemia TINELLI Dal Web al Semantic Web: Motivazioni Il Web dovrebbe

Dettagli

INDICE. Introduzione. 3 Capitolo 1 Cenni di geodesia

INDICE. Introduzione. 3 Capitolo 1 Cenni di geodesia INDICE XI Introduzione 3 Capitolo 1 Cenni di geodesia 4 1.1 Le superfici di riferimento: definizioni e caratteristiche 1.1.1 La sfera come superficie di riferimento della Terra, p. 6 1.1.2 L ellissoide

Dettagli

Argomenti trattati. Informazione Codifica Tipo di un dato Rappresentazione dei numeri Rappresentazione dei caratteri e di altre informazioni

Argomenti trattati. Informazione Codifica Tipo di un dato Rappresentazione dei numeri Rappresentazione dei caratteri e di altre informazioni Argomenti trattati Informazione Codifica Tipo di un dato Rappresentazione dei numeri Rappresentazione dei caratteri e di altre informazioni Informazione mi dai il numero di Andrea? 0817651831 Il numero

Dettagli

Analizzatori Lessicali con JLex. Giuseppe Morelli

Analizzatori Lessicali con JLex. Giuseppe Morelli Analizzatori Lessicali con JLex Giuseppe Morelli Terminologia Tre concetti sono necessari per comprendere la fase di analisi lessicale: TOKEN: rappresenta un oggetto in grado di rappresentare una specifica

Dettagli

GEOGRAPHICAL INFORMATION SYSTEM PER L ANALISI AMBIENTALE. Nicola Gilio. Dott. Nicola Gilio

GEOGRAPHICAL INFORMATION SYSTEM PER L ANALISI AMBIENTALE. Nicola Gilio. Dott. Nicola Gilio Nicola Nicola Gilio Gili GEOGRAPHICAL INFORMATION SYSTEM PER L ANALISI AMBIENTALE Dott. Nicola Gilio Un sistema informatizzato in grado di immagazzinare dati descrittivi della superficie terrestre Definizioni

Dettagli

informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia sesta lezione: la dinamica del testo vito

Dettagli

Programma del corso. Introduzione Rappresentazione delle Informazioni Calcolo proposizionale Architettura del calcolatore Reti di calcolatori

Programma del corso. Introduzione Rappresentazione delle Informazioni Calcolo proposizionale Architettura del calcolatore Reti di calcolatori Programma del corso Introduzione Rappresentazione delle Informazioni Calcolo proposizionale Architettura del calcolatore Reti di calcolatori Il concetto di FILE FILE: sequenza di byte conosciuta nel computer

Dettagli

Rappresentazione e Codifica dell Informazione

Rappresentazione e Codifica dell Informazione Rappresentazione e Codifica dell Informazione Capitolo 1 Chianese, Moscato, Picariello, Alla scoperta dei fondamenti dell informatica un viaggio nel mondo dei BIT, Liguori editore. Sistema di numerazione

Dettagli

Codifica dell Informazione

Codifica dell Informazione Introduzione all Informatica Fabrizio Angiulli Codifica dell Informazione CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati

Dettagli

La codifica. dell informazione

La codifica. dell informazione La codifica dell informazione (continua) Codifica dei numeri Il codice ASCII consente di codificare le cifre decimali da 0 a 9 fornendo in questo modo un metodo per la rappresentazione dei numeri Il numero

Dettagli

PROBLEMI ALGORITMI E PROGRAMMAZIONE

PROBLEMI ALGORITMI E PROGRAMMAZIONE PROBLEMI ALGORITMI E PROGRAMMAZIONE SCIENZE E TECNOLOGIE APPLICATE CLASSE SECONDA D PROGRAMMARE = SPECIFICARE UN PROCEDIMENTO CAPACE DI FAR SVOLGERE AD UNA MACCHINA UNA SERIE ORDINATA DI OPERAZIONI AL

Dettagli

Sistemi di Elaborazione delle Informazioni

Sistemi di Elaborazione delle Informazioni Sistemi di Elaborazione delle Informazioni Rappresentazione dell Informazione 1 Il bit Si consideri un alfabeto di 2 simboli: 0, 1 Che tipo di informazione si può rappresentare con un bit? 2 Codifica binaria

Dettagli

Lez. 5 La Programmazione. Prof. Salvatore CUOMO

Lez. 5 La Programmazione. Prof. Salvatore CUOMO Lez. 5 La Programmazione Prof. Salvatore CUOMO 1 2 Programma di utilità: Bootstrap All accensione dell elaboratore (Bootsrap), parte l esecuzione del BIOS (Basic Input Output System), un programma residente

Dettagli

INDICI PER FILE. Accesso secondario. Strutture ausiliarie di accesso

INDICI PER FILE. Accesso secondario. Strutture ausiliarie di accesso INDICI PER FILE Strutture ausiliarie di accesso 2 Accesso secondario Diamo per scontato che esista già un file con una certa organizzazione primaria con dati non ordinati, ordinati o organizzati secondo

Dettagli

La rappresentazione cartografica è una forma di descrizione del territorio fondata sulla restituzione delle relazioni spaziali di elementi geografici

La rappresentazione cartografica è una forma di descrizione del territorio fondata sulla restituzione delle relazioni spaziali di elementi geografici Cartografia digitale e modelli di dati spaziali modelli vettoriali e modelli raster La descrizione cartografica La rappresentazione cartografica è una forma di descrizione del territorio fondata sulla

Dettagli

Librerie digitali. Cos è una libreria digitale? Introduzione. Cos è una libreria digitale? Cos è una libreria digitale? Cos è una libreria digitale?

Librerie digitali. Cos è una libreria digitale? Introduzione. Cos è una libreria digitale? Cos è una libreria digitale? Cos è una libreria digitale? Librerie digitali Introduzione William Arms "An informal definition of a digital library is a managed collection of information, with associated services, where the information is stored in digital formats

Dettagli

RAPPRESENTAZIONE DELLE INFORMAZIONI

RAPPRESENTAZIONE DELLE INFORMAZIONI RAPPRESENTAZIONE DELLE INFORMAZIONI 1 RAPPRESENTAZIONE DELLE INFORMAZIONI Le informazioni gestite dai sistemi di elaborazione devono essere codificate per poter essere memorizzate, elaborate, scambiate,

Dettagli

Analizzatore lessicale o scanner. Lo scanner rappresenta un'interfaccia fra il programma sorgente e l'analizzatore sintattico o parser.

Analizzatore lessicale o scanner. Lo scanner rappresenta un'interfaccia fra il programma sorgente e l'analizzatore sintattico o parser. Analizzatore lessicale o scanner Dispensa del corso di Linguaggi e Traduttori A.A. 2005-2006 Lo scanner rappresenta un'interfaccia fra il programma sorgente e l'analizzatore sintattico o parser. Lo scanner,

Dettagli

Informazione e sua rappresentazione: codifica

Informazione e sua rappresentazione: codifica Corso di Calcolatori Elettronici I A.A. 2011-2012 Informazione e sua rappresentazione: codifica Lezione 2 Prof. Antonio Pescapè Università degli Studi di Napoli Federico II Facoltà di Ingegneria Corso

Dettagli

Codifica dell Informazione

Codifica dell Informazione Francesco Folino CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati e istruzioni in un formato tale che l esecutore automatico

Dettagli

Teoria dell informazione

Teoria dell informazione Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria dell informazione A.A. 2008-09 Alberto Perotti DELEN-DAUIN Modello di sistema di comunicazione Il modello di

Dettagli

La rappresentazione delle informazioni

La rappresentazione delle informazioni La rappresentazione delle informazioni In queste pagine cercheremo di capire come sia possibile rappresentare mediante numeri e memorizzare in un file testi, immagini, video, suoni... Il computer per lavorare

Dettagli

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice

Dettagli

Sistemi di numerazione

Sistemi di numerazione Sistemi di numerazione Introduzione Un sistema di numerazione è un sistema utilizzato per esprimere i numeri e possibilmente alcune operazioni che si possono effettuare su di essi. Storicamente i sistemi

Dettagli

Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte

Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte Rappresentazione digitale delle informazioni Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte Ordini di grandezza Codifica delle immagini Codifica

Dettagli

Calcolo numerico e programmazione Rappresentazione dei numeri

Calcolo numerico e programmazione Rappresentazione dei numeri Calcolo numerico e programmazione Rappresentazione dei numeri Tullio Facchinetti 16 marzo 2012 10:54 http://robot.unipv.it/toolleeo Rappresentazione dei numeri nei calcolatori

Dettagli

Rappresentazione dell Informazione. Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1

Rappresentazione dell Informazione. Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1 Rappresentazione dell Informazione Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1 Il bit Si consideri un alfabeto di 2 simboli: 0, 1 Che tipo di informazione si può rappresentare

Dettagli

1.2 Concetti base dell Informatica: Informazione

1.2 Concetti base dell Informatica: Informazione 1.2 Concetti base dell Informatica: Informazione Insegnamento di Informatica Elisabetta Ronchieri Corso di Laurea di Economia, Universitá di Ferrara I semestre, anno 2014-2015 Elisabetta Ronchieri (Universitá)

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

E02 ESERCIZI SU MODI DI TRASFERIMENTO

E02 ESERCIZI SU MODI DI TRASFERIMENTO E02 ESERCIZI SU MODI DI TRASFERIMENTO Esercizio 1 Un file di lunghezza F byte è trasferito in una rete a pacchetto, utilizzando n rami in cascata. I nodi attraversati possono essere ritenuti praticamente

Dettagli

Segnale analogico. Analogico vs digitale. Segnale digitale. Trasformazione da analogico a digitale

Segnale analogico. Analogico vs digitale. Segnale digitale. Trasformazione da analogico a digitale LEZIONI 2 e 3 Rappresentazione dell informazione 53 Analogico vs digitale LEZIONI 2 e 3 Rappresentazione dell informazione 54 Segnale analogico Il computer può lavorare soltanto con grandezze di tipo digitale

Dettagli

Linguistica Computazionale

Linguistica Computazionale Linguistica Computazionale Frequenze di parole 7 ottobre 2014 Statistica terminologia di base Popolazione (collettivo) l insieme delle entità (oggetti, individui, eventi, ecc.) che rappresentano il dominio

Dettagli

Linguaggi di Programmazione

Linguaggi di Programmazione Linguaggi di Programmazione 1 Linguaggio naturale e linguaggio macchina La comunicazione uomo-macchina avviene attraverso formalismi che assumono la forma di un linguaggio. Caratteristiche del Linguaggio

Dettagli

Informatica. Mario Pavone - Dept. Mathematics & Computer Science - University of Catania. Trasferimento. Ambiente esterno.

Informatica. Mario Pavone - Dept. Mathematics & Computer Science - University of Catania. Trasferimento. Ambiente esterno. Trasferimento Ambiente esterno Controllo Informatica Mario Pavone - Dept. Mathematics & Computer Science - University of Catania mpavone@dmi.unict.it Cos è l Informatica La scienza della rappresentazione

Dettagli

Parte 2. - Il Documento Elettronico - Introduzione alla gestione delle basi Documentali. M. Diligenti Sistemi Gestione Documentale 1

Parte 2. - Il Documento Elettronico - Introduzione alla gestione delle basi Documentali. M. Diligenti Sistemi Gestione Documentale 1 Parte 2 - Il Documento Elettronico - Introduzione alla gestione delle basi Documentali M. Diligenti Sistemi Gestione Documentale 1 Elettronici e cartacei Assumeremo documenti in formato elettronico Documenti

Dettagli

ESECUZIONE DI PROGRAMMI C SU MACCHINE REALI. Docente: Giorgio Giacinto AA 2008/2009. formalizzazione degli algoritmi in linguaggio C

ESECUZIONE DI PROGRAMMI C SU MACCHINE REALI. Docente: Giorgio Giacinto AA 2008/2009. formalizzazione degli algoritmi in linguaggio C Università degli Studi di Cagliari Corso di Laurea Specialistica in Ingegneria per l Ambiente ed il Territorio Corso di Laurea Specialistica in Ingegneria Civile - Strutture FONDAMENTI DI INFORMATICA 2

Dettagli

Informatica per la comunicazione" - lezione 11 -

Informatica per la comunicazione - lezione 11 - Informatica per la comunicazione" - lezione 11 - Una pagina web si dice pubblicata quando è accessibile tramite internet" Per accedere a una pagina occorre localizzarla nella rete" A questo scopo ogni

Dettagli

014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria

014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria T4 T4 014 301 Filosofia e teoria 014 301 8 Scuole, teorie, metodologie 014 301 82 Linguistica formale Notazione 01 dalla Tavola 1 come di seguito modificata Da non usare per scuole e teorie semantiche;

Dettagli

LA CODIFICA DELL INFORMAZIONE. Introduzione ai sistemi informatici D. Sciuto, G. Buonanno, L. Mari, McGraw-Hill Cap.2

LA CODIFICA DELL INFORMAZIONE. Introduzione ai sistemi informatici D. Sciuto, G. Buonanno, L. Mari, McGraw-Hill Cap.2 LA CODIFICA DELL INFORMAZIONE Introduzione ai sistemi informatici D. Sciuto, G. Buonanno, L. Mari, McGraw-Hill Cap.2 Codifica dati e istruzioni Per scrivere un programma è necessario rappresentare istruzioni

Dettagli

Comunicazione Digitale

Comunicazione Digitale Comunicazione Digitale Schema didattico di riferimento 1 1. Internet e le reti locali 1. Qual è la storia della rete Internet dagli albori ai giorni nostri 2. I tipi di rete, come si organizzano e agglomerano

Dettagli

Tecniche di compressione senza perdita

Tecniche di compressione senza perdita FONDAMENTI DI INFORMATICA Prof. PIER LUCA MONTESSORO Facoltà di Ingegneria Università degli Studi di Udine Tecniche di compressione senza perdita 2000 Pier Luca Montessoro (si veda la nota di copyright

Dettagli

La codifica binaria. Informatica B. Daniele Loiacono

La codifica binaria. Informatica B. Daniele Loiacono La codifica binaria Informatica B Introduzione Il calcolatore usa internamente una codifica binaria ( e ) per rappresentare: i dati da elaborare le istruzioni dei programmi eseguibili Fondamenti di codifica

Dettagli

Apprendimento Automatico (Feature Selection e Kernel Learning)

Apprendimento Automatico (Feature Selection e Kernel Learning) Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli

Dettagli

informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia ottava lezione: la dinamica del testo vito

Dettagli

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006 Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1 Dispensa 12 Array e Oggetti A. Miola Dicembre 2006 http://www.dia.uniroma3.it/~java/fondinf1/ Array e Oggetti 1 Contenuti Array paralleli

Dettagli

modificato da andynaz Cambiamenti di base Tecniche Informatiche di Base

modificato da andynaz Cambiamenti di base Tecniche Informatiche di Base Cambiamenti di base Tecniche Informatiche di Base TIB 1 Il sistema posizionale decimale L idea del sistema posizionale: ogni cifra ha un peso Esempio: 132 = 100 + 30 + 2 = 1 10 2 + 3 10 1 + 2 10 0 Un numero

Dettagli

Linguistica Computazionale: esercitazioni

Linguistica Computazionale: esercitazioni Esercitazione 1 Felice Dell'Orletta ItaliaNLP Lab (www.italianlp.it) presso Istituto di Linguistica Computazionale A. Zampolli CNR felice.dellorletta@ilc.cnr.it 24 settembre 2014 Linguistica Computazionale:

Dettagli

Somma di numeri binari

Somma di numeri binari Fondamenti di Informatica: Codifica Binaria dell Informazione 1 Somma di numeri binari 0 + 0 = 0 0 + 1 = 1 1 + 0 = 1 1 + 1 = 10 Esempio: 10011011 + 00101011 = 11000110 in base e una base Fondamenti di

Dettagli

La codifica binaria. Fondamenti di Informatica. Daniele Loiacono

La codifica binaria. Fondamenti di Informatica. Daniele Loiacono La codifica binaria Fondamenti di Informatica Introduzione q Il calcolatore usa internamente una codifica binaria (0 e 1) per rappresentare: i dati da elaborare (numeri, testi, immagini, suoni, ) le istruzioni

Dettagli

I set di caratteri WWW. Fabio Vitali 5 novembre 1999

I set di caratteri WWW. Fabio Vitali 5 novembre 1999 I set di caratteri Fabio Vitali 5 novembre 1999 Introduzione Qui esaminiamo in breve: Il problema della codifica dei caratteri ASCII (7 bit ed esteso) ISO/IEC 10646 e UNICODE UCS e UTF 2 I set di caratteri

Dettagli

Cartografie tematiche: principi e modalità di realizzazione. Mauro Giovanni Univ. di Trieste

Cartografie tematiche: principi e modalità di realizzazione. Mauro Giovanni Univ. di Trieste Cartografie tematiche: principi e modalità di realizzazione Mauro Giovanni Univ. di Trieste Analisi GIS Mappare dove sono le cose Mappare cosa c è dentro Mappare il minimo e il massimo GIS Mappare le cose

Dettagli

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27 Introduzione Le regole associative si collocano tra i metodi di apprendimento non supervisionato e sono volte

Dettagli

Teoria dell Informazione

Teoria dell Informazione Corso di Laurea Magistrale in Scienze dell Informazione Editoriale, Pubblica e Sociale Teoria dell Informazione Cosa è l informazione L informazione è qualcosa che si possiede e si può dare ad un altro

Dettagli

Classificazione Object-Oriented

Classificazione Object-Oriented Classificazione Object-Oriented Cos è una classificazione? La classificazione è un operazione con cui a partire da dati telerilevati vengono prodotte delle mappe tematiche dove ogni pixel viene assegnato

Dettagli

Elementi lessicali. Lezione 4. La parole chiave. Elementi lessicali. Elementi lessicali e espressioni logiche. Linguaggi di Programmazione I

Elementi lessicali. Lezione 4. La parole chiave. Elementi lessicali. Elementi lessicali e espressioni logiche. Linguaggi di Programmazione I Lezione 4 Elementi lessicali e espressioni logiche Matricole 2-3 Elementi lessicali il linguaggio C ha un suo vocabolario di base i cui elementi sono detti token esistono 6 tipi di token: parole chiave

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI. Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi

Dettagli

La codifica binaria. Informatica B. Daniele Loiacono

La codifica binaria. Informatica B. Daniele Loiacono La codifica binaria Informatica B Introduzione Il calcolatore usa internamente una codifica binaria (0 e 1) per rappresentare: i dati da elaborare (numeri, testi, immagini, suoni, ) le istruzioni dei programmi

Dettagli

Basi di Dati e Sistemi Informativi su Web

Basi di Dati e Sistemi Informativi su Web Basi di Dati e Sistemi Informativi su Web Corso di Laurea Specialistica in Ingegneria Informatica Massimo Ruffolo E-mail: ruffolo@icar.cnr.it Web: http://www.icar.cnr.it/ruffolo Istituto di CAlcolo e Reti

Dettagli

Descrizione delle operazioni di calcolo. Espressioni costanti semplici

Descrizione delle operazioni di calcolo. Espressioni costanti semplici Descrizione delle operazioni di calcolo Come abbiamo detto l interprete è in grado di generare nuovi valori a partire da valori precedentemente acquisiti o generati. Il linguaggio di programmazione permette

Dettagli

Reperimento dell'informazione

Reperimento dell'informazione Reperimento dell'informazione Strumenti per il reperimento Indicizzazione e recupero Modelli di reperimento Motori di ricerca FdI 2013/2014 GMDN 2014 1 Reperimento dell'informazione FdI 2013/2014 GMDN

Dettagli

Linguistica Computazionale

Linguistica Computazionale Linguistica Computazionale La codifica di alto livello del testo Salvatore Sorce Dipartimento di Ingegneria Chimica, Gestionale, Informatica e Meccanica Lucidi Adattati da Alessandro Lenci Dipartimento

Dettagli

Algoritmi Istruzioni che operano su dati. Per scrivere un programma è necessario. che l esecutore automatico sia in grado di.

Algoritmi Istruzioni che operano su dati. Per scrivere un programma è necessario. che l esecutore automatico sia in grado di. Codifica di Dati e Istruzioni Fondamenti di Informatica Codifica dell Informazione Prof. Francesco Lo Presti Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare

Dettagli

QUANTIZZAZIONE Conversione analogico/digitale

QUANTIZZAZIONE Conversione analogico/digitale QUANTIZZAZIONE Conversione analogico/digitale 1 QUANTIZZAZIONE Campionamento e uantizzazione Campione del segnale Segnale originale (continuo nel tempo e nelle ampiezze) QUANTIZZAZIONE Conversione analogico/digitale

Dettagli

Fondamenti di Informatica - 1. Prof. B.Buttarazzi A.A. 2011/2012

Fondamenti di Informatica - 1. Prof. B.Buttarazzi A.A. 2011/2012 Fondamenti di Informatica - 1 Prof. B.Buttarazzi A.A. 2011/2012 Sommario I sistemi di numerazione Il sistema binario Altri sistemi di numerazione Algoritmi di conversione Esercizi 07/03/2012 2 Sistemi

Dettagli

MS Access: Tutorial Tabelle, Relazioni

MS Access: Tutorial Tabelle, Relazioni Università Magna Graecia di Catanzaro Informatica MS Access: Tutorial Tabelle, Relazioni Docente : Alfredo Cuzzocrea e-mail : cuzzocrea@si.deis.unical.it Tel. : 0984 831730 Microsoft Access Tutorial Tabelle,

Dettagli

Liste di autorità per l indicizzazione e la conservazione digitale dell archivio del CNUCE e della CGI

Liste di autorità per l indicizzazione e la conservazione digitale dell archivio del CNUCE e della CGI XXVI Convegno Internazionale Ass.I.Term Terminologia e organizzazione della conoscenza nella conservazione della memoria digitale Liste di autorità per l indicizzazione e la conservazione digitale dell

Dettagli

3. Indicare cosa sta a significare la figura geometrica del rombo in un diagramma a blocchi

3. Indicare cosa sta a significare la figura geometrica del rombo in un diagramma a blocchi 0.1.1.1 Definire un algoritmo 1. Con il termine algoritmo si intende: a) il software utilizzato in un calcolatore b) l elenco finito di istruzioni necessario per risolvere un problema c) un elaboratore

Dettagli