CORSO DI SISTEMI INFORMATIVI III
|
|
- Bernardo Capelli
- 7 anni fa
- Visualizzazioni
Transcript
1 CORSO DI SISTEMI INFORMATIVI III Indicizzazione di documenti testuali e di immagini Gloria Bordogna CNR IDPA Via Pasubio 5, c/o POINT, Dalmine (BG) gloria.bordogna@idpa.cnr.it
2 Come rappresentare i documenti? Tipicamente l indicizzazione genera degli indici come elementi base della rappresentazione formale di un documento (o di una query). Nell IR testuale gli indici possono essere: 1. Singoli Termini indice cioè parole automaticamente estratte dal documento, possibilmente pesate; 2. Radici di parole (per esempio class-) automaticamente estratte dal documento. Questa opzione è la più frequente; 3. Frasi (ad esempio classificazione di processi industriali ) automaticamente estratte dal documento. Questo tipo di indici non hanno dato risultati migliori di 1 e 2; 4. parole (o frasi) estratte da un vocabolario controllato; 5. (in modo addizionale) metadati (ad esempio titolo, autori, data di creazione ecc. ) 6.Concetti (estratti da un ontologia o individuati automaticamente per es. tramite Latent Semantic Analysis) 7. Rete semantica rappresentata da un grafo diretto etichettato
3 Metodi di Indicizzazione di documenti Insieme di termini o keywords (parole chiave) specificati da un esperto - metadati (Rappresentazione Controllata) più concisa qualità scadente del retrieval estratti automaticamente dall intero testo (Rappresentazione Full text) Dizionari Subject Codes più completa Tesauri costi computazionali alti Grosse collezioni documenti Selezione dell insieme di termini Eliminazione delle stop words Stemming Identificazione di frasi nominali Compressione Rappresentazione della struttura Capitoli, sezioni, sotto-sezioni, ecc.. Generazione di descrittori del testo a mano mediante analisi del testo
4 Indicizzazione: output Matrice sparsa! (presenza di molti 0 in ogni colonna) I pesi w possono essere binari, o valori reali o interi positivi: sono calcolati in fase di indicizzazione
5 Indicizzazione: esaustività e specificità Obbiettivi: esaustività: Per ogni indice l esaustività è definita dal numero di topic (argomenti) indicizzati specificità: l abilità di un indice di descrivere a fondo un argomento termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi è rilevante Modalità: +specificità estrazione diretta dal documento intero (full text) o mediante l utilizzo di fonti esterne (es: dizionari controllati) +esaustività Tecniche associative (tesauri, pseudo-tesauri, clustering)
6 Frequenza dei termini in relazione a Recall e Precisione favoriscono il recall: i termini ad alta frequenza Tecniche associative di espansione degli indici (tesauri, clustering) la precisione alta è data dalla capacità dell indicizzazione di distinguere i contenuti dei documenti i termini ad alta frequenza servono a favorire la precisione quando la loro frequenza non è alta in tutti i documenti della collezione.
7 Fasi del Processo di Indicizzazione Documenti Analisi Lessicale Eliminazione Stopwords stemming Le fasi del processo di indicizzazione automatica che devono essere attuate in sequenza: 1. Analisi lessicale e selezione delle parole 2. Rimozione delle parole molto comuni o stop-words 3. Riduzione delle parole originali alle rispettive radici semantiche 4. Eventuale pesatura degli elementi dell indice (significatività) 5. Creazione dell indice I sistemi commerciali per il recupero delle informazioni non implementano necessariamente tutte queste funzionalità. Termini indice
8 Analisi lessicale e selezione delle parole E il processo di trasformazione di un flusso di caratteri di input (il testo originario del documento) in un flusso di parole (o tokens ), ovvero in una sequenza di caratteri portatore di uno specifico significato. Nel testo le parole possono essere facilmente identificate grazie alla presenza di spazi, a capo, segni di interruzione, ecc
9 Riconoscimento di parole (token) Es: Parole estratte dai documenti (spazi ; :. ) Scelte euristiche: aren t aren t, arent,? O Neill Oneill, O Neill? coeditor coeditor, co editor? Hewlett-Packard HewlettPackard, Hewlett Packard? lower case = lowercase? Particolari sequenze: address: carlo@tin.it URL: Progr. Languages: C++, FORTRAN 90 IP addresses: nomi composti: Volo Los Angeles-San Francisco Volo Los AngelesSan Francisco? - co-editor coeditor NB: si usa lo stesso criterio anche per le query Dipende dalla lingua ad esempio in cinese le parole non sono separate da blank segmentazione di parole mediante uso di vocabolario
10 NORMALIZZAZIONE Conversione in lettere minuscole eliminazione simboli diacritici Normalizzazione date Normalizzazione nomi : Usa usa naïve naive March 1 st /01/07 Bejing peking
11 Alternativa al riconoscimento di parole (tokens) Uso di brevi sequenze di caratteri (n-grams) utile per le lingue orientali elimina i possibili errori degli approcci euristici utile nel caso di multilingual IR 4-grams D1: università degli studi di bologna
12 Rimozione delle Stopwords Metodi: 1.Termini funzionali (articoli, preposizioni, verbi ausiliari) sono Parole molto frequenti nella lingua in cui sono scritti i documenti: Analisi statistica della frequenza dei termini nella collezione e eliminazione dei termini con basso potere discriminante 2.note a priori indipendentemente dalla collezione e raccolte in una tabella (stop list per l inglese termini) Ad es: been", a", about", otherwise, the Tali parole, stop-words, possono essere eliminate dalla lista dei token. L eliminazione delle stopword permette una riduzione tra il 30% e il 50% dei token Può diminuire la recall es: to be or not to be let it be vengono eliminate NB: La maggior parte dei WEB search engine non identificano le stopwords
13 Stemming: Riduzione delle parole alle rispettive radici semantiche L efficacia del retrieval aumenta se la query è espansa con i termini che hanno lo stesso significato di quelli contenuti in essa. Gli algoritmi di Stemming sono procedure di conflation (fusione) che riducono tutte le parole con stessa radice a una singola radice In molte lingue, parole che iniziano allo stesso modo (o che hanno delle sequenze di caratteri in comune) possono avere la stessa origine etimologica. Tali parole hanno un contenuto informativo molto simile. Generalmente rimuovono la parte finale delle parole riducendo tutte le parole affini ad un unica radice (in inglese stem). Es computer, computational, computing e computed comput paint painting painted painter paint Colour colours color different difference differ Computers are painted different colours comput ar paint differ color Altri approcci sono basati sulla lemmatizzazione mediante sull uso di dizionari
14 Scansione dei documenti (parsing) Associazione di un identificatore univoco a ogni documento e scansione del contenuto del documento: file contiene 0 o più documenti seguiti da un simbolo di EOF S --> <document> EOF. void Input(): int DocId = 0; d = new Document(DocId); (parsedocument(d) d.output(); ++DocId; d = new Document(DocId); )* <EOF>
15 Scansione dei documenti (parsing) Esempio: Il Documento consiste di una headline o dateline opzionali seguite dal testo. <document> (<headline> <dateline>) <text> <text> (<token_begin> <token> <token_end>)+ <token> <model> <acronym> <integer> <word> ecc. <Model>: ["a"-"z","a"-"z"] "-" (["0"-"9"])* Ex: F-16, C-25 <Acronym>: (["A"-"Z"]) (["A"-"Z"])* Ex: NCR, IBM, ecc. <Abbreviation>: (["A"-"Z"] ".")* Ex: U.S.A. <Word>: ["a"-"z","a"-"z"]( ["a"-"z","a"-"z" ])*> Ex: Big, big <Integer>: ["0"-"9"] (["0"-"9"])* > Ex: 123 <Decimal>: (["0"-"9"])* "." (["0"-"9"])+ > Ex:
16 Altre operazioni Compressione del testo per la riduzione dei tempi i trasmissione (tipico nell IR su web) Criptografia del testo per problemi di sicurezza e riservatezza delle informazioni Costruzione di categorie di termini e di documenti Uso o costruzione di tesauri e cluster di documenti per aumentare il richiamo del sistema di IR Identificazione di gruppi nominali parole la cui distanza nel testo non supera un valore di soglia. Es: information retrieval, computer science,
17 Relazioni tra i termini indice Indicizzazione basata su termini singoli i termini singoli sono spesso ambigui. Molti termini singoli sono o troppo specifici o troppo generici Individuazione di indici composti esperti indicizzatori analisi linguistica (NLP) metodi di espansione dei termini mediante tesauri o clustering dei termini
18 Uso di tesauri per la risoluzione di sinonimia Un tesauro può essere: tematico; in questo caso è una mappa del lessico specifico di una certa disciplina in un dato linguaggio; questo è il caso più frequente; generale; in questo caso è una mappa di un intero linguaggio. Per applicazioni di IR, sono stati sviluppati vari tipi di tesauro, tra cui : tesauri gerarchici, tesauri clustered, e tesauri associativi o pseudo-tesauri.
19 Tesauri Gerachici Elenco classificato dei termini usati in una disciplina: RELAZIONI: sinonimia (RT) Related Term quasi-sinonimia: (UF) Use For Es.: UF(hg, mercury (metal)), UF(planet Mercury,mercury (planet)). RELAZIONI DI GERARCHIA generalizzazione (BT) Broader Term specializzazione (NT) Narrower Term I tesauri gerarchici sono stati oggetto di standardizzazioni ISO e ANSI e sono quasi sempre tematici.
20 Tesaurigerarchiciin IR Uso per espandere la query per espandere gli indici dei documenti (indicizzazione manuale) Scopi normalizzazione uso di termini controllati Generalizzazione sostituzione con termini più generali Specificazione sostituzione con termini più specifici (disambiguazione) Espansione con termini correlati RT Svantaggi dei tesauri gerarchici: devono essere costruiti manualmente, da esperti nel dominio; una loro generazione automatica è molto difficile, poichè, una volta che un algoritmo ha stabilito che esiste una forte connessione semantica tra due termini, è molto difficile capire di quale tipo di relazione si tratti (NT, BT, RT, UF/USE); richiedono un aggiornamento costante (manuale), poichè nella maggior parte dei domini della conoscenza la terminologia è in evoluzione costante.
21 Tesauro di Arte e Architettura
22 Clustered tesauri Un tesauro clustered è un grafo di gruppi (o cluster, o synset) di parole. Ogni gruppo e un insieme di parole tra cui esiste una forte correlazione semantica (quasi-sinonimia). Tra due gruppi collegati da un ramo esiste una relazione semantica; ES: WordNet, costruito manualmente contiene circa 150,000 parole e circa 115,000 synsets; le parole hanno associato l ordine di polisemia (# synset); e solo legate da relazioni lessicali, Es: antonimia ( nome opposto ; per esempio pesante-leggero); iperonimia (per esempio animale-elefante); iponimia ( per esempio elefante-animale); meronimia ( parte-nome ; e.g. orecchio-testa); troponimia ( maniera-nome ; e.g. correre-camminare); implicazione, presupposizione (e.g. divorzio - sposare). I tesauri clustered possono essere generati automaticamente, in tal caso non è fatta alcuna distinzione tra i tipi differenti di relazioni semantiche.
23 ESEMPIO tratto da Wordnet
24 ESEMPIO tratto dal Tesauro clustered di Roget Class Indicator Entry Class Indicator Entry permission offer leave presentation 760 sanction tender allowance 763 overture tolerance advance authorization submission prohibition proposal veto proposition 761 disallowance invitation injunction refusal ban declining taboo 764 noncompliance consent rejection acquiescence denial 762 compliance agreement acceptance
25 Tesauri associativi o Pseudo-Tesauri Un tesauro associativo è un grafo di parole, i cui nodi rappresentano parole e i rami rappresentano una (generica) relazione di similarità semantica tra le due parole. I rami: possono essere o meno orientati, dipendentemente dal fatto che si assume che la relazione di similarità sia simmetrica o no; possono avere un peso numerico associato wij, che indica la forza dell associazione semantica (es fuzzy pseudo-tesauri).
26 Proprietà statistiche dei testi Quanto velocemente cresce il vocabolario all aumentare della dimensione del testo? determina la dimensione dell indice Com è distribuita la frequenza delle parole in un testo? caratterizza la significatività dei termini indice Come sfruttare queste proprietà per migliorare l efficienza e l efficacia di un sistema di IR?
27 Crescita del Vocabolario (legge di Heap) Come cresce il vocabolario (numero di parole singole) con la dimensione della collezione (Numero di documenti)? Non esiste un valore limite a causa dei nomi propri e errori tipografici. V = dimensione del Vocabolario e N =lunghezza della collezione in numero di parole Costanti: Crescita del vocabolario : V = KN β K β < β < 1
28 Frequenza delle parole Poche parole sono molto comuni Le 2 parole più frequenti ( the, of ) hanno un numero di occorrenze che è circa il 10% delle occorrenze totali delle parole in un testo inglese. La maggior parte delle parole sono rare. Metà delle parole in un corpus appaiono solo 1 volta. La distribuzione è detta heavy tailed
29 Legge di Zipf (1949) Distribuzione della frequenza in funzione del rank Per ogni parola w f(w) è il numero di occorrenze di w nel testo r(w) è l indice rank (posizione) di w nella lista ordinata in funzione decrescente di frequenza f(w), es. la parola che appare più spesso ha un indice di rank r(w) uguale a 1 f f 1 r f r = c ( c COSTANTE) w ha un rank r e e frequenza f 6 r
30 Legge di Zipf r(w) * f(w) = c se N è il numero totale di occorrenze delle parole in una collezione, la probabilità p r di occorrenza di una parola w con rank r : f A p r = = per una costante A = N r c N indipendente dal corpus Nei testi in lingua Inglese, A tende a circa Zipf, G. K., Human Behaviour and the Principle of Least Effort. Adison-Wesley, 1949 Li (1992) ha mostrato che stringhe random separate da spazi create manualmente generano parole con una distribuzione di Zipf.
31 Previsioni basate sull analisi della legge di Zipf r(w) * f(w) = c = A * N A=0.1 per l inglese, ove N è il numero di parole nella collezione. r=an/f # di parole con almeno f occorrenze r=an/(f+1) # di parole con almeno f+1 occorrenze r=an/f-an/(f+1)=an/(f(f+1)) # di parole con f occorrenze # Parole con almeno 1 occorrenza (f=1)(cioè il Vocabolario) AN # Parole con 1 sola occorrenza = AN/2 50% Vocabolario
32 Analisi statistica dei testi di Luhn Non tutte le parole di un documento lo descrivono con la stessa precisione. Luhn nel 1958 aveva enunciato che la frequenza con cui alcune parole compaiono in un testo forniscono un parametro importante della significatività delle parole. Inoltre la posizione di queste parole nelle frasi è un altro parametro importante che indica la significatività delle frasi. IDEA: I termini indice possono essere assegnati ai documenti della collezione con un dato peso. Associando ai termini un peso si intende tenere conto della significatività (importanza) del termine nel documento. La funzione di pesatura tiene conto della frequenza del termine nel documento e nella collezione.
33 Analisi di Luhn funzione di risoluzione delle parole : capacità delle parole di discriminare il contenuto dei documenti è massima nella posizione intermedia tra i due livelli di cut-offs
34 Criteri di indicizzazione basati sull analisi di Luhn l esaustività si può assumere essere legata al numero di termini indice assegnati ad un dato documento Richiamo la specificità invece al numero di documenti a cui un termine indice è assegnato in una collezione Precisione 10
35 Criteri di indicizzazione basati sull analisi di Luhn Alternative: Pesatura dei Termini indice: le parole più frequenti assumono un peso di significatività più basso Stop lists: Le parole più frequenti vengono eliminate dagli indici (cut-off superiore) Parole significative: Le parle più frequenti e meno frequenti vengono eliminate dagli indici (cut-off superiore e inferiore) 10
36 Significatività dei termini indice E una funzione composta da due fattori: w td =f td * Discr-value t f td frequenza del termine t in d è in relazione alla esaustività, fattore di recall Discr-value t è in relazione alla specificità, fattore di precisione
37 Inverse Document Frequency Inverse Document Frequency (IDF) del termine t j idf j = log N df j ove df j (frequenza del termine t j nei documenti) è il numero di documenti in cui t j appare e N il numero di documenti nella collezione Favorisce la precisione è alta se il termine appare in pochi documenti della collezione
38 Significatività dei termini indice Il peso w ij del termine t i in un documento d j w ij = tf ij log N df i Dopo aver eliminato le parole funzionali si calcola w ij per ogni termine t i in ogni documento d j Si assegnano ai documenti della collezione tutti i termini con valori alti di w ij
39 Significatività dei termini indice normalizzazione rispetto alla lunghezza dei documenti La frequenza assoluta tf ij di un termine t i cresce con la lunghezza del documento d j. Per questo il peso w ij del termine t i in un documento d j viene normalizzato w ij = tf ij maxtf j log N df i tfij w ij = log maxtf j maxtf j èla frequenza massima dei termini nel documento d j Il primo fattore èla frequenza relativa del termine t i in d j N dfi
40 Significatività dei termini indice normalizzazione in [0,1] Si normalizza anche IDF per calcolare gradi di significatività nell intervallo [0,1] w ij = tf ij maxtf j max log t T N df i log N df t
41 Significatività dei termini indice Pesatura Okapi BM25 Si normalizza anche IDF per calcolare gradi di significatività nell intervallo [0,1] wtd = ln N df t dft k1(1 b + ( k 1 + 1)tf td b(l( d ) / laverage)) + tftd k1 = 2.0 and b = l(d)= lunghezza in parole del documento d laverage= lunghezza media dei documenti della collezione D
42 Indicizzazione basata su metodi di analisi Linguistica Indicizzazione basata su frasi: Frasi migliori hanno una significatività di termini accoppiati più alta dei termini isolati costruzione di gruppi nominali: Biword index: Assegnamento di indicatori sintattici ai termini che appaiono nel testo dei documenti. nome-nome, aggettivo-nome Phrase index: Costruzione di frasi da sequenze di termini che hanno dei marcatori sintattici di un certo tipo
43 Identificazione di Frasi Frasi sequenza di termini che identificano un contenuto più specifico del termine singolo es., computer science vs. computer Espansione stem con Tesauro Indicizzazione con Frasi Frequenza nei documenti Frequenza bassa Frequenza media Frequenza alta N
44 Identificazione di frasi semplici: analisi linguistica Tecniche di linguistica computazionale Vengono assegnati Identificatori sintattici ai termini selezionati e una frase viene selezionata se è associata a una sequenza sintattica specifica: nome-nome; aggettivo-nome. Gli elementi della frase sono scelti dalla stessa unità sintattica
45 Indentificazione di Entità Nominali Estrazione di Entità Nominali dal testo dei documenti appartenenti a categorie nomi propri di politici, storici, scienziati, VIP, Nomi di organizzazioni ad es. ONU, FAO, IBM, ecc. ad esempio nelle news località geografiche quali nomi di città, regioni, nazioni, entità geografiche fisiche quali fiumi, montagne, laghi, ecc.) nell IR geografico. E necessario poi associare al documento di footprints o georiferimenti Questo documento tratta di attrattive turistiche della provincia di bergamo
46 Indentificazione di Entità Nominali Obbiettivo: effettuare un tagging dei termini riconosciuti come Entità Nominali (EN) in una gerarchia di un certo tipo Tecniche: Si applicano preliminarmente delle regole per filtrare le parole candidate EN Iniziano con una lettera Maiuscola, sono lettere maiuscole seguite da. Sono precedute/seguite da parole prefisso/suffisso del tipo Sig. Prof. Ministro Città, provincia, stato, Mont, lago, ecc. Si impiegano fonti esterne per il riconoscimento Wikipedia Gazeteer (es. geonames) Si impiegano tecniche di learning (utilizzano dati classificati per il training)
47 Entità Nominali geografiche: Gazeteer ID Name Alternate name Latitude Longitude Country code Population Martinengo 45,57 9,76 IT Mozzanica 45,47 9,69 IT Romano di Lombardia 45,52 9,74 IT Sedrina 45,78 9,62 IT Vaprio d Adda Italian Republic Vaprio 45,58 9,52 IT Italia, Italy, An Eadailt, Bel Paese, Bergamo Bergam, Bergame, Berghem, Dublin Dublino, Dublina, Baile Atha Cliath, 42,83 12,83 IT ,69 9,67 IT ,55-6,25 IE Georeferenziazione automatica di testi e analisi di query spaziali -- Giorgio Ghisalberti 47
48 Retrieval di Immagini Cos è il documento? Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc
49 Indici per il Retrieval di Immagini Indici testuali Annotazioni associate manualmente, estratte dalla URL, estratte dal contenuto dell immagine Didascalie testuali indicizzate in full text Testo estratto dall immagine segmentazione + OCR Semantic (Optical Gap Character Recognition) Indici visuali (Content-Based Image Retrieval) sintetizzano proprietà caratteristiche visuali nell immagine (forme presenti, colori dominanti, tessitura, ecc)
50 Indici Visuali per il Retrieval di Immagini per Contenuto (CBIR) Generalmente si definiscono gli indici dipendentemente da un contesto applicativo N Signatures n maschere di bit associate a quadranti Fingerprints n maschere di bit estratte dall immagine Indici di colore istogramma RGB o dei livelli di grigio (h1, h2, hn) hi= num di Pixels nell immagine (o nel quadrante) con colore nell intervallo i-esimo Indici di Tessitura dimensione frattale, contrasto, omogeneità, Entropia (su tutta l immagine o su un quadrante Indici di Forma Circolarità, direzionalità, Coeff. di Fourier, Curvature Scale Space, spettro multifrattale
51 Metadati per documenti multimediali TIFF 6.0 per codificare metadati per l immagini es. ImageWidth, ImageLength, Compression,.. Xresolution, Yresolution,.. M-PEG 7 (Moving Picture Experts Group ): standard ISO per sequenze audio e video definito per Il retrieval e filtering per contentuto di informazioni multimediali INSPIRE per codificare metadati per dati geografici (mappe o immagini georeferenziate )
52 Istogramma livelli di Grigio Picchi
53 Istogramma livelli di Grigio Es: Segmentazione della porosità in un materiale ceramico Immagine iniziale Immagine segmentata Picchi
54 Indici di tessitura es: Spettro Multifrattale Misura di frastagliamento di una curva Deriva dalla dimensione frattale tenendo conto delle differenze di frastagliamento fra le varie porzioni della curva Algoritmo box-counting Introduzione di un parametro lente di ingrandimento
55 Spettro Multifrattale Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc
56 Gli Oggetti nelle Immagini Digitali Un oggetto è una regione di immagine che può essere identificata e distinta dal resto dell immagine stessa (sfondo). Segmentazione Immagine originale: Matrice di pixels Es: v ij {0,255} Immagine binaria segmentata: matrice di pixel con v ij {0,1} Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc Rappresentazione vettoriale degli oggetti
57 Rappresentazione del Contorno degli Oggetti Rappresentazione vettoriale del contorno Rappresentazione funzionale del contorno Funzione di distanza dal centroide Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc
58 Analisi statistica delle forme Log(N) Percentuale di porosità totale Suddivisione dei pori in classi areali 4 3,5 3 2,5 2 1,5 Campione C - 0% Campione 18-12% Campione % 1 0, Aree di soglia (μm 2 ) Costruzione della curva granulometrica della porosità Calcolo del coefficiente angolare della retta ottenuta dall interpolazione dei punti della curva granulometrica
59 Coefficienti di Fourier Il triangolo presenta coefficienti di Fourier in posizioni multiple di 3 Una forma irregolare presenta generalmente coefficienti di Fourier in tutte le posizioni Tratto dalla Tesi di Laurea Specialistica di Luca Ghilardi e Simone Milesi, Facoltà di Ingegneria, Univ. Bergamo anno acc
60 Conclusione: efficacia dei metodi di indicizzazione automatica Base: indicizzazione automatica basata su singoli termini Utilizzo di un tesauro tematico per raggruppare termini in un settore specifico +10% al +20% Uso di tesauri associativi (pseudo-tesauri) derivati automaticamente in una sottocollezione campione 0% al +10% Uso di frasi di termini ottenute sulla base delle cooccorrenze nei testi +5% al +10%
Indicizzazione di documenti testuali
Indicizzazione di documenti testuali Generazione di un archivio di Documenti Testuali E eseguita off-line necessaria per accelerare il reperimento dei documenti E un processo che esegue le seguenti attività:
DettagliLibrerie digitali. Strumenti di ricerca. Ricerca di informazioni nelle Digital library
Librerie digitali Strumenti di ricerca Ricerca di informazioni nelle Digital library Data un interrogazione da parte di un utente gli strumenti di ricerca permetto di identificare i dati che soddisfano
DettagliBag of (visual) Words. BoW. Input image. Dizionario visuale. Rappresentazione
Bag of (visual) Words BoW Il modello è stato proposto con l obiettivo di rappresentare un immagine tramite un dizionario visuale. Il metodo BoW si ispira alle tecniche di rappresentazione dei documenti
DettagliI SISTEMI DI RECUPERO DELL INFORMAZIONE
I SISTEMI DI RECUPERO DELL INFORMAZIONE Sistemi specializzati nella gestione di documenti di testo e nel recupero in base al loro contenuto Sempre più spesso i documenti nascono direttamente in forma elettronica
Dettagli1.2d: La codifica Digitale dei caratteri
1.2d: La codifica Digitale dei caratteri 2 12 ott 2011 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 12 ott 2011 La codifica dei caratteri Un testo
DettagliLa codifica dell informazione
La codifica dell informazione Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze di due soli simboli : 0 e 1 L unità elementare di informazione si chiama bit
DettagliFasi di un Compilatore
Dipartimento di Matematica e Informatica Università di Camerino Un implementazione compilativa di un linguaggio di programmazione viene realizzata tramite un programma che prende il nome di compilatore
Dettagliinformatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia sesta lezione: la dinamica del testo vito
DettagliLa codifica dell informazione. Rappresentazione binaria. Rappresentazione posizionale in base 10
La codifica dell informazione Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze di due soli simboli : 0 e 1 L unità elementare di informazione si chiama bit
DettagliIndicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice
Fasi del processo di IR Indicizzazione Information need text input Pre-process documents Parse Query Index Rank Indicizzazione: due aspetti Costruzione delle viste logiche dei documenti: Per ogni documento
DettagliNumeri interi. Laboratorio di Calcolo Paola Gallo
Numeri interi Alfabeto binario anche il segno può essere rappresentato da 0 o 1 è indispensabile indicare il numero k di bit utilizzati Modulo Modulo e segno 1 bit di segno (0 positivo, 1 negativo) k 1
DettagliLez. 7 Immagini Digitali. Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1
Lez. 7 Immagini Digitali Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1 Dott. Pasquale De Michele Dott. Raffaele Farina Dipartimento di Matematica e Applicazioni Università di Napoli
DettagliPag. 1. La Rappresentazione e la Codifica delle informazioni (parte 2) Tipi di dati. Informatica Facoltà di Medicina Veterinaria
1 Università degli studi di Parma Dipartimento di Ingegneria dell Informazione Informatica a.a. 2012/13 Tipi di dati Informatica Facoltà di Medicina Veterinaria La Rappresentazione e la Codifica delle
DettagliModulo 1. Concetti base della Tecnologia dell informazione. Prof. Nicolello Cristiano. Modulo 1
Concetti base della Tecnologia dell informazione Algoritmi Come interpreta un computer un problema? Algoritmi Algoritmo: sequenza ordinata di istruzioni per risolvere un problema (tradotto: sequenza di
DettagliLinguistica Computazionale
Linguistica Computazionale La Legge di Zipf 13 ottobre 2014 Distribuzione della frequenza delle parole Rango di una parola (r v ) posizione occupata da una parola in un ordinamento di frequenza discendente
DettagliModulo 1: Le I.C.T. UD 1.2d: La codifica Digitale dei caratteri
Modulo 1: Le I.C.T. : La codifica Digitale dei caratteri Prof. Alberto Postiglione Corso di Informatica Generale (AA 07-08) Corso di Laurea in Scienze della Comunicazione Università degli Studi di Salerno
DettagliINTRODUZIONE AL TESTO FILOSOFICO
INTRODUZIONE AL TESTO FILOSOFICO MEDIANTE FORME DI ANNOTAZIONE SEMANTICA Ciclo seminariale 4 febbraio 2011 4 marzo 2011 Fra ontologie e mappe: un introduzione Francesco Bianchini DI COSA PARLEREMO Mappe
DettagliUn applicazione di Text Mining
Un applicazione di Text Mining Knowledge Discovery in Text (KDT) Problema Un azienda erogatrice di servizi intende analizzare il testo delle telefonate in arrivo al proprio numero verde al fine di migliorare
DettagliAnalogico vs digitale
Analogico vs digitale Informazione classificatoria e più che classificatoria Informazione classificatoria: è questo, ma avrebbe potuto essere quest altro altro. Informazione più che classificatoria: riconoscere
DettagliLa codifica del testo
La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni I slide Informatica e sistemi
Dettagli1.2d: La codifica Digitale dei caratteri
1.2d: La codifica Digitale dei caratteri 2 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 La codifica dei caratteri Un testo è rappresentato attraverso
DettagliSistemi di Elaborazione delle Informazioni
Università degli Studi di Messina Policlinico G. Martino - Sistemi di Elaborazione delle Informazioni A.A. 26/27 Università degli Studi di Messina Policlinico G. Martino - Sistemi di Elaborazione delle
DettagliTecnologie per il web e lo sviluppo multimediale. Rappresentazione delle informazioni
Tecnologie per il web e lo sviluppo multimediale Rappresentazione delle informazioni Luca Pulina Corso di Laurea in Scienze della Comunicazione Università degli Studi di Sassari A.A. 2015/2016 Luca Pulina
DettagliLinguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)
Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp) Malvina Nissim malvina.nissim@unibo.it 1 Aprile 2009 1 ssh gollum.sitlec.unibo.it login passwd cqp 1 Cercare e contare 1.1 Contare
DettagliLa Rappresentazione dell Informazione
La Rappresentazione dell Informazione Parte III I codici Codici a.a. 27-28 Un codice è una funzione che associa ad una sequenza di simboli un significato Codice : {entità} {sequenze di simboli} Un codice
DettagliElaborazione dell informazione. Elaborazione dell informazione. Rappresentazione dei numeri INFORMATICA PER LE DISCIPLINE UMANISTICHE 2 (13042)
Elaborazione dell informazione INFORMATICA PER LE DISCIPLINE UMANISTICHE 2 (13042) Elaborazione di informazione prevede una codifica come: Dato: insieme di simboli rappresentati su un supporto Negli elaboratori:
DettagliInformazione e sua rappresentazione: codifica
Corso di Calcolatori Elettronici I Informazione e sua rappresentazione: codifica ing. Alessandro Cilardo Corso di Laurea in Ingegneria Biomedica Il concetto di informazione Qualunque informazione è definita
DettagliFILE E INDICI Architettura DBMS
FILE E INDICI Architettura DBMS Giorgio Giacinto 2010 Database 2 Dati su dispositivi di memorizzazione esterni! Dischi! si può leggere qualunque pagina a costo medio fisso! Nastri! si possono leggere le
DettagliLa codifica. dell informazione
00010010101001110101010100010110101000011100010111 00010010101001110101010100010110101000011100010111 La codifica 00010010101001110101010100010110101000011100010111 dell informazione 00010010101001110101010100010110101000011100010111
DettagliRappresentazione di immagini a colori. Rappresentazione dei colori. Rappresentazione dei colori LA RAPPRESENTAZIONE DELL INFORMAZIONE - II
Rappresentazione di immagini a colori LA RAPPRESENTAZIONE DELL INFORMAZIONE - II Per rappresentare immagini utilizzando i colori, a ogni elemento della griglia si dovranno dedicare più bit. Se dedichiamo
DettagliParole e frequenze. Alessandro Lenci
Parole e frequenze Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 5600 Pisa, Italy alessandro.lenci@ilc.cnr.it Linguaggio e comunicazione - LO042 Rango di una parola
DettagliIndicizzazione terza parte e modello booleano
Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione
DettagliIntroduzione al Semantic Web
Corso di Laurea Specialistica in Ingegneria Informatica Corso di Linguaggi e Tecnologie Web A. A. 2011 - Introduzione al Semantic Web Eufemia TINELLI Dal Web al Semantic Web: Motivazioni Il Web dovrebbe
DettagliINDICE. Introduzione. 3 Capitolo 1 Cenni di geodesia
INDICE XI Introduzione 3 Capitolo 1 Cenni di geodesia 4 1.1 Le superfici di riferimento: definizioni e caratteristiche 1.1.1 La sfera come superficie di riferimento della Terra, p. 6 1.1.2 L ellissoide
DettagliArgomenti trattati. Informazione Codifica Tipo di un dato Rappresentazione dei numeri Rappresentazione dei caratteri e di altre informazioni
Argomenti trattati Informazione Codifica Tipo di un dato Rappresentazione dei numeri Rappresentazione dei caratteri e di altre informazioni Informazione mi dai il numero di Andrea? 0817651831 Il numero
DettagliAnalizzatori Lessicali con JLex. Giuseppe Morelli
Analizzatori Lessicali con JLex Giuseppe Morelli Terminologia Tre concetti sono necessari per comprendere la fase di analisi lessicale: TOKEN: rappresenta un oggetto in grado di rappresentare una specifica
DettagliGEOGRAPHICAL INFORMATION SYSTEM PER L ANALISI AMBIENTALE. Nicola Gilio. Dott. Nicola Gilio
Nicola Nicola Gilio Gili GEOGRAPHICAL INFORMATION SYSTEM PER L ANALISI AMBIENTALE Dott. Nicola Gilio Un sistema informatizzato in grado di immagazzinare dati descrittivi della superficie terrestre Definizioni
Dettagliinformatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia sesta lezione: la dinamica del testo vito
DettagliProgramma del corso. Introduzione Rappresentazione delle Informazioni Calcolo proposizionale Architettura del calcolatore Reti di calcolatori
Programma del corso Introduzione Rappresentazione delle Informazioni Calcolo proposizionale Architettura del calcolatore Reti di calcolatori Il concetto di FILE FILE: sequenza di byte conosciuta nel computer
DettagliRappresentazione e Codifica dell Informazione
Rappresentazione e Codifica dell Informazione Capitolo 1 Chianese, Moscato, Picariello, Alla scoperta dei fondamenti dell informatica un viaggio nel mondo dei BIT, Liguori editore. Sistema di numerazione
DettagliCodifica dell Informazione
Introduzione all Informatica Fabrizio Angiulli Codifica dell Informazione CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati
DettagliLa codifica. dell informazione
La codifica dell informazione (continua) Codifica dei numeri Il codice ASCII consente di codificare le cifre decimali da 0 a 9 fornendo in questo modo un metodo per la rappresentazione dei numeri Il numero
DettagliPROBLEMI ALGORITMI E PROGRAMMAZIONE
PROBLEMI ALGORITMI E PROGRAMMAZIONE SCIENZE E TECNOLOGIE APPLICATE CLASSE SECONDA D PROGRAMMARE = SPECIFICARE UN PROCEDIMENTO CAPACE DI FAR SVOLGERE AD UNA MACCHINA UNA SERIE ORDINATA DI OPERAZIONI AL
DettagliSistemi di Elaborazione delle Informazioni
Sistemi di Elaborazione delle Informazioni Rappresentazione dell Informazione 1 Il bit Si consideri un alfabeto di 2 simboli: 0, 1 Che tipo di informazione si può rappresentare con un bit? 2 Codifica binaria
DettagliLez. 5 La Programmazione. Prof. Salvatore CUOMO
Lez. 5 La Programmazione Prof. Salvatore CUOMO 1 2 Programma di utilità: Bootstrap All accensione dell elaboratore (Bootsrap), parte l esecuzione del BIOS (Basic Input Output System), un programma residente
DettagliINDICI PER FILE. Accesso secondario. Strutture ausiliarie di accesso
INDICI PER FILE Strutture ausiliarie di accesso 2 Accesso secondario Diamo per scontato che esista già un file con una certa organizzazione primaria con dati non ordinati, ordinati o organizzati secondo
DettagliLa rappresentazione cartografica è una forma di descrizione del territorio fondata sulla restituzione delle relazioni spaziali di elementi geografici
Cartografia digitale e modelli di dati spaziali modelli vettoriali e modelli raster La descrizione cartografica La rappresentazione cartografica è una forma di descrizione del territorio fondata sulla
DettagliLibrerie digitali. Cos è una libreria digitale? Introduzione. Cos è una libreria digitale? Cos è una libreria digitale? Cos è una libreria digitale?
Librerie digitali Introduzione William Arms "An informal definition of a digital library is a managed collection of information, with associated services, where the information is stored in digital formats
DettagliRAPPRESENTAZIONE DELLE INFORMAZIONI
RAPPRESENTAZIONE DELLE INFORMAZIONI 1 RAPPRESENTAZIONE DELLE INFORMAZIONI Le informazioni gestite dai sistemi di elaborazione devono essere codificate per poter essere memorizzate, elaborate, scambiate,
DettagliAnalizzatore lessicale o scanner. Lo scanner rappresenta un'interfaccia fra il programma sorgente e l'analizzatore sintattico o parser.
Analizzatore lessicale o scanner Dispensa del corso di Linguaggi e Traduttori A.A. 2005-2006 Lo scanner rappresenta un'interfaccia fra il programma sorgente e l'analizzatore sintattico o parser. Lo scanner,
DettagliInformazione e sua rappresentazione: codifica
Corso di Calcolatori Elettronici I A.A. 2011-2012 Informazione e sua rappresentazione: codifica Lezione 2 Prof. Antonio Pescapè Università degli Studi di Napoli Federico II Facoltà di Ingegneria Corso
DettagliCodifica dell Informazione
Francesco Folino CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati e istruzioni in un formato tale che l esecutore automatico
DettagliTeoria dell informazione
Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria dell informazione A.A. 2008-09 Alberto Perotti DELEN-DAUIN Modello di sistema di comunicazione Il modello di
DettagliLa rappresentazione delle informazioni
La rappresentazione delle informazioni In queste pagine cercheremo di capire come sia possibile rappresentare mediante numeri e memorizzare in un file testi, immagini, video, suoni... Il computer per lavorare
DettagliUno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011
Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice
DettagliSistemi di numerazione
Sistemi di numerazione Introduzione Un sistema di numerazione è un sistema utilizzato per esprimere i numeri e possibilmente alcune operazioni che si possono effettuare su di essi. Storicamente i sistemi
DettagliIl sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte
Rappresentazione digitale delle informazioni Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte Ordini di grandezza Codifica delle immagini Codifica
DettagliCalcolo numerico e programmazione Rappresentazione dei numeri
Calcolo numerico e programmazione Rappresentazione dei numeri Tullio Facchinetti 16 marzo 2012 10:54 http://robot.unipv.it/toolleeo Rappresentazione dei numeri nei calcolatori
DettagliRappresentazione dell Informazione. Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1
Rappresentazione dell Informazione Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1 Il bit Si consideri un alfabeto di 2 simboli: 0, 1 Che tipo di informazione si può rappresentare
Dettagli1.2 Concetti base dell Informatica: Informazione
1.2 Concetti base dell Informatica: Informazione Insegnamento di Informatica Elisabetta Ronchieri Corso di Laurea di Economia, Universitá di Ferrara I semestre, anno 2014-2015 Elisabetta Ronchieri (Universitá)
DettagliElementi di Statistica
Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica
DettagliE02 ESERCIZI SU MODI DI TRASFERIMENTO
E02 ESERCIZI SU MODI DI TRASFERIMENTO Esercizio 1 Un file di lunghezza F byte è trasferito in una rete a pacchetto, utilizzando n rami in cascata. I nodi attraversati possono essere ritenuti praticamente
DettagliSegnale analogico. Analogico vs digitale. Segnale digitale. Trasformazione da analogico a digitale
LEZIONI 2 e 3 Rappresentazione dell informazione 53 Analogico vs digitale LEZIONI 2 e 3 Rappresentazione dell informazione 54 Segnale analogico Il computer può lavorare soltanto con grandezze di tipo digitale
DettagliLinguistica Computazionale
Linguistica Computazionale Frequenze di parole 7 ottobre 2014 Statistica terminologia di base Popolazione (collettivo) l insieme delle entità (oggetti, individui, eventi, ecc.) che rappresentano il dominio
DettagliLinguaggi di Programmazione
Linguaggi di Programmazione 1 Linguaggio naturale e linguaggio macchina La comunicazione uomo-macchina avviene attraverso formalismi che assumono la forma di un linguaggio. Caratteristiche del Linguaggio
DettagliInformatica. Mario Pavone - Dept. Mathematics & Computer Science - University of Catania. Trasferimento. Ambiente esterno.
Trasferimento Ambiente esterno Controllo Informatica Mario Pavone - Dept. Mathematics & Computer Science - University of Catania mpavone@dmi.unict.it Cos è l Informatica La scienza della rappresentazione
DettagliParte 2. - Il Documento Elettronico - Introduzione alla gestione delle basi Documentali. M. Diligenti Sistemi Gestione Documentale 1
Parte 2 - Il Documento Elettronico - Introduzione alla gestione delle basi Documentali M. Diligenti Sistemi Gestione Documentale 1 Elettronici e cartacei Assumeremo documenti in formato elettronico Documenti
DettagliESECUZIONE DI PROGRAMMI C SU MACCHINE REALI. Docente: Giorgio Giacinto AA 2008/2009. formalizzazione degli algoritmi in linguaggio C
Università degli Studi di Cagliari Corso di Laurea Specialistica in Ingegneria per l Ambiente ed il Territorio Corso di Laurea Specialistica in Ingegneria Civile - Strutture FONDAMENTI DI INFORMATICA 2
DettagliInformatica per la comunicazione" - lezione 11 -
Informatica per la comunicazione" - lezione 11 - Una pagina web si dice pubblicata quando è accessibile tramite internet" Per accedere a una pagina occorre localizzarla nella rete" A questo scopo ogni
Dettagli014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria
T4 T4 014 301 Filosofia e teoria 014 301 8 Scuole, teorie, metodologie 014 301 82 Linguistica formale Notazione 01 dalla Tavola 1 come di seguito modificata Da non usare per scuole e teorie semantiche;
DettagliLA CODIFICA DELL INFORMAZIONE. Introduzione ai sistemi informatici D. Sciuto, G. Buonanno, L. Mari, McGraw-Hill Cap.2
LA CODIFICA DELL INFORMAZIONE Introduzione ai sistemi informatici D. Sciuto, G. Buonanno, L. Mari, McGraw-Hill Cap.2 Codifica dati e istruzioni Per scrivere un programma è necessario rappresentare istruzioni
DettagliComunicazione Digitale
Comunicazione Digitale Schema didattico di riferimento 1 1. Internet e le reti locali 1. Qual è la storia della rete Internet dagli albori ai giorni nostri 2. I tipi di rete, come si organizzano e agglomerano
DettagliTecniche di compressione senza perdita
FONDAMENTI DI INFORMATICA Prof. PIER LUCA MONTESSORO Facoltà di Ingegneria Università degli Studi di Udine Tecniche di compressione senza perdita 2000 Pier Luca Montessoro (si veda la nota di copyright
DettagliLa codifica binaria. Informatica B. Daniele Loiacono
La codifica binaria Informatica B Introduzione Il calcolatore usa internamente una codifica binaria ( e ) per rappresentare: i dati da elaborare le istruzioni dei programmi eseguibili Fondamenti di codifica
DettagliApprendimento Automatico (Feature Selection e Kernel Learning)
Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli
Dettagliinformatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia ottava lezione: la dinamica del testo vito
DettagliArray e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1 Dispensa 12 Array e Oggetti A. Miola Dicembre 2006 http://www.dia.uniroma3.it/~java/fondinf1/ Array e Oggetti 1 Contenuti Array paralleli
Dettaglimodificato da andynaz Cambiamenti di base Tecniche Informatiche di Base
Cambiamenti di base Tecniche Informatiche di Base TIB 1 Il sistema posizionale decimale L idea del sistema posizionale: ogni cifra ha un peso Esempio: 132 = 100 + 30 + 2 = 1 10 2 + 3 10 1 + 2 10 0 Un numero
DettagliLinguistica Computazionale: esercitazioni
Esercitazione 1 Felice Dell'Orletta ItaliaNLP Lab (www.italianlp.it) presso Istituto di Linguistica Computazionale A. Zampolli CNR felice.dellorletta@ilc.cnr.it 24 settembre 2014 Linguistica Computazionale:
DettagliSomma di numeri binari
Fondamenti di Informatica: Codifica Binaria dell Informazione 1 Somma di numeri binari 0 + 0 = 0 0 + 1 = 1 1 + 0 = 1 1 + 1 = 10 Esempio: 10011011 + 00101011 = 11000110 in base e una base Fondamenti di
DettagliLa codifica binaria. Fondamenti di Informatica. Daniele Loiacono
La codifica binaria Fondamenti di Informatica Introduzione q Il calcolatore usa internamente una codifica binaria (0 e 1) per rappresentare: i dati da elaborare (numeri, testi, immagini, suoni, ) le istruzioni
DettagliI set di caratteri WWW. Fabio Vitali 5 novembre 1999
I set di caratteri Fabio Vitali 5 novembre 1999 Introduzione Qui esaminiamo in breve: Il problema della codifica dei caratteri ASCII (7 bit ed esteso) ISO/IEC 10646 e UNICODE UCS e UTF 2 I set di caratteri
DettagliCartografie tematiche: principi e modalità di realizzazione. Mauro Giovanni Univ. di Trieste
Cartografie tematiche: principi e modalità di realizzazione Mauro Giovanni Univ. di Trieste Analisi GIS Mappare dove sono le cose Mappare cosa c è dentro Mappare il minimo e il massimo GIS Mappare le cose
DettagliRegole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27 Introduzione Le regole associative si collocano tra i metodi di apprendimento non supervisionato e sono volte
DettagliTeoria dell Informazione
Corso di Laurea Magistrale in Scienze dell Informazione Editoriale, Pubblica e Sociale Teoria dell Informazione Cosa è l informazione L informazione è qualcosa che si possiede e si può dare ad un altro
DettagliClassificazione Object-Oriented
Classificazione Object-Oriented Cos è una classificazione? La classificazione è un operazione con cui a partire da dati telerilevati vengono prodotte delle mappe tematiche dove ogni pixel viene assegnato
DettagliElementi lessicali. Lezione 4. La parole chiave. Elementi lessicali. Elementi lessicali e espressioni logiche. Linguaggi di Programmazione I
Lezione 4 Elementi lessicali e espressioni logiche Matricole 2-3 Elementi lessicali il linguaggio C ha un suo vocabolario di base i cui elementi sono detti token esistono 6 tipi di token: parole chiave
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliDESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.
Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi
DettagliLa codifica binaria. Informatica B. Daniele Loiacono
La codifica binaria Informatica B Introduzione Il calcolatore usa internamente una codifica binaria (0 e 1) per rappresentare: i dati da elaborare (numeri, testi, immagini, suoni, ) le istruzioni dei programmi
DettagliBasi di Dati e Sistemi Informativi su Web
Basi di Dati e Sistemi Informativi su Web Corso di Laurea Specialistica in Ingegneria Informatica Massimo Ruffolo E-mail: ruffolo@icar.cnr.it Web: http://www.icar.cnr.it/ruffolo Istituto di CAlcolo e Reti
DettagliDescrizione delle operazioni di calcolo. Espressioni costanti semplici
Descrizione delle operazioni di calcolo Come abbiamo detto l interprete è in grado di generare nuovi valori a partire da valori precedentemente acquisiti o generati. Il linguaggio di programmazione permette
DettagliReperimento dell'informazione
Reperimento dell'informazione Strumenti per il reperimento Indicizzazione e recupero Modelli di reperimento Motori di ricerca FdI 2013/2014 GMDN 2014 1 Reperimento dell'informazione FdI 2013/2014 GMDN
DettagliLinguistica Computazionale
Linguistica Computazionale La codifica di alto livello del testo Salvatore Sorce Dipartimento di Ingegneria Chimica, Gestionale, Informatica e Meccanica Lucidi Adattati da Alessandro Lenci Dipartimento
DettagliAlgoritmi Istruzioni che operano su dati. Per scrivere un programma è necessario. che l esecutore automatico sia in grado di.
Codifica di Dati e Istruzioni Fondamenti di Informatica Codifica dell Informazione Prof. Francesco Lo Presti Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare
DettagliQUANTIZZAZIONE Conversione analogico/digitale
QUANTIZZAZIONE Conversione analogico/digitale 1 QUANTIZZAZIONE Campionamento e uantizzazione Campione del segnale Segnale originale (continuo nel tempo e nelle ampiezze) QUANTIZZAZIONE Conversione analogico/digitale
DettagliFondamenti di Informatica - 1. Prof. B.Buttarazzi A.A. 2011/2012
Fondamenti di Informatica - 1 Prof. B.Buttarazzi A.A. 2011/2012 Sommario I sistemi di numerazione Il sistema binario Altri sistemi di numerazione Algoritmi di conversione Esercizi 07/03/2012 2 Sistemi
DettagliMS Access: Tutorial Tabelle, Relazioni
Università Magna Graecia di Catanzaro Informatica MS Access: Tutorial Tabelle, Relazioni Docente : Alfredo Cuzzocrea e-mail : cuzzocrea@si.deis.unical.it Tel. : 0984 831730 Microsoft Access Tutorial Tabelle,
DettagliListe di autorità per l indicizzazione e la conservazione digitale dell archivio del CNUCE e della CGI
XXVI Convegno Internazionale Ass.I.Term Terminologia e organizzazione della conoscenza nella conservazione della memoria digitale Liste di autorità per l indicizzazione e la conservazione digitale dell
Dettagli3. Indicare cosa sta a significare la figura geometrica del rombo in un diagramma a blocchi
0.1.1.1 Definire un algoritmo 1. Con il termine algoritmo si intende: a) il software utilizzato in un calcolatore b) l elenco finito di istruzioni necessario per risolvere un problema c) un elaboratore
Dettagli