Indicizzazione di documenti testuali
|
|
- Massimiliano Danieli
- 8 anni fa
- Visualizzazioni
Transcript
1 Indicizzazione di documenti testuali
2 Generazione di un archivio di Documenti Testuali E eseguita off-line necessaria per accelerare il reperimento dei documenti E un processo che esegue le seguenti attività: Localizzazione : inserimento dei documenti nella collezione manuale, semiautomatica, automatica Decodifica Formato: Riduzione del documento a stringhe Indicizzazione : Produce una sintesi del contenuto informativo dei documenti Generazione di struttura dati opportuna : Memorizza in una struttura dati gli indici e i riferimenti ai documenti
3 Come rappresentare i documenti? Tipicamente l indicizzazione genera un insieme di termini indice (possibilmente pesati) come elementi base della rappresentazione formale di un documento (o di una query). Nell IR testuale gli indici possono essere: 1. parole automaticamente estratte dal documento; 2. radici di parole (per esempio class-) automaticamente estratte dal documento. Questa opzione è la più frequente; 3. frasi (ad esempio classificazione di processi industriali ) automaticamente estratte dal documento. Questo tipo di indici non hanno dato risultati migliori di 1 e 2; 4. parole (o frasi) estratte da un vocabolario controllato; 5. (in modo addizionale) metadati (ad esempio titolo, autori, data di creazione ecc. )
4 Indicizzazione automatica di documenti testuali L indicizzazione automatica (automatic indexing) di un documento testuale è il processo che esamina automaticamente gli oggetti informativi che compongono il documento e, utilizzando degli algoritmi appositi, produce una lista di termini indice (index terms). Questa lista può essere utilizzata per una rappresentazione più compatta del contenuto informativo del documento di partenza. Tipicamente: indicizzazione full-text. I termini indice sono utilizzati come surrogati per la rappresentazione del documento originale e, quindi, possono essere utilizzati al suo posto durante la fase di recupero. L uso degli indici semplifica e accelera il recupero (esempio: indice analitico di un libro).
5 Schema del processo di indicizzazione automatica di documenti testuali INPUT OUTPUT Documenti testuali originali Documenti in formato digitale Indicizzazione automatica Termini indice MODULO DI INDICIZZAZIONE Documenti in formato digitale
6 Indicizzazione: output Matrice sparsa! (presenza di molti 0 in ogni colonna) I pesi w possono essere binari o valori reali o interi positivi: sono calcolati in fase di indicizzazione
7 Indicizzazione: esaustività e specificità Finalità: Rappresentare il contenuto semantico di un documento con due obbiettivi: esaustività: assegnare un grande numero di termini indice specificità : termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi è rilevante Modalità: estrazione diretta dal documento intero (full text) o mediante l utilizzo di fonti esterne (es: dizionari controllati) Tecniche associative (tesauri, pseudo-tesauri, clustering)
8 Linguaggio di indicizzazione E il linguaggio usato per descrivere i documenti e le query è definito su un insieme di simboli (Vocabolario) Termini indice sottoinsiemi di parole selezionate per rappresentare i contenuti del documento Derivate dal testo o associate indipendentemente Analisi statistica dei documenti basata sulla frequenza delle occorrenze dei termini nel testo dei documenti Pro - automatizzata, efficiente Contro - potenzialmente inaccurata Ricerca basata su parole chiave liberamente specificate dall utente Ricerca basata su un vocabolario controllato
9 Considerazioni sulla frequenza dei termini Termini funzionali es., "and", "or", "of", "but", la frequenza di questi termini è alta in tutti i documenti Termini indicatori del contenuto parole che identificano i contenuti del documento hanno frequenza variabile nei documento della collezione la loro frequenza è indicativa dell importanza del termine nel rappresentare il contenuto del documento
10 Frequenza dei termini in relazione a Richiamo e Precisione favoriscono il richiamo: i termini ad alta frequenza Tecniche associative di espansione degli indici (tesauri, clustering) la precisione alta è data dalla capacità dell indicizzazione di distinguere i contenuti dei documenti i termini con frequenza elevata servono a favorire la precisione quando la loro frequenza non è alta in tutti i documenti della collezione.
11 Fasi del Processo di Indicizzazione Documenti Analisi Lessicale Eliminazione Stopwords stemming Le fasi del processo di indicizzazione automatica che devono essere attuate in sequenza: 1. Analisi lessicale e selezione delle parole 2. Rimozione delle parole molto comuni o stop-words 3. Riduzione delle parole originali alle rispettive radici semantiche 4. Eventuale pesatura degli elementi dell indice (significatività) 5. Creazione dell indice I sistemi commerciali per il recupero delle informazioni non implementano necessariamente tutte queste funzionalità. Termini indice
12 Analisi lessicale e selezione delle parole E il processo di trasformazione di un flusso di caratteri di input (il testo originario del documento) in un flusso di parole (o tokens ), ovvero in una sequenza di caratteri portatore di uno specifico significato. Nel testo le parole possono essere facilmente identificate grazie alla presenza di spazi, a capo, segni di interruzione, ecc
13 Collezione di documenti: un esempio ID documento Contenuto testuale del documento D 1 Università degli Studi di Bologna. Facoltà di Lettere e Filosofia Corso di laurea in SCIENZE della COMUNICAZIONE D 2 D 3 Libera Università di Lingue Comunicazione IULM; Facoltà di SCIENZE della COMUNICAZIONE e dello Spettacolo Corso di laurea in SCIENZE della COMUNICAZIONE Università degli Studi di Padova Facoltà di Lettere e Filosofia: Corso di laurea: SCIENZE della COMUNICAZIONE
14 Collezione di documenti: un esempio Es: Parole estratte dai documenti (spazi ; :.) D 1 : università degli studi di bologna facoltà di lettere e filosofia corso di laurea in scienze della comunicazione D 2 : libera università di lingue e comunicazione iulm facoltà di scienze della comunicazione e dello spettacolo corso di laurea in scienze della comunicazione D 3 : università degli studi di padova facoltà di lettere e filosofia corso di laurea scienze della comunicazione
15 Riconoscimento di parole (token) Es: Parole estratte dai documenti (spazi ; :. ) Scelte euristiche: aren t aren t, arent,? O Neill Oneill, O Neill? coeditor coeditor, co editor? Hewlett-Packard HewlettPackard, Hewlett Packard? lower case = lowercase? Particolari sequenze: address: carlo@tin.it URL: Progr. Languages: C++, FORTRAN 90 IP addresses: nomi composti: Volo Los Angeles-San Francisco Volo Los AngelesSan Francisco? - co-editor coeditor NB: si usa lo stesso criterio anche per le query Dipende dalla lingua ad esempio in cinese le parole non sono separate da blank segmentazione di parole mediante uso di vocabolario
16 NORMALIZZAZIONE Conversione in lettere minuscole eliminazione simboli diacritici Normalizzazione date Normalizzazione nomi : Usa usa naïve naive March 1 st /01/07 Bejing peking
17 Rimozione delle Stopword Le parole molto frequenti nell insieme di tutti i documenti portano poca informazione sul contenuto dei singoli documenti. Ad es: computer in una collezione di informatica Tali parole, stop-word, possono essere eliminate dalla lista dei token. Metodi: 1.Analisi statistica frequenza dei termini nella collezione e eliminazione dei termini con basso potere discriminante 2.Termini funzionali (articoli, preposizioni, verbi ausiliari) sono Parole molto frequenti nella lingua in cui sono scritti i documenti 3.note a priori indipendentemente dalla collezione e raccolte in una tabella (stop list per l inglese termini) Ad es: been", a", about", otherwise, the L eliminazione delle stopword permette una riduzione tra il 30% e il 50% dei token Può diminuire la recall es: to be or not to be let it be vengono eliminate NB: La maggior parte dei WEB search engine non identificano le stopword
18 Rimozione delle Stopwords Per la lingua inglese è stata messa a punto una lista di circa 250 parole che sono considerate stop- word. stop- word dell esempio : DEGLI DI E IN DELLA DELLO Parole dell esempio che vengono considerate dopo l eliminazione delle stop-words D 1 : università studi bologna facoltà lettere filosofia corso laurea scienze Comunicazione D 2 : libera università lingue comunicazione iulm facoltà scienze comunicazione spettacolo corso laurea scienze comunicazione D 3 : università studi padova facoltà lettere filosofia corso laurea scienze comunicazione
19 Stemming: Riduzione delle parole alle rispettive radici semantiche L efficacia del retrieval aumenta se la query è espansa con i termini che hanno lo stesso significato di quelli contenuti in essa. Gli algoritmi di Stemming sono procedure di conflation (fusione) che riducono tutte le parole con stessa radice a una singola radice In molte lingue, parole che iniziano allo stesso modo (o che hanno delle sequenze di caratteri in comune) possono avere la stessa origine etimologica. Tali parole hanno un contenuto informativo molto simile. Generalmente rimuovono la parte finale delle parole riducendo tutte le parole affini ad un unica radice (in inglese stem). Es computer, computational, computing e computed comput Is are being am be paint painting painted painter paint Colour colours color different difference differ Computers are painted different colours comput be paint differ color Altri approcci sono basati sulla lemmatizzazione mediante sull uso di dizionari
20 Relazioni tra i termini indice Indicizzazione basata su termini singoli i termini singoli sono spesso ambigui. molti termini singoli sono o troppo specifici o troppo generici. Individuazione di indici composti esperti indicizzatori analisi linguistica (NLP) metodi di espansione dei termini mediante tesauri o clustering dei termini
21 Uso di tesauri per la risoluzione di sinonimia Un tesauro può essere: tematico; in questo caso è una mappa del lessico specifico di un certo dominio della conoscenza in un dato linguaggio; questo è il caso più frequente; generale; in questo caso è una mappa di un intero linguaggio. Per applicazioni di IR, sono stati sviluppati vari tipi di tesauro, tra cui tesauri gerarchici, tesauri clustered, e tesauri associativi.
22 Tesauri Gerachici Elenco classificato dei termini usati in un dato dominio della conoscenza RELAZIONI: sinonimia (RT) Related Term quasi-sinonimia: (UF) Use For Ex UF(hg, mercury (metal)), UF(planet Mercury,mercury (planet)). RELAZIONI DI GERARCHIA generalizzazione (BT) Broader Term specializzazione (NT) Narrower Term I tesauri gerarchici sono stati oggetto di standardizzazioni ISO e ANSI e sono quasi sempre tematici.
23 Clustered tesauri Un tesauro clustered è un grafo di gruppi (o cluster, o synset) di parole. Tra due gruppi collegati da un ramo esiste una correlazione semantica (tipicamente generica, cioè non tipizzata); ogni gruppo e un insieme di parole tra cui esiste una forte correlazione semantica (quasi-sinonimia). In WordNet, il più conosciuto tesauro «clustered» (costruito manualmente), la quasi-sinonimia è l unione di un insieme di relazioni: sinonimia ( stesso nome ; per esempio usa/utilizza); antonimia ( nome opposto ; per esempio pesante/leggero); iponimia ( sotto-nome ; per esempio elefante/animale); meronimia ( parte-nome ; e.g. orecchio/testa); troponimia ( maniera-nome ; e.g. correre/camminare); entailment, anche conosciuto come presupposizione (e.g. divorzio/sposare). I tesauri clustered possono essere generati automaticamente, ma solo nel caso in cui non è fatta alcuna distinzione tra i tipi differenti di relazioni semantiche;
24 Tesauri associativi Vantaggi: Possono essere costruiti in modo completamente automatico, a partire da una collezione di documenti. In questo caso la relazione semantica tra ti e tj rispecchia le caratteristiche della collezione, ed è basata sulla relazione di cooccorrenza (o co-assenza) tra ti e tj. Costruzione di un tesauro associativo : 1. Generazione di una matrice di similarità tra termini sij, usando una funzione appropriata; 2. Applicazione di una soglia z a questa matrice, in modo tale che sij è posto a 0 quando sij z; Il passo critico è ovviamente il Passo 1, per realizzare il quale sono state definite varie tecniche.
25 Analisi statistica dei testi: aumento della precisione Non tutte le parole di un documento lo descrivono con la stessa precisione. I termini indice possono essere assegnati ai documenti della collezione con un dato peso. Associando ai termini un peso si intende tenere conto della significatività (importanza) del termine nel documento. La funzione di pesatura tiene conto della frequenza del termine nel documento e nella collezione. Quando il peso è binario, ai termini viene assegnato: un peso = 1 se presenti in un documento e un peso = 0 se assenti; non si tiene conto della frequenza effettiva del termine nel documento, ma solo della sua eventuale presenza.
26 Indicizzazione con pesatura binaria documenti parole D 1 D 2 D 3 bologna comunicazione corso facoltà filosofia iulm laurea lettere libera lingue padova scienze spettacolo studi università 1 1 1
27 Indice con pesatura in base alla frequenza documenti parole D 1 D 2 D 3 bologna comunicazione corso facoltà filosofia iulm laurea lettere libera lingue padova scienze spettacolo studi università 1 1 1
28 Distribuzione della frequenza in Per ogni parola w funzione del rank f(w) è la frequenza con cui w compare nella collezione r(w) è l indice rank (posizione) di w nella lista ordinata in funzione decrescente di frequenza, es, la parola che appare più comunemente ha un indice di rank uguale a 1 f w ha un rank r e e frequenza f 6 r
29 Legge di Zipf 8 Se le parole w, in una collezione vengono ordinate r(w), in ordine decrescente di frequenza f(w), soddisfano la seguente relazione: r(w) * f(w) = c Collezioni differenti hanno costanti c diverse. Nei testi in lingua inglese, c tende a circa n / 10, ove n è il numero di parole nella collezione. vedi Zipf, G. K., Human Behaviour and the Principle of Least Effort. Adison-Wesley, 1949
30 Analisi di Luhn Potere discriminante delle parole significative (curva di Zipf): capacità delle parole di discriminare il contenuto dei documenti è massima nella posizione intermedia tra i due livelli di cut-off
31 Criteri di indicizzazione basati sull analisi di Luhn Pesatura dei Termini indice: le parole più frequenti assumono un peso di significatività più basso Stop list: Le parole più frequenti vengono eliminate dagli indici (cut-off superiore) Parole significative: Le parle più frequenti e meno frequenti vengono eliminate dagli indici (cut-off superiore e inferiore) 10
32 Significatività dei termini indice E una funzione composta da due fattori: w td = f td * Discr-value t f td frequenza del termine t in d è in relazione alla esaustività, fattore di recall Discr-value t è in relazione alla specificità, fattore di precisione
33 Inverse Document Frequency Inverse Document Frequency (IDF) del termine t j idf j = log N df j ove df j (frequenza del termine t j nei documenti) è il numero di documenti in cui t j appare e N il numero di documenti nella collezione Favorisce la precisione è alta se il termine appare in pochi documenti della collezione
34 Significatività dei termini indice Il peso w td del termine t in un documento d w td = tf td log N df t Dopo aver eliminato le parole funzionali si calcola w td per ogni termine t in ogni documento d Si assegnano ai documenti della collezione tutti i termini con valori alti di w td
35 Significatività dei termini indice normalizzazione rispetto alla lunghezza dei documenti La frequenza assoluta tf td di un termine t cresce con la lunghezza del documento d - Per questo il peso w itd del termine t in un documento d viene normalizzato wtd = tf td maxtf d N log df t maxtf d è la frequenza massima dei termini nel documento d Il primo fattore è la frequenza relativa del termine t in d
36 Conclusione: efficacia dei metodi di indicizzazione automatica Base: indicizzazione automatica basata su singoli termini Utilizzo di un tesauro tematico per raggruppare termini in un settore specifico +10% al +20% Uso di tesauri associativi (pseudo-tesauri) derivati automaticamente in una sottocollezione campione 0% al +10% Uso di frasi di termini ottenute sulla base delle cooccorrenze nei testi +5% al +10%
Introduzione all Information Retrieval
Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information
DettagliIndicizzazione terza parte e modello booleano
Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione
DettagliLibrerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video
Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile
DettagliFasi di creazione di un programma
Fasi di creazione di un programma 1. Studio Preliminare 2. Analisi del Sistema 6. Manutenzione e Test 3. Progettazione 5. Implementazione 4. Sviluppo 41 Sviluppo di programmi Per la costruzione di un programma
DettagliModulo 1: Motori di ricerca
Contenuti Architettura di Internet Principi di interconnessione e trasmissione World Wide Web Posta elettronica Motori di ricerca Antivirus Personal firewall Tecnologie delle reti di calcolatori Servizi
DettagliLa gestione del documento
Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non
DettagliAnalisi dei requisiti e casi d uso
Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................
DettagliOrganizzazione degli archivi
COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i
DettagliObiettivi dell Analisi Numerica. Avviso. Risoluzione numerica di un modello. Analisi Numerica e Calcolo Scientifico
M. Annunziato, DIPMAT Università di Salerno - Queste note non sono esaustive ai fini del corso p. 3/43 M. Annunziato, DIPMAT Università di Salerno - Queste note non sono esaustive ai fini del corso p.
DettagliPROCESSO DI INDICIZZAZIONE SEMANTICA
PROCESSO DI INDICIZZAZIONE SEMANTICA INDIVIDUAZIONE DEI TEMI/CONCETTI SELEZIONE DEI TEMI/CONCETTI ESPRESSIONE DEI CONCETTI NEL LINGUAGGIO DI INDICIZZAZIONE TIPI DI INDICIZZAZIONE SOMMARIZZAZIONE INDICIZZAZIONE
DettagliStrutturazione logica dei dati: i file
Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer
DettagliDatabase. Si ringrazia Marco Bertini per le slides
Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida
DettagliLinguaggi e Paradigmi di Programmazione
Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una
DettagliIl concetto di valore medio in generale
Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo
DettagliExcel. A cura di Luigi Labonia. e-mail: luigi.lab@libero.it
Excel A cura di Luigi Labonia e-mail: luigi.lab@libero.it Introduzione Un foglio elettronico è un applicazione comunemente usata per bilanci, previsioni ed altri compiti tipici del campo amministrativo
DettagliALGORITMI e PROGRAMMI Programmazione: Lavoro che si fa per costruire sequenze di istruzioni (operazioni) adatte a svolgere un dato calcolo
ALGORITMI e PROGRAMMI Programmazione: Lavoro che si fa per costruire sequenze di istruzioni (operazioni) adatte a svolgere un dato calcolo INPUT: dati iniziali INPUT: x,y,z AZIONI esempio: Somma x ed y
DettagliI Problemi e la loro Soluzione. Il Concetto Intuitivo di Calcolatore. Risoluzione di un Problema. Esempio
Il Concetto Intuitivo di Calcolatore Fondamenti di Informatica A Ingegneria Gestionale Università degli Studi di Brescia Docente: Prof. Alfonso Gerevini I Problemi e la loro Soluzione Problema: classe
DettagliSommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.
Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell
DettagliUniversità di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A. 2013-14. Pietro Frasca.
Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A. 2013-14 Pietro Frasca Lezione 11 Martedì 12-11-2013 1 Tecniche di allocazione mediante free list Generalmente,
DettagliVoloPress MediaCoverage
VoloPress MediaCoverage Presentazione tecnica del servizio 2 Agenda Cos è VoloPress MediaCoverage Come funziona Possibili applicazioni e sviluppi futuri Cos è VoloPress MediaCoverage VP MediaCoverage at
DettagliIndicizzazione. Fasi del processo di IR. Indicizzazione: due aspetti. Corpus: Costruzione delle viste logiche dei documenti: Termine indice
Fasi del processo di IR Indicizzazione Information need text input Pre-process documents Parse Query Index Rank Indicizzazione: due aspetti Costruzione delle viste logiche dei documenti: Per ogni documento
DettagliAutomazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it
Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione
DettagliLa Progettazione Concettuale
La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio
DettagliPrime sperimentazioni d'indicizzazione [semi]automatica alla BNCF
Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Maria Grazia Pepe - Elisabetta Viti (Biblioteca nazionale centrale di Firenze) 6. Incontro ISKO Italia Firenze 20 maggio 2013 SOMMARIO
DettagliGestione del workflow
Gestione del workflow Stefania Marrara Corso di Tecnologie dei Sistemi Informativi 2004/2005 Progettazione di un Sistema Informativo Analisi dei processi Per progettare un sistema informativo è necessario
DettagliControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi
ControlloCosti Cubi OLAP I cubi OLAP Un Cubo (OLAP, acronimo di On-Line Analytical Processing) è una struttura per la memorizzazione e la gestione dei dati che permette di eseguire analisi in tempi rapidi,
Dettagli1. Distribuzioni campionarie
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie
DettagliProgetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario
Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,
DettagliRAPPRESENTAZIONE GRAFICA DEGLI ALGORITMI
RAPPRESENTAZIONE GRAFICA DEGLI ALGORITMI Diagramma di flusso L algoritmo può essere rappresentato in vari modi, grafici o testuali. Uno dei metodi grafici più usati e conosciuti è il cosiddetto diagramma
DettagliVADEMECUM PER UNA STRATEGIA SEO VINCENTE
F a b r i z i o C a r u s o VADEMECUM PER UNA STRATEGIA SEO VINCENTE L esperienza maturata e i risultati raggiunti nel corso degli anni attraverso l insegnamento e la consulenza SEO mi hanno indotto a
DettagliIntroduzione alla programmazione in C
Introduzione alla programmazione in C Testi Consigliati: A. Kelley & I. Pohl C didattica e programmazione B.W. Kernighan & D. M. Ritchie Linguaggio C P. Tosoratti Introduzione all informatica Materiale
DettagliBASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone
BASI DI DATI per la gestione dell informazione Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone Libro di Testo 22 Chianese, Moscato, Picariello e Sansone BASI DI DATI per la Gestione dell
DettagliSoluzione dell esercizio del 2 Febbraio 2004
Soluzione dell esercizio del 2 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. E evidenziato un sotto caso di uso. 2. Modello concettuale Osserviamo
DettagliCorso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A. 2008-2009. Class Discovery E.
Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Class Discovery E. TINELLI Contenuti Classi di analisi: definizione ed esempi Tecniche per la definizione
DettagliMotori di ricerca. Andrea Marin
Andrea Marin Università Ca Foscari Venezia SVILUPPO INTERCULTURALE DEI SISTEMI TURISTICI SISTEMI INFORMATIVI E TECNOLOGIE WEB PER IL TURISMO - 1 a.a. 2012/2013 Section 1 Information Retrieval e Motori
DettagliL indicizzazione per soggetto
PROVINCIA DI PADOVA Assessorato alla cultura L indicizzazione per soggetto Biblioteca di Abano Terme 2009 Presentazione di Antonio Zanon, Cristiana Lighezzolo, Chiara Masut (Consorzio Biblioteche Padovane
DettagliProgettaz. e sviluppo Data Base
Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo
DettagliIndice. pagina 2 di 10
LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA
DettagliAlessandra Raffaetà. Basi di Dati
Lezione 2 S.I.T. PER LA VALUTAZIONE E GESTIONE DEL TERRITORIO Corso di Laurea Magistrale in Scienze Ambientali Alessandra Raffaetà Dipartimento di Informatica Università Ca Foscari Venezia Basi di Dati
DettagliUn po di statistica. Christian Ferrari. Laboratorio di Matematica
Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di
DettagliCercare documenti Web
Pagine web (struttura html) Cercare documenti Web Motori di Ricerca I MOTORI DI RICERCA Sulla rete Web vi sono strumenti specifici chiamati motori di ricerca (research engines) per la ricerca di siti e
DettagliALGEBRA DELLE PROPOSIZIONI
Università di Salerno Fondamenti di Informatica Corso di Laurea Ingegneria Corso B Docente: Ing. Giovanni Secondulfo Anno Accademico 2010-2011 ALGEBRA DELLE PROPOSIZIONI Fondamenti di Informatica Algebra
DettagliIstituto Comprensivo di Pralboino Curricolo Verticale
ASCOLTO E PARLATO L allievo interagisce in modo efficace in diverse situazioni comunicative, attraverso modalità dialogiche sempre rispettose delle idee degli altri. Usa la comunicazione orale per collaborare
DettagliLa Metodologia adottata nel Corso
La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema
DettagliAPPUNTI DI MATEMATICA ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1)
ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1) Un insieme è una collezione di oggetti. Il concetto di insieme è un concetto primitivo. Deve esistere un criterio chiaro, preciso, non ambiguo, inequivocabile,
Dettagli4, 5 ANNO DELLA SCUOLA PRIMARIA
ASCOLTO E PARLATO Intervenire nel dialogo e nella conversazione in modo pertinente. Interagire nello scambio comunicativo formulando domande e risposte adeguate al contesto. Esprimere il proprio punto
DettagliDIPLOMA DI STATISTICA
Università di Roma La Sapienza DIPLOMA DI STATISTICA PROGETTO CAMPUS Guida all uso dello Spad-T Applicazione Texte Luca Giuliano Alessandro Stabellini Anno 2000 DOS Sigla della locuz. ingl. Disk Operating
DettagliInterrogazione strutturata di triple RDF estratte dal linguaggio naturale
UNIVERSITA DEGLI STUDI DI CAGLIARI FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Informatica Interrogazione strutturata di triple RDF estratte dal linguaggio naturale Candidato:
DettagliInformatica. Rappresentazione binaria Per esempio +101010000 diventa +0.10101 10 18/10/2007. Introduzione ai sistemi informatici 1
Informatica Pietro Storniolo storniolo@csai.unipa.it http://www.pa.icar.cnr.it/storniolo/info200708 Numeri razionali Cifre più significative: : sono le cifre associate ai pesi maggiori per i numeri maggiori
DettagliCodifiche a lunghezza variabile
Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un
DettagliIl software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi
Il Software Il software impiegato su un computer si distingue in: Software di sistema Sistema Operativo Compilatori per produrre programmi Software applicativo Elaborazione testi Fogli elettronici Basi
DettagliLinguaggi per COMUNICARE. Il linguaggio è un sistema codificato di segni che consente la comunicazione, intesa come scambio di informazioni
Linguaggi per COMUNICARE Il linguaggio è un sistema codificato di segni che consente la comunicazione, intesa come scambio di informazioni Sintassi e semantica dei linguaggi Un informazione può : Essere
DettagliAnalizzatore lessicale o scanner
Analizzatore lessicale o scanner Lo scanner rappresenta un'interfaccia fra il programma sorgente e l'analizzatore sintattico o parser. Lo scanner, attraverso un esame carattere per carattere dell'ingresso,
DettagliPage 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo
Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi
DettagliIl database management system Access
Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio
DettagliIndice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi
Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)
DettagliCOS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA
LINGUAGGI DI ALTO LIVELLO Si basano su una macchina virtuale le cui mosse non sono quelle della macchina hardware COS È UN LINGUAGGIO? Un linguaggio è un insieme di parole e di metodi di combinazione delle
DettagliDispensa di database Access
Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di
DettagliLa distribuzione Normale. La distribuzione Normale
La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una
DettagliCorso di. Dott.ssa Donatella Cocca
Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile
DettagliCorso di Informatica
Corso di Informatica Modulo T3 1-Sottoprogrammi 1 Prerequisiti Tecnica top-down Programmazione elementare 2 1 Introduzione Lo scopo di questa Unità è utilizzare la metodologia di progettazione top-down
DettagliCOLLI. Gestione dei Colli di Spedizione. Release 5.20 Manuale Operativo
Release 5.20 Manuale Operativo COLLI Gestione dei Colli di Spedizione La funzione Gestione Colli consente di generare i colli di spedizione in cui imballare gli articoli presenti negli Ordini Clienti;
DettagliTECNICHE DI SIMULAZIONE
TECNICHE DI SIMULAZIONE INTRODUZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Introduzione alla simulazione Una simulazione è l imitazione
DettagliSistemi Informativi. Introduzione. Processi fisici. Tipologie di processi. Processi informativi. Processi aziendali
Introduzione Sistemi Informativi Linguaggi per la modellazione dei processi aziendali Paolo Maggi Per progettare un sistema informativo è necessario identificare tutti i suoi elementi
DettagliLezione 8. La macchina universale
Lezione 8 Algoritmi La macchina universale Un elaboratore o computer è una macchina digitale, elettronica, automatica capace di effettuare trasformazioni o elaborazioni su i dati digitale= l informazione
DettagliOttimizzazione delle interrogazioni (parte I)
Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di
DettagliA intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.
Algoritmi di routing dinamici (pag.89) UdA2_L5 Nelle moderne reti si usano algoritmi dinamici, che si adattano automaticamente ai cambiamenti della rete. Questi algoritmi non sono eseguiti solo all'avvio
Dettagli1. BASI DI DATI: GENERALITÀ
1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente
DettagliStrumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi
Versione 2.0 Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Corso anno 2011 E. MANUALE UTILIZZO HAZARD MAPPER Il programma Hazard Mapper è stato realizzato per redarre,
DettagliTelerilevamento e GIS Prof. Ing. Giuseppe Mussumeci
Corso di Laurea Magistrale in Ingegneria per l Ambiente e il Territorio A.A. 2014-2015 Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci Strutture di dati: DB e DBMS DATO E INFORMAZIONE Dato: insieme
DettagliLA CORRELAZIONE LINEARE
LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione
Dettagliconnessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI
Documenti su Internet LINGUAGGI DI MARKUP Internet permette (tra l altro) di accedere a documenti remoti In generale, i documenti acceduti via Internet sono multimediali, cioè che possono essere riprodotti
DettagliMODELLO RELAZIONALE. Introduzione
MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)
DettagliModellazione di sistema
Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Modellazione di sistema E. TINELLI Contenuti Approcci di analisi Linguaggi di specifica Modelli di
DettagliSISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione
SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi
DettagliDocumento di accompagnamento: mediane dei settori bibliometrici
Documento di accompagnamento: mediane dei settori bibliometrici 1. Introduzione Vengono oggi pubblicate sul sito dell ANVUR e del MIUR 3 tabelle, deliberate nel CD dell ANVUR del 13 agosto 2012, relative
DettagliUso di base delle funzioni in Microsoft Excel
Uso di base delle funzioni in Microsoft Excel Le funzioni Una funzione è un operatore che applicato a uno o più argomenti (valori, siano essi numeri con virgola, numeri interi, stringhe di caratteri) restituisce
DettagliPer capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.
DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del
DettagliRegione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da
ARPA Fonte Dati Regione Toscana Redatto da L. Folchi (TAI) Rivisto da Approvato da Versione 1.0 Data emissione 06/08/13 Stato DRAFT 1 Versione Data Descrizione 1,0 06/08/13 Versione Iniziale 2 Sommario
DettagliLINGUAGGI DI PROGRAMMAZIONE
LINGUAGGI DI PROGRAMMAZIONE Il potere espressivo di un linguaggio è caratterizzato da: quali tipi di dati consente di rappresentare (direttamente o tramite definizione dell utente) quali istruzioni di
DettagliPROGETTO EM.MA PRESIDIO
PROGETTO EM.MA PRESIDIO di PIACENZA Bentornati Il quadro di riferimento di matematica : INVALSI e TIMSS A CONFRONTO LE PROVE INVALSI Quadro di riferimento per la valutazione Quadro di riferimento per i
DettagliAllegato n. 13 Linee guida per la formazione e gestione dei fascicoli
Allegato n. 13 Linee guida per la formazione e gestione dei fascicoli Edizione 01/2014 - Rev. 01 1. La fascicolazione: descrizione e finalità. La fascicolazione è un attività strategica per la gestione
DettagliCAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI
VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita
DettagliLinguaggi di programmazione
Linguaggi di programmazione Un calcolatore basato sul modello di von Neumann permette l esecuzione di un programma, cioè di una sequenza di istruzioni descritte nel linguaggio interpretabile dal calcolatore
DettagliLogica e codifica binaria dell informazione
Politecnico di Milano Corsi di Laurea in Ingegneria Matematica e Ingegneria Fisica Dipartimento di Elettronica ed Informazione Logica e codifica binaria dell informazione Anno Accademico 2002 2003 L. Muttoni
DettagliSistemi Informativi Territoriali. Map Algebra
Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori
DettagliEXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,
EXCEL PER WINDOWS95 1.Introduzione ai fogli elettronici I fogli elettronici sono delle applicazioni che permettono di sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area
DettagliProgetto PI.20060128, passo A.1 versione del 14 febbraio 2007
Università degli Studi di Roma La Sapienza Facoltà di Ingegneria Corso di Laurea in Ingegneria Gestionale Corso di Progettazione del Software Proff. Toni Mancini e Monica Scannapieco Progetto PI.20060128,
Dettagli(Esercizi Tratti da Temi d esame degli ordinamenti precedenti)
(Esercizi Tratti da Temi d esame degli ordinamenti precedenti) Esercizio 1 L'agenzia viaggi GV - Grandi Viaggi vi commissiona l'implementazione della funzione AssegnaVolo. Tale funzione riceve due liste
DettagliManuale Knowledge Base
(Riservato a rivenditori e agenzie) Versione Luglio 2010 SOMMARIO Introduzione... 2 Accesso... 2 Menu Conoscenze... 3 Bacheca... 4 Voci di menu... 5 Ricerca... 5 Ricerca Semplice... 6 Ricerca avanzata...
DettagliCliens Gestione Studio Legale 2009.2 Modifica dei Reports
La funzione di Modica Reports consente di personalizzare le stampe (reports) di Cliens in base alle proprie esigenze. Ad esempio è possibile modificare l aspetto delle Fatture oppure delle stampe dell
DettagliAppunti del corso di Informatica 1 (IN110 Fondamenti) 4 Linguaggi di programmazione
Università Roma Tre Dipartimento di Matematica e Fisica Corso di Laurea in Matematica Appunti del corso di Informatica 1 (IN110 Fondamenti) 4 Linguaggi di programmazione Marco Liverani (liverani@mat.uniroma3.it)
DettagliFunzioni in C. Violetta Lonati
Università degli studi di Milano Dipartimento di Scienze dell Informazione Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Funzioni - in breve: Funzioni Definizione di funzioni
DettagliRICERCA DELL INFORMAZIONE
RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa
DettagliUso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database
Uso delle basi di dati Uso delle Basi di Dati Il modulo richiede che il candidato comprenda il concetto di base dati (database) e dimostri di possedere competenza nel suo utilizzo. Cosa è un database,
Dettaglicorso di Access MICROSOFT ACCESS Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012
1 MICROSOFT ACCESS 1 Docente: Andrea Mereu Università degli studi di Cagliari 16 aprile 9 maggio 2012 Che cos'è Access? 2 Access è un'applicazione database (DBMS), cioè un programma che serve a gestire
DettagliModelli descrittivi, statistica e simulazione
Modelli descrittivi, statistica e simulazione Master per Smart Logistics specialist Roberto Cordone (roberto.cordone@unimi.it) Statistica descrittiva Cernusco S.N., giovedì 21 gennaio 2016 (9.00/13.00)
DettagliINTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI
INTRODUZIONE AGLI ALGORITMI Prima di riuscire a scrivere un programma, abbiamo bisogno di conoscere un metodo risolutivo, cioè un metodo che a partire dai dati di ingresso fornisce i risultati attesi.
DettagliProgrammi e Oggetti Software
Corso di Laurea Ingegneria Civile Elementi di Informatica Programmi e Oggetti Software Settembre 2006 Programmi e Oggetti Software 1 Contenuti Cosa è un programma Cosa significa programmare Il punto di
DettagliANALISI DI RISCHIO SEMIQUANTITATIVA IN SUPPORTO ALLE VALUTAZIONI IN PRESENZA DI ATMOSFERE ESPLOSIVE (ATEX)
ANALISI DI RISCHIO SEMIQUANTITATIVA IN SUPPORTO ALLE VALUTAZIONI IN PRESENZA DI ATMOSFERE ESPLOSIVE (ATEX) T. Pezzo *, D. Vannucci *, G. Uguccioni + * D Appolonia SpA, Genova + D Appolonia SpA, San Donato
Dettagli