Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it



Documenti analoghi
PROGRAMMA SVOLTO NELLA SESSIONE N.

Corso di. Dott.ssa Donatella Cocca

Analisi statistica di dati testuali: il software SPAD

MS Word per la TESI. Barra degli strumenti. Rientri. Formattare un paragrafo. Cos è? Barra degli strumenti

Modulo 3 - Elaborazione Testi 3.5 Stampa unione

LABORATORIO DI INFORMATICA

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Algoritmi e strutture dati. Codici di Huffman

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

PULSANTI E PAGINE Sommario PULSANTI E PAGINE...1

Prof.ssa Paola Vicard

Modello di Controllo dell Accesso basato sui ruoli (RBAC)

DIPLOMA DI STATISTICA

Pro e contro delle RNA

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

Analisi della performance temporale della rete

Plate Locator Riconoscimento Automatico di Targhe

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

COLLI. Gestione dei Colli di Spedizione. Release 5.20 Manuale Operativo

Sebina OpenLibrary OPAC

Il seguente esempio ha lo scopo di illustrare i 3 tipi di relazione 1:1,1:N,N:N. Tabella Conto: Tabella Conto:

S i s t e m a d i v a l u t a z i o n e d e l l e p r e s t a z i o n i d e i d i p e n d e n t i

MATLAB. Caratteristiche. Dati. Esempio di programma MATLAB. a = [1 2 3; 4 5 6; 7 8 9]; b = [1 2 3] ; c = a*b; c

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

la forma: caratteri web writing slides fernando cova FORMA SCR p. 1

Linguaggi per COMUNICARE. Il linguaggio è un sistema codificato di segni che consente la comunicazione, intesa come scambio di informazioni

Modulo: Fogli elettronici

Appunti sulla Macchina di Turing. Macchina di Turing

Identificare le diverse parti di una finestra: barra del titolo, barra dei menu, barra degli strumenti, barra di stato, barra di scorrimento.

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Indice Statistiche Univariate Statistiche Bivariate

Definire all'interno del codice un vettore di interi di dimensione DIM, es. int array[] = {1, 5, 2, 4, 8, 1, 1, 9, 11, 4, 12};

Macchine a stati finiti. Sommario. Sommario. M. Favalli. 5th June 2007

Database. Si ringrazia Marco Bertini per le slides

SINTETICO COLLETTIVO E INDIVIDUALE

LUdeS Informatica 2 EXCEL. Seconda parte AA 2013/2014

Linguaggi e Paradigmi di Programmazione

Indice dei contenuti

PROCESSO DI INDICIZZAZIONE SEMANTICA

E possibile modificare la lingua dei testi dell interfaccia utente, se in inglese o in italiano, dal menu [Tools

Fogli Elettronici: MS Excel

Controllo di Gestione - Guida Operativa

Il controllo della visualizzazione

ECDL - Database. European Computer Driving Licence - Modulo 5 - Database LEZIONE 2

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel

Modulo 1: Motori di ricerca

Macchine a stati finiti. Sommario. Sommario. M. Favalli. Le macchine a stati si utilizzano per modellare di sistemi fisici caratterizzabili mediante:

Patente Europea di Informatica ECDL Modulo 4. Lezione 3: Grafici Impostazione e verifica del foglio Opzioni di stampa. Anno 2011/2012 Syllabus 5.

Problemi, Algoritmi e Programmi

Corso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A Class Discovery E.

LE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE

4 3 4 = 4 x x x 10 0 aaa

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

NAVIGAORA HOTSPOT. Manuale utente per la configurazione

Guida alla costruzione di tavole con i database

Introduzione al Foglio Elettronico

Il calcolatore - Applicazioni

LA RICLASSIFICAZIONE DEI SALDI CONTABILI CON MICROSOFT ACCESS 2007

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

Linguistica Computazionale. Tokenizzazione

STATISTICA IX lezione

Aprire, preparare un documento da utilizzare come documento principale per una stampa unione.

Mon Ami 3000 Ratei e Risconti Calcolo automatico di ratei e risconti

Guida Compilazione Piani di Studio on-line

Cosa è un foglio elettronico

Settaggio impostazioni tema. Cliccando nuovamente su aspetto e poi su personalizza si avrà modo di configurare la struttura dinamica della template.

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

Prof.ssa Paola Vicard

Informatica Industriale Modello funzionale Casi d uso

LA MISURAZIONE DEL CARATTERE

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Gestione dei segnali analogici nei sistemi di automazione industriale con PLC.

DETERMINAZIONE DI V S30 ReMi software

Il concetto di valore medio in generale

Grandezze fisiche e loro misura

STAMPA DI UNA PAGINA SEMPLICE

LA RICLASSIFICAZIONE DI BILANCIO CON MICROSOFT ACCESS

Sistemi informativi secondo prospettive combinate

Slide Cerbara parte1 5. Le distribuzioni teoriche

Correttezza. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 10. A. Miola Novembre 2007

CONTENT MANAGEMENT SY STEM

Automazione Industriale (scheduling+mms) scheduling+mms.

Capitolo 3 Guida operativa del programma TQ Sistema

USO DI EXCEL CLASSE PRIMAI

L analisi dei dati. Capitolo Il foglio elettronico

LE FINESTRE E L ISOLAMENTO ACUSTICO

Modellazione di sistema

Capitolo 2 Distribuzioni di frequenza

Manuale Utente. Data : 01/02/2011 Versione : 1.0

SCUOLA PRIMARIA GEOGRAFIA. Competenza: 1. Comunicazione efficace Indicatore: 1.1 Comprensione

Aggiornamento Titoli

Configurazione della ricerca desktop di Nepomuk. Sebastian Trüg Anne-Marie Mahfouf Traduzione della documentazione in italiano: Federico Zenith

Didattica per competenze in ambito matematico. Semplificando possiamo schematizzare in due i modi di vedere la matematica: per il matematico

FAQ DOMANDE PIU FREQUENTI

Versioni di Excel a confronto

Fondamenti di Informatica Laurea in Ingegneria Civile e Ingegneria per l Ambiente e il Territorio

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011

Transcript:

Università Ca Foscari di Venezia Linguistica Informatica Mod. 1 Anno Accademico 2010-2011 Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it

Schema Input Text Teoria informazione Espressioni Regolari Classificazione Statistica Probabilità Information Visualization Numeri 0 1 Parole Token Valori Tabelle Formule Risultati Diagrammi Codifica livello zero Tokenizzazione Modellazione Elaborazione Visualizzazione Esplorazione

Data visualization 1 Le visualizzazioni servono ad offrire informazioni in formato grafico Comunicare idee complesse con chiarezza precisione e efficienza Trasformando aspetti quantitativi delle variabili e dei risultati in figure. Peirce classifica i diagrammi come icone e li definisce come segni che riproducono le relazioni tra le parti. Le icone sono segni che si caratterizzano per il tipo di legame presunto con il referente, come insieme alle immagini (segni che sono simili all'oggetto per alcuni caratteri) e alle metafore (segni per i quali viene generato un parallelismo più generico con i loro oggetti)

Data visualization 2 Acquisire: fonti Preparare: tabelle e valori Filtrare: separare i dati Processare: analisi (statistica) Rappresentare: scegliere la forma Raffinare: dare risalto ai risultati Interazione: fornire strumenti di interazione

Tipi di visualizzazioni 1 Scatter unidimensionale Utile se il carattere è continuo e il numero di osservazioni non è molto elevato altrimenti si deve ricorrere a strumenti come lo zoom o il filtraggio {40; 36; 52; 36; 60; 55; 56; 40; 40; 40}

Tipi di visualizzazioni 2 Areogramma è un tipo di rappresentazione grafica in cui le diverse percentuali dei risultati di un'indagine statistica sono visualizzate da aree proporzionali Grafico a bolle Simile allo scatter

Tipi di visualizzazioni 3 Diagrammi a barre Metodo di visualizzazione in cui le frequenze sono disposte su un asse e le categorie su l'altro

Tipi di visualizzazione 4 Hyperbolic tree Utile per rappresentare rapporti gerarchici e le relazioni tra i costituenti del concetto rappresentato

Infografica I diagrammi acquisiscono una forma prettamente narrativa

Esplorare il testo Rappresentare l informazione linguistica nei testi Osservare il comportamento delle espressioni nei loro contesti d uso Dimensione lineare del testo successione delle forme (x1,x2,..,xn) Dimensione verticale del testo: informazioni ricavate dalla struttura linguistica (etichette sintattiche, tematiche, semantiche, ecc.). Classificazione delle forme lessicali concrete in categorie astratte. (x1 = p, q, r) L annotazione consente di esplorare e analizzare quantitativamente il testo

Metodi di esplorazione Quantitativi Calcolare la rilevanza di un fenomeno in base alla probabilità con cui compare in un testo (indici di associazione) Qualitativi Individuare elementi che descrivano un particolare uso, ricorrendo al contesto (concordanze) Separare le informazioni dal rumore

Esplorazione quantitativa Indici di associazione Elenco dei termini associati ad una determinata parola e tracciamento del numero di volte che l'associazione viene ripetuta.

Esplorazione qualitativa 1 Concordanze Lista delle occorrenze di una parola. Ogni entrata della lista presenta il contesto in cui la parola compare nel testo Utilità Si evidenzia come vengono usati gli elementi testuali Indicano come sono legate determinate parole chiave Individuazione degli omografi aventi sensi diversi Tracciano la caratterizzazione di un personaggio

Esplorazione qualitativa 2 Key Word In Context Viene ricercata una parola chiave Si ottengono tante righe quante sono le occorrenze della parola chiave. La parola chiave è accompagnata dal suo contesto di destra e sinistra

Esplorazione qualitativa 3 È possibile determinare la lunghezza del contesto che si vuole visualizzare sia con numero un numero fisso di tokens che con un delimitatore Inverted index: elenco delle parole con associata la frequenza e la posizione nel testo (riga). Ordine di presentazione: segue in genere l ordine di apparizione nel testo ma può essere previsto presentare in base all ordine alfabetico dei contesti. Sortare: ordinare alfabeticamente un indice rovesciando le parole (rimario)

Esplorazione qualitativa 4 Programmi di concordanze scaricabili Concordance TACT WordSmith Monoconc Un programma per le concordanze può essere facilmente scritto con Perl e le espressioni regolari Tutti i corpus moderni sono dotati di un software che ne consente l esplorazione tramite concordanze

Collocazioni Definizione Co-occorrenza privilegiata, associazione abituale di una parola con un'altra all'interno di una frase. Possono essere generate linguaggi settoriali Sistema operativo Possono essere generate da espressioni idiomatiche Tagliare la corda Costruzioni a verbo supporto Dare manforte, prendere posto Sono escluse le combinazioni lessicali che sfruttano semplicemente le regole combinatorie morfo sintattiche

Proprietà delle collocazioni Elevata convenzionale termini tecnici, uso abituale Ridotta composizionalità semantica Il significato generale non è dedotto componendo i significati dei costituenti Forte rigidità strutturale (strutture pre-confezionate) Possono ricorrere tramite costruzioni specifiche A notte fonda A notte profonda Le parole si selezionano a vicenda e funzionano come una parola unica

Misurare le collocazioni 1 Problema Vaghezza della nozione di collocazione Soluzione Trasformare la nozione in un indice misurabile. Affinché si possa valutare la forza di un legame Se due o più parole in un testo ricorrono insieme è presumibile che si ripetano in maniera statisticamente rilevante Misure Frequenza assoluta di bigrammi, trigrammi, ecc di un testo Calcolando solo la frequenza assoluta si trascurano le volte in cui le parole compaiono da sole o accompagnate da altre parole

Misurare le collocazioni 2 Escludere le collocazioni formate da semplici regole combinatorie Es: un determinante ricorre molte più volte nel testo rispetto alle volte che ricorre accoppiato ad una determinata parola Mutua informazione (MI) Confrontare la probabilità di incontrare un bigramma, con le probabilità dei suoi costituenti considerati come mutuamente indipendenti MI (v 1, v 2 ) = log [p(v 1, v 2 ) / p(v 1 ) * p(v 2 )] p(v 1, v 2 ): si calcola il rapporto tra la frequenza assoluta del bigramma e il numero di bigrammi tipo nel corpus

Misurare le collocazioni 3 Problema La Mutua Informazione è estremamente sensibile agli eventi rari. I bigrammi formati da apax avranno un MI molto alta. Questo perché la MI provilegia i casi isolati di collocazione e così facendo riesce ad eliminare le false collocazioni ma diventa sproporzionata nei casi isolati. Soluzione (parziale) Stabilire una soglia di frequenza al di sotto della quale le collocazioni non vengono calcolate. Questa soluzione però riduce la quatità di collocazioni individuali

Bigrammi astratti Estendere il concetto di collocazione a gruppi formati da più di due unità Ricorrendo alla struttura sintattica Es: Verbo + Frase nominale Dare un contributo Dare un importante contributo Dare un significativo contributo

Libri consigliati Learn Prolog Now On - Line Visualizing Data Ben Fry (BAS) Learning Processing Daniel Shiffman Link