La Treebank sintattico-semantica dell italiano di SI-TAL: architettura, specifiche, risultati

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "La Treebank sintattico-semantica dell italiano di SI-TAL: architettura, specifiche, risultati"

Transcript

1 La Treebank sintattico-semantica dell italiano di SI-TAL: architettura, specifiche, risultati Simonetta Montemagni 1 1 Istituto di Linguistica Computazionale - CNR / Consorzio Pisa Ricerche, Pisa, Italy Abstract. L articolo descrive la Treebank sintattico-semantica dell italiano sviluppata nell ambito del progetto nazionale SI-TAL. Partendo dalla sua architettura multi-livello e dalla composizione del corpus, vengono ripercorse le motivazioni che hanno ispirato le specifiche dell annotazione sintattica e semanticolessicale e sono discussi i criteri che hanno guidato le modalità e le scelte di annotazione. L articolo si conclude con una caratterizzazione della risorsa finale che viene descritta per i suoi diversi livelli in termini sia qualitativi sia quantitativi. 1 Introduzione A livello internazionale c è stato negli ultimi anni un unanime riconoscimento da parte della comunità scientifica ed industriale del ruolo cruciale ricoperto dalle risorse linguistiche nel trattamento automatico del linguaggio. Come risposta a tale crescente esigenza, risorse linguistiche quali corpora per lo scritto e il parlato, lessici computazionali e strumenti software ad essi connessi sono stati sviluppati nell ambito di varie iniziative progettuali europee, americane ed asiatiche. In particolare, il ruolo infrastrutturale delle risorse richiede che esse vengano i) disegnate, costruite, validate con i potenziali utilizzatori (da cui la necessità di coinvolgimento delle industrie), ii) costruite riutilizzando risorse parziali disponibili (da cui la conversione di risorse esistenti), iii) messe a disposizione della intera comunità nazionale ed internazionale, iv) armonizzate con le risorse di altre lingue europee (da cui il riferimento a modelli e standard europei e internazionali); si veda in proposito Zampolli 1998a e 1998b. È in questo contesto generale che si inquadra il progetto SI-TAL (Sistema Integrato per il Trattamento Automatico del Linguaggio), finalizzato alla creazione di risorse per l italiano. SI-TAL, finanziato dal MURST nell ambito della legge 46/82 art.10 ( Infrastruttura nazionale per le risorse linguistiche nel settore del trattamento automatico della lingua naturale parlata e scritta ), è iniziato nel giugno del 1999 ed è ormai giunto alle sue battute conclusive. Sotto la direzione scientifica di Antonio Zampolli dell Istituto di Linguistica Computazionale del CNR di Pisa, per conto del Consorzio Pisa Ricerche (CPR), il progetto ha riunito le attività di alcuni tra i princi-

2 pali protagonisti della ricerca nazionale nel settore del trattamento automatico del linguaggio, con particolare attenzione rivolta verso le sue applicazioni nel settore della telematica avanzata e della tecnologia dell informazione. Uno dei prerequisiti fondamentali per lo sviluppo di applicazioni basate sul trattamento automatico del linguaggio è l utilizzo di grandi quantità di dati testuali opportunamente codificati e annotati a livello linguistico. La Treebank Sintattico Semantica dell Italiano sviluppata nell ambito di SI-TAL è appunto una risposta a tale necessità. Questo tema, infatti, si rivolge ad una esigenza prioritaria sia nel dominio applicativo sia in quello più teorico e di ricerca, ovvero la necessità di produrre e di mettere a disposizione della comunità culturale e industriale italiana risorse annotate a diversi livelli di descrizione linguistica che possano svolgere la stessa funzione rivestita per la lingua inglese dalla Penn Treebank (Marcus et al. 1993, 1994) per quanto riguarda la sintassi oppure da SEMCOR (Landes et al. 1998) per quanto concerne la semantica. Proprio l esperienza di queste ultime dimostra come corpora annotati a livello sintattico e semantico rappresentino un fattore determinante per lo sviluppo e valutazione di applicazioni basate sul trattamento automatico del linguaggio. L obiettivo della Treebank è stato la produzione di un corpus dell italiano scritto annotato ai seguenti tre livelli: struttura sintattica a costituenti - per una copertura di ca occorrenze, con l annotazione dei costituenti sintagmatici e delle loro relazioni di incassamento gerarchico; struttura sintattica a livello funzionale - per una copertura di ca occorrenze, con l annotazione delle relazioni funzioni principali (es. soggetto, oggetto diretto); semantico-lessicale - ca occorrenze di parole piene (distribuite tra nomi, verbi, aggettivi), annotate semanticamente con l assegnazione del senso rilevante (ricavato da ItalWordNet) nei loro contesti di occorrenza. Una precisazione terminologica è necessaria a questo punto. Il termine Treebank è entrato nell uso corrente per indicare un corpus testuale, cioè un insieme strutturato di testi, annotato con codici linguistici, normalmente a livello sintattico. Nel nostro caso, dato il parallelismo dell annotazione sintattica e di quella semantica, estendiamo l utilizzo del termine Treebank anche al corpus annotato con codici linguistici a livello semantico. Il corpus da annotare è stato ripartito in una parte bilanciata (costituita da diversi tipi di testi italiani, scelti in particolare per aspetti di rilevanza applicativa e industriale), e da una parte specialistica. La porzione di corpus specialistica ha anche un ruolo cruciale per la valutazione della risorsa Treebank, che è stata realizzata nell ambito di un sistema applicativo di traduzione automatica. La Treebank include anche GesTALt, un software dedicato per la creazione, validazione e gestione del corpus annotato. Il sistema è composto di quattro sottosistemi indipendenti ma cooperanti: tre sottosistemi sono dedicati all annotazione, distinta nei suoi diversi livelli, mentre un sistema è dedicato alla validazione e consultazione delle annotazioni effettuate. Java è stato scelto come linguaggio di implementazione

3 dell interfaccia per la elevata portabilità e per la realizzazione del sottosistema Treebank come architettura client-server. In particolare, GesTALt comprende un sistema di gestione di basi di dati orientato agli oggetti - necessario per garantire l efficienza e la versatilità nelle interrogazioni un modulo di importazione dei dati di input e un modulo di esportazione dei dati annotati in XML. La definizione delle specifiche per i singoli livelli di annotazione così come per le loro relazioni (illustrate nelle sezioni successive) è stata guidata dallo spettro di usi che si prospettano per una risorsa come la Treebank. Questi vanno dall ambito più propriamente applicativo, per compiti quali la disambiguazione di senso, all addestramento automatico ( training/tuning ) di sistemi per l analisi sintattica automatica e per la disambiguazione semantica dell italiano, alla valutazione di sistemi di elaborazione del linguaggio naturale. L aspetto della valutazione dei risultati di diversi sistemi e tecniche è oggi cruciale, e anche per questo è essenziale la creazione di corpora annotati da usarsi come riferimento per la valutazione ( testbed ). Inoltre, corpora testuali annotati a diversi livelli di descrizione possono essere usati per l induzione di modelli linguistici e per l acquisizione di informazione linguistica, nonché per molteplici usi didattici. La Treebank di SI-TAL è il prodotto di uno sforzo collettivo in cui competenze ed esperienze diverse sono state finalizzate e coordinate nella realizzazione di un impresa che per i suoi sforzi obiettivi non può che avere un carattere corale. In particolare, l annotazione linguistica è stata realizzata in maniera distribuita dal Consorzio Pisa Ricerche (CPR) in collaborazione con l Istituto di Linguistica Computazionale del CNR (Pisa), dall Istituto Trentino di Cultura - Istituto per la Ricerca Scientifica e Tecnologica (ITC-IRST) di Trento e dal Consorzio Venezia Ricerche (CVR) in collaborazione con l Università di Venezia; il software GesTALt è stato sviluppato dal Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni Informatiche (CERTIA) di Roma in collaborazione con l Università di Tor Vergata mentre la validazione è stata effettuata da Synthema (Pisa). Al di là di queste divisioni organizzative, è però importante sottolineare come il disegno della risorsa finale e le specifiche linguistiche siano il frutto di un lavoro collettivo e collaborativo in cui il know-how e l expertise dei vari membri del gruppo è stato messo a frutto nello sviluppo di una risorsa che intende realmente essere al servizio della comunità di ricerca ed industriale che opera nel settore della trattamento automatico del linguaggio. Le sezioni che seguono illustrano l architettura della Treebank di SI-TAL (sezione 2), la composizione e l annotazione del corpus selezionato come punto di partenza (sezione 3), le motivazioni sottostanti alle specifiche di annotazione per i livelli sintattico e semantico e i criteri che ne hanno guidato la definizione (sezione 4). Il contributo si conclude con una breve descrizione del risultato finale, la Treebank sintatticosemantica dell italiano (sezione 5). 2 Architettura della Treebank di SI-TAL La Treebank di SI-TAL ha una struttura a tre livelli che copre i livelli di descrizione linguistica sintattico e semantico. L annotazione sintattica è distribuita su due diversi

4 livelli, indipendenti ma complementari: il livello dell annotazione a costituenti (che marca i costituenti sintagmatici e le loro relazioni di incassamento gerarchico) ed il livello dell annotazione funzionale (che fornisce una descrizione della frase in termini di relazioni grammaticali del tipo soggetto, oggetto diretto). Il terzo livello riguarda l annotazione semantico-lessicale, che è realizzata nei termini di etichettatura di senso aumentata con altri tipi di informazione semantica. I tre livelli di annotazione sono indipendenti gli uni dagli altri, e fanno tutti riferimento allo stesso input, ovvero al testo annotato morfo-sintatticamente: a questo livello l annotazione include l identificazione delle parole morfologiche, con specificazione del lemma, della relativa parte del discorso e tratti morfo-sintattici associati. Il testo con etichettatura morfo-sintattica fa a sua volta riferimento ad un altro modulo di annotazione, il modulo di annotazione ortografica, che include informazione relativa alle parole ortografiche e all organizzazione macrotestuale. L architettura della Treebank di SI-TAL è schematizzata in Fig. 1: Annotazione ortografica Annotazione morfo-sintattica INPUT Annotazione sintattica Annotazione a costituenti Annotazione funzionale Annotazione semanticolessicale

5 Fig. 1. Architettura della Treebank di SI-TAL 3 Il corpus della Treebank di SI-TAL 3.1 Composizione Il corpus della Treebank di SI-TAL è suddiviso in due partizioni: 1. un corpus bilanciato, costituito da una selezione di diversi tipi di testi italiani; 2. un corpus specializzato, costituito da testi appartenenti al dominio economico-finanziario. Come punto di partenza è stato selezionato il corpus di italiano sviluppato presso L Istituto di Linguistica Computazionale (CNR, Pisa) nell ambito del progetto europeo PAROLE (LE-4017, Zampolli 1998a) il cui fine, per quanto riguarda i corpora, era quello di produrre e mettere a disposizione della comunità scientifica e industriale un insieme di corpora di riferimento per le principali lingue europee costruiti secondo specifiche comuni riguardo alla composizione, alla codifica e all annotazione linguistica. In particolare, si è partiti dalla porzione del corpus di PAROLE corredata di annotazione morfo-sintattica, costituita da circa parole. Al corpus annotato di PAROLE è stato affiancato un altro corpus di circa parole, anch esso corredato di annotazione morfo-sintattica, costruito nell ambito di un sottocontratto dato da ELSNET alla task-force Risorse Linguistiche coordinata da A. Zampolli e U. Heid e costituito da articoli tratti dal quotidiano La Repubblica selezionati come rappresentativi di soggetti vari (politica, cultura, economia, sport, ecc.); cfr Corazzari e Monachini La composizione interna del corpus della Treebank di SI-TAL è sintetizzata nella tabella che segue: Tabella 1. Composizione del corpus della Treebank di SI-TAL Partizione corpus Fonte Origine Tokens Finanziario Il Sole-24 Ore Giornata del 25/5/ Articoli di vario argomento usciti tra Bilanciato La Repubblica il 1985 e il Giornata del 15/7/ Bilanciato Il Corriere della Sera Giornata del 7/8/

6 Partizione corpus Bilanciato Fonte Origine Tokens Periodici: S Casaviva S Centocose S Epoca S Espansione S Grazia S Panorama S Starbene S Storia Illustrata S Zerouno Selezione di articoli usciti nell anno La porzione specialistica (finanziaria) del corpus della Treebank di SI-TAL è costituita dagli articoli estratti da Il Sole-24 Ore, per un totale di parole ( tokens ). La rimanente parte, per un totale di parole, costituisce il corpus bilanciato. In totale, la Treebank ha una copertura di parole. 3.2 Annotazione ortografica e morfo-sintattica Il corpus della Treebank è organizzato in articoli. Per ogni articolo, il modulo di annotazione ortografica riporta informazione relativa a: le parole ortografiche che costituiscono il testo (es. indica la presenza di caratteri maiuscoli/minuscoli all interno della stringa di caratteri); l organizzazione macrotestuale, ovvero la strutturazione del testo in unità quali titolo, sottotitolo, didascalia, corpo dell articolo, paragrafo, etc.; per maggiori dettagli si rinvia a Goggi et al Entrambi i corpora selezionati come punto di partenza della Treebank di SI-TAL erano corredati di annotazione morfo-sintattica con indicazione del lemma di appartenenza. L annotazione è stata effettuata automaticamente, mediante il Pi-Tagger (Picchi 1994). L output del Pi-Tagger è stato poi rivisto manualmente da due linguisti che hanno verificato la correttezza delle etichette e dei lemmi selezionati e, ove necessario, hanno apportato le necessarie correzioni. Il tagset usato per l annotazione morfo-sintattica è quello sviluppato presso l Istituto di Linguistica Computazionale e adottato nell ambito del progetto PAROLE con le dovute modifiche di formato di rappresentazione (Goggi et al. 1997), ed è conforme agli standard esistenti per quanto riguarda questo livello di annotazione (ovvero EAGLES, si veda Monachini e Calzolari 1996). Sul versante specifico del progetto SI-TAL, va segnalato il fatto che si tratta dello stesso schema di annotazione adottato, con le modifiche necessarie all annotazione del parlato, nell ambito del tema Dialoghi Annotati : questo costituisce un importante punto di contatto tra i due temi del progetto e crea i presupposti, negli usi futuri di SI-TAL, per la comparabilità e l integrabilità delle risorse sviluppate.

7 Al livello morfo-sintattico, l annotazione riguarda l identificazione delle parole morfologiche del testo costituente l articolo, con specificazione del lemma di appartenenza, della relativa parte del discorso e tratti morfologici e morfo-sintattici associati. In questo caso, l annotazione fa riferimento al modulo di annotazione ortografica. Nel modulo di annotazione morfo-sintattica della Treebank di SI-TAL, ogni parola morfologica è descritta dai seguenti tratti: parte del discorso ( pos ); tratti morfologici ( mfeats ), espressi tramite un codice sintetico che combina informazione di persona, numero, tempo, modo, etc; tratti morfo-sintattici ( sfeats ) del tipo verbo transitivo, nome umano, etc. volti ad integrare l informazione morfologica delle mfeats ; lemma. L annotazione a questo livello include anche il trattamento di forme morfologicamente complesse e di espressioni polilessicali di base. Nell annotazione di parole ortografiche morfologicamente complesse (ad es. forme verbali con clitico), la parola ortografica è segmentata nei suoi elementi costitutivi. Nel caso delle parole contenenti elementi clitici due o più parole morfologiche puntano alla stessa forma ortografica. Ad esempio, la forma verbale con clitico pubblicandola del livello ortografico, al livello morfologico è segmentata in due parole morfologiche i cui lemmi sono rispettivamente pubblicare e la e che fanno riferimento entrambe alla stessa unità ortografica. Nell annotazione di espressioni polilessicali, la sequenza di parole ortografiche che compongono l espressione polilessicale è annotata come un unica parola morfologica. Le espressioni polilessicali identificate a questo livello sono sempre costituite da sequenze continue di parole ed includono: espressioni con parole straniere (del tipo ad_hoc, inter_nos, prima_facie, run_time, plug_and_play); espressioni con parole italiane che mostrano una distribuzione circoscritta a contesti specifici (es. la locuzione avverbiale alla_chetichella); espressioni irregolari del tipo al_di_là, per_lo_più, alla_spicciolata, allo_scoperto, all _impazzata la cui composizione non segue le regole generali della grammatica italiana; locuzioni di vario tipo, ad esempio locuzioni preposizionali o avverbiali come in_funzione_di, fino_a, intorno_a, a_disagio, a_fatica, le cui proprietà distribuzionali e semantiche non seguono direttamente dalle parole che le compongono. Le espressioni polilessicali di questo livello sono valide per tutti i livelli di annotazione della Treebank: l annotazione sintattica e semantico-lessicale fa riferimento alle espressioni polilessicali del livello base. Quindi al di là di sarà trattata e vista come preposizione (ovvero come un unica parola morfologica il cui lemma è al_di_la _di a cui è associata l interpretazione di preposizione) dai livelli di annotazione sintattici e semantico-lessicale. Vi sono altri tipi di espressioni polilessicali, come ad esempio avere_un idea, fare_soldi, fare_esperienza, avere_familiarità così come consiglio_di_amministrazione la cui identità di espressioni polilessicali è introdotta solo al livello dell annotazione semantico-lessicale (si veda Mana et al. in questo volume).

8 4 Annotazione sintattico-semantica L annotazione sintattica e semantica ha costituito l obiettivo del progetto. La definizione delle specifiche per l annotazione sintattica e semantico-lessicale è stata guidata dallo spettro di usi che si prospettano per la Treebank di SI-TAL sia nell ambito di applicazioni di elaborazione del linguaggio naturale sia sul versante teorico e di ricerca brevemente delineati nella sezione introduttiva. In relazione a questi usi, è stata identificata una serie di desiderata che la Treebank di SI-TAL intendeva soddisfare: usabilità per diversi scopi sia di tipo applicativo sia di ricerca; compatibilità con diversi approcci alla sintassi, basati sia su un analisi a costituenti oppure su un analisi a dipendenze, adottati in ambito sia teorico sia di sistemi di trattamento automatico del linguaggio; applicabilità in modo coerente e riproducibile, riducendo al massimo il margine di arbitrarietà nell annotazione del testo; applicabilità sia alla lingua scritta sia al parlato. Questi desiderata hanno trovato soddisfazione nell architettura globale dello schema di annotazione della Treebank di SI-TAL come segue: i requisiti di usabilità e compatibilità sono stati interpretati in termini di (inter)traducibilità dello schema della Treebank negli schemi di annotazione dei sistemi che ne faranno uso. Sono quindi stati evitati trattamenti e rappresentazioni troppo condizionati dagli assunti teorici di un certo paradigma e non facilmente ritraducibili in altri tipi di analisi. In particolare, per costruzioni oggetto di controversia nella letteratura si è cercato, per quanto possibile, di proporre un analisi che costituisse il punto di convergenza tra diverse interpretazioni e fosse comunque proiettabile sul maggior numero possibile di analisi. In concreto, ciò ha portato a: un annotazione sintattica distribuita su più livelli (a costituenti e funzionale) indipendenti ma complementari e correlabili nella misura in cui è possibile costruire una funzione di proiezione dall uno all altro; per ogni livello, una fattorizzazione dell informazione linguistica in varie dimensioni; i requisiti di coerenza e convergenza dell annotazione inter-livello hanno trovato risposta nel ridurre ai minimi termini possibili ridondanze dell annotazione. Un dato tipo di informazione sintattica viene specificato solo una volta, al livello di annotazione identificato come appropriato: ad esempio, le relazioni grammaticali vengono annotate solo al livello sintattico-funzionale (cfr sezioni e 4.1.3); i requisiti di coerenza e riproducibilità dell annotazione intra-livello hanno richiesto di: fornire criteri di annotazione precisi e di ampia copertura. Per ogni livello di annotazione, si è partiti da un nucleo di criteri base, fondati sia su conoscenze teoriche sia su esperienze precedenti di annotazione; che nel corso del processo di annotazione sono stati via via arricchiti alla luce dell evidenza linguistica emergente dal corpus; ridurre al massimo decisioni arbitrarie: ove opportuno e possibile, per i diversi livelli di annotazione sono state previste strategie di sottospecificazione

9 (as esempio, mediante il ricorso a categorie sottospecificate) per limitare al massimo potenziali incoerenze derivanti da annotazioni basate su scelte arbitrarie. Ovviamente, si è ricorsi ad analisi sottospecificate solo nei casi strettamente necessari, ovvero quando un analisi più dettagliata avrebbe comportato una decisione arbitraria; infine, l applicabilità sia alla lingua scritta sia al parlato trova una risposta nell indipendenza dei livelli di annotazione sintattica. Nella definizione delle specifiche di annotazione si è partiti dall analisi e dal confronto di modelli di annotazione esistenti per il livello sintattico e semantico-lessicale. Per quanto riguarda l annotazione sintattica, l analisi ed il confronto di modelli di annotazione esistenti hanno riguardato sia quelli effettivamente adottati nella costruzione di Treebanks per diverse lingue, sia le raccomandazioni emerse nell ambito di iniziative di standardizzazione (in particolare i risultati del gruppo EAGLES sulla Annotazione Sintattica, Leech et al. 1996), sia le proposte avanzate nell ambito di progetti europei quali SPARKLE (LE-2111, Carroll et al. 1996) per i livelli di annotazione sintattica a costituenti e funzionale, e MATE (Telematics Project LE4 8370) ed ELSE (LE4-8340) solo per il livello funzionale. Per quanto concerne l annotazione semantico-lessicale, sono state considerate varie esperienze maturate in progetti a carattere sperimentale quali ROMANSEVAL/SENSEVAL (Calzolari e Corazzari 2000) e ELSNET (Corazzari et al. 2000), e l esperienza dell Università di Princeton per la creazione di un corpus annotato della lingua inglese SEMCOR (Landes et al. 1998). Nelle sezioni che seguono vengono illustrati i criteri che hanno guidato la definizione delle specifiche di annotazione per i livelli sintattico (sezione 4.1) e semanticolessicale (sezione 4.2). Per maggiori dettagli sugli schemi di annotazione adottati per il livello sintattico-funzionale e semantico-lessicale si rinvia ai contributi di Pirrelli et al. e di Mana et al. in questo volume. 4.1 Specifiche di annotazione per il livello sintattico: criteri guida L organizzazione distribuita dell annotazione sintattica La Treebank sintattico-semantica della lingua italiana di SI-TAL prevede due livelli di annotazione sintattica: annotazione a livello di struttura a costituenti (basata sull identificazione di elementi quali sintagmi nominali, sintagmi verbali, sintagmi preposizionali e relative relazioni sintagmatiche); annotazione a livello funzionale (basata sulla definizione di relazioni grammaticali quali soggetto, oggetto, ecc.). La scelta di un annotazione sintattica distribuita su due livelli distinti, a costituenti e funzionale, rappresenta un elemento di novità rispetto ad altre treebank costruite o in corso di costruzione per lingue diverse (che vanno, per menzionarne alcune, dall inglese al cinese, francese, tedesco, polacco, portoghese e spagnolo). Queste risorse generalmente prevedono un livello unico per l annotazione sintattica, sia esso

10 basato su una rappresentazione a costituenti (si veda, ad esempio, Marcus et al., 1993; Sampson, 1995; Greenbaum, 1996; Sandoval et al., 1999) oppure a dipendenze (cfr Karlsson et al., 1995) o su uno schema di annotazione ibrido che combina tratti di entrambe (si veda Brants et al., 1999; Abeillé et al. 2000). La scelta di un annotazione articolata su più livelli per quanto riguarda la sintassi è condivisa, ma solo apparentemente, dalla treebank in corso di costruzione per il Ceco (Bémová et al. 1999) che prevede a) un livello di rappresentazione analitica che annota relazioni di dipendenza di superficie, e b) un livello di rappresentazione tectogrammaticale corrispondente alla struttura profonda della frase (basata su relazioni di tipo semantico, come Attore, Paziente, Origine, Effetto). Analoga articolazione si osserva nella treebank in corso di costruzione per il cinese (Chen et al. 1999). Ma mentre il modello sintattico sottostante lo schema di annotazione delle Treebanks del Ceco e del Cinese è di tipo multistratale, il rapporto tra i due livelli di annotazione sintattica nella Treebank di SI-TAL si configura diversamente: entrambi si riferiscono allo stesso livello di rappresentazione, aderendo dunque ad un modello sintattico di tipo monostratale. I due livelli di annotazione sintattica della Treebank di SI-TAL forniscono dunque viste ortogonali relativamente allo stesso livello di rappresentazione (ovvero la sintassi di superficie). Si tratta di due livelli di annotazione indipendenti e, allo stesso tempo, complementari. Sono indipendenti nella misura in cui nessuno dei due presuppone l altro: ad esempio l annotazione funzionale non fa riferimento all annotazione a costituenti mediante l assegnazione di funzioni grammaticali ai costituenti identificati. Questa organizzazione rende possibile l accesso e l analisi indipendente dei due livelli, a seconda delle finalità e dell uso che si vuole fare della risorsa. D altro canto, i due livelli forniscono informazione complementare: quindi, nella misura in cui è possibile costruire una funzione di proiezione dall uno all altro è possibile costruire viste combinate sul corpus annotato, ad esempio proiettando l informazione funzionale sulla struttura a costituenti (per maggiori dettagli si rinvia a Montemagni et al. 2000). I vantaggi di uno schema di annotazione che separa la struttura a costituenti dalla struttura funzionale sono molti, di ordine teorico e pratico. Innanzitutto, questo schema risulta particolarmente adeguato in rapporto a lingue come l italiano che presentano una certa variabilità nell ordine dei costituenti e la possibilità di omettere il soggetto al livello della frase principale. Queste due proprietà, combinate insieme, avrebbero reso una rappresentazione a costituenti dell italiano alquanto difficoltosa: in particolare, l uso frequente di costituenti vuoti (tracce, soggetti impliciti) avrebbe spesso reso l annotazione di difficile produzione ed interpretazione. Questo è un problema che è stato rilevato in relazione ad altre lingue che condividono con l italiano la variabilità al livello dell ordine dei costituenti della frase; es. il tedesco (Brants et al. 1999) e il ceco (Bémová et al. 1999). La treebank di SI-TAL fornisce una risposta a questo problema separando l informazione funzionale dalla struttura a costituenti. L analisi delle relazioni funzionali come elementi primitivi di un livello di annotazione indipendente (seppure coordinato con quello a costituenti) permette un trattamento semplice e diretto di molti fenomeni linguistici, senza il rischio di perdita di informatività. Una semplifica-

11 zione sostanziale nasce, ad esempio, dalla possibilità di evitare tracce e indici per la rappresentazione di movimenti e dislocazioni di varia natura (es. il trattamento del passivo, soggetti postverbali, costruzioni interrogative e relative). In maniera simile, non è necessario introdurre categorie vuote per i soggetti impliciti e vari tipi di ellissi. Infatti, in entrambi i casi, l informazione rilevante per la descrizione linguistica viene rappresentata in termini di dipendenze appropriate a livello funzionale. Ma l adeguatezza rispetto alle peculiarità linguistiche dell italiano non costituisce l unico vantaggio di una annotazione sintattica distribuita su più livelli. Infatti uno schema di annotazione di questo tipo risulta vantaggioso anche per altri motivi: è compatibile con diversi quadri teorici: le annotazioni proposte per i due livelli di annotazione sono comparabili con un ampio spettro di schemi di annotazione sintattica, basati su un analisi a costituenti oppure su un analisi a dipendenze, sia adottati nell ambito di teorie grammaticali sia in uso nell ambito di sistemi applicativi di elaborazione del linguaggio naturale; si presta ad essere applicabile, anche se con modalità diverse, sia alla lingua scritta sia a quella parlata. Progetti sull annotazione del parlato, come ad esempio MATE (1998), hanno messo in evidenza che una rappresentazione a costituenti risulta difficoltosa nel caso del parlato, caratterizzato dalla presenza massiccia di ellissi, anacoluti, e fenomeni di disfluenza di vario tipo. Questa difficoltà di applicazione non si ripropone a livello di annotazione funzionale, che astrae maggiormente dalla realizzazione superficiale della frase. Ne consegue che il livello di annotazione funzionale, quando dissociato da una rappresentazione a costituenti, costituisce un potenziale terreno di incontro e confronto tra testi annotati di lingua scritta e parlata. La Treebank di SI-TAL, come concepita ad oggi, è circoscritta a testi di lingua scritta: era comunque importante che nella fase delle specifiche dello schema di annotazione se ne prevedesse l applicazione anche a trascrizioni di parlato (ciò potrà certamente richiedere revisioni ed integrazioni dello schema per il trattamento di fenomeni tipici del parlato) Annotazione a costituenti: principi di base L annotazione a costituenti della Treebank di SI-TAL si discosta da altri schemi di annotazione a costituenti (ad esempio quello adottato per la Penn Treebank, Marcus et al. 1993, 1994) a diversi livelli. Queste divergenze derivano principalmente dall organizzazione distribuita dell annotazione sintattica. A questo livello, l annotazione consiste nell identificazione dei confini di costituenza con relativa categorizzazione del costituente. Lo schema di annotazione per questo livello prevede una tipologia di 22 tipi di costituenti: per maggiori dettagli a questo proposito il lettore interessato è rinviato a SI-TAL (2000), Montemagni et al. (2001). In questa sezione miriamo soltanto a fornire le coordinate generali dello schema di annotazione adottato per questo livello. Dato che le relazioni grammaticali sono annotate ad un livello distinto, quello funzionale, la struttura a costituenti identificata a questo livello è piatta, come esemplificato di seguito per la frase lo scontro sulle cessioni legali è stato risolto per decreto:

12 (1)[F [SN lo scontro [SP sulle [SN cessioni [SA legali SA] SN] SP] SN] [IBAR è stato risolto IBAR] [COMPT [SP per [SN decreto SN] SP] COMPT] F] Nella struttura a costituenti in (1) si osserva che il costituente nominale soggetto (il primo SN) il nodo verbale (IBAR) e il nodo dei complementi (COMPT) sono allo stesso livello di incassamento rispetto al nodo di frase (F). Analoghe osservazioni valgono in relazione alla struttura interna di costituenti nominali, dove non viene fatta alcuna distinzione gerarchica tra la testa, il determinante ed i complementi e/o aggiunti del nome (si veda la struttura interna del costituente nominale soggetto in 1). Inoltre, per quanto riguarda i gruppi verbali, l annotazione è ristretta al gruppo verbale minimale (che include eventuali ausiliari, pronomi clitici nel caso di verbi intransitivi pronominali e avverbi di negazione): ciò deriva dal fatto che la nozione tradizionale di sintagma verbale (SV) che include i complementi del verbo non è facilmente applicabile in italiano su larga scala e su testi reali data la sua frequente discontinuità. Questo fatto rende il SV una nozione controversa ai fini dell annotazione di corpora. Un altra peculiarità dello schema di annotazione a questo livello della Treebank di SI-TAL riguarda la totale assenza di costituenti vuoti. Il fatto che le relazioni grammaticali sono assunte come nozioni primitive e trattate ad un livello distinto invece di essere definite a questo livello in termini di relazioni di dominanza e di precedenza permette di escludere dalla struttura a costituenti elementi vuoti corrispondenti a tracce o soggetti ellittici. Questo rende l annotazione a costituenti della Treebank di SI-TAL di più facile ed immediata interpretazione. Ne consegue che fenomeni sintattici quali l omissione del soggetto ed altri tipi di costruzioni ellittiche così come casi di ordine discontinuo o semplicemente ordine non canonico dei costituenti (es. fenomeni di topicalizzazione, frasi interrogative indirette introdotte da operatore interrogativo) non sono rappresentati in termini di categorie vuote e di coindicizzazione (come ad esempio nella Penn Treebank) ma piuttosto al livello funzionale. Seguono alcuni esempi di annotazione a costituenti di frasi che presentano i fenomeni menzionati sopra: (2) Ho cose più importanti di cui occuparmi [F [IBAR Ho IBAR] [COMPC [SN cose [SA più importanti SA] [F2 [SPD di cui [SV2 occuparmi SV2] SPD] F2] SN] COMPC] F] (3) Gli ordini di vendita stranieri hanno imboccato la strada che riporta al di là del confine [F [SN Gli ordini [SPD di [SN vendita SN] [SA stranieri SA] SPD] SN] [IBAR hanno imboccato IBAR] [COMPT [SN la strada [F2 che [F [IBAR riporta IBAR] [COMPIN [SP al_di_là_del [SN confine SN] SP] COMPIN] F] F2] SN] COMPT] F] Annotazione funzionale: principi di base Per il livello di annotazione funzionale, la Treebank di SI-TAL ha optato per uno schema di annotazione funzionale tra parole piene (sostantivi, aggettivi, verbi e avverbi), del tutto indipendente dall identificazione dei costituenti frasali. In questa sede, ripercorreremo le motivazioni sottostanti a questa scelta e illustreremo breve-

13 mente le coordinate dello schema adottato; per maggiori dettagli sulle specifiche di annotazione per questo livello si rinvia a Pirrelli et al. in questo volume. Il ricorso ad una annotazione che stabilisce relazioni funzionali tra parole, invece che tra costituenti, trova supporto in una serie di motivazioni di varia natura. Da un punto di vista teorico, lo spettro di schemi di annotazione sintattica compatibili si allarga andando a coprire schemi propri di grammatiche a dipendenze (quello ad esempio adottato nell ambito di teorie quali la Word Grammar (Hudson 1984) o della Constraint Grammar (Karlsson et al. 1995)), che non presuppongono in alcun modo l esistenza di costituenti sintattici e descrivono l enunciato linguistico puramente in termini di relazioni di dipendenza tra parole o teste. Sul versante applicativo, va tenuto presente quanto segue: in una prospettiva di uso della Treebank per la valutazione di analizzatori sintattici, una annotazione funzionale tra parole è considerata particolarmente efficace in quanto: costituisce il minimo comune denominatore di una vasta tipologia di schemi di annotazione, sia basati sulla costituenza sia sulle dipendenze (Lin 1998; Lenci et al. 1999, 2000); rappresenta un terreno di comparazione più appropriato, superando i problemi posti da una valutazione condotta rispetto a rappresentazioni sintattiche a costituenti (Carroll et al. 1998; Sampson 2000; Lin 1998; Lenci et al. 1999, 2000); un numero sempre più crescente di applicazioni di ingegneria linguistica fanno uso di rappresentazioni funzionali espresse in termini di coppie di parole, in particolare in componenti per il filtraggio e recupero di informazioni (Grefenstette 1994) oppure nell ambito di sistemi per la disambiguazione di senso (si veda in proposito l iniziativa di SENSEVAL/ROMANSEVAL); considerata la difficoltà intrinseca di rappresentare trascrizioni di parlato in termini di struttura a costituenti, una rappresentazione funzionale di questo tipo permette di stabilire un terreno comune di confronto tra lingua parlata e scritta; analoga considerazione vale in una prospettiva multilingue. Mentre la struttura a costituenti può variare radicalmente tra lingue diverse e anche all interno della stessa lingua (si consideri ad esempio l effetto a livello di struttura a costituenti dell ordine libero dei costituenti in italiano), le relazioni funzionali astraendo da alcuni aspetti della sintassi di superficie (ad esempio relazioni di precedenza) - sono meno soggette a variazione sia in una prospettiva inter-linguistica sia intralinguistica. Vanno infine annoverate motivazioni di carattere operativo: un annotazione funzionale tra parole rende lo schema particolarmente flessibile per quanto riguarda le strategie e le metodologie di annotazione; ad esempio, uno stesso testo può essere annotato in parallelo ai diversi livelli, a costituenti e funzionale. Questo aspetto era cruciale nell ambito di SI-TAL, in quanto la porzione di corpus annotata a livello funzionale era significativamente più ampia di quella annotata a costituenti (circa vs circa parole); inoltre, i tempi di realizzazione della risorsa Treebank erano tali da richiedere di procedere ad una annotazione in parallelo per i diversi livelli.

14 Ulteriori motivi che hanno scoraggiato il ricorso ad una annotazione a costituenti aumentata dell informazione funzionale sono stati identificati in: la complicazione ormai ampiamente sperimentata nell ambito di altre Treebank derivante dall inclusione di informazione funzionale all interno di uno schema di annotazione a costituenti. Si veda, ad esempio, l esperienza della Penn Treebank (Marcus et al. 1994): la revisione dello schema di annotazione in vista dell estrazione automatica di una banca dati di strutture predicato-argomento ha comportato, oltre all introduzione di etichette funzionali da associarsi ai costituenti, anche un massiccio uso di tracce e costituenti vuoti che hanno appesantito l annotazione rendendola di più difficile produzione e comprensione; la stretta dipendenza che viene a stabilirsi tra i due livelli di annotazione, per cui annotazioni che nella letteratura ricevono interpretazioni controverse a livello di costituenza si ripercuotono anche al livello funzionale. Si consideri il caso di costruzioni sintattiche particolari che presentano serie difficoltà nell identificazione dei confini di costituenza, ma che non presentano particolari difficoltà a livello di un annotazione funzionale, ad esempio frasi del tipo Ho visto Maria partire, Considero Gianni intelligente oppure di casi di condivisione di costituenti in strutture coordinate. Una frase del tipo ho visto Maria partire riceve nella letteratura analisi a costituenti differenziate, ma entrambe legittime: 1. Ho visto [ Maria partire ] 2. Ho visto [ Maria ] [ partire ] si noterà che un analisi funzionale come quella riportata sotto è compatibile con entrambe e non richiede una presa di posizione a favore dell una o dell altra: a) arg(vedere, partire) b) ogg(vedere, Maria) c) sogg(partire, Maria) l analisi 1 è coperta da a) e c), mentre la 2 dalla combinazione di a), b) e c). Sulla base delle considerazioni riportate sopra, sia teoriche che pratiche, abbiamo optato per uno schema di annotazione funzionale tra parole. Lo schema di annotazione funzionale adottato per la Treebank di SI-TAL ha preso le mosse dallo schema di annotazione elaborato nel progetto europeo SPARKLE (LE- 2111), che a sua volta è stato rielaborato e rivisto ai fini della sua adozione nell ambito di campagne di valutazione di analizzatori sintattici nell ambito del progetto ELSE (LE4-8340). F.A.M.E (Functional Annotation Meta-scheme for Evaluation), lo schema elaborato in ELSE (Lenci et al. 1999, 2000), è stato rivisto e specializzato rispetto alle peculiarità della lingua da annotare l italiano ed alla sua adozione come schema di annotazione di una Treebank. Le specifiche ed i criteri di annotazione che ne sono seguiti sono il risultato di questo processo di revisione e specializzazione. Gli elementi di base dello schema di annotazione adottato sono costituiti da relazioni funzionali espresse in termini di relazioni binarie sussistenti tra due PARTECIPANTI sempre corrispondenti a parole piene o lessicali. Sono quindi auto-

15 maticamente escluse relazioni funzionali che riguardano parole grammaticali quali i determinativi, gli ausiliari, i complementatori, le preposizioni, etc. L informazione riguardante questi elementi è codificata mediante tratti associati ai partecipanti della relazione. Le relazioni funzionali includono relazioni di dipendenza, ovvero relazioni sussistenti tra una testa e un dipendente, come ad esempio la relazione di soggetto, oggetto_diretto etc. A questo livello, le relazioni identificate possono anche riguardare elementi dislocati, soggetti impliciti così come elementi ellittici di vario tipo. La tipologia di relazioni funzionali include anche relazioni di altro tipo, ovvero relazioni simmetriche di congiunzione e disgiunzione per il trattamento della coordinazione e relazioni di coreferenza per il trattamento di frasi relative ed interrogative. Per dare al lettore un idea dell annotazione a questo livello, forniamo di seguito alcuni esempi. Si consideri la rappresentazione funzionale della frase lo scontro sulle cessioni legali è stato risolto per decreto (a cui struttura a constituenti è riportata in (1) sopra): (4) sogg (risolvere.<diatesi=passiva>, scontro) mod (scontro, cessione.<introdep= su >) mod (cessione, legale) mod (risolvere.<diatesi=passiva>, decreto.<introdep= per >) Per ogni relazione identificata, vengono specificate: il tipo di relazione ( sogg sta per soggetto, mod per modificatore), la testa (il primo elemento tra parentesi) e il dipendente (il secondo elemento tra parentesi). Ogni elemento della relazione può anche ricevere una caratterizzazione rispetto ad un insieme di tratti che sono considerati rilevanti rispetto alla relazione che li lega (riportati tra parentesi uncinate). I tratti associati agli elementi della relazione possono convogliare, ad esempio, informazione relativa alla preposizione che introduce il dipendente in una data relazione (si veda ad esempio l attributo INTRODEP), oppure informazione relativa alla diatesi della testa verbale. A differenza dell annotazione a costituenti, a questo livello sia la testa sia il dipendente può essere costituito da un elemento ellittico; in questo modo viene rappresentata l omissione del soggetto: (5) Ho cose più importanti di cui occuparmi sogg (avere,.<pers=1, numb=sing>) Si noti che questa rappresentazione modulare, distribuita tra relazioni e tratti, crea i presupposti perché lo schema di annotazione funzionale della Treebank di SI-TAL sia compatibile con diverse teorie e quindi mappabile su diversi formati di rappresentazione sintattica (per maggiori dettagli sulla intertraducibilità di FAME in altri schemi di annotazione, si veda Lenci et al. 1999, 2000). La tipologia delle relazioni di dipendenza previste dallo schema di annotazione della Treebank di SI-TAL è organizzata gerarchicamente, in modo tale da permettere rappresentazioni sottospecificate che potrebbero essere utili per il trattamento di costruzioni realmente ambigue oppure controverse, ovvero per ridurre il margine di

16 arbitrarietà nelle scelte degli annotatori. Relazioni di dipendenza sottospecificate sono anche particolarmente cruciali nell ambito di campagne di valutazione, per evitare penalizzazioni arbitrarie di analisi divergenti ma in qualche misura compatibili. 4.3 Specifiche di annotazione per il livello semantico-lessicale: criteri guida Nella Treebank di SI-TAL l annotazione semantico-lessicale è consistita nell assegnazione alle occorrenze di verbi, nomi e aggettivi di: un identificatore (numero) di senso: la risorsa lessicale di riferimento selezionata a questo fine è la rete semantico-concettuale di ItalWordNet (IWN), nelle sue due partizioni per il lessico generale (IWN-Gen) e specialistica per il dominio economico-finanziario (EcoWN); per maggiori dettagli sulla risorsa lessicale di riferimento si rinvia al contributo di Mana et al. in questo volume; tratti addizionali di classificazione semantica: altri tipi di informazione semantico-lessicale sono inseriti nell annotazione a complemento dell assegnazione di senso, per contraddistinguere e dunque recuperare all interno del corpus annotato usi figurati (metafore di vario tipo, metonimie), espressioni idiomatiche, neologismi, nomi propri, ecc. non necessariamente lessicalizzati e quindi registrati nella risorsa lessicale di riferimento; marche ad uso dell annotatore: codificano osservazioni e commenti ad uso dell annotatore, che convogliano informazioni sull annotazione (ad esempio per segnalare casi dubbi). In questo modo l annotatore può tenere traccia di annotazioni particolarmente problematiche, ad esempio in cui non si riesce ad identificare con certezza quale senso della risorsa lessicale di riferimento si applichi al contesto specifico. Osservazioni di questo tipo possono essere anche utili nella prospettiva di una eventuale revisione ed integrazione della risorsa lessicale di riferimento. Si noti che attraverso l organizzazione tassonomica dei sensi in IWN, da ogni assegnazione di senso è possibile risalire al corrispondente tipo semantico nella Top Ontology. In questo modo, l assegnazione di senso viene anche a configurarsi anche se indirettamente - come una forma di tipizzazione semantica delle occorrenze annotate L annotazione semantico-lessicale identifica unità di senso che possono corrispondere a singole parole ortografiche (un singolo Sostantivo, Verbo o Aggettivo) oppure a due o più parole ortografiche nel caso di espressioni polilessicali (genericamente denotate in inglese come multi-word expressions) che compongono una unica unità di senso (es. composti, idiomi ecc.). Gli elementi annotati a questo livello sono di tre tipi: USS (unità semantica semplice); USC (unità semantica di tipo complesso); UST (unità semantica di tipo titolo).

17 L elemento USS punta ad una singola parola, mentre l elemento USC punta a più parole del testo di input, ovvero ad un espressione polilessicale. Infine l elemento UST può puntare sia ad una singola parola che a più parole adiacenti e serve per annotare titoli di libri, giornali, spettacoli ecc. Al contrario dell elemento USS che può riferirsi solo a parole piene del testo (in particolare, sostantivi, verbi o aggettivi), sia USC che UST possono includere anche parole grammaticali (es. preposizioni, articoli, ecc.) facenti parte dell espressione: si consideri ad esempio l USC mettere a ferro e fuoco oppure l UST Il nome della rosa. Si noti che l annotazione delle espressioni polilessicali non presuppone l annotazione semantico-lessicale dei suoi singoli componenti. Da un punto di vista linguistico ciò è giustificato dal fatto che tali espressioni non sono in molti casi composizionali semanticamente (o lo sono solo parzialmente) e talvolta appare difficile o addirittura impossibile assegnare un senso, tra quelli attestati nella risorsa lessicale di riferimento, ai suoi componenti (es. si pensi all aggettivo rosa nella sequenza cronaca rosa). Mentre per un illustrazione delle specifiche di annotazione si rinvia a Mana et al. in questo volume, in questa sede vorremmo brevemente illustrare la strategia di annotazione elaborata per questo livello. Per soddisfare i requisiti di coerenza e riproducibilità dell annotazione, la strategia di sottospecificazione adottata consiste nell assegnazione di due o più sensi congiunti (S1&S2) nei casi in cui più di un senso si applichi al contesto specifico, oppure di due sensi disgiunti (S1 S2) nei casi in cui il contesto non fornisca informazione sufficiente per poter decidere tra diversi sensi riportati nella risorsa lessicale di riferimento (IWN). Un ruolo cruciale dell annotazione a questo livello è giocato dall informazione semantico-lessicale affiancata alle assegnazioni di senso. Si tratta di informazione non esplicitamente contenuta nella risorsa lessicale di riferimento o che ne specifica ulteriori aspetti. Questa informazione aggiuntiva riguarda ad esempio USS o USC usate in un senso figurato, ad esempio l uso metaforico di fulmine nell espressione essere un fulmine, indipendentemente dal fatto che l accezione figurata sia lessicalizzata o meno. Oppure, fornisce la categorizzazione semantica (del tipo umano, artefatto, istituzione, luogo ) di nomi propri, siano essi USS o USC; anche in questo caso, questa specificazione è indipendente dal fatto che il nome proprio sia incluso nel lessico di riferimento. Per le unità semantiche complesse (USC) viene specificato il tipo sulla base dei criteri di classificazione definiti nelle specifiche di annotazione: composto (es. certificato di credito del tesoro), espressione idiomatica (es. essere la chiave di volta), costruzione con verbo supporto (es. entrare in vigore). Le attribuzioni di senso, affiancate dall informazione aggiuntiva tratteggiata sopra, rendono la Treebank semantico-lessicale dell italiano una risorsa ben più ricca e flessibile di una mera lista di assegnazioni di sensi attestati nella risorsa lessicale di riferimento. Questo spazio in cui l annotazione del corpus integra in diversa misura l informazione della risorsa lessicale di riferimento rende il corpus annotato un deposito di fenomeni semantico-lessicali che non sono necessariamente registrati sia per scelta programmatica sia per omissione del tutto casuale nella risorsa lessicale di riferimento. In questo modo, il corpus si rende indipendente dalle scelte dei lessico-

18 grafi, dall architettura interna del lessico e dai criteri di selezione delle entrate e viene a configurarsi anche come potenziale fonte per revisioni ed integrazioni del lessico. 5 La Treebank di SI-TAL: risultati I principali risultati del progetto SI-TAL per quanto riguarda il tema Treebank possono essere identificati in: il corpus annotato ai seguenti livelli di descrizione linguistica: ortografico, morfo-sintattico, sintattico a costituenti e sintattico-funzionale, semantico-lessicale. Mentre i moduli dell annotazione ortografica e morfo-sintattica sono stati costruiti riutilizzando risorse parziali disponibili (opportunamente ristrutturate e convertite), i moduli dell annotazione sintattica e semantico-lessicale sono stati costruiti ex novo nell ambito del progetto. Il corpus con le sue annotazioni ai diversi livelli è accessibile da GesTALt. Per garantire una maggiore flessibilità nella distribuzione e nell uso della risorsa finale, il corpus annotato della Treebank è anche disponibile in formato XML. le specifiche di annotazione per i livelli sintattico a costituenti, sintatticofunzionale e semantico-lessicale. Le specifiche tecniche riviste e integrate alla luce dell esperienza di annotazione si propongono infatti anche come modello tecnico complessivo che riflette lo stato dell arte e un consenso internazionale sulla quantità e qualità di informazione da codificare; possono dunque essere riutilizzate nella messa a punto di progetti con finalità analoghe. il sistema software di supporto all annotazione e navigazione della Treebank sintattico-semantica dell italiano. GesTALt si configura sia come uno strumento di ausilio all esplorazione del corpus annotato nei suoi diversi livelli, sia come uno strumento riutilizzabile in congiunzione con altri corpora codificati in XML. Questa tipologia di risultati ha già trovato ampia validazione nel corso del progetto nell ambito dell applicazione pilota di traduzione automatica a cura di Synthema (Pisa), cfr Fanciulli e Raffaelli in questo volume. In questa sezione, viene illustrata la composizione finale della Treebank di SI-TAL e, per ogni livello, sono brevemente descritti i risultati finali del processo di annotazione. Per una descrizione dettagliata degli altri tipi di risultati si rinvia a Pirrelli et al. (in questo volume) per quanto riguarda le specifiche di annotazione e a Basili et al. (in questo volume) per il software di annotazione e navigazione. 5.1 Composizione interna e livelli di annotazione della Treebank di SI-TAL La tabella che segue illustra la distribuzione dei livelli di annotazione sintatticosemantica rispetto alle varie partizioni del corpus della Treebank di SI-TAL:

19 Tabella 2. Distribuzione dell annotazione sintattico-semantica nella Treebank di SI-TAL Partiz. Corpus Fonte Fin Il Sole-24 Ore Bil La Repubblica ( ) Bil La Repubblica (1995) Bil Il Corriere della Sera Bil Periodici (1988) Annotazione Sintattica A costituenti Funzionale Semanticolessicale Si noti che l annotazione parallela ai tre livelli (a costituenti, sintattico-funzionale e semantico-lessicale) è circoscritta al corpus finanziario de Il Sole-24 Ore. 5.2 Annotazione sintattica a costituenti L annotazione a costituenti ha riguardato la partizione finanziaria del corpus della Treebank di SI-TAL, per un totale di tokens. Il processo di annotazione ha portato all identificazione e conseguente annotazione di costituenti complessi. L annotazione è stata effettuata in modalità semi-automatica, articolata in due fasi: prima una fase di pre-annotazione automatica, poi una fase di revisione e correzione manuale delle analisi che sono state convertite mediante apposite procedure in formato XML e caricate nella base di dati di GesTALt. Per maggiori dettagli sulle modalità di annotazione a questo livello si rinvia il lettore interessato a Delmonte (2000, 2001). 5.3 Annotazione sintattico-funzionale L annotazione sintattico-funzionale ha riguardato l intero corpus della Treebank di SI-TAL (sia la partizione bilanciata sia quella finanziaria), per un totale di parole annotate (tokens). Il processo di annotazione ha portato all identificazione e conseguente annotazione di relazioni funzionali, ripartite come segue: Tabella 3. Annotazione sintattico-funzionale: tipologia delle relazioni identificate Relazioni funzionali identificate Con Fonte Con testa Con testa Con testa Totale altro tipo nominale verbale aggettivale di testa Il Sole-24 Ore La Repubblica ( ) La Repubblica (1995) Il Corriere

20 della Sera Periodici TOTALE A questo livello, l annotazione è stata effettuata manualmente per tre quarti del corpus, ovvero per quanto riguarda Il Sole-24 Ore, La Repubblica ( ), Il Corriere della Sera e i Periodici. Le motivazioni a supporto di questa scelta metodologica riguardano sia il tipo di schema di annotazione adottato sia le caratteristiche che sarebbero state richieste per il software di annotazione. Tra i fattori riguardanti lo schema di annotazione adottato per la Treebank di SI- TAL, vanno annoverati: le finalità di uso di una Treebank che impongono l adozione di uno schema di annotazione che deve essere compatibile con un ampio spettro di schemi di annotazione effettivamente usati nell ambito di sistemi di elaborazione del linguaggio. Questo requisito di compatibilità non è necessariamente soddisfatto dall output di uno specifico analizzatore sintattico, che è inevitabilmente guidato da motivazioni di varia natura che vanno dall architettura nella quale si inserisce alle finalità per le quali è stato sviluppato ecc. Quindi, le revisioni manuali di un output prodotto automaticamente non sarebbero state circoscritte alle analisi errate, ma a- vrebbero riguardato anche analisi corrette al fine di rendere l output dell analizzatore conforme allo schema di annotazione adottato; la difficoltà di gestire automaticamente certe distinzioni tra relazioni di dipendenza: si consideri, come esempio, la distinzione tra argomenti e modificatori: tale distinzione è gestibile senza particolari difficoltà nell ambito di analizzatori sintattici sulla base di un lessico di riferimento contenente informazione sulla sottocategorizzazione dei predicati. Questo non è altrettanto vero nel caso dell annotazione di una Treebank; infatti, la difficoltà di questo compito è ripetutamente segnalata nella letteratura sulle Treebank (si veda, ad esempio, Marcus et al. 1994). Ciò deriva dal fatto che l annotazione di una Treebank non prevede necessariamente il ricorso ad un lessico di riferimento: dietro a questa scelta stanno motivi di varia natura che vanno dalle risorse lessicali esistenti (che sono insufficienti per applicazioni su scala reale per copertura del lessico sia a livello di lemmi che di costruzioni sintattiche associate ad essi) al fatto che una Treebank è tipicamente usata anche per acquisire informazione di questo tipo per cui una proiezione preventiva delle interpretazioni possibili potrebbe interferire con i risultati attesi; altro tipo di distinzione di non sempre facile applicazione nell ambito di un analizzatore sintattico dell italiano è quella tra soggetto e oggetto: infatti, le caratteristiche dell italiano come lingua che permette l ellissi del soggetto e che mostra un ordine libero dei costituenti frasali rendono l assegnazione delle relazioni di soggetto e oggetto un compito spesso difficoltoso se condotto sulla base della sola informazione sintattica (Montemagni 1995). Data la frequenza di ambiguità di questo tipo in testi reali, una pre-annotazione automatica avrebbe richiesto una revisione massiccia dell output ottenuto.

Linguistica Generale

Linguistica Generale Linguistica Generale Docente: Paola Monachesi Aprile-Maggio 2003 Contents 1 La linguistica e i suoi settori 2 2 La grammatica come mezzo per rappresentare la competenza linguistica 2 3 Le componenti della

Dettagli

ITALIANO TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

ITALIANO TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA ITALIANO TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA L allievo partecipa a scambi comunicativi (conversazione, discussione di classe o di gruppo) con compagni e insegnanti

Dettagli

P.L.I.D.A. Progetto Lingua Italiana Dante Alighieri Certificazione di competenza della lingua italiana

P.L.I.D.A. Progetto Lingua Italiana Dante Alighieri Certificazione di competenza della lingua italiana P.L.I.D.A. Progetto Lingua Italiana Dante Alighieri Certificazione di competenza della lingua italiana CRITERI DI VALUTAZIONE PER LE PROVE SCRITTE L obiettivo del valutatore, nella correzione delle prove

Dettagli

CRITERI DI VALUTAZIONE ITALIANO PRIMO BIENNIO

CRITERI DI VALUTAZIONE ITALIANO PRIMO BIENNIO CRITERI DI VALUTAZIONE ITALIANO PRIMO BIENNIO Voti RAGGIUNGIMENTO OBIETTIVI DESCRITTORI Fino a 3 Del tutto insufficiente Assenza di conoscenze. Errori ortografici e morfo-sintattici numerosi e gravi. 4

Dettagli

IL CURRICOLO D ITALIANO COME LINGUA STARNIERA

IL CURRICOLO D ITALIANO COME LINGUA STARNIERA IL CURRICOLO D ITALIANO COME LINGUA STARNIERA INDICE INTRODUZIONE scuola media obiettivo generale linee di fondo : mete educative e mete specifiche le abilità da sviluppare durante le sei sessioni alcune

Dettagli

Griglia di correzione Fascicolo di Italiano Prova Nazionale anno scolastico 2008-2009

Griglia di correzione Fascicolo di Italiano Prova Nazionale anno scolastico 2008-2009 Griglia di correzione Fascicolo di Italiano Prova Nazionale anno scolastico 2008-2009 Il buon nome - Chiavi di risposta e classificazione degli item Item Risposta corretta Ambito di valutazione Processi

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

VERSO UN SISTEMA NAZIONALE INFEA COME INTEGRAZIONE DEI SISTEMI A SCALA REGIONALE

VERSO UN SISTEMA NAZIONALE INFEA COME INTEGRAZIONE DEI SISTEMI A SCALA REGIONALE LINEE DI INDIRIZZO PER UNA NUOVA PROGRAMMAZIONE CONCERTATA TRA LO STATO, LE REGIONI E LE PROVINCE AUTONOME DI TRENTO E BOLZANO IN MATERIA IN.F.E.A. (INFORMAZIONE-FORMAZIONE-EDUCAZIONE AMBIENTALE) VERSO

Dettagli

Nota dell ASLI sull insegnamento dell italiano nella scuola secondaria di secondo grado Premessa

Nota dell ASLI sull insegnamento dell italiano nella scuola secondaria di secondo grado Premessa Nota dell ASLI sull insegnamento dell italiano nella scuola secondaria di secondo grado Premessa L insegnamento della lingua materna nella scuola secondaria superiore si dimostra particolarmente importante

Dettagli

La lingua seconda per lo studio: aula, laboratorio, autoapprendimento. F ernanda Minuz fminuz@ jhu.edu

La lingua seconda per lo studio: aula, laboratorio, autoapprendimento. F ernanda Minuz fminuz@ jhu.edu La lingua seconda per lo studio: aula, laboratorio, autoapprendimento F ernanda Minuz fminuz@ jhu.edu Studiare in una L2 È un'attività cognitivamente complessa: apprendere (comprendere, elaborare, inquadrare,

Dettagli

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica A.A. 2007-08 CORSO DI INGEGNERIA DEL SOFTWARE Prof. Giulio Destri http://www.areasp.com (C) 2007 AreaSP for

Dettagli

Prospettive di collaborazione: dall anagrafe agli authority file

Prospettive di collaborazione: dall anagrafe agli authority file Prospettive di collaborazione: dall anagrafe agli authority file di Marco Paoli Eccellenze, autorità, colleghi bibliotecari, già con la firma dell Intesa fra CEI e MiBAC (18 aprile 2000) relativa alla

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

GLI ASSI CULTURALI. Allegato 1 - Gli assi culturali. Nota. rimessa all autonomia didattica del docente e alla programmazione collegiale del

GLI ASSI CULTURALI. Allegato 1 - Gli assi culturali. Nota. rimessa all autonomia didattica del docente e alla programmazione collegiale del GLI ASSI CULTURALI Nota rimessa all autonomia didattica del docente e alla programmazione collegiale del La normativa italiana dal 2007 13 L Asse dei linguaggi un adeguato utilizzo delle tecnologie dell

Dettagli

GRIGLIA DI VALUTAZIONE PER L ANALISI E IL COMMENTO DI UN TESTO LETTERARIO (Tipologia A) STUDENTE... SUFFICIENTE Punti 10.

GRIGLIA DI VALUTAZIONE PER L ANALISI E IL COMMENTO DI UN TESTO LETTERARIO (Tipologia A) STUDENTE... SUFFICIENTE Punti 10. GRIGLIA DI VALUTAZIONE PER L ANALISI E IL COMMENTO DI UN TESTO LETTERARIO (Tipologia A) IN (min. 5- max. 7,5) DISCRETO BUONO E (max 5) Analisi dei livelli e degli elementi del testo incompleta incompleta

Dettagli

Oggetto: INSEGNAMENTO/ APPRENDIMENTO DELLE LINGUE STRANIERE E DSA

Oggetto: INSEGNAMENTO/ APPRENDIMENTO DELLE LINGUE STRANIERE E DSA Oggetto: INSEGNAMENTO/ APPRENDIMENTO DELLE LINGUE STRANIERE E DSA PREMESSA A tutt oggi i documenti ufficiali a cui ogni docente di lingue straniere è chiamato a far riferimento nel suo lavoro quotidiano,

Dettagli

CURRICOLO SCUOLA PRIMARIA E SECONDARIA DI PRIMO GRADO con riferimento alle competenze chiave europee e alle Indicazioni Nazionali 2012

CURRICOLO SCUOLA PRIMARIA E SECONDARIA DI PRIMO GRADO con riferimento alle competenze chiave europee e alle Indicazioni Nazionali 2012 CURRICOLO SCUOLA PRIMARIA E SECONDARIA DI PRIMO GRADO con riferimento alle competenze chiave europee e alle Indicazioni Nazionali 2012 Pagina 1 di 73 DISCIPLINA DI RIFERIMENTO: LINGUA ITALIANA DISCIPLINE

Dettagli

ISTITUTO COMPRENSIVO STATALE di BORGORICCO SUGGERIMENTI PER LA COMPILAZIONE DEL P.D.P. PER ALUNNI CON DISTURBI SPECIFICI DI APPRENDIMENTO

ISTITUTO COMPRENSIVO STATALE di BORGORICCO SUGGERIMENTI PER LA COMPILAZIONE DEL P.D.P. PER ALUNNI CON DISTURBI SPECIFICI DI APPRENDIMENTO SUGGERIMENTI PER LA COMPILAZIONE DEL P.D.P. PER ALUNNI CON DISTURBI SPECIFICI DI APPRENDIMENTO Il documento va compilato in forma digitale per poter ampliare gli spazi dello schema (ove necessario) e togliere

Dettagli

Progetto VALUTAZIONE DELLE PERFORMANCE

Progetto VALUTAZIONE DELLE PERFORMANCE Direzione Generale per le Politiche Attive e Passive del Lavoro Progetto VALUTAZIONE DELLE PERFORMANCE Controlli interni e Ciclo della performance alla luce dell art.3 del D.L. 174/2012 Position Paper

Dettagli

ITALIANO - ASCOLTARE E PARLARE

ITALIANO - ASCOLTARE E PARLARE O B I E T T I V I M I N I M I P E R L A S C U O L A P R I M A R I A E S E C O N D A R I A D I P R I M O G R A D O ITALIANO - ASCOLTARE E PARLARE Ascoltare e comprendere semplici consegne operative Comprendere

Dettagli

Informatica Applicata

Informatica Applicata Ing. Irina Trubitsyna Concetti Introduttivi Programma del corso Obiettivi: Il corso di illustra i principi fondamentali della programmazione con riferimento al linguaggio C. In particolare privilegia gli

Dettagli

Metodi e strategie per la redazione di una tesi di dottorato in diritto comparto

Metodi e strategie per la redazione di una tesi di dottorato in diritto comparto Metodi e strategie per la redazione di una tesi di dottorato in diritto comparto Elena Sorda Con le note del Prof. G. Rolla Premessa Questo breve scritto nasce dall idea, espressa dal Prof. Rolla, di individuare

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Metadati e Modellazione. standard P_META

Metadati e Modellazione. standard P_META Metadati e Modellazione Lo standard Parte I ing. Laurent Boch, ing. Roberto Del Pero Rai Centro Ricerche e Innovazione Tecnologica Torino 1. Introduzione 1.1 Scopo dell articolo Questo articolo prosegue

Dettagli

Scuola primaria: obiettivi al termine della classe 5

Scuola primaria: obiettivi al termine della classe 5 Competenza: partecipare e interagire con gli altri in diverse situazioni comunicative Scuola Infanzia : 3 anni Obiettivi di *Esprime e comunica agli altri emozioni, sentimenti, pensieri attraverso il linguaggio

Dettagli

Mario Polito IARE: Press - ROMA

Mario Polito IARE: Press - ROMA Mario Polito info@mariopolito.it www.mariopolito.it IMPARARE A STUD IARE: LE TECNICHE DI STUDIO Come sottolineare, prendere appunti, creare schemi e mappe, archiviare Pubblicato dagli Editori Riuniti University

Dettagli

L attività di ricerca e sviluppo nell organizzazione aziendale

L attività di ricerca e sviluppo nell organizzazione aziendale CAPITOLO PRIMO L attività di ricerca e sviluppo nell organizzazione aziendale SOMMARIO * : 1. Il ruolo dell innovazione tecnologica 2. L attività di ricerca e sviluppo: contenuti 3. L area funzionale della

Dettagli

Dall italiano alla logica proposizionale

Dall italiano alla logica proposizionale Rappresentare l italiano in LP Dall italiano alla logica proposizionale Sandro Zucchi 2009-10 In questa lezione, vediamo come fare uso del linguaggio LP per rappresentare frasi dell italiano. Questo ci

Dettagli

VALUTAZIONE DI RISULTATO E DI IMPATTO del progetto Diesis

VALUTAZIONE DI RISULTATO E DI IMPATTO del progetto Diesis Obiettivo Competitività Regionale e Occupazione Programma Operativo Nazionale Azioni di Sistema (FSE) 2007-2013 [IT052PO017] Obiettivo Convergenza Programma Operativo Nazionale Governance e Azioni di Sistema

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello della Web Application 5 3 Struttura della web Application 6 4 Casi di utilizzo della Web

Dettagli

RESPONS.In.City - Methodology

RESPONS.In.City - Methodology RESPONS.In.City - Methodology THE METHODOLOGY OF A RESPONSIBLE CITIZENSHIP PROMOTION Metodologia di Promozione della Cittadinanza come Responsabilità Condivisa 1 Premessa La possibilità di partecipare

Dettagli

Trieste, 25 ottobre 2006

Trieste, 25 ottobre 2006 Trieste, 25 ottobre 2006 PRESENTAZIONE DEL BILANCIO DI SOSTENIBILITÀ 2005 DEL GRUPPO GENERALI AGLI STUDENTI DELL UNIVERSITA DI TRIESTE INTERVENTO DELL AMMINISTRATORE DELEGATO GIOVANNI PERISSINOTTO Vorrei

Dettagli

Un percorso nell affido

Un percorso nell affido Un percorso nell affido Progetto nazionale di promozione dell affidamento familiare Ministero del Lavoro della Salute e delle Politiche Sociali Coordinamento Nazionale Servizi Affido SOMMARIO Il PROGETTO

Dettagli

CONFERENZA STATO-REGIONI SEDUTA DEL 15 GENNAIO 2004

CONFERENZA STATO-REGIONI SEDUTA DEL 15 GENNAIO 2004 Repertorio Atti n. 1901 del 15 gennaio 2004 CONFERENZA STATO-REGIONI SEDUTA DEL 15 GENNAIO 2004 Oggetto: Accordo tra il Ministro dell istruzione, dell università e della ricerca, il Ministro del lavoro

Dettagli

MA Lingua e Letteratura Italiane 120 crediti Programma di studi Avanzati: materia unica

MA Lingua e Letteratura Italiane 120 crediti Programma di studi Avanzati: materia unica Master of Arts MA Lingua e Letteratura Italiane 120 crediti Programma di studi Avanzati: materia unica 1. Descrizione generale del programma Il conseguimento del titolo di «Master of Arts in Lingue e Letterature:

Dettagli

Processi di business sovra-regionali relativi ai sistemi regionali di FSE. Versione 1.0 24 Giugno 2014

Processi di business sovra-regionali relativi ai sistemi regionali di FSE. Versione 1.0 24 Giugno 2014 Processi di business sovra-regionali relativi ai sistemi regionali di FSE Versione 1.0 24 Giugno 2014 1 Indice Indice... 2 Indice delle figure... 3 Indice delle tabelle... 4 Obiettivi del documento...

Dettagli

Ri...valutando: azione e ricerca per il miglioramento

Ri...valutando: azione e ricerca per il miglioramento Il team di ricerca Mario Ambel (Responsabile) Anna Curci Emiliano Grimaldi Annamaria Palmieri 1. Progetto finalizzato alla elaborazione e validazione di un modellostandard - adattabile con opportune attenzioni

Dettagli

L applicazione delle tassonomie XBRL alle società italiane

L applicazione delle tassonomie XBRL alle società italiane CIRCOLARE N. 12 DEL 20 APRILE 2015 DIRITTO SOCIETARIO MERCATO DEI CAPITALI E SOCIETA QUOTATE L applicazione delle tassonomie XBRL alle società italiane www.assonime.it ABSTRACT Nel corso del 2014 si è

Dettagli

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Se a e b sono numeri interi, si dice che a divide b, in simboli: a b, se e solo se esiste c Z tale che b = ac. Si può subito notare che:

Dettagli

MA Lingua e Letteratura Italiane 90 crediti Programma di studi Approfonditi: prima materia

MA Lingua e Letteratura Italiane 90 crediti Programma di studi Approfonditi: prima materia Master of Arts MA Lingua e Letteratura Italiane 90 crediti Programma di studi Approfonditi: prima materia 1. Descrizione generale del programma Il conseguimento del titolo di «Master of Arts in Lingue

Dettagli

CURRICOLO D ISTITUTO PER LO SVILUPPO DELLE COMPETENZE-SCUOLA SECONDARIA I GRADO

CURRICOLO D ISTITUTO PER LO SVILUPPO DELLE COMPETENZE-SCUOLA SECONDARIA I GRADO CURRICOLO D ISTITUTO PER LO SVILUPPO DELLE COMPETENZE-SCUOLA SECONDARIA I GRADO Competenze chiave del Parlamento europeo e del Consiglio d Europa per l apprendimento permanente (Racc. UE 18/12/2006). Competenze

Dettagli

Presentazioni multimediali relative al senso del tatto DIMENSIONI LIVELLO INIZIALE LIVELLO INTERMEDIO LIVELLO AVANZATO

Presentazioni multimediali relative al senso del tatto DIMENSIONI LIVELLO INIZIALE LIVELLO INTERMEDIO LIVELLO AVANZATO PERCORSO DI INSEGNAMENTO/APPRENDIMENTO TIPO DI UdP: SEMPLICE (monodisciplinare) ARTICOLATO (pluridisciplinare) Progetto didattico N. 1 Titolo : Let s investigate the world with our touch! Durata: Annuale

Dettagli

LE LINGUE NELL UNIONE EUROPEA IL MULTILINGUISMO

LE LINGUE NELL UNIONE EUROPEA IL MULTILINGUISMO LE LINGUE NELL UNIONE EUROPEA IL MULTILINGUISMO Perché una questione linguistica per l Unione europea? Il multilinguismo è oggi inteso come la capacità di società, istituzioni, gruppi e cittadini di relazionarsi

Dettagli

Abstract Data Type (ADT)

Abstract Data Type (ADT) Abstract Data Type Pag. 1/10 Abstract Data Type (ADT) Iniziamo la nostra trattazione presentando una nozione che ci accompagnerà lungo l intero corso di Laboratorio Algoritmi e Strutture Dati: il Tipo

Dettagli

I CHIARIMENTI DELL AGENZIA DELLE ENTRATE SUL REVERSE CHARGE

I CHIARIMENTI DELL AGENZIA DELLE ENTRATE SUL REVERSE CHARGE I CHIARIMENTI DELL AGENZIA DELLE ENTRATE SUL REVERSE CHARGE Circolare del 31 Marzo 2015 ABSTRACT Si fa seguito alla circolare FNC del 31 gennaio 2015 con la quale si sono offerte delle prime indicazioni

Dettagli

INTRODUZIONE ALLO STUDIO DEL LINGUAGGIO

INTRODUZIONE ALLO STUDIO DEL LINGUAGGIO INTRODUZIONE ALLO STUDIO DEL LINGUAGGIO ANALISI GRAMMATICALE E ANALISI LOGICA Analisi grammaticale: procedimento che ha la funzione di associare ad ogni parola presente all'interno di una frase la propria

Dettagli

Viva le vacanze! Leitfaden

Viva le vacanze! Leitfaden Viva le vacanze! Viva le vacanze! è un corso ideato per un pubblico adulto, senza preconoscenze della lingua italiana ed interessato ad acquisire una competenza linguistica e culturale di base, soprattutto

Dettagli

LICEO STATALE Carlo Montanari

LICEO STATALE Carlo Montanari Classe 1 Simple del verbo to be in tutte le sue forme Il Present Simple del verbo to have (got) in tutte le sue forme Gli aggettivi e pronomi possessivi Gli articoli a/an, the Il caso possessivo dei sostantivi

Dettagli

Dall italiano al linguaggio della logica proposizionale

Dall italiano al linguaggio della logica proposizionale Dall italiano al linguaggio della logica proposizionale Dall italiano al linguaggio della logica proposizionale Enunciati atomici e congiunzione In questa lezione e nelle successive, vedremo come fare

Dettagli

nuovo t...a INVALSI di Italiano Guida dell insegnante terza Classe edizione aggiornata Quaderno operativo per superare con successo la prova

nuovo t...a INVALSI di Italiano Guida dell insegnante terza Classe edizione aggiornata Quaderno operativo per superare con successo la prova Maria Luisa Maggi lessandra Valenti nuovo t...a te in s 3 lasse terza Scuola Secondaria di primo grado Quaderno operativo per superare con successo la prova INVLSI di Italiano Guida dell insegnante edizione

Dettagli

Appunti di Logica Matematica

Appunti di Logica Matematica Appunti di Logica Matematica Francesco Bottacin 1 Logica Proposizionale Una proposizione è un affermazione che esprime un valore di verità, cioè una affermazione che è VERA oppure FALSA. Ad esempio: 5

Dettagli

- transitivi Gianni ha colpito Pietro Ha mangiato (la pasta)

- transitivi Gianni ha colpito Pietro Ha mangiato (la pasta) Teoria tematica Ogni predicato ha una sua struttura argomentale, richiede cioè un certo numero di argomenti che indicano i partecipanti minimalmente coinvolti nell attività/stato espressi dal verbo stesso.

Dettagli

(anno accademico 2008-09)

(anno accademico 2008-09) Calcolo relazionale Prof Alberto Belussi Prof. Alberto Belussi (anno accademico 2008-09) Calcolo relazionale E un linguaggio di interrogazione o e dichiarativo: at specifica le proprietà del risultato

Dettagli

Risultati delle prove di ingresso delle classi prime e raffigurazione del profilo medio delle conoscenze e abilità degli allievi.

Risultati delle prove di ingresso delle classi prime e raffigurazione del profilo medio delle conoscenze e abilità degli allievi. Risultati delle prove di ingresso delle classi prime e raffigurazione del profilo medio delle abilità degli allievi. I risultati sono stati raccolti in un foglio elettronico e visualizzati con grafici,

Dettagli

Linguistica generale. Lessico-Grammatica dell italiano: le costruzioni intransitive

Linguistica generale. Lessico-Grammatica dell italiano: le costruzioni intransitive 1 UNIVERSITÀ DEGLI STUDI DI SALERNO FACOLTÀ DI LETTERE E FILOSOFIA Dottorato di Ricerca in Scienze della Comunicazione TESI DI DOTTORATO IN Linguistica generale Lessico-Grammatica dell italiano: le costruzioni

Dettagli

Percorsi di matematica per il ripasso e il recupero

Percorsi di matematica per il ripasso e il recupero Giacomo Pagina Giovanna Patri Percorsi di matematica per il ripasso e il recupero 1 per la Scuola secondaria di secondo grado UNITÀ CMPIONE Edizioni del Quadrifoglio à t i n U 1 Insiemi La teoria degli

Dettagli

Allegato A. Il profilo culturale, educativo e professionale dei Licei

Allegato A. Il profilo culturale, educativo e professionale dei Licei Allegato A Il profilo culturale, educativo e professionale dei Licei I percorsi liceali forniscono allo studente gli strumenti culturali e metodologici per una comprensione approfondita della realtà, affinché

Dettagli

VALUTAZIONE DINAMICA DEL POTENZIALE DI APPRENDIMENTO IN UN BAMBINO CON DISTURBO DELLO SPETTRO AUTISTICO

VALUTAZIONE DINAMICA DEL POTENZIALE DI APPRENDIMENTO IN UN BAMBINO CON DISTURBO DELLO SPETTRO AUTISTICO Fondamenti teorici Vygotskji Zona di Sviluppo Prossimale Feuerstein VALUTAZIONE DINAMICA DEL POTENZIALE DI APPRENDIMENTO IN UN BAMBINO CON DISTURBO DELLO SPETTRO AUTISTICO Esperienza di Apprendimento Mediato

Dettagli

Verifica e valutazione di apprendenti analfabeti

Verifica e valutazione di apprendenti analfabeti Progetto FEI Rete e Cittadinanza 2014-2015 Verifica e valutazione di apprendenti analfabeti Luana Cosenza, Università per Stranieri di Siena Marzo 2015 Piano di lavoro Principi della verifica e della valutazione

Dettagli

capitolo 6 IL QUESTIONARIO PER LA VALUTV ALUTAZIONEAZIONE DEI CONTENUTI

capitolo 6 IL QUESTIONARIO PER LA VALUTV ALUTAZIONEAZIONE DEI CONTENUTI capitolo 6 IL QUESTIONARIO PER LA VALUTV ALUTAZIONEAZIONE DEI CONTENUTI 6.1 ISTRUZIONI PER IL VALUTATORE Il processo di valutazione si articola in quattro fasi. Il Valutatore deve: 1 leggere il questionario;

Dettagli

Semantica operazionale dei linguaggi di Programmazione

Semantica operazionale dei linguaggi di Programmazione Semantica operazionale dei linguaggi di Programmazione Oggetti sintattici e oggetti semantici Rosario Culmone, Luca Tesei Lucidi tratti dalla dispensa Elementi di Semantica Operazionale R. Barbuti, P.

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

LA PROGETTAZIONE Come fare un progetto. LA PROGETTAZIONE Come fare un progetto

LA PROGETTAZIONE Come fare un progetto. LA PROGETTAZIONE Come fare un progetto LA PROGETTAZIONE 1 LA PROGETTAZIONE Oggi il raggiungimento di un obiettivo passa per la predisposizione di un progetto. Dal mercato al terzo settore passando per lo Stato: aziende, imprese, organizzazioni,

Dettagli

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco ANALISI DI SITUAZIONE - LIVELLO COGNITIVO La classe ha dimostrato fin dal primo momento grande attenzione e interesse verso gli

Dettagli

LINEE GUIDA PER L AUDIODESCRIZIONE Cinema e Tv

LINEE GUIDA PER L AUDIODESCRIZIONE Cinema e Tv LINEE GUIDA PER L AUDIODESCRIZIONE Cinema e Tv di Blindsight Project (Onlus per Disabili Sensoriali www.blindsight.eu) INTRODUZIONE Le Linee Guida per l audiodescrizione filmica di Blindsight Project,

Dettagli

WORD (livello avanzato): Struttura di un Documento Complesso. Struttura di un Documento Complesso

WORD (livello avanzato): Struttura di un Documento Complesso. Struttura di un Documento Complesso Parte 5 Adv WORD (livello avanzato): Struttura di un Documento Complesso 1 di 30 Struttura di un Documento Complesso La realizzazione di un libro, di un documento tecnico o scientifico complesso, presenta

Dettagli

Libro Bianco sul Trattamento Automatico della Lingua. Nuova edizione 2009. Pubblicazione della Fondazione Ugo Bordoni

Libro Bianco sul Trattamento Automatico della Lingua. Nuova edizione 2009. Pubblicazione della Fondazione Ugo Bordoni Libro Bianco sul Trattamento Automatico della Lingua Nuova edizione 2009 Pubblicazione della Fondazione Ugo Bordoni Libro Bianco sul Trattamento Automatico della Lingua Nuova edizione 2009 Coordinatori

Dettagli

Disgrafia-Disortografia, un inquadramento diagnostico

Disgrafia-Disortografia, un inquadramento diagnostico IRCCS Burlo Garofolo U.O. Neuropsichiatria Infantile Trieste Disgrafia-Disortografia, un inquadramento diagnostico Dott.ssa Isabella Lonciari Bolzano, 28 Febbraio 2008 Disortografia Aspetti linguistici

Dettagli

Neomobile incentra l infrastruttura IT su Microsoft ALM, arrivando a 40 nuovi rilasci a settimana

Neomobile incentra l infrastruttura IT su Microsoft ALM, arrivando a 40 nuovi rilasci a settimana Storie di successo Microsoft per le Imprese Scenario: Software e Development Settore: Servizi In collaborazione con Neomobile incentra l infrastruttura IT su Microsoft ALM, arrivando a 40 nuovi rilasci

Dettagli

Definizione e struttura della comunicazione

Definizione e struttura della comunicazione Definizione e struttura della comunicazione Sono state date molteplici definizioni della comunicazione; la più semplice e comprensiva è forse questa: passaggio di un'informazione da un emittente ad un

Dettagli

Definizione del procedimento penale nei casi di particolare tenuità del fatto

Definizione del procedimento penale nei casi di particolare tenuità del fatto Definizione del procedimento penale nei casi di particolare tenuità del fatto Nel lento e accidentato percorso verso un diritto penale minimo, l opportunità di introdurre anche nel procedimento ordinario,

Dettagli

IL GIUDIZIO SUL BILANCIO DEL REVISORE LEGALE

IL GIUDIZIO SUL BILANCIO DEL REVISORE LEGALE CAPITOLO 19 IL GIUDIZIO SUL BILANCIO DEL REVISORE LEGALE di Piero Pisoni, Fabrizio Bava, Donatella Busso e Alain Devalle 1. PREMESSA La relazione del revisore legale deve esprimere il giudizio sull attendibilità

Dettagli

La ricerca non sperimentale

La ricerca non sperimentale La ricerca non sperimentale Definizione Ricerca osservazionale: : 1. naturalistica Ricerca osservazionale: : 2. osservatori partecipanti Ricerca d archiviod Casi singoli Sviluppo di teorie e verifica empirica

Dettagli

ATTUAZIONE DEL PROGETTO E IL MANAGEMENT: alcune definizioni e indicazioni generali

ATTUAZIONE DEL PROGETTO E IL MANAGEMENT: alcune definizioni e indicazioni generali ATTUAZIONE DEL PROGETTO E IL MANAGEMENT: alcune definizioni e indicazioni generali Cos è un progetto? Un iniziativa temporanea intrapresa per creare un prodotto o un servizio univoco (PMI - Project Management

Dettagli

Circolare n. 64 del 15 gennaio 2014

Circolare n. 64 del 15 gennaio 2014 Circolare n. 64 del 15 gennaio 2014 Ordinativo informatico locale - Revisione e normalizzazione del protocollo sulle regole tecniche ed obbligatorietà dell utilizzo nei servizi di tesoreria PREMESSA L

Dettagli

Operazioni, attività e passività in valuta estera

Operazioni, attività e passività in valuta estera OIC ORGANISMO ITALIANO DI CONTABILITÀ PRINCIPI CONTABILI Operazioni, attività e passività in valuta estera Agosto 2014 Copyright OIC PRESENTAZIONE L Organismo Italiano di Contabilità (OIC) si è costituito,

Dettagli

MAURIZIO ABBATI STRUMENTI UTILI PER CAMBIARE E MIGLIORARE. HOUSE ORGAN AZIENDALE Guida alla creazione di un magazine interno

MAURIZIO ABBATI STRUMENTI UTILI PER CAMBIARE E MIGLIORARE. HOUSE ORGAN AZIENDALE Guida alla creazione di un magazine interno MAURIZIO ABBATI STRUMENTI UTILI PER CAMBIARE E MIGLIORARE HOUSE ORGAN AZIENDALE Guida alla creazione di un magazine interno Indice 01. 02. 03. I tipi di house organ Dall idea al progetto I contenuti A

Dettagli

Enterprise Content Management. Terminologia. KM, ECM e BPM per creare valore nell impresa. Giovanni Marrè Amm. Del., it Consult

Enterprise Content Management. Terminologia. KM, ECM e BPM per creare valore nell impresa. Giovanni Marrè Amm. Del., it Consult KM, ECM e BPM per creare valore nell impresa Giovanni Marrè Amm. Del., it Consult Terminologia Ci sono alcuni termini che, a vario titolo, hanno a che fare col tema dell intervento KM ECM BPM E20 Enterprise

Dettagli

UML Component and Deployment diagram

UML Component and Deployment diagram UML Component and Deployment diagram Ing. Orazio Tomarchio Orazio.Tomarchio@diit.unict.it Dipartimento di Ingegneria Informatica e delle Telecomunicazioni Università di Catania I diagrammi UML Classificazione

Dettagli

La ricerca empirica: una definizione

La ricerca empirica: una definizione Lucido 35/51 La ricerca empirica: una definizione La ricerca empirica si distingue da altri tipi di ricerca per tre aspetti (Ricolfi, 23): 1. produce asserti o stabilisce nessi tra asserti ipotesi teorie,

Dettagli

Le funzionalità di un DBMS

Le funzionalità di un DBMS Le funzionalità di un DBMS Sistemi Informativi L-A Home Page del corso: http://www-db.deis.unibo.it/courses/sil-a/ Versione elettronica: DBMS.pdf Sistemi Informativi L-A DBMS: principali funzionalità Le

Dettagli

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN)

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) System Overview di Mattia Bargellini 1 CAPITOLO 1 1.1 Introduzione Il seguente progetto intende estendere

Dettagli

Il quadro europeo delle qualifiche (EQF)

Il quadro europeo delle qualifiche (EQF) Il quadro europeo delle qualifiche (EQF) di A. Sveva Balduini ISFOL Agenzia Nazionale LLP Nell aprile del 2008, al termine di un lungo lavoro preparatorio e dopo un ampio processo di consultazione che

Dettagli

SIASFi: il sistema ed il suo sviluppo

SIASFi: il sistema ed il suo sviluppo SIASFI: IL SISTEMA ED IL SUO SVILUPPO 187 SIASFi: il sistema ed il suo sviluppo Antonio Ronca Il progetto SIASFi nasce dall esperienza maturata da parte dell Archivio di Stato di Firenze nella gestione

Dettagli

IT FINANCIAL MANAGEMENT

IT FINANCIAL MANAGEMENT IT FINANCIAL MANAGEMENT L IT Financial Management è una disciplina per la pianificazione e il controllo economico-finanziario, di carattere sia strategico sia operativo, basata su un ampio insieme di metodologie

Dettagli

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione Processi (di sviluppo del) software Fase di Analisi dei Requisiti Un processo software descrive le attività (o task) necessarie allo sviluppo di un prodotto software e come queste attività sono collegate

Dettagli

Linee guida, note informative e modulistica per la stesura del PDP. Piano Didattico Personalizzato per alunni con Diagnosi Specialistica di DSA

Linee guida, note informative e modulistica per la stesura del PDP. Piano Didattico Personalizzato per alunni con Diagnosi Specialistica di DSA Linee guida, note informative e modulistica per la stesura del PDP Piano Didattico Personalizzato per alunni con Diagnosi Specialistica di DSA Indicazioni ai fini della stesura del PDP 1. Informazioni

Dettagli

ALGEBRA I: CARDINALITÀ DI INSIEMI

ALGEBRA I: CARDINALITÀ DI INSIEMI ALGEBRA I: CARDINALITÀ DI INSIEMI 1. CONFRONTO DI CARDINALITÀ E chiaro a tutti che esistono insiemi finiti cioè con un numero finito di elementi) ed insiemi infiniti. E anche chiaro che ogni insieme infinito

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Quadro Comune Europeo di Riferimento per le Lingue Apprendimento-Insegnamento-Valutazione ABSTRACT

Quadro Comune Europeo di Riferimento per le Lingue Apprendimento-Insegnamento-Valutazione ABSTRACT Quadro Comune Europeo di Riferimento per le Lingue Apprendimento-Insegnamento-Valutazione ABSTRACT A cura di Linda Rossi Holden Council of Europe 2001 1 IL PLURILINGUISMO Il plurilinguismo non va confuso

Dettagli

Si può salvare l analisi logica? di M. G. Lo Duca

Si può salvare l analisi logica? di M. G. Lo Duca Si può salvare l analisi logica? di M. G. Lo Duca [contributo già pubblicato in La crusca per voi, n. 33, Ottobre 2006, pp. 4-8] Si è tenuto nei mesi di marzo/aprile del 2006 un corso di aggiornamento

Dettagli

LA COMUNICAZIONE NON VERBALE IN ETA' PRESCOLARE.

LA COMUNICAZIONE NON VERBALE IN ETA' PRESCOLARE. Dipartimento di studi umanistici Corso di laurea in Scienze della Formazione Primaria Modulo di Elementi di Psicometria applicata alla didattica IV infanzia A.A. 2013/2014 LA COMUNICAZIONE NON VERBALE

Dettagli

Università di Venezia Corso di Laurea in Informatica. Marco Fusaro KPMG S.p.A.

Università di Venezia Corso di Laurea in Informatica. Marco Fusaro KPMG S.p.A. Università di Venezia Corso di Laurea in Informatica Laboratorio di Informatica Applicata Introduzione all IT Governance Lezione 5 Marco Fusaro KPMG S.p.A. 1 CobiT: strumento per la comprensione di una

Dettagli

Università degli Studi del Sannio NUCLEO DI VALUTAZIONE RIUNIONE NUCLEO DI VALUTAZIONE

Università degli Studi del Sannio NUCLEO DI VALUTAZIONE RIUNIONE NUCLEO DI VALUTAZIONE Verbale n. 10 del 5 Novembre 2014 RIUNIONE Il giorno 5 Novembre 2014, alle ore 10.40, il Nucleo di Valutazione dell Università degli Studi del Sannio, si è riunito per discutere sugli argomenti iscritti

Dettagli

SIS Piemonte. Parlare del futuro, fare delle previsioni. Specializzata: Paola Barale. Supervisore di tirocinio: Anna Maria Crimi. a.a.

SIS Piemonte. Parlare del futuro, fare delle previsioni. Specializzata: Paola Barale. Supervisore di tirocinio: Anna Maria Crimi. a.a. SIS Piemonte Parlare del futuro, fare delle previsioni Specializzata: Paola Barale Supervisore di tirocinio: Anna Maria Crimi a.a. 2003-2004 1 1. Contesto Liceo linguistico, secondo anno 2. Livello A2

Dettagli

Supervisori che imparano dagli studenti

Supervisori che imparano dagli studenti Supervisori che imparano dagli studenti di Angela Rosignoli Questa relazione tratta il tema della supervisione, la supervisione offerta dagli assistenti sociali agli studenti che frequentano i corsi di

Dettagli

I RAPPORTI TRA DIRIGENTE SCOLASTICO E DIRETTORE DEI SERVIZI GENERALI ED

I RAPPORTI TRA DIRIGENTE SCOLASTICO E DIRETTORE DEI SERVIZI GENERALI ED I RAPPORTI TRA DIRIGENTE SCOLASTICO E DIRETTORE DEI SERVIZI GENERALI ED AMMINISTRATIVI: QUALE CONVIVENZA PER LA MIGLIORE FUNZIONALITÀ DELL ISTITUZIONE SCOLASTICA 1 A cura di Maria Michela Settineri IL

Dettagli

Cos è il BULATS. Quali sono i livelli del BULATS?

Cos è il BULATS. Quali sono i livelli del BULATS? Cos è il BULATS Il Business Language Testing Service (BULATS) è ideato per valutare il livello delle competenze linguistiche dei candidati che hanno necessità di utilizzare un lingua straniera (Inglese,

Dettagli

Dipartimento del Tesoro

Dipartimento del Tesoro Dipartimento del Tesoro POWER POINT AVANZATO Indice 1 PROGETTAZIONE DELL ASPETTO...3 1.2 VISUALIZZARE GLI SCHEMI...4 1.3 CONTROLLARE L ASPETTO DELLE DIAPOSITIVE CON GLI SCHEMI...5 1.4 SALVARE UN MODELLO...6

Dettagli

Copyright Università degli Studi di Torino, Progetto Atlante delle Professioni 2009 IT PROCESS EXPERT

Copyright Università degli Studi di Torino, Progetto Atlante delle Professioni 2009 IT PROCESS EXPERT IT PROCESS EXPERT 1. CARTA D IDENTITÀ... 2 2. CHE COSA FA... 3 3. DOVE LAVORA... 4 4. CONDIZIONI DI LAVORO... 5 5. COMPETENZE... 6 Quali competenze sono necessarie... 6 Conoscenze... 8 Abilità... 9 Comportamenti

Dettagli