L Ontologia per immagini dell azione IMAGACT Massimo Moneglia & Gloria Gagliardi (LABLITA UNIFI) IMAGACT MODELACT Day ISTC (Institute for Cognitive Science and Technology CNR) Roma 1 Febbraio 2013
ATTACCARE Variazione Primaria (verticale) appendere EN: to hang Fabio attacca il cappotto all attaccapanni EN: to sew applicare La sarta attacca i bottoni al vestito accostare, addossare EN: to put incollare EN: to attach, to stick congiungere EN: to attach, to connect, to join aggrappare EN: to hang collegare, connettere EN: to attach, to connect, to join Fabio e Sara attaccano il tavolo al muro Sara attacca il post it Sara attacca i moschettoni Sara si attacca alla sbarra Sara attacca la stampante al PC
La necessità di una Ontologia dell Azione Nel linguaggio ordinario i verbi di azione più frequenti sono generali Si estendono su Azioni che appartengono a tipi ontologici diversi Le lingue categorizzano l azione in modo diverso Il riferimento alle azioni della vita quotidiana richiede disambiguazione
Competenza semantica e produttività La capacità di estendere un predicato ad azioni qualitativamente diverse esprime la Competenza semantica di una lingua Capacità di asserire o rifiutare un predicato di un insieme comunque ampio di estensioni (produttività) La competenza semantica si fissa nelle prime fasi dell acquisizione del linguaggio
Variazione lineare e produttività La ragazza attacca il manifesto al muro Guido attacca un foglio alla schiena [del compagno] Laura attacca i brillantini sul cellulare Il bambino attacca le figurine Il bambino attacca il pongo sul foglio Mario attacca il francobollo La maestra attacca i disegni al muro La mamma attacca il fiocco alla porta Laura attacca le foto sul diario Ida attacca la carta da parati Fabio attacca il cappotto all'attaccapanni Marco attacca la chiave al muro L'insegnante attacca il peso al dinamomentro Luisa attacca la calza al camino Il contadino attacca il fastello al gancio Maria attacca l'asciugamano al chiodo il macellaio attacca il maiale al gancio Cristina attacca il pupazzo alla catena
Verbi di Attività vs Verbi Generali To glue / incollare Mario incolla il manifesto al muro Il falegname incolla la gamba al tavolo L idraulico incolla il rivestimento sul tubo Variazione estendibile sulla base di un Prototipo vs. Famiglie di applicazioni
Variazione marcata (non produttiva) L'ubriaco si attacca alla bottiglia Churchill si attacca a qualunque pretesto Lo storico attacca Napoleone Fabio attacca a parlare Mario si attacca alla preghiera I soldati attaccano la battaglia Maria attacca il telefono in faccia a Marco il relatore attacca il concetto al suo argomento Cossiga attacca la magistratura Luca si attacca al fratello nelle difficoltà Mario si attacca alla corrente il cane è attaccato al padrone Mario attacca la malattia alla moglie Lucia attacca a leggere un libro
IMAGACT e l identificazione delle modalità cross linguistiche di categorizzazione dell azione Identificare la variazione primaria dei verbi di azione (italiano e inglese) Rapportare la variazione alla stessa ontologia Strategia Corpus Based Distinzione tra identificazione e definizione dei concetti azionali
Induzione della variazione dei verbi di azione generali da corpora di parlato spontaneo Contengono il riferimento alle azioni più rilevanti nella vita quotidiana e la loro codifica lessicale BNC Spoken Collezione di corpora italiani (C ORAL ROM; LABLITA; LIP; CLIPS) Circa 50 000 occurrenze di verbi di azione considerate
Focus sul lessico ad alta frequenza 600 verbi di azione per lingua Il lessico azionale di base e ad alta frequenza Prominente nell acquisizione del linguaggio Il centro della Competenza semantica
Dati sul corpus Italiano Corpus di riferimento e identificazione del riferimento all azione nella variazione del parlato Appropriatezza del Data set Induzione delle proprietà variazionali
Source of the Italian Corpus Samples Words LABLITA Reference Corpus of Spontaneous Spoken Italian Corpora of Early Acquisition of Italian 366 746.206 276 260.595 Corpus CINEMA 189 70.414 Total 831 1.077.215 LIP 469 491.382 CLIPS selection 212 63.167 TOTAL 1.507 1.631.864
Diaphasic Variation of Samples Samples Words Free turn taking Monologues 26 41475 Family/Private Context Dialogues/Multi dialogues 148 274369 Public Context Dialogues/Multi dialogues 76 124602 total 250 440696 Family/Private Context Dialogues/Multi dialogues 31 66583 Regulated turn taking Public Context Monologues 107 179155 Dialogues/Multi dialogues 75 186103 total 213 431841 Broadcasting 322 306483 Telephone 257 122085 Cinema 189 70414 Talking to Children 276 260595 TOTAL 1507 1631864
Corpus internal Balance Formal (Regulated contexts + Broadcasting ) 535 samples for 738 424 words Highly Interactive Informal contexts (non regulated contexts and Conversations with children) 526 samples for 745 947 words
Lessico verbale 3.556 verbi 677 verbi riferiti all azione analizzati 53.223 occurrenze su 270.713 occorrenze verbali 1 su 5 in contesto non comprensibile 42.570 occorrenze interpretabili
Lessico verbale d Azione in italiano 109 Verbi generali (variazione su più di 3 tipi) Alta frequenza 25.235 occurrenze 1.086 campioni 142 verbi variano su due tipi 426 di attività 13.852 occorrenze (bassa frequenza),
Distribuzione di Primario e Marcato nei verbi Generali e di Attività Total Primary % Primary % Primary on total Marked % Marked % Marked on total General (>3) 21678 12134 56,0% 47,2% 9544 44,0% 56,7% Two types 6103 3835 62,8% 14,9% 2268 37,2% 13,5% Activities 13852 9740 70,3% 37,9% 4112 29,7% 24,4% Unclassified 937 15 1,6% 0,1% 922 98,4% 5,5% Total 42570 25724 60,4% 100,0% 16846 39,6% 100,0%
Distribuzione dei verbi di Azione (Italian corpus) Subcorpus Samples Words Verbs Verbs / Words Action Verbs % on verbs % on words CINEMA 189 66910 14948 22,34% 4648 31,09% 6,95% ACQ 276 249195 63945 25,66% 13279 20,77% 5,33% NR_PRV_MN 27 42527 9392 22,08% 1592 16,95% 3,74% NR_PRV_DL 148 258277 58859 22,79% 8824 14,99% 3,42% TELEPHONE 257 114728 25168 21,94% 2956 11,75% 2,58% NR_PUB_DL 76 118979 24602 20,68% 3330 13,54% 2,80% REG_PUB_DL 75 178289 33310 18,68% 4834 14,51% 2,71% BRODCASTING 322 298827 52854 17,69% 7763 14,69% 2,60% REG_PRV_DL 31 63595 12012 18,89% 1616 13,45% 2,54% REG_PUB_MN 106 172495 27640 16,02% 4372 15,82% 2,53% Total 1563822 322730 20,64% 53214 16,49% 3,40%
Distribuzione della variazione primaria nei campi del corpus design del corpus Italiano Subcorpus Occurrences of Action verbs Primary Variation % Primary Variation CINEMA 4648 3473 74,72% Talking to Children 13279 9767 73,55% NR_PRV_MN 1592 810 50,88% NR_PRV_DL 8824 4229 47,93% TEL 2956 1105 37,38% NR_PUB_DL 3330 1125 33,78% REG_PUB_DL 4834 1416 29,29% BRODCASTING 7763 2331 30,03% REG_PRV_DL 1616 486 30,07% REG_PUB_MN 4372 973 22,26% Total 53214 25715 48,32%
Distribuzione dei Verbi generali di azione ad alta frequenza 10 verbi ad altissima frequenza Variazione su un maggior numero di tipi 13.616 occorrenze in 1.508 diversi samples 5.871 (43,1%) sono Primary Distribuzione preferenziale nell input al bambino nell acquisizione del linguaggio!
Verb N of Types Samples with Occurrences Samples with Primary Occurrences Maximum types per sample Average types per sample Prendere 15 749 395 4 1,31 Mettere 13 790 457 5 1,66 Portare 9 539 307 4 1,32 Passare 8 438 116 2 1,09 Lasciare 7 459 141 2 1,16 Tenere 8 407 81 3 1,1 Aprire 7 335 197 5 1,21 Giocare 4 259 219 4 1,13 Girare 11 233 151 4 1,29
mettere 13 passare 8 prendere 15 ACQ 12 ACQ 5 ACQ 13 CINEMA 6 CINEMA 4 CINEMA 8 NR_PRV_DL 12 NR_PRV_DL 7 NR_PRV_DL 14 NR_PRV_MN 7 NR_PRV_MN 3 NR_PRV_MN 3 REG_PRV_DL 7 REG_PRV_DL 1 REG_PRV_DL 2 BRODCASTING 10 BRODCASTING 7 PRV_REG_MN 2 NR_PUB_DL 10 NR_PUB_DL 3 BRODCASTING 8 REG_PUB_DL 7 REG_PUB_DL 4 PUB_NR DL 9 REG_PUB_MN 8 REG_PUB_MN 2 REG_PUB_DL 6 TEL 5 TEL 7 REG_PUB_MN 3
girare 11 ACQ 11 lasciare 7 ACQ 7 portare 9 ACQ 8 CINEMA 7 CINEMA 4 CINEMA 8 NR_PRV_DL 6 NR_PRV_DL 6 NR_PRV_DL 9 NR_PRV_MN 3 NR_PRV_MN 3 NR_PRV_MN 8 REG_PRV_DL 3 REG_PRV_DL 2 REG_PRV_DL 5 BRODCASTING 6 BRODCASTIN G 5 PRV_REG_MN 2 NR_PUB_DL 3 NR_PUB_DL 4 BRODCASTING 8 REG_PUB_DL 5 REG_PUB_DL 6 NR_PUB_DL 7 REG_PUB_MN 2 REG_PUB_MN 3 REG_PUB_DL 7 TEL 2 TEL 4 REG_PUB_MN 7
aprire 7 ACQ 7 giocare 4 ACQ 4 tenere 8 ACQ 5 CINEMA 4 CINEMA 4 CINEMA 5 NR_PRV_DL 5 NR_PRV_DL 3 NR_PRV_DL 4 NR_PRV_MN 2 NR_PRV_MN 1 NR_PRV_MN 2 REG_PRV_DL 3 REG_PRV_DL 4 REG_PRV_DL 2 BRODCASTING 4 BRODCASTING 3 BRODCASTIN 1 G NR_PUB_DL 5 NR_PUB_DL 1 REG_PUB_DL 3 REG_PUB_DL 3 REG_PUB_DL 4 REG_PUB_MN 3 REG_PUB_MN 4 REG_PUB_MN 2 REG_PUB_DL 3 TEL 3 TEL 2 REG_PUB_MN 3
Dati derivati Identificazione cross linguistica dei tipi nell ontologia Identificazione dei synset di Wordnet corrispondenti Incidenza del riferimento a ciascun tipo nell ambiente Incidenza di ciascun tipo nella variazione dei verbi generali Variazione interna del tipo in frasi con riempimento argomentale diverso Variazione di struttura tematica e aspettuale del verbo nei tipi
Ontologia per immagini Variazione cross linguistica sulla stessa serie di prototipi Differenziale tra verbi generali Equivalenza locale (cross linguistica e intra linguistica) Variazione pragmatica e variazione semantica