API Progettazione e realizzazione di un software di gestione del corpus AVIP-API

Documenti analoghi

Progettaz. e sviluppo Data Base

Basi di Dati Relazionali

Progettazione di Basi di Dati

Progettazione concettuale

Organizzazione degli archivi

EXPLOit Content Management Data Base per documenti SGML/XML

Il database management system Access

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica. Ingegneria del Software. La fase di Analisi

Database. Si ringrazia Marco Bertini per le slides

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

Database 1 biblioteca universitaria. Testo del quesito

Progettazione di un Database

Volumi di riferimento

Automazione Industriale (scheduling+mms) scheduling+mms.

Capitolo 13. Interrogare una base di dati

Portale tirocini. Manuale utente Per la gestione del Progetto Formativo

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Database. Appunti di Amaranto Oronzo e Giancane Diego Lezione dell Ing. Lucia Vaira 24/04/2014

Registratori di Cassa

DATABASE RELAZIONALI

I database relazionali (Access)

Strumenti di modellazione. Gabriella Trucco

Progettazione di una base di dati Ufficio della Motorizzazione

Manuale Utente QueryGenerator

1. BASI DI DATI: GENERALITÀ

ING SW. Progetto di Ingegneria del Software. e-travel. Requisiti Utente. Specifiche Funzionali del Sistema

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

TEORIA sulle BASI DI DATI

Gestione Iter Manuale Sistemista. Gestione Iter Manuale Sistemista

I Sistemi Informativi

Traccia di soluzione dell esercizio del 25/1/2005

ARCHIVI E DATABASE (prof. Ivaldi Giuliano)

La Progettazione Concettuale

Generazione Automatica di Asserzioni da Modelli di Specifica

MODULO 5 Appunti ACCESS - Basi di dati

ISTITUTO TECNICO ECONOMICO MOSSOTTI

CHIUSURE di MAGAZZINO di FINE ANNO

Linguaggi di programmazione

Creare diagrammi di Gantt con Visio 2003

Introduzione al data base

Esercizio data base "Biblioteca"

La Metodologia adottata nel Corso

Lezione V. Aula Multimediale - sabato 29/03/2008

Esercizio sui data base "Gestione conti correnti"

Manuale Utente Albo Pretorio GA

In questo manuale sono indicate le procedure per utilizzare correttamente la gestione delle offerte dei fornitori.

SISTEMI INFORMATIVI AVANZATI -2010/ Introduzione

Object Oriented Programming

Concetti di base di ingegneria del software

Airone Gestione Rifiuti Funzioni di Esportazione e Importazione

Appunti sulla Macchina di Turing. Macchina di Turing

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007

Le Basi di Dati. Le Basi di Dati

La rubrica degli indirizzi di posta elettronica associati al dominio scuole.piemonte.it

Raggruppamenti Conti Movimenti

Introduzione alla teoria dei database relazionali. Come progettare un database

I casi d uso corrispondono ai compiti che l attore (che può essere una persona fisica e non) può svolgere.

Progettazione della componente applicativa

Facoltà di Farmacia - Corso di Informatica

Gestione Turni. Introduzione

Istituto Centrale per il Catalogo Unico delle Biblioteche Italiane. e per le Informazioni bibliografiche. Manuali utente per SBN WEB. Versione 1.

Riepilogo delle modifiche di PA-DSS dalla versione 2.0 alla 3.0

In legenda sono riportate le fasi R, P, C/T e I/SA come specificato nella norma ISO/IEC

Soluzione dell esercizio del 2 Febbraio 2004

INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO

Access. P a r t e p r i m a

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel

Guida all uso di Java Diagrammi ER

database: modello entityrelationship

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

SOMMARIO Gruppo 4 - All right reserved 1

MODELLO RELAZIONALE. Introduzione

SOFTWARE A SUPPORTO DELLA GESTIONE AMMINISTRATIVA DELLO SPORTELLO UNICO SPECIFICA DEI REQUISITI UTENTE

Allegato 2 Modello offerta tecnica

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

WG-TRANSLATE Manuale Utente WG TRANSLATE. Pagina 1 di 15

LA RICLASSIFICAZIONE DEI SALDI CONTABILI CON MICROSOFT ACCESS 2007

Il sofware è inoltre completato da una funzione di calendario che consente di impostare in modo semplice ed intuitivo i vari appuntamenti.

Gestione Voti Scolastici

UTILIZZO DEL MODULO DATA ENTRY PER L IMPORTAZIONE DEI DOCUMENTI (CICLO PASSIVO)

RINTRACCIABILITA' MATERIALI

. A primi passi con microsoft a.ccepss SommarIo: i S 1. aprire e chiudere microsoft access Start (o avvio) l i b tutti i programmi

Linguaggi e Paradigmi di Programmazione

Documento di accompagnamento: mediane dei settori bibliometrici

Le query. Lezione 6 a cura di Maria Novella Mosciatti

GESTIONE DELLE NON CONFORMITÀ E RECLAMI

Software di sistema e software applicativo. I programmi che fanno funzionare il computer e quelli che gli permettono di svolgere attività specifiche

Mon Ami 3000 Conto Lavoro Gestione del C/Lavoro attivo e passivo

RIFERIMENTI ATTORI GLOSSARIO. ERRORI COMUNI REV. REQUISITI INGEGNERIA DEL SOFTWARE Università degli Studi di Padova

Sistemi Informativi e Basi di Dati

Sistema Banca dati e Repertorio dei dispositivi medici Notifiche multiple di DM simili

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

SCHEDA PRODOTTO PAG. 1 J O B T I M E W F. Variazioni mensili al cartellino presenze. Versione 6.1. JOBTIME Work Flow

Cosa è un foglio elettronico

Hub-PA Versione Manuale utente

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

Transcript:

API Progettazione e realizzazione di un software di gestione del corpus AVIP-API Alessandro Esposito, Francesco Cutugno

1. INTRODUZIONE 1.1 OBIETTIVI DEL LAVORO Il presente lavoro è stato svolto presso il centro di ricerche CIRASS nell ambito di uno stage di formazione gestito dal Diploma Universitario di Ingegneria Informatica dell ateneo Federico II di Napoli, ed è il frutto di una revisione e sinterizzazione della tesi di laurea del primo autore. Il lavoro é stato di prezioso supporto alle attività svolte nell ambito del progetto di ricerca AVIP ed ha riguardato la progettazione e la realizzazione di un sistema software di gestione dei dati del corpus. La condizione iniziale da cui è partito il lavoro, consisteva nell esistenza di un insieme di files che costituivano una base di dati non convenientemente interrogabile. Gli interessati allo studio dei dialoghi, infatti, avrebbero potuto ricercare le informazioni, in assenza di un sistema di gestione, soltanto procedendo tramite ricerche manuali all interno dei numerosi e complessi file che originariamente costituivano il corpus, ottenendo così risultati in tempi non ragionevoli. Il lavoro svolto ha avuto come obiettivi la progettazione e la realizzazione dei seguenti componenti: un Data Base (attraverso l utilizzo di un DBMS) con il fine di strutturare e gestire tutte le informazioni del Corpus linguistico AVIP. un Parser con il fine di analizzare, correggere ed immettere in modo diretto i dati contenuti nei files AVIP nel Data Base realizzato con l utilizzo del DBMS. Un Generatore di Query capace di offrire specifiche funzionalità di interrogazione. 1.2 CICLI DI VITA DEL SOFTWARE ADOTTATI La descrizione dell attività svolta è suddivisa nei successivi capitoli come le fasi relative ai cicli di vita seguiti per la produzione dei singoli componenti richiesti e realizzati. La figura 1 illustra sinteticamente la sequenza delle fasi svolte durante l attività di sviluppo.

Figura 1: Sequenza fasi di sviluppo Ogni singolo componente, come evidenziato in figura 1, è stato progettato e realizzato separatamente, rispettando il seguente ordine: Data Base, Parser, QueryGenerator. Per la realizzazione del Data Base si è utilizzato il modello di cicli di vita dei sistemi informativi. Si è applicata una metodologia ampiamente consolidata e riconosciuta, quella cioè di scomporre la progettazione in Progettazione concettuale ed in Progettazione Logica. Il modello di ciclo di vita del software adottato invece per lo sviluppo del Parser e del QueryGenerator è stato un modello a cascata con feedback (v. figura 2) analisi requisiti e specifiche convalida disegno convalida codifica e testing validazione integrazione e collaudo validazione rilascio e manutenzione validazione Figura 2: Modello a Cascata con feedback La metodologia di sviluppo utilizzata per la realizzazione del Parser e del QueryGenerator è stata quella Object-Oriented. Lo sviluppo è stato suddiviso nelle comuni fasi di OOA Object Oriented Analisys, OOD Object Oriented Design ed OOP Object Oriented Programming.

2. DESCRIZIONE DEL DOMINIO AVIP 2.1 INTRODUZIONE Il progetto AVIP ha definito con adeguatezza, rispetto ad obiettivi primariamente stabiliti e circoscritti, criteri e norme di costruzione, d organizzazione e di rappresentazione dei dati del corpus [1]. In questo capitolo sono descritti alcune norme e alcune entità costituenti il Corpus AVIP quali: i Dialoghi, i Turni, i Livelli di Etichettatura, i Parametri d Analisi, ecc. con il fine di fornire supporto alla comprensione dei modelli d analisi e di progettazione illustrati nei capitoli successivi. 2.2 I DIALOGHI Ogni dialogo è svolto da due persone dette informatori. Il dialogo è basato sulla spiegazione di un ipotetico percorso indicato su una mappa. L informatore che indica il percorso ha un ruolo detto di Information Giver mentre l altro che richiede spiegazioni ha un ruolo detto di Information Follower. Di ogni Informatore sono stati annotati e memorizzati Nome, Età, Sesso, Luogo di Nascita. Per quanto concerne le mappe, in AVIP esistono coppie di mappe diverse indicate con le prime quattro lettere dell alfabeto a,b,c,d più altre due coppie indicate con la lettera p o s relative alla porzione del corpus a dedicata al parlato infantile; per tale porzione sono state prese in esame le sole produzioni del bambino (sempre Follower) che può essere Normoudente o Ipoacusico. Un dialogo è suddiviso logicamente in Turni dove per turno si intende la presa di parola da parte di un informatore. Attributi relativi all attività di registrazione sono inoltre la durata, la condizione di registrazione, la frequenza di campionamento (in AVIP sempre uguale a 22050Hz), la data di registrazione, ecc. Ogni dialogo è sottoposto ai processi di etichettatura e di analisi descritti nei prossimi paragrafi. 2.3 LE TRASCRIZIONI AVIP: I LIVELLI DI ETICHETTATURA Una classificazione delle trascrizioni d interesse per il dominio applicativo descritto è la seguente: Trascrizione fonetica: studia ed identifica con elevato grado di dettaglio ciascun suono (fono) articolato dall informatore. Trascrizione fonologica: evidenzia soltanto gli esiti dei fonemi (ciascun suono che assume funzione semanticamente distintiva in un linguaggio) e i mutamenti che per essi si sono verificati. Trascrizione ortografica che è la forma ortografica convenzionale.

Siccome l associazione di un codice dell alfabeto di trascrizione ad un elemento fonico è detta etichettatura parleremo d ora in avanti non di diversi tipi di trascrizione ma di diversi livelli di etichettatura. Il termine livelli è stato utilizzato per indicare l esistenza di una gerarchia definita nel progetto tra le varie etichettature e descritta nei paragrafi successivi. Per la codifica dei dati fonici nel corpus AVIP sono stati utilizzati i seguenti livelli di etichettatura. PHN: etichettatura fonetica stretta. PHB: etichettatura fonetica larga o fonologica della varietà PHM: trascrizione fonemica parola per parola. WRD: trascrizione ortografica parola per parola. TON: etichettatura intonativa foneticamente orientata AUT: etichettatura intonativa fonologicamente orientata. Il livello AUT è stato utilizzato soltanto dall unità di ricerca di Bari e non rientra nel dominio informativo d interesse per l applicazione qui presentata.. 2. I MARKERS I Markers sono dei dati numerici utilizzati per delimitare l istante d inizio e quello di fine di un evento acustico etichettato in un dato livello. Essi rappresentano il numero d ordine del campione di segnale acquisito corrispondente all evento acustico etichettato. 2.5 RELAZIONI TRA I LIVELLI DI ETICHETTATURA PHN, PHB, PHM, WRD. Tra i livelli PHN, PHB, PHM e WRD esistono le seguenti relazioni: 1. Inclusione temporale. Partendo dall elementare e comune concetto che le parole includono generalmente più suoni distinti (solitamente rappresentati da lettere nella forma scritta) è facile comprendere come un etichetta di parola (livelli WRD o PHM) includa più etichette di fonemi (livelli PHB e PHN). L inclusione è espressa dai valori dei marker. 2. Corrispondenza tra i valori dei marker. Il Marker di inizio di un etichetta di parola deve essere uguale al marker di inizio del fono o del fonema etichettato corrispondente alla lettera.ovviamente non vale il contrario. La figura che segue riassume quanto finora illustrato:

Figura 3: Relazioni tra i Markers dei livelli PHN,PHB,PHM,WRD Le linee verticali rappresentano graficamente la segmentazione attuata dai marker di inizio e fine associati ad ogni entità trascritta in un dato livello. Ad esempio per il livelli PHN e PHB la s ha come marker iniziale 1201 e come marker finale 3870. Il livello PHN utilizza come unità fonica i singoli foni, il livello PHB utilizza come unità fonica i singoli fonemi mentre i livelli PHM e WRD utilizzano come unità le singole parole. Dalle dimensioni delle unità etichettate è possibile definire una relazione di inclusione temporale tra i livelli di etichettatura. Le norme che regolano il progetto AVIP garantiscono che i markers delimitatori di un entità ad un dato livello, hanno sempre un corrispondente (stesso valore) nei livelli di gerarchia temporale paritetica o inferiore. Nell esempio il marker destro dell entità fonica a livello WRD (entità fonologica di tipo parola codificata con Sara) ha un marker corrispondente (stesso valore) sia nel livello gerarchicamente paritetico PHM (entità fonologica di tipo parola codificata con s ara) sia nei livelli gerarchicamente inferiori (PHB e PHN) che analizzano entità fonologiche diverse (PHB entità fonologica di tipo fonema codificata con r-a, PHN entità fonetica di tipo fono codificata con r). Ragionando in verso opposto sulla gerarchia espressa in Figura 3 è evidente che l esistenza di un corrispondente non è garantita per i livelli gerarchicamente superiori ad un dato livello. Le relazioni d inclusione e di corrispondenza tra i marker sono fondamentali per relazionare un entità con se stessa codificata in diversi livelli. Per la coppia di livelli (PHM, WRD) i marker sono in sostanza gli stessi poiché uguali sono le unità fonologiche analizzate (detti livelli Paritetici). Tali livelli sono gerarchicamente superiori ai livelli PHN e PHB. Per coppia di livelli (PHN, PHB) invece la corrispondenza dei marker avviene per tutte le entità trascritte tranne per la trascrizione dei dittonghi, dei trittonghi o nei casi particolari di monottongazione e sinalefe. In questi casi il livello PHB non segmenta le entità è quindi è un livello gerarchicamente superiore al PHN. Tutti i turni dei dialoghi del progetto AVIP sono stati etichettati ai livelli PHN, PHB, PHM, WRD. E da rilevare, infine, una differenza nell etichettatura ai livelli WRD-PHM per la varietà

pisana in cui non è stato segnalato il marker d inizio della prima parola assoluta del turno. L informazione relativa al confine sinistro di parola è recuperabile ai livelli inferiori PHB e PHN. 2.6 IL LIVELLO DI ETICHETTATURA TON Il livello TON è un livello utilizzato per l analisi prosodica e quindi segmenta un testo parlato in unità prosodiche anche dette unità tonali. E un livello indipendente in termini temporali nel senso che non è prevista alcuna relazione di corrispondenza dei marker con quelli degli altri livelli. Le etichette del livello TON trascrivono con uno specifico alfabeto le seguenti entità: L inizio o la fine di un unità tonale Le variazioni della curva interpolante linearmente i campioni di frequenza fondamentale o Pitch. Gli accenti. L inizio e la fine di un unità tonale sono etichettate con i simboli [ e ]. Le variazioni del Pitch sono etichettate con le lettere T, B, H, L, U, D, S mentre gli accenti sono etichettati con le cifre 0,1,2,3. Accade spesso che in corrispondenza di una variazione del Pitch si verifica anche la presenza di un accento e quindi i due eventi sono etichettati insieme con stringhe tipo L1, H1, ecc. oppure che un determinato valore di Pitch avviene all inizio o alla fine di un unità tonale con stringhe del tipo ]T, B[, ecc. La figura ha lo scopo di descrivere il livello d etichettatura TON e di porlo in confronto con altri livelli d etichettatura. Si è scelto di utilizzare nel confronto un livello d etichettatura di parola WRD ed un livello d etichettatura per singolo fono PHN. Figura : Livello Ton in relazione con i livelli PHN e WRD E evidente la totale mancanza di una corrispondenza dei marker del livello TON con quelli di un altro livello. Lo stesso inizio o fine dell unità tonale può non corrispondere all inizio o alla fine di una sequenza di trascrizioni degli altri livelli.

Allo stato attuale in AVIP il livello TON è stato utilizzato per etichettare soltanto alcuni turni di alcuni dialoghi. 2.7 I PARAMETRI D ANALISI I parametri fisici definiti ed utilizzati nel progetto AVIP verranno in seguito indicati come parametri d analisi. I parametri d analisi sono: Pitch, Energia, Formanti, Durata. La durata di un frame in AVIP è costante e pari a 5ms. 2.8 RELAZIONI TRA I LIVELLI D ETICHETTATURA PHN, PHB, WRD E PHM E I PARAMETRI D ANALISI Ogni etichetta ha associati due markers che rappresentano il numero di campione d inizio e fine dell evento acustico registrato e rappresentato simbolicamente dall etichetta stessa. Tali valori dei markers divisi per la frequenza di campionamento forniscono come dimensione degli istanti di tempo che sono appunto l istante d inizio e l istante di fine dell evento acustico. Le informazioni d analisi sono valori discreti memorizzati in sequenza e riferiti a sezioni (frame) di segnale di 5ms. Figura5- Relazione tra Etichette e i Parametri d'analisi 2.9 I FILES DEL PROGETTO AVIP

Nei paragrafi precedenti sono state descritte le entità e le relazioni esistenti tra esse. Ora passiamo ad una breve descrizione della base di dati esistente prima dell inizio del lavoro. La base di dati AVIP era costituita da un insieme di files indipendenti ottenuti attraverso un certo insieme di operazioni. Molte operazioni esulano dagli scopi di questo documento e quindi non saranno descritte. Quelle di interesse per quest ambito sono: Etichettatura, cioè l associazione di simboli (etichette) definiti nel progetto AVIP a ciascun determinato elemento del corpus. Come descritto nei precedenti paragrafi esistono più livelli d etichettatura. Segmentazione cioè la suddivisione in segmenti del segnale fonico. Per ogni segmento è definito l inizio e la fine di un evento fonico Analisi, cioè la determinazione di parametri di significato fisico relazionati agli eventi fonici (Frequenza fondamentale, Energia, Formanti) Tutto il corpus AVIP è stato segmentato ed etichettato mediante un sistema software progettato e realizzato dall unità di ricerca del Politecnico di Bari che si chiama SegWin. Allo stato attuale tutti i dialoghi sono stati etichettati con le etichettature dei livelli WRD, PHM, PHB e PHN mentre l etichettatura TON è stata eseguita solo per alcuni turni. L operazione di Analisi è stata eseguita con l ausilio di routine software sviluppate presso il CIRASS. I files sono sostanzialmente di tre tipi: 1. Files d Analisi (contengono singolarmente per ogni frame informazioni circa lo Spettro, l Energia, Pitch, ecc.) Il formato di ogni file è il seguente: Pitch: per ogni frame, valore del Pitch in Hz (intero a 16 bit) e flag voiced/unvoiced (8 bit, 0 se unvoiced, 1 se voiced) Energia: per ogni frame, energia in db (intero a 16 bit) ed alla fine il valore massimo dell energia, calcolato per tutto il file Formanti: Per ogni frame, valore della 1, della 2 e della 3 formante (int a 16 bit). 2. Files d Etichettatura (contengono l etichettatura dei livelli segmentali secondo quanto definito nel progetto AVIP) Ciascun file d etichettatura ha l'estensione corrispondente al livello d etichettatura e contiene un record per ogni marker, in formato testo. Ogni record è così composto: Tipo d etichettatura Marker iniziale Marker finale Num. della parola Stringa Il Tipo d'etichettatura è un campo di tre lettere coincidente con l'estensione del file relativo. Il Marker iniziale e il Marker finale sono allineati al file di segnale. Il campo "Num. della parola" è al momento non utilizzato ed è pertanto sempre uguale a 0.

Il campo Stringa è l etichetta di trascrizione dell elemento. 3. File Header (contiene informazioni varie il cui significato dipende da tre lettere identificative della riga) Ogni file d intestazione è riferito ad un intero dialogo e quindi a più turni. Alcune righe presentano un codice identificativo di riga che ne indica il contenuto informativo e che può assumere uno dei seguenti valori: ING: informazioni sull Instruction Giver. Iniziali del nome, età, sesso, altre caratteristiche utili, ecc. INF: informazioni sull Instruction Follower. Iniziali nome, età, sesso, altre caratteristiche utili, ecc. LET: informazioni sul lettore. LOC: luogo e data di registrazione. CMP: frequenza di campionamento. COD: numero e ordine dei byte utilizzati nel file di segnale. DUR:durata totale del dialogo o della lettura. CON:condizioni generali della registrazione. CMT:commenti.

3. ANALISI E SPECIFICA DEI REQUISITI 3.1 INTRODUZIONE E stato eseguito un attento studio dei documenti del progetto AVIP esistenti ed in particolare l attenzione è stata rivolta al documento descrittivo del formato dei Files AVIP [2] ed al documento di specifica delle Norme e dei Codici che regolano l attività di trascrizione nel progetto AVIP [1]. Allo stesso tempo sono state eseguite interviste ai soggetti interessati all applicazione. I requisiti sono stati quindi specificati in maniera quanto più completa, consistente e non ambigua e trascritti in un documento di specifica dei requisiti SRS sviluppato secondo lo standard IEEE199 che qui non riprodurremo ma che è disponibile a richiesta contattando gli autori del presente documento. In tale documento sono inclusi i requisiti relativi all intero progetto. Inoltre è stato sviluppato un documento di specifica dell interfaccia utente in cui è stato è stata descritta l iterazione attesa con l utente. La fase di analisi ha richiesto l utilizzo e l applicazione di modelli e di metodologie diversi per modellare i componenti Data Base, Parser e Generatore di Query. Infatti, per il Data Base è stata utilizzata la metodologia di sviluppo dei sistemi informativi, mentre per il Parser ed il Generatore di Query è stata utilizzata una metodologia Object Oriented. Ogni singolo componente è stato quindi analizzato separatamente, rispettando il seguente ordine: Data Base, Parser, QueryGenerator. 3.2 SPECIFICHE RIGUARDANTI L INTERFACCIA UTENTE Nella progettazione di una interfaccia utente entrano in gioco tre modelli diversi, quello progettuale, quello implementativo e quello denominato modello dell utente o percezione del sistema (v. figura 6). Ovviamente quest ultimo risente della tipologia e del grado di esperienza che il committente/utente ha nell utilizzo di software.

Figura 6- Percezione del sistema In questo paragrafo è descritta la percezione dell interfaccia di interrogazione dei livelli di etichettatura del sistema da realizzare dal punto di vista del committente/utente. In particolare si è descritto la successione di selezioni che il committente/ utente immagina di eseguire durante le interrogazioni. La sequenza di selezioni previste è la seguente: 1. La selezione del sottoinsieme del corpus oggetto di interrogazione 2. Input di stringhe nei livelli di etichettatura 3. La selezione degli output desiderati La selezione della parte del corpus oggetto di interrogazione è descritta in figura (v. fig.7) in cui le frecce indicano che la selezione di una opzione attiva una ulteriore richiesta di input. Figura 7- Selezione della parte del Corpus oggetto di interrogazione

L input di stringhe nei livelli di etichettatura deve essere eseguito in apposite caselle di testo riferite ai singoli livelli etichettatura. Le richieste potranno avere come obiettivo la ricerca di elementi presenti con opportuna codifica (etichettatura) in diversi livelli. Tipiche interrogazioni saranno quelle che relazioneranno elementi tra due/tre livelli di etichettatura differenti. In figura 8 ad esempio è illustrata la modalità attesa dal committente per la ricerca di tutte le etichette che a livello PHN sono uguali a!a e che (AND) a livello WRD iniziano per k o (OR) iniziano per p. Figura 8- Interfaccia interrogazione livelli di etichettatura. Nelle caselle l utente potrà digitare tutti i simboli dell alfabeto di etichettatura previsti per quel livello. Sarà cura dell utente verificare la correttezza dei simboli forniti in input in quanto non è richiesto che il sistema riconosca gli alfabeti dei singoli livelli per segnalare eventuali errori di digitazione. Infine, una volta terminata la fase di input nei livelli di etichettatura il sistema dovrà fornire agli utenti la possibilità di selezionare il livello dove visualizzare l Output. Figura 9 - Selezione Output

L utente potrà quindi selezionare una istanza di etichettatura trovata ed indicare i parametri di analisi d interesse. Su tali parametri l utente potrà inoltre indicare se calcolare media e/o scarto quadratico medio. 3.3 MODELLAZIONE CONCETTUALE DATA BASE La modellazione concettuale ha come obiettivo la rappresentazione accurata e naturale dei dati d interesse dal punto di vista del significato che hanno per l applicazione da realizzare. Il modello sviluppato, detto Modello Entità Relazione (E.R.) è un modello concettuale di dati atto a descrivere la realtà d interesse a prescindere dai criteri di organizzazione degli elaboratori. E costituito da costrutti il cui significato logico è dettagliatamente descritto in [3]. Come documentazione di tale modello sono stati prodotti la tabella descrittiva delle entità e la tabella descrittiva delle relazioni. Per lo sviluppo dello schema concettuale E.R. a partire dalle specifiche sono applicabili tutte le comuni tecniche ingegneristiche quali la strategia top-down, la strategia bottom-up, la strategia inside-out o le strategie miste. La strategia scelta per il modello concettuale del corpus AVIP è di tipo misto. Sono stati inizialmente individuati i concetti principali (definendo il cosiddetto schema a scheletro ) e si è proceduto poi nello sviluppo separato dei concetti per raffinamenti successivi. Tale scelta progettuale ha consentito di ottenere i seguenti vantaggi: 1. La scomposizione del problema in sottoproblemi. 2. L inizio della progettazione prima che tutte le specifiche fossero complete. 3. L integrazione immediata senza fasi di composizione.

3. MODELLO E-R NOME ETA SESSO NORMOUDNTE/ IPOACUSICO RUOLO INFORMATORE BAMBINO PARAMETRI LUOGO DI NASCITA MAPPE VARIETA SESSIONE Interlocuzione DIALOGO Acquisizione (2,2) DURATA (1,N) TEMPO Analisi (1,N) Composizione ORDINE TURNO SEGNALE DATA REGISTRAZIONE CONDIZIONE (,5) PITCH FORMANTI PITCH HZ VOICED / 1 2 3 UNVOICED ENERGIA ENERGIA DB Inclusione (1,N) Temporale TRASCRIZIONE ETICHETTATURA MARKER FINALE MARKER INIZIALE STRINGA (1,\) PHN INCLUSIONE TON - PHN Corrispondenza Non eccezione (2,2) Inclusione Eccezione (1,N) PHB PHB ECCEZIONI INCLUSIONE TON - PHB INCLUSIONE PHM-PHB (1,N) (1,N) (1,N) PHM INCLUSIONE PHM- PHN INCLUSIONE TON - PHM Corrispondenza PHM WRD Figura 10- Modello Entità Relazione (1,N) INCLUSIONE WRD - PHB (1,N) (1,N) WRD INCLUSIONE WRD_PHN TON (1,N) INCLUSIONE TON - WRD Documentazione del modello E- R: Dizionario dei Dati Entità Descrizione Attributi Identificatore Dialogo Conversazione tra due Informatori Mappe,Varietà,Sessione, Durata Registrazione Dialogo memorizzato Data,Frequenza Campionamento (CMP), Condizione, Nome File Audio Informatore Bambino Turno Persona che effettua il Dialogo Persona di Età Inferiore ad anni 15 che effettua il Dialogo Parte del Dialogo. Inizia ogni volta che l informatore prende parola. Parametri Informazioni per l analisi "fisica" del segnale. Pitch Frequenza fondamentale in Hz riferita ad un frame del segnale. Nome, Età, Sesso, Luogo di nascita, ruolo Normoudente/ Ipoacusico Ordine del turno Tempo PitchHz, Voiced/Unvoiced Mappe,Varietà,Sessione Nome File Audio Nome, Età, Sesso Ordine del turno, Dialogo Tempo, Turno.

Formanti 1, 2 e 3 Formante riferita ad un frame del segnale 1 Formante,2 Formante, 3 Formante. Energia Energia del segnale vocale espressa in Decibel Energia DB Etichettatura E una trascrizione di un elemento acustico Marker Inizio, Marker fine, Stringa Marker Finale, Turno. PHN Trascrizione fonetica PHB PHB Eccezione PHM WRD Trascrizione fonologica Fonema x Fonema Trascrizione fonologica di un eccezione. Il termine eccezione indica che nei casi di trascrizione PHB di dittonghi, trittonghi, sinalefe o monottongazioni non vi è corrispondenza con i Marker della trascrizione di livello PHN Trascrizione fonemica per forma di citazione Trascrizione ortografica TON Trascrizione intonativa Foneticamente Orientata Tabella descrittiva delle Relazioni. Relazione Descrizione Entità Coinvolte Interlocuzione Associa un informatore al dialogo Informatore, Dialogo Composizione Associa un dialogo ai turni di cui è composto Dialogo, Turno Acquisizione Associa un dialogo alla sua registrazione Dialogo, Registrazione Inclusione temporale Associa ad un etichetta i parametri ad essa relativi Parametri, Etichettatura Trascrizione Associa un turno alla sua etichettatura Turno, Etichettatura Corrispondenza PHB PHN- Inclusione PHB eccezione PHN Inclusione PHM-PHN Inclusione WRD PHB Inclusione WRD- PHN Inclusione PHB-PHM Corrispondenza WRD PHM Associa una trascrizione PHN con una trascrizione PHB con gli stessi Marker Associa una trascrizione PHB che trascrive un eccezione (dittongo, trittongo, ecc.) alle trascrizioni PHN che include Associa una trascrizione PHM alle trascrizioni PHN che include Associa una trascrizione WRD alle trascrizioni PHB che include. Associa una trascrizione WRD alle trascrizioni PHN che include. Associa una trascrizione PHM alle trascrizioni PHB che include. Associa una trascrizione WRD alle trascrizioni PHM che include. PHN, PHB PHN, PHB eccezione PHM, PHN WRD, PHN WRD, PHN PHB, PHM WRD, PHM

Inclusione TON WRD Inclusione TON PHM Inclusione TON PHB Inclusione TON PHN Associa una trascrizione TON alle trascrizioni WRD che include. Associa una trascrizione TON alle trascrizioni PHM che include. Associa una trascrizione TON alle trascrizioni PHB che include. Associa una trascrizione TON alle trascrizioni PHN che include. TON, WRD TON, PHM TON, PHB TON, PHN 3.5 OBJECT ORIENTED ANALISYS La metodologia di sviluppo utilizzata per la realizzazione del Parser e del QueryGenerator è stata quella Object-Oriented. Per le fasi di analisi e di progettazione (OOA ed OOD) si è utilizzato il linguaggio di modellazione UML, allo stato largamente diffuso, con cui si è potuto modellare il sistema. Tra gli strumenti dello standard UML sono stati utilizzati i seguenti: L Analisi dei casi d uso I Diagramma delle classi 3.6 ANALISI DEI CASI D USO I casi D uso relativi al Corpus AVIP sono descritti di seguito in tre sezioni. Nella prima sezione sono descritti gli attori ed i casi d uso.nella seconda sezione sono descritte le relazioni tra i casi d uso.infine nella terza sezione sono descritti in modo testuale degli scenari relativi ai singoli casi d uso. Descrizione degli attori e dei casi d uso. Dall analisi dei requisiti del software di gestione del corpus è stato individuato un singolo attore del sistema. Tale attore, denominato Linguista, rappresenta la classe degli utilizzatori del sistema che sono sostanzialmente persone che svolgono attività di studio della lingua parlata. Il Caso d uso Interrogazioni Etichettatura rappresenta il processo per ricercare le stringhe di etichettatura all interno del Data Base AVIP. Il Caso d uso Calcolo Durata Etichettatura rappresenta il processo per calcolare la durata di una stringa di etichettatura all interno del Data Base AVIP. Il Caso d uso Calcolo Media Durata rappresenta il processo per calcolare la media delle durate delle stringhe di etichettatura all interno del Data Base AVIP.

Il Caso d uso Calcolo Scarto Q.M. Durata rappresenta il processo per calcolare lo scarto quadratico medio delle durate delle stringhe di etichettatura all interno del Data Base AVIP. Il Caso d uso Interrogazione Parametri rappresenta il processo per ricercare i valori di un parametro relativi ad una stringa di etichettatura. Il Caso d uso Calcolo Media Parametri rappresenta il processo per calcolare la media dei valori dei parametri relativi ad una stringa di etichettatura. Il Caso d uso Calcolo Scarto Q. M. Parametri rappresenta il processo per calcolare lo scarto quadratico medio dei parametri relativi ad una stringa di etichettatura. Il Caso d uso Parser Dialogo rappresenta il processo per analizzare, correggere ed immettere i dati AVIP nel Data Base AVIP. I Casi d uso AVIP CASI D'USO CORPUS AVIP C alcolo S carto Q. M. Durata C alco lo M e dia Dura ta Calcolo Durata E tichetta Linguista Interrogazioni E tichettatura Interrogazione P aram etri Calcolo M edia P aram etri Calcolo S.Q.M. P aram etri P arser Dialogo Figura 11- Diagramma dei Casi D'uso

La Struttura dei Casi D Uso. RELAZIONI TRA I CASI D'USO <<extends>> Parser Dialogo <<extends>> Interrogazioni Etichettatura <<extends>> Calcolo Media Durate <<extends>> Interrogazione Parametri Calcolo Scarto Q. M. Durate Calcolo Durata Etichetta <<extends>> <<extends>> Calcol Media Parametri Calcolo Scarto.Q.M. Parametri Figura 12 - Struttura dei Casi D'uso Descrizione degli scenari. Gli scenari sono di seguito descritti secondo il seguente formato. Numero Caso D uso: Nome Caso D Uso Scenario: Numero scenario/totale scenari del caso D uso : Nome scenario Numero Transizione. Descrizione Inoltre EX indica la relazione di estensione. Esempio : EX 2.5 significa sostituire alla riga le righe del caso d uso 2 che iniziano per 5. 1. CASO D USO: Interrogazione Etichettatura. Scenario 1/3: Interrogazione d Etichettatura richiesta su Dialoghi non presenti nel Data Base. 1. Il linguista immette i dati dei Dialoghi su cui vuole ricercare le stringhe di etichettatura. 2. Il sistema ricerca nel Data Base le informazioni relative ai Dialoghi. Rileva l assenza dei Dialoghi nel Data Base, quindi visualizza un messaggio d errore e termina l esecuzione. Scenario 2/3: Interrogazione d Etichettatura richiesta su Dialoghi presenti nel Data Base. Le stringhe ricercate non sono presenti nei dialoghi. 1. Il linguista immette i dati dei Dialoghi su cui vuole ricercare le stringhe di etichettatura. 2. Il sistema ricerca nel Data Base le informazioni relative ai Dialoghi. Rileva la presenza dei dialoghi nel Data Base e ne preleva i record visualizzando i dati dei Dialoghi a video.

3. Il linguista immette le stringhe da ricercare e i livelli di etichettatura dove cercarle.. Il sistema ricerca relativamente ai dialoghi richiesti le stringhe di etichettatura. Rileva l assenza di stringhe nel Data Base. Visualizza un messaggio di errore e termina l esecuzione. Scenario 3/3: Interrogazione d Etichettatura richiesta su Dialoghi presenti nel Data Base. Le stringhe ricercate sono presenti nel Data Base. 1. Il linguista immette i dati dei Dialoghi su cui vuole ricercare le stringhe di etichettatura. 2. Il sistema ricerca nel Data Base le informazioni relative ai Dialoghi. Rileva la presenza dei dialoghi nel Data Base, ne preleva i record e visualizza i dati dei Dialoghi a video. 3. Il linguista immette le stringhe da ricercare e i livelli di etichettatura dove cercarle.. Il sistema ricerca nel Data Base AVIP le stringhe di etichettatura cercate e rileva la presenza delle stringhe nel Data Base AVIP. 5. EX 2.5, EX 3.5: EX.5, EX 5.5, EX 6.5 Il sistema visualizza i dati delle stringhe trovate. 6. Il sistema attende nuove richieste di ricerca. 2. CASO D USO: Calcolo Durata Etichetta. Scenario 1/1: Richiesta del calcolo della durata di una stringa di etichettatura. Sostituire EX 2.5 nel caso d uso Interrogazioni di etichettatura scenario 3/3 riga 5 con: 5.1 Il sistema visualizza i dati delle stringhe trovate. 5.2 Il linguista chiede il calcolo della durata di una stringa di etichettatura. 5.3 I sistema determina la durata e visualizza il risultato. 3. CASO D USO: Calcolo Media Durata. Scenario 1/1: Richiesta della media della durata di più stringhe di etichettatura. Sostituire EX 3.5 nel caso d uso Interrogazioni di etichettatura scenario 3/3 riga 5 con: 5.1 Il sistema visualizza i dati delle stringhe trovate. 5.2 Il linguista chiede il calcolo della media delle durate delle stringhe di etichettatura. 5.3 I sistema determina la media delle durate e visualizza il risultato.. CASO D USO: Calcolo Scarto Q. M. Durata. Scenario 1/1: Richiesta del calcolo dello scarto quadratico medio delle durate di più stringhe di etichettatura. Sostituire EX.5 nel caso d uso Interrogazioni di etichettatura scenario 3/3 riga 5 con: 5.1 Il sistema visualizza i dati delle stringhe trovate. 5.2 Il linguista chiede il calcolo dello scarto quadratico medio della durata delle stringhe di etichettatura. 5.3 Il sistema determina lo scarto quadratico medio delle durate e visualizza il risultato.