UNIVERSITÀ DEGLI STUDI DI GENOVA FACOLTÀ DI IGNEGNERIA TESI DI LAUREA: USO DI SEMANTICHE DI DOMINIO IN APPLICAZIONI DI TEXT MINING

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "UNIVERSITÀ DEGLI STUDI DI GENOVA FACOLTÀ DI IGNEGNERIA TESI DI LAUREA: USO DI SEMANTICHE DI DOMINIO IN APPLICAZIONI DI TEXT MINING"

Transcript

1 UNIVERSITÀ DEGLI STUDI DI GENOVA FACOLTÀ DI IGNEGNERIA Corso di Laurea in Ingegneria Elettronica Anno accademico TESI DI LAUREA: USO DI SEMANTICHE DI DOMINIO IN APPLICAZIONI DI TEXT MINING Relatore: Chiar. mo Prof. Ing. Rodolfo Zunino Candidato: Maurizio Semino Correlatore: Dott. Ing. Fabio Sangiacomo I

2 Genova, 30 Settembre 2011 II

3 THESIS: USE OF DOMAIN SEMANTICS IN TEXT MINING APPLICATIONS Abstract This thesis has been developed in the SeaLab laboratory of the Department of Biophysics and Electronic Engineering (DIBE) of the University of Genoa. The main goal of this work was to enable SLAIR, a pre-existent Text Mining software, to access a new source of knowledge, namely the WordNet Domains database, which integrates the WordNet semantic network by providing information about the domain of knowledge any meaning of a word belongs to. In a following phase of the work, the infrastructure coded for the WN Domains integration was used to add a new typology of descriptor for documents and clusters of documents, and to improve the already existent one. At the end, some tests were performed to evaluate the possibility to provide a domain based classification for the documents. III

4 Alla Commissione di Laurea e di Diploma Alla Commissione Tirocini e Tesi Sottopongo la tesi redatta dallo studente Maurizio Semino dal titolo Uso di semantiche di dominio in applicazioni di Text Mining. Ho esaminato, nella forma e nel contenuto, la versione finale di questo elaborato scritto, e propongo che la tesi sia valutata positivamente assegnando i corrispondenti crediti formativi. Il Relatore Accademico Prof. Rodolfo Zunino IV

5 Ringraziamenti Vorrei innanzitutto ringraziare il relatore di questa tesi, il professor Rodolfo Zunino, per avermi permesso di approfondire un argomento interessante come quello del Text Mining, un ringraziamento speciale va poi al correlatore, l ingegner Fabio Sangiacomo, per la pazienza e la buona volontà con le quali mi ha costantemente supportato e consigliato. Non voglio inoltre dimenticare il contributo dato da tutti i membri del SeaLab, che con la loro simpatia hanno allietato le sessioni di lavoro in laboratorio. Voglio, infine, dire grazie ai miei genitori, ed a mia nonna, purtroppo scomparsa da poco. Ѐ grazie al loro aiuto ed al loro costante incoraggiamento se sono arrivato fin qui. Maurizio V

6 Prefazione Questa tesi è stata sviluppata presto il laboratorio SeaLab del Dipartimento di Biofisica ed Ingegneria Elettronica (DIBE) dell'università di Genova. L'obiettivo principale di questo lavoro è stato quello di dare modo a SLAIR, un software di Text Mining preesistente, di accedere ad una nuova fonte di conoscenza, ossia il database WordNet Domains, che integra la rete semantica di WordNet fornendo informazioni sul dominio semantico al quale appartiene ogni significato di una parola. In una fase successiva del lavoro, l'infrastruttura software create per l'integrazione di WN Domains è stata utilizzata al fine di aggiungere una nuova tipologia di descrittore per documenti e clusters di documenti, e per migliorare quella già esistente. Nella parte conclusiva della tesi, sono stati effettuati alcuni test per valutare la possibilità di effettuare una classificazione dei documenti basata sui domini. VI

7 Indice 1 Il Text Mining Che cos'è ed a cosa serve il text mining Apprendimento automatico: classificazione e clustering Apprendimento supervisionato Apprendimento non supervisionato Stato dell arte AeroText, Lockheed Martin Corporation Prodotti di ClearForest COGITO, Expert System Spa Data Integrator, Pervasive Software FICO (Fair Isaac COrporation) I2E, Linguamatics Limited IDOL Server, Autonomy Corporation Intelligent Miner, IBM Inxight Software Inc LanguageWare, IBM Lexis Total Research System, LexisNexis Rapidminer, Rapid-I Text Mining for Clementine, SPSS Inc Text Mining Engine, Nstein Technologies Il progetto WordNet La struttura di WordNet Le relazioni presenti all'interno di WordNet Relazioni lessicali VII

8 2.2.2 Relazioni semantiche EuroWordNet WordNet Domains La disambiguazione Introduzione al concetto di disambiguazione Ambiti di applicazione Approcci alla disambiguazione Disambiguazione supervisionata Disambiguazione semisupervisionata o minimamente supervisionata Disambiguazione non supervisionata Disambiguazione basata sul vocabolario Altri approcci Disambiguazione basata sui domini SLAIR Introduzione a SLAIR Rappresentazione dei documenti Pre-processamento Sistema di clustering Metrica Algoritmo di clustering (K-means), kernel e funzione costo (distanza) Il processo di clustering Integrazione di Euro WordNet I descrittori semantici TokenFreq EWN Summary Tipica sessione di text mining VIII

9 5 Integrazione di WNDomains Elaborazione preliminare del database WNDomains Liste ed alberi binari Implementazione del database per WNDomains Design pattern di SLAIR EWN_domainEntry EWN_RBdomain Creazione del file per la della struttura gerarchica dei domini Implementazione della gerarchia dei domini EWN_domHierarchyEntry EWN_RBdomHierarchy Interfaccia per l accesso alle informazioni sui domini EuroWordnetDomains EWN_DomainHierarchy_getNode EWN_DomainHierarchy_parentOf & EWN_DomainHierarchy_sonsOf Applicazione dei domini ai descrittori semantici Descrittore basato sui domini Filtraggio e disambiguazione di _Semantic Analisi dei risultati Corpora utilizzati Descrittore basato sui domini WebCrawling news Considerazioni Filtraggio di _Semantic WebCrawling IX

10 news Considerazioni Classificazione basata sui domini Conclusioni e possibili sviluppi futuri Bibliografia X

11 Introduzione Il lavoro relativo alla presente tesi è stato svolto presso il laboratorio SeaLab del Dipartimento d Ingegneria Biofisica ed Elettronica dell Università di Genova. L ambito all interno del quale si colloca è quello del Text Mining, una disciplina che, col diffondersi dei documenti e delle fonti d informazione in formato digitale, sta acquisendo una sempre maggior importanza in una grande quantità di campi, dalla sicurezza alle analisi di mercato. Lo sfruttamento di database e reti semantiche quali quella costituita da WordNet, realizzato dall università di Princeton, è un metodo per incrementare sensibilmente le prestazioni dei software di analisi, l idea alla base di questa tesi è stata quella di dotare un applicazione per il Text Mining preesistente di un modulo aggiuntivo, tramite il quale potesse accedere ad un ulteriore risorsa, il database WN Domains. Quest ultimo fornisce informazioni sul dominio semantico al quale appartengono i significati di una parola, e permette di raggiungere un buon livello di conoscenza dell ambito preso in considerazione da un documento testuale. Questo tipo di comprensione di un brano può anche essere sfruttata da un applicazione per effettuare un opera di disambiguazione, ossia di scelta del corretto significato di un termine contestualizzato in un testo. Obiettivi della tesi L obiettivo primario del lavoro svolto è stato quello di espandere le potenzialità di un applicazione dedicata al clustering ed alla descrizione automatica dei documenti aggiungendo la possibilità per l utente di accedere alle informazioni contenute all interno del database WN Domains. Ѐ stato necessario, innanzitutto, creare un infrastruttura software dedicata alla rappresentazione di questa fonte di conoscenza all interno dell ambiente sul quale si è lavorato, ed una serie di funzioni che ne permettessero un utilizzo intuitivo ed efficiente. Successivamente, si è provveduto ad utilizzare queste nuova funzionalità per migliorare le prestazioni dell applicazione, in particolare introducendo nuove metodologie per la descrizione di documenti e clusters e raffinando quelle preesistenti. 1

12 Contenuto della tesi Questa trattazione è stata scritta con l obiettivo di fornire al lettore in primo luogo le informazioni essenziali sull argomento preso in esame e sugli approcci esistenti in letteratura, così da garantire una corretta comprensione dei problemi affrontati e delle soluzioni proposte. Successivamente viene presentato il lavoro vero e proprio svolto durante la tesi, preceduto da un introduzione alla struttura del software preesistente, in conclusione vengono presentati alcuni risultati ottenuti tramite i moduli aggiunti. Il capitolo 1 fornisce una definizione di Text Mining e prende in considerazione alcune tipologie di algoritmi di uso comune in questo campo. Segue una carrellata delle applicazioni commerciali disponibili. Il capitolo 2 è dedicato all introduzione delle fonti di conoscenza esterne utilizzate, costituite dai databases di WordNet e WN Domains. Il capitolo 3 presenta il concetto di disambiguazione e prende in esame la sua utilità e le problematiche ad essa connesse, passando poi all esame dello stato dell arte negli approcci a questo argomento. Il capitolo 4 introduce l ambiente software già esistente dal quale si è partiti, soffermandosi in particolar modo sulle sezioni che sono poi state modificate o comunque sfruttate nella fase di stesura del codice. Il capitolo 5 è dedicato alla descrizione dei moduli aggiuntivi creati ed ai miglioramenti apportati al codice già esistente, e fornisce le motivazioni alla base delle scelte progettuali effettuate. Il capitolo 6 contiene una serie di esempi di applicazione delle funzionalità aggiuntive sviluppate, corredate da un analisi dei risultati ottenuti. 2

13 1 Il Text Mining 1.1 Che cos'è ed a cosa serve il text mining Con il termine "text mining" si indica un'elaborazione automatizzata di un insieme di documenti testuali, volta ad effettuare una classificazione degli elementi che ne fanno parte in base all'argomento trattato o ad altre caratteristiche distintive, ed a comporre una descrizione dei raggruppamenti creati. Si tratta di un esempio particolare di data mining, ma si discosta notevolmente dalla maggior parte delle tecniche che vengono generalmente indicate con questo termine. Nel data mining classico, ogni algoritmo è strettamente legato alla tipologia della fonte d informazione con la quale si ha a che fare, vi è cioè una grande dipendenza dalla struttura dei documenti utilizzati, dal loro numero e dal tipo di elaborazione che si vuole compiere, è, insomma, necessario utilizzare uno strumento ad hoc per ogni situazione. Un algoritmo di text mining, invece, è progettato in maniera da poter funzionare correttamente con la più grande varietà possibile di fonti, quindi risulta essere dotato di una notevole flessibilità. Ѐ facile comprendere l'utilità di un software in grado di svolgere questo tipo di compito se si pensa ad una situazione nella quale ci si trovi ad avere a che fare con enormi quantità di testo. Leggerlo tutto sarebbe improponibile, inoltre le informazioni interessanti contenute al suo interno sarebbero probabilmente non equamente distribuite, potrebbe esserci una lunga serie di documenti inutili per gli scopi fissati. Sfruttando il text mining, sarebbe possibile separare i documenti in base all'argomento trattato, così da potersi concentrare soltanto su quelli più significativi. In un altro scenario, potrebbe non interessare conoscere con precisione cosa sia scritto all'interno dei documenti coi quali si ha a che fare, si potrebbe aver semplicemente bisogno di un riassunto degli argomenti trattati. Ancora una volta, affidandosi al text mining sarebbe possibile ottenerne in maniera automatizzata una breve descrizione. 3

14 Un ambito applicativo concreto tipico è quello delle indagini, quando le prove sono costituite da testi in formato elettronico, come documenti od s, sepolti in mezzo ad una sterminata quantità d'informazioni prive d'interesse. Il text mining ha anche una grande importanza nel campo della sicurezza, in particolare nella gestione delle situazioni di crisi, come quelle che possono presentarsi in seguito a cataclismi o durante conflitti, quando la mole di notizie prodotta è molto grande, e la definizione di un quadro complessivo della situazione o l estrazione di informazioni salienti risulta essere un compito non banale. L uso del text mining per la fruizione di notizie può poi anche andare oltre l ambito delle situazioni di crisi, e diventare uno strumento per raccogliere, aggregare e catalogare qualsiasi tipo d informazione presente sul web. Esigenze analoghe a quelle appena descritte possono presentarsi anche all interno di una grande azienda, quindi nell ambito della business intelligence e del marketing. L azienda è infatti un ambiente caratterizzato dalla continua produzione di svariate tipologie di documenti in formato digitale, che senza un accurata gestione rischiano di ridursi ad una massa caotica d informazioni più o meno rilevanti non catalogate. 1.2 Apprendimento automatico: classificazione e clustering Introducendo il text mining, sono state messe in risalto le attività di raggruppamento e classificazione dei documenti. A livello tecnico si tratta di esempi si applicazione di algoritmi di machine learning, ossia di apprendimento automatico, che permettono al computer di costruire un modello di come sono strutturate le informazioni con le quali si trova ad avere a che fare. Ѐ possibile suddividere questo genere di algoritmi in due sottogruppi, entrambi utili agli scopi del text mining: si può parlare di apprendimento supervisionato o non supervisionato Apprendimento supervisionato L'idea alla base di questo approccio consiste nel definire un modello a partire da un set di dati per i quali sia già disponibile la classificazione corretta. Questo comporta che le categorie nelle quali potranno, in un secondo momento, essere divisi i dati esaminati devono essere tutte note a priori. Sono disponibili varie tecniche differenti, ma ciò che le 4

15 accomuna è che, a partire dai dati di training, vengono sempre creati uno o più "separatori", a seconda del numero di classi esistenti, ognuno dei quali è in grado di assegnare una tra due etichette ad un campione preso in esame. Ogni campione è trattato come un punto all'interno di uno spazio, le dimensioni del quale corrispondono alle caratteristiche prese in esame, il decisore non è altro che un iperpiano in grado di sezionare lo spazio dei campioni. Reti Neurali Un esempio di classificatori di questo tipo è costituito dalle reti neurali, che sono essenzialmente strutture composte da più repliche di semplici separatori lineari, detti percettroni. In genere, tali percettroni sono organizzati su più strati in cascata, gli elementi del primo strato ricevono come ingresso i dati da analizzare, mentre i successivi le uscite dello strato immediatamente precedente ad ognuno. In questo modo è possibile classificare dati anche non linearmente separabili, tuttavia la fase di apprendimento risulta in genere lunga e complessa. Lo strato di uscita può contenere più di un percettrone, in questo caso è possibile confrontare le uscite di tutti quelli presenti e sceglierne soltanto una, ottenendo un classificatore multi-classe. Support Vector Machine La Support Vector Machine, o SVM, è un algoritmo proposto dal matematico Vladimir N. Vapnik nel corso degli anni '90. Una SVM fa uso di un unico separatore lineare, costituito da un iperpiano di separazione, un po' come il percettrone, ma a questo aggiunge il concetto di margine. Il margine non è nient'altro che la distanza tra l'iperpiano di separazione ed il campione del training set più vicino a lui per una classe. Immaginando un iperpiano parallelo a quello principale e passante per tale campione, possiamo dire che il margine coincide con la distanza tra i due iperpiani. Maggiore è il margine, meglio sono state separate le due classi, per questo motivo, volendo semplificare, gli algoritmi di apprendimento per SVM tendono a massimizzare questa quantità. Fino a questo punto, tuttavia, non è possibile trattare dati non linearmente separabili. Per ottenere un classificatore non lineare è necessario trasportare i dati in ingresso in un altro spazio prima di elaborarli. Ѐ possibile ottenere direttamente il risultato di operazioni effettuate nel nuovo spazio, senza la necessità di effettuare conversioni, sfruttando funzioni dette kernel, tra queste una delle più versatili è costituita dal kernel gaussiano. 5

16 SVM multi-classe Qualora si rendesse necessario effettuare una classificazione di tipo multi-class, è possibile procedere in tre modi. Il primo, detto one vs one, prevede che venga addestrata una SVM per ogni coppia possibile di classi, a tempo di esecuzione, poi, il campione da classificare viene passato a tutti i decisori, e dal confronto tra i responsi si risale alla classe corretta. Il secondo, chiamato one vs all, risulta essere piuttosto simile al precedente, l'unica differenza è che, questa volta, le varie SVM vengono addestrate per separare una data classe da tutte le altre indistintamente. Ѐ possibile applicare a queste due tecniche un sistema di correzione d'errore, basato su di una tabella contenete le uscite corrette di ogni classificatore per ciascuna classe. Qualora alcune SVM dessero uscite anomale, ci si ritroverebbe con una serie di responsi non presente nella tabella, tuttavia sarebbe possibile trovare la situazione più simile a quella che si è presentata (quindi a minima distanza da questa) e scegliere la classe ad essa associata. Un problema relativo alle due tecniche appena descritte è costituito dal fatto che non è possibile confrontare tra loro le uscite delle varie SVM, da questo difetto è immune il terzo ed ultimo approccio, quello della Single Learning Machine, che prevede di replicare ogni campione del training set n volte, con n corrispondente al numero di classi. Ad ogni classe deve essere associato un codice, che viene messo in coda alle repliche di ogni campione, l'etichetta, a questo punto, indicherà se il campione in questione appartiene veramente o meno alla classe della quale ha il codice in coda. Ѐ importante sottolineare come lo stesso trattamento di replicazione ed accodamento dei codici della classi debba essere riservato anche ai campioni da classificare, questo fa sì che, sia in fase di apprendimento sia in fase di utilizzo, l'occupazione di memoria aumenti in maniera lineare col numero di classi Apprendimento non supervisionato Qualora non sia possibile ottenere un numero sufficiente di campioni già classificati, oppure nel caso in cui il numero di classi non sia definito a priori, non è possibile applicare un algoritmo di apprendimento supervisionato, e ci si deve appoggiare ad un sistema basato su quello non supervisionato. Nel caso del text mining, sono fondamentali gli algoritmi di clustering, che appartengono a questa categoria. 6

17 L' effetto dell'applicazione di un algoritmo di clustering ad un determinato set di documenti è la suddivisione di questo in più gruppi (detti clusters, appunto) caratterizzati dal contenere elementi omogenei. Per ottenere questo risultato è necessario definire alcuni elementi fondamentali: una metrica, grazie alla quale sia possibile stimare una "distanza" tra due documenti, ossia misurare la loro somiglianza; un criterio di partizionamento, che in genere viene definito tramite una funzione costo; un algoritmo di clustering vero e proprio, che svolge il lavoro di raggruppamento basandosi sulla minimizzazione della funzione costo relativa al criterio di partizionamento. Ѐ possibile sfruttare questo sistema in due modi, effettuando un clustering "piatto" oppure gerarchicio (flat o hierarchical clustering). Nel primo caso, è necessario decidere a priori il numero k di clusters che si vogliono ottenere, o, in alternativa, utilizzare un metodo adattivo per scegliere il k migliore, in ogni caso, alla fine del processo, ogni raggruppamento conterrà i documenti più simili tra loro. Nel clustering gerarchico, invece, ci trova ad aver a che fare con più livelli, generati da più applicazioni ricorsive della versione "flat" dell'algoritmo. Essenzialmente, il set iniziale di documenti viene diviso in più clusters, ognuno dei quali viene nuovamente sottoposto a clustering, e così via, ricorsivamente, fino al soddisfacimento di una condizione prefissata. Questa volta non è necessario definire a priori la struttura dell'albero, tuttavia il costo computazionale risulta essere decisamente maggiore rispetto al caso "flat". 1.3 Stato dell arte L attività di aziende e centri di ricerca è molto intensa nel campo del text mining, in questa sezione verranno presentate alcune delle soluzioni commerciali più rilevanti disponibili al momento. 7

18 1.3.1 AeroText, Lockheed Martin Corporation Si tratta di un pacchetto di applicazioni orientate al text mining ed all analisi dei contenuti, la sezione dedicata a quest ultima permette di generare in maniera automatica databases, effettuare ricerche, indicizzare e raggruppare documenti. Una caratteristica molto interessante del prodotto è l indipendenza dalla lingua: il database di informazioni principale è in inglese, ma sono presenti anche database per l arabo, il cinese semplificato, il cinese tradizionale, lo spagnolo e l indonesiano. Le informazioni sono organizzate in entità (persone, organizzazioni, luoghi ecc.), frasi chiave (espressioni di tempo, prezzi e costi, ecc.), e frasi grammaticali. La funzione di analisi delle interazioni si basa su associazioni tra tali entità, oltre che su estrazione di eventi, categorizzazione di argomenti, risoluzione temporale e spaziale. Ѐ infine disponibile uno strumento per effettuare operazioni di clustering, raggruppando documenti con similarità concettuali. Una peculiarità di questa soluzione è la possibilità di operare una certa personalizzazione tramite la creazione manuale di regole. [1] Prodotti di ClearForest Le soluzioni offerte da questa azienda sono progettate in base all idea che, molto spesso, l approccio tradizionale al text mining entra in crisi quando si ha a che fare con problemi avanzati di analisi dei testi, quali la valutazione dell equity di fondi speculativi, la creazione di database per banche dati, l estrazione di dati riguardo ai consumatori durante ricerche di mercato e la valutazione della qualità, tutti tipici dell ambiente aziendale. Per ottenere risultati soddisfacenti, è indispensabile disporre di una piattaforma flessibile alla quale possa essere abbinato un set estensibile di moduli estrattori. Ognuno di questi è pensato per un ambito molto specifico, ed è basato su pesanti funzioni di classificazione che sfruttano i Tag definiti da ClearForest, tra i quali si trovano concetti base quali persone, aziende o località. I moduli estrattori sono in grado, ad esempio, di identificare entità uniche per una particolare industria, e relazionarle ad altre, in ogni caso, per rendere il prodotto il più possibile adatto ad ogni particolare esigenza, è possibile richiedere la progettazione di moduli personalizzati. La grande importanza di questi moduli è 8

19 testimoniata dal fatto che possono arrivare a compiere anche il 70% del lavoro di classificazione complessivo. Entrando più nel dettaglio, i moduli estrattori disponibili sono i seguenti: Quality Early Warning: pensato per l uso con entità quali: parti guaste, condizioni di errore, note di servizio, reclami di garanzia; People and Corporate Profile: si occupa di classificare le identità tra le classi: cambiamenti di gestione, attività legali, novità dei prodotti, unioni e acquisizioni; Federal Intelligence: adatto alla classificazione tra le classi di associazioni tra persone e organizzazioni, località, acquisizione di armi, dati sull immigrazione, pagine web, ; Patent Analysis: opera classificazioni distinguendo tra brevetti, grafici temporali provenienti da database di brevetti. Un altro interessante prodotto di ClearForest è Semantic Web Services, un servizio utilizzabile via internet orientato al natural language processing. [2] COGITO, Expert System Spa La suite COGITO, sviluppata dall italiana Expert Systems, sfrutta un sistema a rete semantica al fine di cercare di comprendere i concetti in una maniera che ricalca quella degli esseri umani. Il software è disponibile in inglese e italiano, ed è in sviluppo per l arabo e per il tedesco. Si tratta di un prodotto adottato da enti statali sia italiani sia esteri. Alcuni dei più importanti componenti della suite sono: SIMS: generatore di algoritmi per l elaborazione del linguaggio; Cogito Semantic Search: effettua ricerche su internet e sfrutta le reti semantiche per comprendere la query e filtrare i risultati; Cogito Categorizer: classificatore per documenti; Cogito Semantic Advertiser: strumento dedicato alla gestione di materiale pubblicitario sotto forma di contenuti in pagine web; Cogito Intelligence Platform: sistema di ricerca di collegamenti concettuali tra documenti. [3] 9

20 1.3.4 Data Integrator, Pervasive Software Come si può intuire dal nome, questa suite svolge la funzione di raccogliere informazioni da una vasta gamma di fonti, per poi integrarle in un unica struttura, realizzata in un formato XML open. Questo risultato viene ottenuto tramite un sistema software alquanto complesso, dotato di un elevato livello di modularità ed adattabile ad ogni tipo di necessità. L Extract Schema Designer è un componente fondamentale di tutta la struttura, si tratta di quello che inizia la serie di elaborazioni del testo in ingresso, ed è caratterizzato dalla capacità di operare su documenti con contenuti testuali, come , rapporti, HTML, pagine stampate ed altri. Vi è la possibilità di regolare il funzionamento di questo strumento tramite la creazione di routines di estrazione del testo. [4] FICO (Fair Isaac COrporation) FICO è un azienda americana che lavora nel campo dei prodotti informatici aziendali, per la gestione finanziaria e di funzioni decisionali. Nel campo del text mining, l approccio di questa azienda è caratterizzato dal non focalizzarsi sul classico approccio della ricerca del miglior modello per rappresentare la conoscenza, puntando invece ad ottenere il gruppo di modelli che porta a raggiungere i risultati migliori. Quello che si viene a creare è uno scenario, nel quale ogni singolo modello si occupa di una certa classe di dati. Il tutto viene applicato al concetto di Enterprise Decision Management, che costituisce l automatizzazione dei processi decisionali all interno di un azienda. Nel listino della Fair Isaac sono disponibili svariati prodotti, quali: Model Builder: un ambiente di sviluppo che permette di sfruttare una vasta gamma di tecniche volte a realizzare la costruzione dei modelli delle informazioni contenute nei documenti esaminati; Blaze Advisor: si tratta di un gestore di regole che permette l utilizzo dei modelli nel contesto di un flusso di lavoro; Decision Optimizer: è uno strumento utile per gestire più modelli, utilizzandoli nella definizione di uno scenario. Permette di definire l insieme di circostanze nel 10

21 quale tale scenario si trova, mantenendo i modelli all interno di un intervallo di valori accettabili durante l elaborazione. [5] I2E, Linguamatics Limited Questo software è pensato per facilitare la ricerca di eventi e relazioni tra eventi rilevanti ai fini della gestione di un azienda. Come si è già accennato nell introduzione (paragrafo 1.1), quando le quantità di testo da esaminare sono ingenti, questa risulta essere un operazione tutt altro che banale da eseguire manualmente. L applicazione mette a disposizione dell utente la possibilità di eseguire svariate operazioni, che spaziano dalla semplice ricerca tramite parole chiave, alla ricerca di informazioni avanzate come estrazione di fatti, relazioni ed entità utilizzando strutture linguistiche. I2E combina le ricerche in letteratura e il text mining alla ricerca di concetti all interno dei dati, il motore di Natural Language Processing di I2E opera accedendo a complesse strutture di documenti ed estraendo fatti rilevanti, relazioni ed entità. Le ricerche in letteratura possono essere effettuate su articoli di riviste scientifiche, rendiconti su progetti interni all azienda, notizie, brevetti o . Al termine del processo, i dati estratti vengono convertiti in un formato compatibile con le esigenze dell utente. Come molte delle soluzioni esaminate fin ora, anche I2E può essere espanso, in particolare è possibile aggiungere nuove fonti d informazioni al suo database di conoscenze, tramite l aggiunta di dizionari, tassonomie ed ontologie, e renderlo specifico per il campo d interesse. [6] IDOL Server, Autonomy Corporation L azienda, con sedi in Inghilterra e America, si occupa di applicare i risultati di ricerche svolte all Università di Cambridge, sviluppando applicazioni nell ambito della ricerca d impresa. Le soluzioni proposte si basano su tecniche di riconoscimento adattivo di pattern, che affiancano l uso di metodi tradizionali a quello dell inferenza bayesiana. 11

22 Uno dei prodotti di maggiore spicco è IDOL (Intelligent Data Operating Layer), un server dedicato alla memorizzazione di informazioni non strutturate. Il server IDOL consente la ricerca e l elaborazione di testi, audio, video e altre informazioni strutturate. L elaborazione eseguita dal server IDOL viene definita dai creatori come Meaning-Based Computing, ovvero elaborazione basata sui significati. [7] Intelligent Miner, IBM Questo software offre svariate funzioni, le più importanti sono: Associations: permette di rilevare oggetti in una transazione che implicano la presenza di altri oggetti nella medesima transazione. Demographic Clustering: si tratta di un veloce algoritmo di clustering in grado di determinare automaticamente il numero di clusters finale. La distanza tra i campioni viene calcolata prendendo in esame varie features, ed i clusters sono quindi definiti dalla massimizzazione del criterio di Condorcet. Neural Clustering: impiega una rete neurale a features di Kohonen, la quale sfrutta un processo detto di auto organizzazione che gli permette di raggruppare input simili. Granularità della suddivisione e tempo di esecuzione possono essere regolati dall utente tramite la scelta del numero di clusters e del numero massimo d iterazioni. Sequential Patterns: in questo caso, il focus è sulla previsione di comportamenti nel tempo. L ambito di utilizzo spazia dalla fraud detection al marketing, con previsioni riguardanti strategie promozionali e piazzamenti di prodotti sul mercato Similar Sequences: ricerca tutte le occorrenze di sequenze simili all interno di un database. Per quanto riguarda l aspetto della classificazione, sono disponibili due algoritmi: Tree Classification: fornisce una descrizione della distribuzione dei dati analizzati. Neural Classification: sfrutta una rete neurale, basata sull algoritmo di back propagation. 12

23 Ѐ presente anche una sezione dedicata alla predizione, termine col quale ci si riferisce al tentativo di ottenere un modello che permetta di calcolare la dipendenza e la variazione di un dato valore in certo campo, rispetto ai valori di altri campi nel medesimo record. Gli algoritmi sfruttati sono: RBF-Prediction mining function: basata sulle radial basis functions. Neural Prediction mining function: il modello viene creato sfruttando tecniche di regressione, implementate tramite una rete neurale a back propagation. Tramite questa funzione è possibile ottenere anche previsioni a lungo raggio, oltre a quelle standard tipiche della regressione. Concludendo, è bene sottolineare come sia possibile sfruttare una serie di funzioni di configurazione del software. Dal punto di vista delle prestazioni, è poi interessante la disponibilità di versioni pensate per lo sfruttamento del calcolo parallelo o di quello distribuito. [8] Inxight Software Inc. Questa azienda opera nel campo della ricerca e visualizzazione di informazioni, ed offre anche applicazioni per il text mining, quali: LinguistX, API per l analisi di testi; Summarizer, un programma per la generazione di estratti di testo e riassunti; ThingFinder, utility per l estrazione di entità da dati in linguaggio naturale LanguageWare, IBM Questa soluzione sfrutta il sistema Natural Language Processing di IBM, e fornisce un set di librerie in linguaggio Java tramite le quali è possibile dotare un programma di funzionalità di riconoscimento della lingua, segmentazione di testi, normalizzazione, estrazione di entità e relazioni, analisi semantica e disambiguazione. Il processo di analisi è basato sull algoritmo delle macchine a stati finiti con un approccio a più livelli. Il software funziona grazie a pacchetti contenenti informazioni riguardanti la morfologia e il vocabolario base per una serie di lingue. Una certa quantità di questi pacchetti è fornita 13

24 assieme al prodotto, ed è poi possibile aggiungerne altri, da così ampliare la quantità di lingue disponibili o aggiungere vocabolari e regole grammaticali, che possono essere generiche o specifiche per uno o più domini linguistici. Il set di librerie è integrabile, sotto forma di plugin, con l ambiente di programmazione Eclipse, ma può anche essere usato per la creazione di servizi web o, ancora, per la scrittura di codice compatibile con lo standard UIMA (Unstructured Information Management Architecture) di IBM. [9] Lexis Total Research System, LexisNexis Si tratta di un servizio online, l interfaccia utente si trova infatti sul sito internet dell azienda che l ha sviluppato. Ѐ un software dedicato all ambito delle ricerche in database aziendali, e la tecnologia sfruttata non è stata resa nota. [10] Rapidminer, Rapid-I Rapidminer è un programma, sviluppato in java, che sfrutta una serie di operatori, cioè di elementi che svolgono una funzione di base. Ognuno di essi è definito da ingressi, uscite, elementi grafici e algoritmi, e viene descritto in linguaggio XML. Questi oggetti software vengono poi organizzati in una struttura ad albero che l utente può configurare sfruttando un interfaccia grafica, il fatto che siano disponibili più di 400 operatori permette la realizzazione di alberi anche molto complessi, adatti a situazioni specifiche. Alcuni esempi di categorie di operatori sono: Interfacciamento: permettono di leggere e scrivere files in formato Arff, C4.5, csv, formati sparsi, ed anche audio, oltre che di gestire database in mysql, Postgre ed Oracle. Machine learning: come SVM, alberi di decisione e learners di regole, lazy learners, macchine bayesiane, regressione logistica, processi gaussiani, tecniche di meta learning, macchine a regole associative e schemi di clustering. Pre-elaborazione: strumenti per la discretizzazione, il filtraggio, la normalizzazione, l estrazione di campioni, e la riduzione di dimensionalità. 14

25 Trasformazione degli spazi delle features: forniscono algoritmi per l esecuzione di selezione in avanti, eliminazione all indietro, altri algoritmi generici, pesi guidati, calcoli di rilevanza, costruzione di features ed estrazione. Altri: conviene citare, data la loro importanza, anche gli operatori dedicati alla stima ed alla visualizzazione dei dati, oltre alla classe di quelli destinati all ottimizzazione. Nell ambito del text mining, è possibile sfruttare questi strumenti per filtrare notizie ottenute da più fonti, ed adattare il modo in cui sono presentate alle esigenze dell utente, oppure per categorizzare documenti e contenuti web. Un altro possibile campo di utilizzo è quello della scelta automatica dei destinatari del traffico di posta elettronica in ambito aziendale. Un problema tipico del text minig è quello del cosiddetto concept drifting, che consiste nel progressivo cambiamento delle proprietà statistiche delle variabili prese in esame, causato da eventi imprevedibili. Questo effetto porta ad un deterioramento della precisione dei modelli appresi che tende ad aumentare col passare del tempo, man mano che lo scenario attuale si discosta da quello esistente durante la fase di apprendimento. Esiste un plugin per Rapidminer destinato alla gestione del concept drifting, che mette a disposizione dell utente operatori in grado di simulare stream di dati e variazioni del fenomeno in grado di riprodurre andamenti simili a casi reali. Il set di metodi spazia dalla non considerazione del drifting, all apprendimento effettuato dando più o meno rilevanza ai campioni meno recenti, all utilizzo di una finestra temporale fissa o adattiva sui campioni. [11] Text Mining for Clementine, SPSS Inc. SPSS, o Statistical Package for the Social Sciences, è forse il più usato gruppo di programmi per l analisi statistica nel campo delle scienze sociali. Il suo ambito applicativo comprende l analisi di mercato, il campo della sanità, quello dei sondaggi, quello governativo, le ricerche educative etc. Come si intuisce dal nome, questo prodotto offre strumenti per l analisi statistica, ed oltre a questo è dotato di funzioni di gestione dei dati (selezione di casistiche, rimodellamento di 15

26 files, creazione di dati derivati) e di documentazione (un dizionario di metadati memorizzato all interno dei dati stessi). Tra gli algoritmi e le funzionalità statistiche del software, sono presenti: statistiche descrittive: tabelle di contingenza, frequenze, descrizioni, esplorazione; statistiche binarie: media, test della variabile t di Student, correlazione, test non parametrici; previsioni di risultati numerici: regressione lineare; identificazione di gruppi: analisi fattoriale, analisi di clusters (due passi, K-means, cluster gerarchici), analisi discriminante. Text Mining For Clementine è lo strumento di questa suite dedicato all analisi di contenuti testuali. [12] Text Mining Engine, Nstein Technologies Questo software basa il suo funzionamento sull utilizzo di ontologie, cioè collezioni di dati finalizzate alla descrizione ed alla rappresentazione di un area della conoscenza. In questo modo riesce ad identificare il significato esplicito dei contenuti che prende in esame, con risultati migliori di quelli che potrebbe raggiungere sfruttando vocabolari o tassonomie tradizionali. Questo aspetto avvicina l applicazione al concetto di web semantico, e le permette di generare metadati interpretabili dai lettori semantici dei maggiori motori di ricerca per internet. TME mette a disposizione dell utente una serie di API applicabili al campo del text mining, tra le problematiche affrontate sono presenti: interfacciamento: il software permette di eseguire svariate operazioni di ricerca, gestione e mantenimento dei processi; integrazione: è presente un livello di astrazione che rende più agevole il collegamento tra TME e altri software; annotazioni semantiche: legate ad una serie funzionalità correlate alle strutture linguistiche base, che permettono di effettuare operazioni quali l estrazione di concetti, l estrazione di entità e la categorizzazione. Questo rende più facile lo 16

27 sviluppo di nuove applicazioni per il business e di prodotti mashup, cioè caratterizzati da tecnologie o finalità ibride. Un altra caratteristica di questa soluzione è la disponibilità di pacchetti linguistici completamente compatibili con la già citata in precedenza architettura UIMA di IBM. [13] 17

28 2 Il progetto WordNet WordNet è un progetto nato nell'ambito del Cognitive Science Laboratory dell'università di Princeton. Ѐ stato ideato dal professor George A. Miller e dal suo gruppo nel corso degli anni '80, e ormai è comunemente considerato lo stato dell'arte nel suo genere. Sul sito dell'università di Princeton viene descritto come "una grande banca dati lessicale per la lingua inglese" (la versione originale comprende soltanto questa lingua), ed effettivamente si tratta di qualcosa di molto più sofisticato di un semplice vocabolario. [14] 2.1 La struttura di WordNet Per comprendere il modo nel quale è organizzato il database di WordNet, è importante distinguere tra la parola, o lemma, l'elemento fondamentale di un testo, ed il significato, che viene codificato tramite essa. Non vi è praticamente mai una corrispondenza biunivoca tra i due, infatti è frequente che un concetto possa essere espresso tramite più parole quasi intercambiabili, analogamente, poi, una parola, a seconda del contesto, può rappresentare più di un concetto, si ha dunque a che fare con relazioni di tipo "molti a molti". Ad esempio, il concetto di "automobile" può essere indicato con svariati termini: automobile, vettura, macchina, ecc... La maggior parte di questi, però, ha anche altri significati, ad esempio, con "macchina" possiamo intendere anche un computer, oppure una macchina utensile, mentre "vettura" può significare anche carrozza trainata da un cavallo o, ancora, vagone di un treno, La proprietà di un gruppo di parole di indicare lo stesso concetto è detta sinonimia, si indica invece con polisemia il fatto che un termine rappresenti più concetti diversi. Per rappresentare questa rete di parole e significati che si viene a creare, i creatori di WordNet hanno scelto di basarsi su quello che costituisce il concetto fondamentale del progetto: il synset. Un synset è un insieme di sostantivi, aggettivi, verbi ed avverbi che condividono lo stesso significato, un "set di sinonimi", appunto. Per quanto riguarda la lingua inglese, sono presenti circa synsets, ognuno dei quali è associato ad altri da varie tipologie di relazioni concettuali, che verranno prese in esame più avanti, oltre che ad una breve descrizione e ad alcune frasi di esempio, come in un dizionario. 18

29 2.2 Le relazioni presenti all'interno di WordNet Ѐ possibile distinguere tra due categorie di relazioni all'interno della struttura di WordNet, vi sono le relazioni lessicali, che legano lemmi contenuti in synsets differenti, e quelle semantiche, che legano tra loro i synsets stessi Relazioni lessicali Sinonimia: due lemmi si possono considerare sinonimi se, all'interno di una frase, è possibile sostituire l'uno con l'altro senza variare il significato generale. Antinomia: si tratta della relazione tra due termini che sono uno il contrario dell'altro. Pertinenza: lega lemmi tra i quali sia presente un legame del tipo "associato con", "pertinente a." Vedi anche: generica relazione tra termini di due differenti synsets, in genere, le informazioni contenute nel secondo synset permettono di comprendere meglio il significato del termine in questione. Relazioni participiale: definisce il legame che si ha tra un aggettivo ed il sostantivo dal quale deriva o tra un avverbio ed il verbo dal quale è originato Derivato da: lega un aggettivo ad un sostantivo di un'altra lingua dal quale è derivato Relazioni semantiche Iponimia: lega in maniera gerarchica due synsets, con A che è un iponimo di B se A "è un tipo di" B, quindi se A si trova ad un livello di specializzazione più elevato. Iperonimia: analoga alla precedente, ma nel verso opposto, riprendendo l'esempio appena fatto, si ha che B è un iperonimo di A, perché B é meno specializzato. Meronimia: i meronimi di un synset sono le parti dalle quali è composto il concetto che rappresenta, all'interno di WordNet si possono incontrare tre versioni di questa relazione: o Part of: lega un oggetto con gli elementi fisici che lo compongono; o Member of: si utilizza quando un oggetto è formato da un gruppo di elementi; o Substance of: indica il materiale del quale è composto qualcosa. 19

30 Olonimia: è il contrario della meronimia, un oggetto è l'olonimo di tutte le sue parti. Implicazione: si applica ai verbi, e lega azioni che non possono avvenire indipendentemente. Causalità: anche in questo caso si parla di verbi che esprimono azioni legate tra loro, tuttavia, in questo caso, tra queste vi è un esplicito rapporto di causa-effetto. Raggruppamento di verbi: lega synsets contenenti verbi simili dal punto di vista concettuale. Similarità: collega synsets contenenti aggettivi legati da relazioni di antinomia Attributo: definisce il legame tra un aggettivo ed il sostantivo al quale viene riferito. Coordinazione: si instaura tra synsets caratterizzati dalle stesse relazioni di iperonimia. fig. 1 - un estratto della rete semantica di WordNet 20

31 2.3 EuroWordNet Uno dei limiti di WordNet è il fatto che sia limitato alla sola lingua inglese, fortunatamente svariati centri di ricerca ed università in tutto il mondo hanno emulato i sui creatori, realizzando database analoghi per altre lingue. Per coordinare tutti questi progetti è nata la Global WordNet Association, un ente senza scopo di lucro grazie al quale tutti i gruppi impegnati nella realizzazione di un database possono cooperare per mantenere un certo livello di compatibilità. EuroWordNet è il prodotto su scala europea di tale cooperazione, esso comprende databases in sette lingue: italiano, francese, tedesco, spagnolo, olandese, ceco ed estone. Questi ultimi sono strutturati in maniera analoga al WordNet originale, quindi con la stesso sistema di synsets legati da vari tipi di relazioni. Ogni lingua ha un proprio sistema d'indicizzazione dei synsets, tuttavia, per uniformare il tutto, esiste l'inter Lingual Index (ILI): ogni ILI associa synsets corrispondenti in lingue differenti, e coincide con l'indice del synset equivalente per la lingua inglese, tratto da WordNet 1.5. [15] 2.4 WordNet Domains WordNet Domains è un progetto sviluppato dalla sezione Human Language Technology della fondazione Bruno Kessler, e costituisce un modulo aggiuntivo che va ad arricchire la struttura di base di WordNet. Ad ogni synset sono state associate una o più etichette, che ne specificano il dominio di appartenenza, utilizzando una procedura che combina assegnamento manuale ed automatico. In totale sono presenti circa duecento etichette, organizzate secondo una struttura gerarchica sviluppata su quattro livelli. Nei casi nei quali non è stato possibile scegliere il dominio corretto, è stata utilizzata l'etichetta "factotum". [16] Nell'ultima versione rilasciata, i WN Domains sono organizzati tenendo presente la struttura della Dewey Decimal Classification (DDC), un sistema di etichettatura dei testi sfruttato ormai da più di un secolo nell'ambito dell'archiviazione di libri e documenti. Anche in questo caso è presente una gerarchia su più livelli: quello più in alto è formato da dieci domini, le Main Classes, ognuno dei quali è suddiviso in altri dieci nodi, detti 21

32 Hundred Divisions. Scendendo lungo la gerarchia, ognuno dei nodi appena menzionati conduce a dieci ulteriori suddivisioni, definite Thousand Sections, e nei casi in cui è necessario, infine, sono presenti ulteriori divisioni più fini. In fig. 2 è possibile osservare un piccolo estratto della gerarchia della DDC, ad ogni etichetta è associato un numero a tre cifre: le centinaia indicano il nodo radice, le decine l'hundred Division e le unità la Thousand Selection. Le ulteriori ramificazioni della gerarchia sono rappresentate tramite numeri decimali seguendo un criterio simile. fig. 2 - Un estratto della gerarchia della DDC Per fare un esempio, Art è la settima Main class, dunque a lei è associata la cifra 7, usata per le centinaia. Tutti i codici dei suoi figli inizieranno, dunque, per 7. Ognuno di essi, inoltre, sarà identificato dalla cifra usata per le decine, ad esempio, il 3 è dedicato a Plastic Arts ed il 4 a Drawing. Continuando a scendere, tutti i nodi subordinati a Plastic Arts saranno caratterizzati dal prefisso 73, seguito da una cifra per le unità che, nel caso di Carving, è 6, quindi il codice di quest'ultima classe risulta essere 736. Le ulteriori suddivisioni di Carving avranno, infine, un codice la cui parte intera sarà proprio 736. Nella gerarchia dei WN Domains, una particolare importanza è rivestita dai domini di secondo livello, detti Basic Domains, che si ritiene possiedano il livello di granularità ideale per la maggior parte delle applicazioni. In fase di regolazione di questa gerarchia, ci si è impegnati perché fossero soddisfatti quattro punti principali, ben due dei quali dedicati ai Basic Domains: significato: ogni etichetta dovrebbe essere associata ad un significato esplicito, ed essere identificata in maniera priva di ambiguità; 22

33 disgiunzione: non dovrebbero esserci sovrapposizioni tra i domini indicati da tutte le etichette; copertura: i Basic Domains dovrebbero ricoprire tutti i campi dello scibile umano; bilanciamento: le varie etichette appartenenti al gruppo dei Basic Domains dovrebbero possedere un livello di granularità simile, ossia, non dovrebbero essercene alcune molto generiche ed altre molto specializzate. Per raggiungere questi quattro obiettivi si è tratta ispirazione dalla rodata struttura della DDC, la quale si suppone avere tutte le caratteristiche richieste. La definizione di un significato preciso ed univoco e l'assenza di sovrapposizioni tra etichette sono state ottenute associando ognuna di esse ad uno o più codici DDC, in maniera che un singolo codice DDC possa essere legato ad una sola etichetta. Normalmente, nel corso di questo processo si è fatto sì che le relazioni gerarchiche fossero le stesse nelle due classificazioni, tranne in alcune eccezioni, quando sono stati effettuati degli adattamenti per rendere i WN Domains più adatti ai fini delle operazioni di analisi testuale. La copertura è garantita dal fatto che ognuna delle Hundred Divisions può essere messa in relazione con una o più etichette WND. Per affermare questo, ci si basa sull'ipotesi che ogni elemento di una sotto-gerarchia relativa ad una data Hundred Division sia coperto da una delle etichette WND associate a quest'ultima, cioè, se, ad esempio, a Plastic Arts, della DDC, sono legate tre etichette WND, queste tre, assieme, racchiuderanno tutti i vocaboli presenti nella sotto-gerarchia della suddetta Drawing. Per quanto riguarda il bilanciamento, infine, si può dire che si tratta della caratteristica più difficile da valutare. Per ottenere un risultato adatto agli scopi per i quali WN Domains è stato pensato, si è rivelato necessario distaccarsi in maniera sensibile dalla struttura della DDC. In alcuni casi, infatti, questa risulta essere troppo legata all'ambito della classificazione libraria, e, dopo più di un secolo di utilizzo, necessita di alcuni aggiornamenti per adattarsi alla cultura odierna. In particolare, si è scelto di dare particolare peso alla rilevanza sociale dei vari ambiti culturali, nel valutare la granularità della suddivisione, in modo da garantire che, ad uno stesso livello gerarchico, convivano classi semantiche di importanza simile. Il risultato della mappatura da DDC ai Basic Domains è stato: 23

34 4 Basic Domains mappati in una Main Class; 18 mappati in Hundred Divisions; 6 mappati in gruppi di etichette DDC di vari livelli, tra i quali predomina il secondo; 17 in gruppi di etichette DDC di livello 3 e 4. In fig. 3 è riportato una piccola parte della gerarchia WN Domains. fig. 3 - Un frammento della gerarchia dei WN Domains Con l'aggiunta dei domini, la descrizione di un termine che WordNet è in grado di fornire assume una forma simile a quella mostrata nell'esempio in fig. 4, relativo alla parola "Bank". 24

35 fig. 4 - la voce di WordNet relativa al termine "bank" Come si può notare in fig. 4, ognuno dei possibili significati di questo termine fa riferimento ad un differente synset, e per ognuno di questi è presente una descrizione del dominio di appartenenza. Da questo è possibile intuire una delle più grandi potenzialità insite nel sistema dei WN Domains, che è costituita dall'ausilio che possono fornire nel campo della disambiguazione, ossia della scelta della glossa corretta in base al contesto. Conoscendo l'argomento del quale tratta il documento preso in esame, è possibile considerare un insieme di domini d'interesse e filtrare le glosse in base a questi, eliminando o, per lo meno, riducendo l'ambiguità tra i vari significati. Il concetto di disambiguazione verrà approfondito più avanti in questa trattazione. Un'importante caratteristica dei WordNet Domains è la loro indipendenza dalla lingua, sebbene la classificazione sia stata effettuata utilizzando come riferimento la versione inglese di WordNet, è possibile sfruttare gli ILI per associare i domini anche alle altre lingue disponibili in EuroWordNet. [17] 25

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

1. BASI DI DATI: GENERALITÀ

1. BASI DI DATI: GENERALITÀ 1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente

Dettagli

Generazione Automatica di Asserzioni da Modelli di Specifica

Generazione Automatica di Asserzioni da Modelli di Specifica UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI Corso di Laurea Magistrale in Informatica Generazione Automatica di Asserzioni da Modelli di Specifica Relatore:

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Indice. pagina 2 di 10

Indice. pagina 2 di 10 LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING Febbraio Inserto di Missione Impresa dedicato allo sviluppo pratico di progetti finalizzati ad aumentare la competitività delle imprese. COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING COS E UN

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

Strutturazione logica dei dati: i file

Strutturazione logica dei dati: i file Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell

Dettagli

Strumenti di modellazione. Gabriella Trucco

Strumenti di modellazione. Gabriella Trucco Strumenti di modellazione Gabriella Trucco Linguaggio di modellazione Linguaggio formale che può essere utilizzato per descrivere (modellare) un sistema Il concetto trova applicazione soprattutto nell

Dettagli

La progettazione centrata sull utente nei bandi di gara

La progettazione centrata sull utente nei bandi di gara Progetto PerformancePA Ambito A - Linea 1 - Una rete per la riforma della PA La progettazione centrata sull utente nei bandi di gara Autore: Maurizio Boscarol Creatore: Formez PA, Progetto Performance

Dettagli

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)

Dettagli

CONTENT MANAGEMENT SYSTEM

CONTENT MANAGEMENT SYSTEM CONTENT MANAGEMENT SYSTEM P-2 PARLARE IN MULTICANALE Creare un portale complesso e ricco di informazioni continuamente aggiornate, disponibile su più canali (web, mobile, iphone, ipad) richiede competenze

Dettagli

Ipertesti e Internet. Ipertesto. Ipertesto. Prof.ssa E. Gentile. a.a. 2011-2012

Ipertesti e Internet. Ipertesto. Ipertesto. Prof.ssa E. Gentile. a.a. 2011-2012 Corso di Laurea Magistrale in Scienze dell Informazione Editoriale, Pubblica e Sociale Ipertesti e Internet Prof.ssa E. Gentile a.a. 2011-2012 Ipertesto Qualsiasi forma di testualità parole, immagini,

Dettagli

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) COMUNE DI RAVENNA Il sistema di valutazione delle posizioni del personale dirigente GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) Ravenna, Settembre 2004 SCHEMA DI SINTESI PER LA

Dettagli

PROCESSO DI INDICIZZAZIONE SEMANTICA

PROCESSO DI INDICIZZAZIONE SEMANTICA PROCESSO DI INDICIZZAZIONE SEMANTICA INDIVIDUAZIONE DEI TEMI/CONCETTI SELEZIONE DEI TEMI/CONCETTI ESPRESSIONE DEI CONCETTI NEL LINGUAGGIO DI INDICIZZAZIONE TIPI DI INDICIZZAZIONE SOMMARIZZAZIONE INDICIZZAZIONE

Dettagli

Università degli Studi di Salerno

Università degli Studi di Salerno Università degli Studi di Salerno Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tesi di Laurea Algoritmi basati su formule di quadratura interpolatorie per GPU ABSTRACT

Dettagli

SOLUZIONE Web.Orders online

SOLUZIONE Web.Orders online SOLUZIONE Web.Orders online Gennaio 2005 1 INDICE SOLUZIONE Web.Orders online Introduzione Pag. 3 Obiettivi generali Pag. 4 Modulo di gestione sistema Pag. 5 Modulo di navigazione prodotti Pag. 7 Modulo

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci Corso di Laurea Magistrale in Ingegneria per l Ambiente e il Territorio A.A. 2014-2015 Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci Strutture di dati: DB e DBMS DATO E INFORMAZIONE Dato: insieme

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

Linguaggi e Paradigmi di Programmazione

Linguaggi e Paradigmi di Programmazione Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una

Dettagli

Sistemi informativi secondo prospettive combinate

Sistemi informativi secondo prospettive combinate Sistemi informativi secondo prospettive combinate direz acquisti direz produz. direz vendite processo acquisti produzione vendite INTEGRAZIONE TRA PROSPETTIVE Informazioni e attività sono condivise da

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Come archiviare i dati per le scienze sociali

Come archiviare i dati per le scienze sociali Come archiviare i dati per le scienze sociali ADPSS-SOCIODATA Archivio Dati e Programmi per le Scienze Sociali www.sociologiadip.unimib.it/sociodata E-mail: adpss.sociologia@unimib.it Tel.: 02 64487513

Dettagli

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione Programma del Corso Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Normalizzazione (I prova scritta) (II prova scritta) Interazione fra linguaggi di programmazione e basi di dati Cenni

Dettagli

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico MANUALE MOODLE STUDENTI Accesso al Materiale Didattico 1 INDICE 1. INTRODUZIONE ALLA PIATTAFORMA MOODLE... 3 1.1. Corso Moodle... 4 2. ACCESSO ALLA PIATTAFORMA... 7 2.1. Accesso diretto alla piattaforma...

Dettagli

lem logic enterprise manager

lem logic enterprise manager logic enterprise manager lem lem Logic Enterprise Manager Grazie all esperienza decennale in sistemi gestionali, Logic offre una soluzione modulare altamente configurabile pensata per la gestione delle

Dettagli

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO Descrizione Nell ambito della rilevazione dei costi, Solari con l ambiente Start propone Time&Cost, una applicazione che contribuisce a fornire

Dettagli

OSINT, acronimo di Open Source INTelligence, uno dei modi per acquisire dati utili per l intelligence:

OSINT, acronimo di Open Source INTelligence, uno dei modi per acquisire dati utili per l intelligence: OSINT, acronimo di Open Source INTelligence, uno dei modi per acquisire dati utili per l intelligence: riguarda il monitoraggio e l analisi di contenuti reperibili da fonti pubbliche, non riservate. L

Dettagli

Corso di Informatica

Corso di Informatica Corso di Informatica Modulo T2 3-Compilatori e interpreti 1 Prerequisiti Principi di programmazione Utilizzo di un compilatore 2 1 Introduzione Una volta progettato un algoritmo codificato in un linguaggio

Dettagli

TECNICHE DI SIMULAZIONE

TECNICHE DI SIMULAZIONE TECNICHE DI SIMULAZIONE INTRODUZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Introduzione alla simulazione Una simulazione è l imitazione

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

Dispensa di Informatica I.1

Dispensa di Informatica I.1 IL COMPUTER: CONCETTI GENERALI Il Computer (o elaboratore) è un insieme di dispositivi di diversa natura in grado di acquisire dall'esterno dati e algoritmi e produrre in uscita i risultati dell'elaborazione.

Dettagli

Architetture Applicative

Architetture Applicative Alessandro Martinelli alessandro.martinelli@unipv.it 6 Marzo 2012 Architetture Architetture Applicative Introduzione Alcuni esempi di Architetture Applicative Architetture con più Applicazioni Architetture

Dettagli

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011 I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA Palermo 9 novembre 2011 UNIVERSITÀ DEGLI STUDI DI PALERMO Webquest Attività di indagine guidata sul Web, che richiede la partecipazione attiva degli studenti,

Dettagli

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale. Il presente materiale didattico costituisce parte integrante del percorso formativo

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Al giorno d oggi, i sistemi per la gestione di database

Al giorno d oggi, i sistemi per la gestione di database Introduzione Al giorno d oggi, i sistemi per la gestione di database implementano un linguaggio standard chiamato SQL (Structured Query Language). Fra le altre cose, il linguaggio SQL consente di prelevare,

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

Alessandra Raffaetà. Basi di Dati

Alessandra Raffaetà. Basi di Dati Lezione 2 S.I.T. PER LA VALUTAZIONE E GESTIONE DEL TERRITORIO Corso di Laurea Magistrale in Scienze Ambientali Alessandra Raffaetà Dipartimento di Informatica Università Ca Foscari Venezia Basi di Dati

Dettagli

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale La soluzione modulare di gestione del Sistema Qualità Aziendale I MODULI Q.A.T. - Gestione clienti / fornitori - Gestione strumenti di misura - Gestione verifiche ispettive - Gestione documentazione del

Dettagli

I cookie sono classificati in base alla durata e al sito che li ha impostati.

I cookie sono classificati in base alla durata e al sito che li ha impostati. 1. Informativa sui cookie 1.1. Informazioni sui cookie I siti Web si avvalgono di tecniche utili e intelligenti per aumentare la semplicità di utilizzo e rendere i siti più interessanti per ogni visitatore.

Dettagli

EXPLOit Content Management Data Base per documenti SGML/XML

EXPLOit Content Management Data Base per documenti SGML/XML EXPLOit Content Management Data Base per documenti SGML/XML Introduzione L applicazione EXPLOit gestisce i contenuti dei documenti strutturati in SGML o XML, utilizzando il prodotto Adobe FrameMaker per

Dettagli

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi Il Software Il software impiegato su un computer si distingue in: Software di sistema Sistema Operativo Compilatori per produrre programmi Software applicativo Elaborazione testi Fogli elettronici Basi

Dettagli

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome. Prof. Francesco Accarino Raccolta di esercizi modello ER Esercizio 1 Un università vuole raccogliere ed organizzare in un database le informazioni sui propri studenti in relazione ai corsi che essi frequentano

Dettagli

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014 Archivi e database Prof. Michele Batocchi A.S. 2013/2014 Introduzione L esigenza di archiviare (conservare documenti, immagini, ricordi, ecc.) è un attività senza tempo che è insita nell animo umano Primi

Dettagli

Presentazione MyMailing 3.0

Presentazione MyMailing 3.0 Prog. MyMailing Vers. 3.0 12/11/2009 Presentazione MyMailing 3.0 Novità della versione 3.0 Lead : Ricerca unificata su tutti gli elenchi Inserimento di più referenti per ogni lead con area, e-mail, incarico,

Dettagli

2 Gli elementi del sistema di Gestione dei Flussi di Utenza

2 Gli elementi del sistema di Gestione dei Flussi di Utenza SISTEMA INFORMATIVO page 4 2 Gli elementi del sistema di Gestione dei Flussi di Utenza Il sistema è composto da vari elementi, software e hardware, quali la Gestione delle Code di attesa, la Gestione di

Dettagli

Soluzione dell esercizio del 2 Febbraio 2004

Soluzione dell esercizio del 2 Febbraio 2004 Soluzione dell esercizio del 2 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. E evidenziato un sotto caso di uso. 2. Modello concettuale Osserviamo

Dettagli

2003.06.16 Il sistema C.R.M. / E.R.M.

2003.06.16 Il sistema C.R.M. / E.R.M. 2003.06.16 Il sistema C.R.M. / E.R.M. Customer / Enterprise : Resource Management of Informations I-SKIPPER è un sistema di CONOSCENZE che raccoglie ed integra INFORMAZIONI COMMERCIALI, dati su Clienti,

Dettagli

Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it

Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it Riconoscibilità dei siti pubblici: i domini della Pa e le regole di.gov.it Gabriella Calderisi - DigitPA 2 dicembre 2010 Dicembre 2010 Dominio.gov.it Cos è un dominio? Se Internet è una grande città, i

Dettagli

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste versione 2.1 24/09/2015 aggiornamenti: 23-set-2015; 24-set-2015 Autore: Francesco Brunetta (http://www.francescobrunetta.it/)

Dettagli

itime Chiaramente inclusa la stampa del cartellino presenze come previsto dalle normative

itime Chiaramente inclusa la stampa del cartellino presenze come previsto dalle normative itime itime Il software di rilevazione presenze itime rappresenta lo strumento ideale per l automatizzazione della gestione del personale. L ampia presenza dei parametri facilita l operatore nel controllo

Dettagli

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati Affidabilità nel servizio precisione negli strumenti Chanda LPR Chanda LPR è una piattaforma

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone BASI DI DATI per la gestione dell informazione Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone Libro di Testo 22 Chianese, Moscato, Picariello e Sansone BASI DI DATI per la Gestione dell

Dettagli

DSCube. L analisi dei dati come strumento per i processi decisionali

DSCube. L analisi dei dati come strumento per i processi decisionali DSCube L analisi dei dati come strumento per i processi decisionali Analisi multi-dimensionale dei dati e reportistica per l azienda: DSCube Introduzione alla suite di programmi Analyzer Query Builder

Dettagli

EVOLUZIONE DI UN SISTEMA DI TELECONTROLLO A SERVIZIO DELLA SOSTENIBILITÀ AMBIENTALE: L ACQUEDOTTO CAMPANO. Giuseppe Mario Patti Proxima S.r.l.

EVOLUZIONE DI UN SISTEMA DI TELECONTROLLO A SERVIZIO DELLA SOSTENIBILITÀ AMBIENTALE: L ACQUEDOTTO CAMPANO. Giuseppe Mario Patti Proxima S.r.l. EVOLUZIONE DI UN SISTEMA DI TELECONTROLLO A SERVIZIO DELLA SOSTENIBILITÀ AMBIENTALE: L ACQUEDOTTO CAMPANO Giuseppe Mario Patti Proxima S.r.l. «Competitività e Sostenibilità. Progetti e tecnologie al servizio

Dettagli

La Progettazione Concettuale

La Progettazione Concettuale La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio

Dettagli

Lezione 8. La macchina universale

Lezione 8. La macchina universale Lezione 8 Algoritmi La macchina universale Un elaboratore o computer è una macchina digitale, elettronica, automatica capace di effettuare trasformazioni o elaborazioni su i dati digitale= l informazione

Dettagli

BANCHE DATI. Informatica e tutela giuridica

BANCHE DATI. Informatica e tutela giuridica BANCHE DATI Informatica e tutela giuridica Definizione La banca dati può essere definita come un archivio di informazioni omogenee e relative ad un campo concettuale ben identificato, le quali sono organizzate,

Dettagli

Politecnico di Bari Corso di Laurea Specialistica in Ingegneria Informatica A.A. 2008-09. Casi di Studio. Traccia n 1

Politecnico di Bari Corso di Laurea Specialistica in Ingegneria Informatica A.A. 2008-09. Casi di Studio. Traccia n 1 Politecnico di Bari Corso di Laurea Specialistica in Ingegneria Informatica A.A. 2008-09 Casi di Studio Traccia n 1 Si vuole realizzare un portale web per la gestione della rete di vendita di un'azienda

Dettagli

È evidente dunque l'abbattimento dei costi che le soluzioni ASP permettono in quanto:

È evidente dunque l'abbattimento dei costi che le soluzioni ASP permettono in quanto: Sitea Easy Events Il software gestionale per organizzare eventi fieristici Sitea Information Technology presenta Sitea Easy Events, il software gestionale studiato per ottimizzare il processo di organizzazione

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Al termine del lavoro ad uno dei componenti del gruppo verrà affidato l incarico di relazionare a nome di tutto il gruppo.

Al termine del lavoro ad uno dei componenti del gruppo verrà affidato l incarico di relazionare a nome di tutto il gruppo. Pag. 1 di 5 6FRSR analizzare problemi complessi riguardanti la gestione di un sito interattivo proponendo soluzioni adeguate e facilmente utilizzabili da una utenza poco informatizzata. 2ELHWWLYL GD UDJJLXQJHUH

Dettagli

Dispensa di database Access

Dispensa di database Access Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di

Dettagli

Capitolo 4 - Teoria della manutenzione: la gestione del personale

Capitolo 4 - Teoria della manutenzione: la gestione del personale Capitolo 4 - Teoria della manutenzione: la gestione del personale Con il presente capitolo si chiude la presentazione delle basi teoriche della manutenzione. Si vogliono qui evidenziare alcune problematiche

Dettagli

SDD System design document

SDD System design document UNIVERSITA DEGLI STUDI DI PALERMO FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA TESINA DI INGEGNERIA DEL SOFTWARE Progetto DocS (Documents Sharing) http://www.magsoft.it/progettodocs

Dettagli

Le effettive esigenze della Direzione del Personale nella gestione delle risorse umane in azienda. Andamento dal 2005 ad oggi

Le effettive esigenze della Direzione del Personale nella gestione delle risorse umane in azienda. Andamento dal 2005 ad oggi Le effettive esigenze della Direzione del Personale nella gestione delle risorse umane in azienda. Andamento dal 2005 ad oggi Indagine ottenuta grazie alla somministrazione di questionario ad oltre 260

Dettagli

Informatica I per la. Fisica

Informatica I per la. Fisica Corso di Laurea in Fisica Informatica I per la Fisica Lezione: Software applicativo II Fogli elettronici e Data Base Software: software di sistema (BIOS) sistema operativo software applicativo ROM Dischi

Dettagli

Il calendario di Windows Vista

Il calendario di Windows Vista Il calendario di Windows Vista Una delle novità introdotte in Windows Vista è il Calendario di Windows, un programma utilissimo per la gestione degli appuntamenti, delle ricorrenze e delle attività lavorative

Dettagli

Anno scolastico 2015 / 2016. Piano di lavoro individuale. ITE Falcone e Borsellino. Classe: IV ITE. Insegnante: DEGASPERI EMANUELA

Anno scolastico 2015 / 2016. Piano di lavoro individuale. ITE Falcone e Borsellino. Classe: IV ITE. Insegnante: DEGASPERI EMANUELA Anno scolastico 2015 / 2016 Piano di lavoro individuale ITE Falcone e Borsellino Classe: IV ITE Insegnante: DEGASPERI EMANUELA Materia: LABORATORIO DI INFORMATICA ISS BRESSANONE-BRIXEN LICEO SCIENTIFICO

Dettagli

PROGETTO EM.MA PRESIDIO

PROGETTO EM.MA PRESIDIO PROGETTO EM.MA PRESIDIO di PIACENZA Bentornati Il quadro di riferimento di matematica : INVALSI e TIMSS A CONFRONTO LE PROVE INVALSI Quadro di riferimento per la valutazione Quadro di riferimento per i

Dettagli

Il servizio di registrazione contabile. che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili

Il servizio di registrazione contabile. che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili Il servizio di registrazione contabile che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili Chi siamo Imprese giovani e dinamiche ITCluster nasce a Torino

Dettagli

Software per Helpdesk

Software per Helpdesk Software per Helpdesk Padova - maggio 2010 Antonio Dalvit - www.antoniodalvit.com Cosa è un helpdesk? Un help desk è un servizio che fornisce informazioni e assistenza ad utenti che hanno problemi nella

Dettagli

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

Scopo della lezione. Informatica. Informatica - def. 1. Informatica Scopo della lezione Informatica per le lauree triennali LEZIONE 1 - Che cos è l informatica Introdurre i concetti base della materia Definire le differenze tra hardware e software Individuare le applicazioni

Dettagli

REALIZZARE UN MODELLO DI IMPRESA

REALIZZARE UN MODELLO DI IMPRESA REALIZZARE UN MODELLO DI IMPRESA - organizzare e gestire l insieme delle attività, utilizzando una piattaforma per la gestione aziendale: integrata, completa, flessibile, coerente e con un grado di complessità

Dettagli

Contabilità generale e contabilità analitica

Contabilità generale e contabilità analitica 1/5 Contabilità generale e contabilità analitica La sfida della contabilità analitica è di produrre informazioni sia preventive che consuntive. Inoltre questi dati devono riferirsi a vari oggetti (prodotti,

Dettagli

SUAP. Per gli operatori SUAP/amministratori. Per il richiedente

SUAP. Per gli operatori SUAP/amministratori. Per il richiedente Procedura guidata per l inserimento della domanda Consultazione diretta, da parte dell utente, dello stato delle sue richieste Ricezione PEC, protocollazione automatica in entrata e avviamento del procedimento

Dettagli

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012

GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012 GIOCHI MATEMATICI PER LA SCUOLA SECONDARIA DI I GRADO ANNO SCOLASTICO 2011-2012 L unità di Milano Città Studi del Centro matematita propone anche per l a.s. 2011-2012 una serie di problemi pensati per

Dettagli

Progettazione di un Database

Progettazione di un Database Progettazione di un Database Per comprendere il processo di progettazione di un Database deve essere chiaro il modo con cui vengono organizzati e quindi memorizzati i dati in un sistema di gestione di

Dettagli

Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009. Prof. Raffaele Nicolussi

Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009. Prof. Raffaele Nicolussi Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009 Prof. Raffaele Nicolussi FUB - Fondazione Ugo Bordoni Via B. Castiglione 59-00142 Roma Docente Raffaele Nicolussi rnicolussi@fub.it Lezioni

Dettagli

Basi di Dati Relazionali

Basi di Dati Relazionali Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica

Dettagli

Informatica (Basi di Dati)

Informatica (Basi di Dati) Corso di Laurea in Biotecnologie Informatica (Basi di Dati) Modello Entità-Relazione Anno Accademico 2009/2010 Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati 1, Prof.

Dettagli

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini. Algoritmi di routing dinamici (pag.89) UdA2_L5 Nelle moderne reti si usano algoritmi dinamici, che si adattano automaticamente ai cambiamenti della rete. Questi algoritmi non sono eseguiti solo all'avvio

Dettagli

Sistema Banca dati e Repertorio dei dispositivi medici Notifiche multiple di DM simili

Sistema Banca dati e Repertorio dei dispositivi medici Notifiche multiple di DM simili Sistema Banca dati e Repertorio dei dispositivi medici Notifiche multiple di DM simili Questa presentazione intende illustrare brevemente la nuova funzionalità (Notifiche multiple di DM simili) predisposta

Dettagli

OFFERTA FORMATIVA PER OCCUPATI

OFFERTA FORMATIVA PER OCCUPATI OFFERTA FORMATIVA PER OCCUPATI I corso elencati di seguito sono GRATUITI per gli aventi diritto alla dote occupati, vale a dire per i lavoratori occupati residenti o domiciliati in Lombardia con rapporto

Dettagli

Mon Ami 3000 Conto Lavoro Gestione del C/Lavoro attivo e passivo

Mon Ami 3000 Conto Lavoro Gestione del C/Lavoro attivo e passivo Prerequisiti Mon Ami 3000 Conto Lavoro Gestione del C/Lavoro attivo e passivo L opzione Conto lavoro è disponibile per le versioni Azienda Light e Azienda Pro. Introduzione L opzione Conto lavoro permette

Dettagli

SOFTWARE PER LA RILEVAZIONE PRESENZE SUL WEB

SOFTWARE PER LA RILEVAZIONE PRESENZE SUL WEB SOFTWARE PER LA RILEVAZIONE PRESENZE SUL WEB Descrizione Time@Web rappresenta l applicazione per la gestione delle presenze via Web. Nel contesto dell ambiente START, Solari ha destinato questa soluzione

Dettagli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli Prerequisiti Mon Ami 3000 Varianti articolo Gestione di varianti articoli L opzione Varianti articolo è disponibile per le versioni Azienda Light e Azienda Pro e include tre funzionalità distinte: 1. Gestione

Dettagli

Linee guida per il Comitato Tecnico Operativo 1

Linee guida per il Comitato Tecnico Operativo 1 Linee guida per il Comitato Tecnico Operativo 1 Introduzione Questo documento intende costituire una guida per i membri del Comitato Tecnico Operativo (CTO) del CIBER nello svolgimento delle loro attività.

Dettagli