INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA"

Transcript

1 I quaderni di di Claudio Carpineto INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA L Information Mining può essere spiegata in maniera semplice come l estrazione di informazione utile da insiemi di dati. Nella società cosiddetta dell informazione i dati raccolti e le analisi dei dati raccolti diventano sempre più determinanti per promuovere business a qualsiasi livello. Questo numero de I Quaderni di Telèma, dedicato al settore ci accompagna in questo universo in cui la matematica viene applicata all'analisi dei dati. Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all individuazione di comportamenti fraudolenti per finire all ottimizzazione di siti web. In futuro i processi decisionali delle aziende potrebbero basarsi esclusivamente su questo genere di analisi, infatti la possibilità di analizzare automaticamente dati apre nuovi scenari applicativi finora inimmaginabili permettendo la creazione di una nuova gamma di servizi basati sulla conoscenza. La ricerca proposta nelle pagine seguenti dalla Fondazione Bordoni può portare alla scoperta di regole e associazioni nascoste nelle sequenze di dati, al riconoscimento di entità semantiche nei testi, alla modellazione in tempo reale delle rilevazioni sensoriali e strumentali, e alla profilazione implicita dell utente. La quantità di dati digitali prodotti dall utente aumenta vertiginosamente di giorno in giorno e dunque è quanto mai importante far divulgazione su questo concetto: ognuno di noi lascia una quantità sempre maggiore di tracce digitali. Da queste tracce è possibile risalire ai gusti, alle preferenze, finanche alle abitudini di ciascuno. La conferenza annuale più importante del settore è la KDD (Knowledge Discovery in Databases) Conference; inaugurata nel 1995, nelle ultime edizioni è arrivata a totalizzare 1000 par tecipanti, con sponsorizzazioni milionarie da parte delle aziende informatiche e dei motori di ricerca. In queste pagine sono tre le tecniche specifiche approfondite: la classificazione automatica basata sugli esempi (principalmente con riferimento a basi di dati); la strutturazione automatica dei risultati delle ricerche Web; e l analisi delle opinioni ( sentiment analysis ). Supplemento al numero 266 maggio 2009 di

2 I N D I C e Introduzione Classificazione automatica Analisi e strutturazione dei risultati delle ricerche Web Analisi delle opinioni e dei sentimenti Limitazioni e problemi aperti Information Mining in FUB Il quaderno di Telèma è stato realizzato dalla Fondazione Ugo Bordoni. presidente enrico manca direttore delle ricerche l ing. mario Frullone Curatore del Quaderno: claudio carpineto Hanno collaborato: giambattista amati, andrea Bernardini, raffaele nicolussi, giovanni romano, Fondazione ugo Bordoni SONO USCITI NEL /2009: utente senza segreti informazione personalizzata aprile nuove piattaforme di diffusione terrestre e satellitare della tv digitale: gli standard dvb-t2 e dvb-s2 maggio piattaforme e contenuti in un mondo in movimento giugno la tecnologie Fotoniche per la larga Banda e per le ngn luglio/agosto robot con noi, tra noi e dentro di noi SettemBre robot: tra realtà e fantasia ottobre passaggio al digitale: il modello Sardegna novembre tv digitale terrestre in Sardegna: ecco i primi bilanci dicembre /gennaio e-inclusion: accessibilità nella società dell informazione FeBBraio tecnologia e disabilità: due mondi non ancora globali marzo il futuro di internet: ipv6 un indirizzo per tutti e tutto aprile Iquadernidi

3 introduzione La quantità di dati prodotta in formato digitale ha subito una brusca accelerazione. L universo Web con le sue reti sociali, le tracce lasciate sui siti di commercio elettronico e sui motori di ricerca, i dati raccolti attraverso i dispositivi per la comunicazione mobile personale e dalle reti di sensori sono solo alcuni esempi di questo autentico diluvio informativo. Secondo stime recenti la dimensione dell universo digitale ha raggiunto i 281 miliardi di Giga-bytes, che vuol dire circa 45 Giga-bytes a testa. La possibilità di analizzare automaticamente questi dati aprirebbe scenari applicativi impensabili, con la creazione di una nuova gamma di servizi basati sulla conoscenza. La ricerca ha raccolto questa sfida e sta inventando nuove tecniche di Information Mining, per consentire ad esempio la scoperta di regole e associazioni nascoste nelle sequenze di dati, il riconoscimento di entità semantiche nei testi, la modellazione in tempo reale delle rilevazioni sensoriali e strumentali, e la profilazione implicita dell utente. Information Mining è una disciplina con radici in intelligenza artificiale, apprendimento automatico, information retrieval, statistica e teoria delle basi di dati. Il suo obiettivo principale è fare predizioni, basandosi tipicamente sull analisi di un campione di dati di addestramento dal quale viene appresa conoscenza sotto forma di regolarità o pattern, conoscenza che poi verrà utilizzata per interpretare nuovi dati. In questo senso, le tecniche di Information Mining integrano ed estendono strumenti di analisi dei dati più tradizionali come OLAP (On-line Analytic Processing) e eda (exploratory Data Analysis), che sono basati principalmente sulla verifica delle ipotesi e la modellizzazione dei dati. L interesse scientifico, delle aziende private e degli organismi pubblici è fortissimo. La conferenza annuale più importante del settore è la KDD (Knowledge Discovery in Databases) Conference; inaugurata nel 1995, nelle ultime edizioni è arrivata a totalizzare 1000 partecipanti, con sponsorizzazioni milionarie da parte delle aziende informatiche e dei motori di ricerca. Tantissime sono le università e i centri di ricerca coinvolti, con molta ricerca industriale, numerosi prodotti commerciali, e un grande mondo del software open source. Non c è virtualmente settore produttivo e dei servizi in cui siano coinvolte grandi quantità di dati in forma digitale - marketing, sorveglianza, reti. scoperta scientifica - che non possa beneficiare dell impiego di queste tecnologie. Solo per citare alcuni esempi, esse sono il fondamento dei metodi avanzati per la gestione relazione clienti, il controllo di qualità, l elaborazione dei reclami, la sicurezza delle infrastrutture digitali, la scoperta di frodi, e l erogazione del credito. e nuove promettenti scienze applicative basate sull estrazione automatica delle informazioni stanno nascendo proprio ora, dalla pubblicità contestualizzata (computational advertising) all analisi automatica delle reti sociali del web 2.0 (social web mining). Non è possibile in poche pagine presentare una panoramica esaustiva di un settore così vasto. Noi ci limiteremo ad approfondire tre tecniche specifiche con importanti valenze applicative, e cioè la classificazione automatica basata sugli esempi (principalmente con riferimento a basi di dati), la strutturazione automatica dei risultati delle ricerche Web, e l analisi delle opinioni ( sentiment analysis ). Successivamente discuteremo alcuni aspetti di carattere generale che riguardano le limitazioni e l applicabilità delle tecniche di Information Mining, vedremo quali sono i principali insegnamenti che si possono trarre da una storia di successi (e anche di fallimenti) che ha oramai più di dieci anni, e identificheremo gli sviluppi più promettenti. Infine illustreremo brevemente alcune ricerche in corso presso la Fondazione Ugo Bordoni in questo settore. MAGGIO

4 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA classificazione automatica Figura 1. Frontiere di decisione per problemi di classificazione multipla. È probabilmente il tema che è stato analizzato meglio da un punto di vista scientifico e che ha prodotto tecniche e strumenti software che sono stati applicati in una miriade di casi reali. È anche l argomento sul quale i progressi scientifici sono misurabili in modo più oggettivo grazie alla disponibilità di misure semplici e attendibili e di banchi di prova condivisi. Ogni anno, in occasione della KDD conference, si svolge una competizione - la KDD Cup - nella quale i partecipanti devono cimentarsi con compiti predittivi su basi di dati di grandi dimensioni, solitamente messe a disposizione da grandi aziende che hanno un interesse diretto allo sviluppo di metodi sempre più efficaci. Nel, ad esempio, si trattava di indovinare i gusti degli utenti di Netflix, il più grosso servizio online di noleggio dvd negli USA. Nella KDD Cup 2009, attualmente in corso di svolgimento, bisogna prevedere il grado di fedeltà e la propensione all acquisto di servizi aggiuntivi relativi al compor tamento dei clienti della compagnia telefonica francese Orange. Alla KDD Cup 2009 par tecipano circa duecento squadre, che puntano ad aggiudicarsi anche il premio in denaro messo in palio. esistono vari metodi per realizzare una classificazione. Attraverso l analisi di un insieme di istanze (record, testi, pagine Web) pre-classificate (training set), viene costruito un modello dei dati che poi viene impiegato in fase di predizione sul test set. Questo modello può essere espresso con regole simboliche (ad esempio, se l istanza possiede gli attributi a AND b AND c allora appartiene alla classe X), con regole probabilistiche (se l istanza possiede gli attributi a AND b AND c allora appartiene con probabilità p 1 alla classe X, con probabilità p 2 alla classe Y,...), oppure con una rete neurale, o ancora con metodi geometrici. Quest ultimo paradigma è quello che si è affermato maggiormente negli ultimi anni e al quale dedicheremo un breve approfondimento.le istanze di training vengono rappresentate come punti in uno spazio multi-dimensionale (dove ogni coordinata corrisponde al valore dei singoli attributi che descrivono le istanze) e l obiettivo è trovare le regioni corrispondenti a ciascuna classe; in fase di test le istanze verranno assegnate alla classe della regione in cui cadono. Le frontiere di queste regioni, chiamate frontiere di decisione, possono essere regolari o irregolari (si veda esempio in Figura 1). Quando le frontiere di decisione sono funzioni lineari si parla di metodi lineari per la classificazione e vengono definite attraverso la funzione: Figura 2. Classificazione binaria lineare. n=2 K=2 Quando k=2 la classificazione è detta binaria e il problema della classificazione di un nuovo caso si riduce all individuazione dei coefficienti w e b (Figura 2). In generale il calcolo della frontiera di decisione non è banale a causa della disposizione dei casi da esaminare e della presenza di diverse possibili soluzioni. Tra le metodologie usate per determinate la frontiera di decisione uno dei più utilizzati è quello basato sulle Support Vector Machine (SVM), o macchine a vettori di supporto, che permette di determinare l iperpiano di sepa- 58 Iquadernidi

5 classificazione automatica Figura 3. Classificazione a massimo margine. razione L tale da massimizzare la distanza d (detto margine dell iperpiano) tra i punti più vicini appartenenti alle due classi (Figura 3). Le SVM furono sviluppate negli anni 90 da Vladimir Vapnik e dai suoi collaboratori presso i laboratori Bell AT&T. Appartengono alla famiglia dei classificatori lineari generalizzati e sono anche note come classificatori a massimo margine, poiché allo stesso tempo minimizzano l errore empirico di classificazione e massimizzano il margine geometrico. Le SVM sono state successivamente estese per trattare anche la presenza di punti singolari e per separare istanze che non sono linearmente separabili. Il trucco è quello di trasformare la rappresentazione delle istanze da classificare, passando ad uno spazio a dimensione maggiore. In Figura 4 questo concetto è esemplificato con riferimento al passaggio dal piano allo spazio tridimensionale, dove è facile trovare un piano di separazione per gli stessi oggetti che sul piano non erano invece linearmente separabili. Il metodo SVM, così come altri algoritmi di classificazione, offrono in generale buone prestazioni, ma la loro efficacia va rapportata allo scostamento che i dati reali presentano rispetto alle assunzioni ideali (esplicite o implicite) che sono necessarie per garantire il corretto funzionamento del classificatore. In effetti, in pratica è spesso necessario adottare politiche sofisticate di trattamento e pre-elaborazione dei dati di addestramento senza le quali il classificatore potrebbe offrire risultati molto deludenti. È inoltre fondamentale adottare tecniche computazionalmente efficienti perché le basi di dati possono arrivare a contenere milioni di istanze descritte da decine di migliaia di variabili. Ancora, è importante ottimizzare in modo accurato i parametri del classificatore utilizzando i dati di addestramento ma cercando di evitare il fenomeno di overfitting fra modello e campione. In Tabella 1 vengono riportate le principali difficoltà che si incontrano nei problemi reali. Figura 4. Classificazione con trasformazione dello spazio di rappresentazione. MAGGIO

6 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA Dati ideali Dati reali Distribuzione classi Bilanciata Sbilanciata Tipo di dati Valori mancanti Numerici o simbolici No Misti Si Istanze rumorose Dimensionalità Scale di valori No Bassa Uguali Si Alta Differenti Tabella 1. Condizioni ideali e reali nella classificazione automatica. analisi e Strutturazione dei risultati delle ricerche web Uno dei temi emergenti più interessanti dell Information Mining è costituito dalle metodologie di analisi dei risultati delle ricerche fatte sul Web con i normali motori di ricerca. È nata infatti la necessità di affiancare ai potenti strumenti di interrogazione adeguate metodologie di visualizzazione e di aggregazioni dei risultati. La risposta ad una interrogazione generica espressa con pochi termini è costituita spesso da migliaia di documenti destrutturati che non consentono all utente di discriminare fra i vari aspetti contenuti nei risultati. Se i documenti di interesse si riferiscono ad un particolare significato o aspetto dell interrogazione, il rischio è quello di dover scandire una lunga lista di risultati prima di trovarne qualcuno pertinente. Un classico esempio di termine ambiguo è costituito dalla parola Jaguar che può riferirsi, fra l altro, all automobile e all animale. Anche una interrogazione generica come Roma fa sorgere lo stesso problema: si potrebbe voler cercare informazioni sui monumenti presenti nella città, su una squadra di calcio o sull antica Roma. Questo fenomeno si presenta spesso, sia perché la maggior parte delle ricerche Web sono di tipo informazionale sia perché, a causa delle dimensioni del Web e della proliferazione di sigle, acronimi, nomi propri e altro, praticamente ogni interrogazione formata da uno o due termini è potenzialmente ambigua. In questi casi sarebbe auspicabile fornire all utente la possibilità di accedere direttamente, o con uno sforzo comunque limitato, al significato di interesse. Per affrontare questo problema, il modo più naturale probabilmente consiste nel fare il clustering dei risultati. Analizzando il contenuto testuale dei risultati, è possibile partizionare i documenti in gruppi con significati omogenei, e dare all utente la possibilità di cliccare sul cluster d interesse per vedere i documenti che contiene. Se l etichetta che descrive il cluster è sufficientemente informativa e se i documenti contenuti in esso si riferiscono effettivamente a quell argomento, è possibile accedere ai documenti di ciascun argomento dell interrogazione in tempo logaritmico (invece che lineare) nella lunghezza della lista dei documenti. Uno dei sistemi commerciali più noti che offrono questo servizio è Vivìsimo. Si noti che il clustering dei risultati non è alternativo ai normali motori di ricerca; è un metodo complementare nel caso in cui questi ultimi offrano un risultato insoddisfacente. Mantenendo invece l interfaccia tradizionale a lista di risultati, ci può essere un riordinamento nell ordine di presentazione con l obiettivo di aumentare la copertura dei possibili significati dell interrogazione presenti nella prima pagina mostrata all utente (di solito i primi dieci risultati). Ci si riferisce a questo approccio come diversificazione, e le tecniche impiegate consistono nello scegliere documenti che non solo siano pertinenti rispetto all interrogazione (che è il criterio di ordinamento standard) ma anche sufficientemente nuovi o differenti rispetto ai risultati che sono già stati generati. Un altro approccio è costituito dai motori di ricerca a faccette (faceted search). L idea di base è quella di permettere all utente di esplorare le informazioni uti- 60 Iquadernidi

7 analisi e Strutturazione dei risultati delle ricerche web lizzando dei filtri sulle caratteristiche delle informazioni. Ogni oggetto, infatti, può essere catalogato e classificato in molteplici modi, superando i limiti di una singola tassonomia predefinita. Ogni faccetta è quindi una caratteristica, cui corrispondono molteplici valori, che può essere utilizzata per declinare e scremare le informazioni. esempi disponibili online di faceted search sono il tool Flamenco (http://flamenco.berkeley.edu) o il più recente mspace (http://mspace.fm). Nell esempio di mspace accanto al tradizionale box di ricerca vengono forniti all utente delle opzioni per selezionare le pagine per decade, anno, tema, soggetto e titolo. Accanto alla necessità di poter discriminare fra i risultati, c è anche l esigenza di integrarli con informazioni utili che tipicamente vengono acquisite mediante l interrogazione di basi di dati e/o l accesso a servizi Web. L integrazione in forma strutturata di questo tipo di informazione nei risultati (ad esempio mediante tabelle, o fogli di calcolo) potrebbe consentire all utente una forma di interazione coi risultati molto più mirata ed efficace, paragonabile alla consultazione di una base di dati specializzata virtuale. A tutte queste esigenze di miglioramento della fase di analisi e presentazione dei risultati sembra aver cominciato a rispondere sul serio anche Google. È di qualche giorno fa la notizia del lancio di nuove search features. Si tratta di tre servizi sperimentali: Wonder Wheel (letteralmente ruota delle meraviglie ) offre suggerimenti per raffinare la ricerca e consente l applicazione di filtri, Squared costruisce tabelle che riassumono caratteristiche e valori delle informazioni in oggetto (ad esempio, una ricerca per "cani piccoli" restituisce risultati che comprendono nomi, descrizioni, taglia, peso, origine, ecc., di tutti i cani di taglia piccola), e Rich Snippets, che include i dati relativi alle recensioni disponibili per particolari prodotti o i dati di LinkedIn per le persone all'interno della pagina nei risultati (un servizio simile era già disponibile in Yahoo! Search Monkey). analisi delle opinioni e dei Sentimenti Figura 5. Cosa pensano gli appassionati di musica dei Radiohead? La Sentiment Analysis riguarda la possibilità di reperire e trattare computazionalmente le opinioni e i sentimenti espressi dalle persone sui media digitali (ad esempio nei blog) a proposito di determinati argomenti. Le opinioni, una volta reperiti i documenti nelle quali sono contenute, possono essere classificate in due o più classi, ciascuna classe indicante l intensità o la polarità (positiva o negativa) dei sentimenti espressi, e una volta aggregate statisticamente possono concorrere, ad esempio, a fornire il livello di gradimento nella rete di un servizio della Pubblica Amministrazione, o di un prodotto o di un film (vedi Figura 5). La comprensione delle emozioni espresse nei blog dischiude le porte per una vera e propria rivoluzione nella comprensione dei fenomeni del web. Oggi è possibile tastare il polso in tempo reale al gradimento di nuovi prodotti commerciali, soggetti pubblici ed eventi della vita quotidiana. Ad esempio l ultima campagna elettorale americana è stata caratterizzata dall utilizzo di strumenti di Sentiment Analysis da parte dei giornalisti e da parte degli stessi politici per valutare le reazioni degli elettori alle dichiarazioni dei candidati. Anche i primi 100 giorni di governo del presidente degli Stati Uniti Barack Obama sono stati oggetto di valutazione. È molto interessante verificare come l opinione e l apprezzamento degli elettori sia cambiato nel tempo in seguito alle decisioni prese da Obama (vedi Figura 6). Da un punto di vista tecnologico la Sentiment Analysis è un problema molto complesso, ancora oggetto di molte ricerche. In prima approssimazione, si può pensare che l analisi delle opinioni possa essere affrontata e risolta come un problema tipico di classificazione di documenti. Di fatto, le tecniche convenzionali di apprendimento automatico, quali i classificatori SVM o ancor più i classificatori Bayesiani, si sono rivelati scarsamente efficaci, soprattutto se comparati con le prestazioni analoghe ottenute quando si classifica sulla base del contenuto. Il problema spesso si concentra sulla creazione di un dizionario in cui vengono inserite le parole che possono indicare opinioni e polarità di opinioni ed in base a cui vengono e MAGGIO

8 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA Figura 6. Quali sono stati gli eventi che hanno segnato la popolarità di Obama? pesati e giudicati i documenti. Presso la Fondazione Ugo Bordoni è stato costruito in modo automatico un dizionario dei sentimenti. La novità della soluzione proposta dalla FUB è nell'utilizzo di molte parole che spesso sono scartate dai motori di ricerca poiché prive di contenuto informativo, ma che allo stesso tempo sono ricche di contenuto emozionale come ad esempio le parole inglesi I, but, d ( d è usato per esprimere i condizionali I d ). Un problema generale è che la classificazione è computazionalmente costosa. Ad esempio l analisi delle co-occorrenze di aggettivi e verbi al fine di stabilirne un orientamento concorde o dissimile è di fatto intrattabile, in quanto oc- correrebbe addestrare un classificatore contenente centinaia di migliaia di features. Un alternativa più efficiente alla classificazione completa è di considerare per ogni documento solo quei termini che coincidono con quelli utilizzati nella interrogazione formulata dall utente e cercare di stabilire se essi cadono nel raggio di azione di aggettivi e verbi che esprimono sentimenti. In generale, per accelerare il reperimento e la classificazione di opinioni, si devono adottare tecniche di riduzione della dimensione del dizionario (index pruning) e di term-caching o document-caching che permettono di pesare e ordinare efficacemente i documenti per contenuto e qualità di opinione. limitazioni e problemi aperti In questi anni nel mondo Information Mining ci sono stati molti casi di successo e anche fallimenti, da cui c è molto da imparare. Quali sono gli ingredienti essenziali per costruire delle applicazioni riuscite e quali sono gli errori che bisogna evitare? Alcune considerazioni al riguardo si possono fare, in particolare con riferimento al problema della classificazione automatica. In alcuni casi (basti pensare alla diagnosi di malattie) si preferisce avere soluzioni meno accurate ma che siano motivate e comprensibili piuttosto che soluzioni teoricamente migliori ma prodotte da sistemi a scatola nera (tipo rete neurale). La scelta del particolare metodo di classifica- zione è importante perché il comportamento è differente in funzione delle caratteristiche dei dati (ad esempio se i dati sono linearmente separabili, se sono numerici o categorici, se sono bilanciati o sbilanciati...). La pre-elaborazione dei dati è spesso la chiave per una classificazione efficace, indipendentemente dalla scelta del classificatore. Le operazioni più importanti sono: normalizzazione delle variabili numeriche, raggruppamento di modalità per variabili categoriche, trattamento dei dati mancanti, ordinamento e filtraggio delle variabili, campionamento delle istanze. La validazione e l interpretazione dei risultati è 62 Iquadernidi

9 information mining in FuB un operazione cruciale perché il sistema costruisce un modello basandosi sui dati di addestramento e non è detto che le conclusioni valgano sull'intera popolazione. Le tecniche per ottimizzare i parametri ed effettuare classificazioni robuste sono di grande ausilio. Classici errori che vengono commessi sono: l'utilizzazione di dati di addestramento non rappresentativi, la non considerazione della fluttuazione della popolazione nel caso di dati che cambiano col tempo, un campionamento sbagliato, la focalizzazione su una singola tecnica di apprendimento, la non utilizzazione o l'utilizzazione impropria di metodi di valutazione di laboratorio. È anche interessante provare a tracciare un bilancio scientifico della disciplina. Negli ultimi dieci anni c'è stato un miglioramento importante nelle prestazioni rispetto ai primi sistemi che sono stati impiegati (ad esempio per quanto riguarda la capacità di classificazione)? Alcuni pensano che siamo entrati in una fase, come succede per molti settori nuovi dopo un po di anni, in cui i progressi cominciano ad essere lenti rispetto ai risultati iniziali. D altra parte, continuano a nascere sfide scientifiche, come ad esempio real-time data mining e sequence data mining, e vengono fondate nuove scienze applicative. È il caso di computational advertising, dove il problema è riuscire a identificare i siti Web il cui contenuto è il più adatto ad ospitare i messaggi degli inserzionisti per massimizzare il ritorno dell investimento pubblicitario, o social web mining, in cui si vogliono sfruttare le somiglianze fra i comportamenti e i gusti espressi dalle persone che aderiscono alle stesse reti sociali per fornire raccomandazioni o identificare comunità virtuali (Amazon, ad esempio, dà consigli per gli acquisti analizzando gli acquisti fatti da persone con profili simili). Poiché si tratta di problemi e tipologie di dati inediti, bisogna inventare nuove tecniche o adattare in modo significativo quelle già disponibili. Al contempo, possono nascere difficoltà o contro-indicazioni difficili da prevedere. È il caso ad esempio di Facebook, che negli ultimi mesi del aveva lanciato una forma di pubblicità obliqua e chiaramente lesiva della privacy in cui ciascun utente veniva informato, praticamente in tempo reale, degli acquisti effettuati dalle persone registrate come friends. Qualcuno si è lamentato di aver scoperto proprio così che gli amici gli stavano organizzando una festa a sorpresa, la protesta è montata, e il servizio è stato cancellato. Naturalmente le preoccupazioni a proposito di un uso rispettoso delle informazioni personali è rimasto. Il problema della possibile violazione della privacy insito nell analisi automatica dei dati - in par ticolare nella profilazione automatica dell utente - e dei rimedi che è possibile adottare è stato trattato in un numero recente dei Quaderni di Telèma (Utente senza segreti: informazione personalizzata, Media Duemila n. 255, XXVI - Aprile ), al quale si rimanda il lettore interessato. information mining in FuB classificazione automatica Alla base di molti metodi di classificazione per dati simbolici c è la definizione di una misura di similarità fra due istanze con alcune proprietà aggiuntive (kernel). In pratica, è possibile stabilire una somiglianza quando le due istanze contengono qualche variabile identica (nel caso di testi, esattamente le stesse parole). In FUB si sta investigando una nuova misura di similarità concettuale, in grado di cogliere le relazioni fra variabili (parole) differenti, basata sulla distanza fra le due variabili sul reticolo concettuale associato alla base di dati. Inoltre si stanno studiando nuovi metodi per campionare i dati di addestramento, con l obiettivo di ridurre la complessità computazionale degli algoritmi di classificazione senza sacrificare la loro accuratezza. C. Carpineto, C. Michini, R. Nicolussi (2009). A concept-lattice based kernel for SVM text classification Figura 7. Schermata del motore di clustering KeySRC per l interrogazione jaguar. MAGGIO

10 INFORMATION MINING: TRACCE DIGITALI DATI UTILI ALLA CONOSCENZA STRATEGICA Figura 8. KeySrc su iphone. To appear in Proceedings of the 7th International Conference on Formal Concept Analysis (ICFCA 2009), Darmstadt, Germany. Strutturazione dei risultati delle ricerche web Proprio in questi giorni è stato completato e messo in linea (http://keysrc.fub.it) KeySRC (Keyphrasebased Search Results Clustering), un nuovo motore di clustering per il Web basato sulla estrazione e trattamento delle frasi chiave presenti nei risultati delle ricerche. In Figura 7 vengono mostrati i risultati di KeySRC relativi all interrogazione jaguar ; KeySRC genera etichette molto espressive e dettagliate, che sembrano in grado di individuare con maggiore precisione e affidabilità il contenuto dei cluster. Presso la FUB, inoltre, si sta studiando e sperimentando l applicazione del paradigma di ricerca basato su clustering dei risultati nello scenario mobile, perché l interfaccia di ricerca standard può essere particolarmente inefficace per dispositivi con schermo ridotto e funzionalità limitate di input/output. Abbiamo verificato che l adozione di un motore di clustering su un palmare o un cellulare sembra in grado di ridurre la durata della sessione e di ampliare la gamma delle ricerche effettuate dall utente. KeySRC è stato sviluppato anche come applicazione iphone (vedi Figura 8). Carpineto C., Mizzaro S., Romano G., Snidero M. (2009) Mobile Information Retrieval with Search Results Clustering: Prototypes and evaluations. J. Am. Soc. Inf. Sci. Tec. (JASIST), 60(5), pp Carpineto C., Osinski S., Romano G., Weiss G. (2009) A Survey of Web Clustering engines In publication in ACM Computing Surveys. analisi delle opinioni In FUB è stato sviluppato un metodo per costruire automaticamente un dizionario di termini pesati con il loro contenuto di opinione, in un dominio di interesse assegnato. L idea è di ricondurre il contenuto di opinione al differente comportamento che un termine ha nei documenti che esprimono opinioni e nei documenti generici. In pratica, viene misurata la divergenza fra la distribuzione di probabilità dei termini presenti in documenti con opinioni e la distribuzione di probabilità dei termini presenti in documenti generici, assegnando punteggi elevati ai termini che contribuiscono maggiormente a detta divergenza. G. Amati1, e. Ambrosi, M. Bianchi, C. Gaibisso, G. Gambosi, Automatic construction of an opinion-term vocabulary for ad hoc retrieval, in Proceedings of european Conference on Information Retrieval, ecir, LNC 4956, pp ,. Claudio Carpineto, Giambattista Amati, Andrea Bernardini, Raffaele Nicolussi, Giovanni Romano Fondazione Ugo Bordoni 64 Iquadernidi

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

CAPITOLO 3 Previsione

CAPITOLO 3 Previsione CAPITOLO 3 Previsione 3.1 La previsione I sistemi evoluti, che apprendono le regole di funzionamento attraverso l interazione con l ambiente, si rivelano una risorsa essenziale nella rappresentazione di

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

Università di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali

Università di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea Specialistica in Informatica (classe 23/S: Informatica) Corso di Laurea Specialistica in Tecnologie Informatiche (classe 23/S: Informatica)

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

E-marketing Intelligence e personalizzazione

E-marketing Intelligence e personalizzazione E-marketing Intelligence e personalizzazione Nel mondo degli affari di oggi comprendere e sfruttare il potere delle 4 P del marketing (product, price, place e promotion) è diventato uno dei fattori più

Dettagli

Analisi delle opinioni dei clienti in ambito automotive: due casi studio

Analisi delle opinioni dei clienti in ambito automotive: due casi studio Analisi delle opinioni dei clienti in ambito automotive: due casi studio Negli ultimi anni le decisioni strategiche o di business di un azienda si affidano sempre più alla tecnologia: nuovi strumenti di

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Breve descrizione del prodotto

Breve descrizione del prodotto Breve descrizione del prodotto 1. Il software AquaBrowser Library...2 1.1 Le funzioni di Search Discover Refine...3 1.2 Search: la funzione di ricerca e di presentazione dei risultati...3 1.2.1 La configurazione

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa (effettivo interesse personale) PUNTO DI FUTILITA ---> ranking

RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa (effettivo interesse personale) PUNTO DI FUTILITA ---> ranking NOZIONI DI INFORMATION RETRIEVAL a cura di Riccardo Ridi (Università Ca' Foscari di Venezia) aggiornate a Ottobre 2014 RILEVANZA = attinenza oggettiva/assoluta PERTINENZA = attinenza soggettiva/relativa

Dettagli

Data Mining: Applicazioni

Data Mining: Applicazioni Sistemi Informativi Universitá degli Studi di Milano Facoltá di Scienze Matematiche, Fisiche e Naturali Dipartimento di Tecnologie dell Informazione 1 Giugno 2007 Data Mining Perché il Data Mining Il Data

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Il guadagno informativo negli alberi decisionali: un nuovo approccio

Il guadagno informativo negli alberi decisionali: un nuovo approccio Il guadagno informativo negli alberi decisionali: un nuovo approccio Sommario Descrizione del problema... 2 Il guadagno informativo di Nanni... 3 Il software Weka... 3 Cos è Weka... 3 Il guadagno Informativo

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Architettura dell informazione. Sistemi di ricerca

Architettura dell informazione. Sistemi di ricerca Architettura dell informazione Sistemi di ricerca Sistemi di ricerca Il sistema di ricerca è un elemento centrale della navigazione supplementare. La ricerca è uno degli strumenti preferiti dagli utenti

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

Indice dei contenuti

Indice dei contenuti Gesttiione Knowlledge Base Serrviiziio dii Conttactt Centterr 055055 Manualle dii consullttaziione Indice dei contenuti 1. Introduzione... 4 2. Modalità di accesso alle informazioni... 5 2.1. Accesso diretto

Dettagli

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE Il sistema di ricerca della biblioteca virtuale permette di accedere in maniera rapida ai materiali didattici di interesse degli studenti presenti all interno del

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Che cos è, dove si trova, e a cosa serve Internet? Possono sembrare domande banali, ma a pensarci bene la risposta non è tanto facile.

Che cos è, dove si trova, e a cosa serve Internet? Possono sembrare domande banali, ma a pensarci bene la risposta non è tanto facile. di Pier Francesco Piccolomini 1 Che cos è, dove si trova, e a cosa serve Internet? Possono sembrare domande banali, ma a pensarci bene la risposta non è tanto facile. Oggi attraverso questa gigantesca

Dettagli

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4 Pagina 2 1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4 Esempi... 4 3. Aspetti Prestazionali... 4 Obiettivi... 4 Esempi... 4 4. Gestione del Credito

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE

GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE di K A T H A G E D O R N, A R G U S A S S O C I A T E S MARZO 2 0 0 0 traduzione di: BARBARA WIEL MARIN DICEMBRE 2009 1 GLOSSARIO DI ARCHITETTURA DELL INFORMAZIONE

Dettagli

Il questionario. Claudio Pizzi Dipartimento di Economia Università Ca Foscari Venezia

Il questionario. Claudio Pizzi Dipartimento di Economia Università Ca Foscari Venezia Il questionario Claudio Pizzi Dipartimento di Economia Università Ca Foscari Venezia 1 Il questionario Il questionario è uno strumento per la rilevazione delle informazioni attraverso un piano strutturato

Dettagli

Metodi e Modelli per le Decisioni

Metodi e Modelli per le Decisioni Metodi e Modelli per le Decisioni Corso di Laurea in Informatica e Corso di Laurea in Matematica Roberto Cordone DI - Università degli Studi di Milano Lezioni: Giovedì 13.30-15.30 Venerdì 15.30-17.30 Ricevimento:

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Sentiment analysis e il WEB 2.0

Sentiment analysis e il WEB 2.0 Sentiment analysis e il WEB 2.0 Giambattista Amati Fondazione Ugo Bordoni Information Mining FUB Ricercatori FUB Gianni Amati, PhD Andrea Bernardini Claudio Carpineto (resp.) Raffaele Nicolussi Gianni

Dettagli

-Possibilità di svolgere le attività commerciali per via elettronica, in particolare tramite Internet.

-Possibilità di svolgere le attività commerciali per via elettronica, in particolare tramite Internet. COMMERCIO ELETTRONICO -Possibilità di svolgere le attività commerciali per via elettronica, in particolare tramite Internet. -Un qualsiasi tipo di transazione tendente a vendere o acquistare un prodotto

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag. 109. Questa versione si applica a IBM SPSS

Dettagli

I sistemi di reporting e i rapporti direzionali

I sistemi di reporting e i rapporti direzionali I sistemi di reporting e i rapporti direzionali Reporting - Sintesi dei fenomeni aziendali secondo modelli preconfezionati e con frequenza e aggiornamento prestabiliti - contabile (dati economici) - extracontabile

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Abstract. Paolo Rocca Comite Mascambruno 1

Abstract. Paolo Rocca Comite Mascambruno 1 Paolo Rocca Comite Mascambruno 1 Abstract La progressiva diffusione dei social network, sia generalisti (quali Twitter, Facebook o Google+, la recente piattaforma messa a punto da Google) sia specializzati

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Informatica per le discipline umanistiche 2 lezione 12

Informatica per le discipline umanistiche 2 lezione 12 Informatica per le discipline umanistiche 2 lezione 12 Nella lezione precedente: In realtà non tutto il data mining è dettato dagli interessi economici (commercial) data mining Abbiamo visto risvolti commerciali

Dettagli

Consenso per finalità di Marketing... 8

Consenso per finalità di Marketing... 8 Condizioni d'uso... 2 Benvenuti nel nostro servizio di Internet wireless... 2 Accettazione dei Termini e condizioni d'uso... 2 Descrizione del Servizio... 2 Sicurezza... 2 Utilizzo del Servizio... 3 Costo

Dettagli

Descrizione dell Offerta Formativa

Descrizione dell Offerta Formativa Descrizione dell Offerta Formativa Titolo dell Offerta Formativa TECNICHE AVANZATE DI PROGRAMMAZIONE Articolazione e Contenuti dell Offerta Formativa Il percorso è articolato in due moduli didattici, della

Dettagli

BASI DI DATI INGEGNERIA INFORMATICA SPECIFICHE DI PROGETTO PER L ANNO ACCADEMICO 2013 2014 Prof. Gigliola Vaglini, Ing. Francesco Pistolesi

BASI DI DATI INGEGNERIA INFORMATICA SPECIFICHE DI PROGETTO PER L ANNO ACCADEMICO 2013 2014 Prof. Gigliola Vaglini, Ing. Francesco Pistolesi BASI DI DATI INGEGNERIA INFORMATICA SPECIFICHE DI PROGETTO PER L ANNO ACCADEMICO 2013 2014 Prof. Gigliola Vaglini, Ing. Francesco Pistolesi 1 Descrizione dei requisiti delle fasi di progettazione Si desidera

Dettagli

3.7 L affidabilità delle fonti

3.7 L affidabilità delle fonti 3.7 L affidabilità delle fonti Un altro aspetto indagato dal questionario riguarda i criteri con cui i giovani adulti valutano l affidabilità di una fonte informativa, in particolar modo quando riferita

Dettagli

L informatica ed il pensiero computazionale

L informatica ed il pensiero computazionale L informatica ed il pensiero computazionale Paolo Ciancarini Dipartimento di Informatica Università di Bologna Liceo Scientifico Rosetti San Benedetto del Tronto 10 3 2015 Sommario L informatica è una

Dettagli

Executive Summary. Metodologia EMC PRIVACY INDEX EXECUTIVE SUMMARY

Executive Summary. Metodologia EMC PRIVACY INDEX EXECUTIVE SUMMARY Privacy vs Vantaggi Executive Summary Le ultime notizie sulla privacy in Internet stanno alimentando il dibattito su fino a che punto la pubblica amministrazione e le aziende possano avere accesso ad attività

Dettagli

Spettabile. Termine attività PREMESSA

Spettabile. Termine attività PREMESSA Spettabile Ogetto: Regione Lazio - Bando per l educazione permanente degli adulti. Misura 1.a di Sistema. Delibera Giunta Regionale n. 30 dell 11/01/2001 - (Pubblicato nel BUR Lazio n.5 del 20 febbraio

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

Ruolo di Internet per il. Territoriale

Ruolo di Internet per il. Territoriale 1 Ruolo di Internet per il Turismo ed Il Marketing Territoriale Mauro di Giacomo (Ares 2.0) Gargano Ottobre 2011 Secondo tutte le evidenze, il turismo e la promozione territoriale è stato uno dei settori

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

CORSO GOOGLE ADWORDS

CORSO GOOGLE ADWORDS CORSO GOOGLE ADWORDS Corso: Google AdWords I concetti fondamentali del keyword e display advertising per imparare a creare e gestire campagne pubblicitarie Google AdWords in modo efficace. Argomenti del

Dettagli

Marketing nel commercio elettronico Parte 2

Marketing nel commercio elettronico Parte 2 Marketing nel commercio elettronico Parte 2 Dr. Stefano Burigat Dipartimento di Matematica e Informatica Università di Udine www.dimi.uniud.it/burigat stefano.burigat@uniud.it Obbiettivi della ricerca

Dettagli

AUTORE: Marco Carovana SITO WEB: www.obbiettivobusiness.it

AUTORE: Marco Carovana SITO WEB: www.obbiettivobusiness.it AUTORE: Marco Carovana SITO WEB: www.obbiettivobusiness.it ------------------------------------------------------------------------ ATTENZIONE! Puoi condividere questo report con i tuoi amici, Puoi citarne

Dettagli

COME AVERE SUCCESSO SUL WEB?

COME AVERE SUCCESSO SUL WEB? Registro 2 COME AVERE SUCCESSO SUL WEB? Guida pratica per muovere con successo i primi passi nel web LE BASI INDEX 3 7 13 16 Come creare e gestire con semplicità un sito web Le fasi da seguire per costruire

Dettagli

Costruzione di Modelli Previsionali

Costruzione di Modelli Previsionali Metodologie per Sistemi Intelligenti Costruzione di Modelli Previsionali Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como Agenda Knowledge discovery in database

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

6. Le ricerche di marketing

6. Le ricerche di marketing Università degli Studi di Urbino Carlo Bo Facoltà di Lingue e Letterature Straniere Corso di Laurea in Lingue e Cultura per l Impresa 6. Le ricerche di marketing Prof. Fabio Forlani Urbino, 29/III/2011

Dettagli

AREA MATEMATICO-SCIENTIFICO-TECNOLOGICA MATEMATICA

AREA MATEMATICO-SCIENTIFICO-TECNOLOGICA MATEMATICA AREA MATEMATICO-SCIENTIFICO-TECNOLOGICA MATEMATICA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA SECONDARIA DI PRIMO GRADO. L alunno ha rafforzato un atteggiamento positivo rispetto

Dettagli

AGENZIA PER L ITALIA DIGITALE

AGENZIA PER L ITALIA DIGITALE AVVISO n. 09/2013 - Procedura comparativa per il conferimento di due incarichi di collaborazione coordinata e continuativa per un profilo di Specialista nella progettazione, sviluppo e integrazione di

Dettagli

1.3.1. Elementi caratterizzanti il marketing diretto interattivo

1.3.1. Elementi caratterizzanti il marketing diretto interattivo 1. IL MARKETING DIRETTO 1.1. Concetto e definizione di marketing diretto pag. 3 1.1.1. Direct e data base di marketing pag. 5 1.2. Evoluzione del concetto di marketing diretto pag. 8 1.2.1. La comunicazione

Dettagli

ECDL Online Collaboration: il Web 2.0 consapevole

ECDL Online Collaboration: il Web 2.0 consapevole ECDL Online Collaboration: il Web 2.0 consapevole Marina Cabrini Membro del gruppo di lavoro ECDL presso la ECDL Foundation Dublin mcabrini@sicef.ch l mondo dell informatica è in perenne movimento ed evoluzione,

Dettagli

IBM SPSS Direct Marketing 20

IBM SPSS Direct Marketing 20 IBM SPSS Direct Marketing 20 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note legali a pag. 109. Questa versione si applica a IBM

Dettagli

Frodi dei dipendenti Metodi e strategie per affrontarle

Frodi dei dipendenti Metodi e strategie per affrontarle Frodi dei dipendenti Metodi e strategie per affrontarle Bruno Piers de Raveschoot, Managing Director, Head of Actimize Europe and Asia Pacific E un fenomeno in crescita e presenta notevoli rischi per le

Dettagli

ILLUSTRAZIONE DEL PROGETTO GIS DESERTO OCCIDENTALE PER DIVULGAZIONE SUL WEB

ILLUSTRAZIONE DEL PROGETTO GIS DESERTO OCCIDENTALE PER DIVULGAZIONE SUL WEB ILLUSTRAZIONE DEL PROGETTO GIS DESERTO OCCIDENTALE PER DIVULGAZIONE SUL WEB Compilato: Andrea De Felici Rivisto: Daniele Moretto Approvato: Daniele Moretto Versione: 1.0 Distribuito: 06/05/2013 1 INDICE

Dettagli

Estratto del capitolo 5 Edizione italiana a cura di Studio Pleiadi

Estratto del capitolo 5 Edizione italiana a cura di Studio Pleiadi Estratto del capitolo 5 Edizione italiana a cura di Studio Pleiadi 1. Come funzionano i motori di ricerca Una panoramica generale sul funzionamento dei motori di ricerca risultati). 2. Come le persone

Dettagli

Riassunto primo focus (senior)

Riassunto primo focus (senior) Riassunto primo focus (senior) Il focus group si è svolto giovedì 25 marzo dalle 17.00 alle 18.30. I partecipanti erano persone in pensione appartenenti all associazione Amici della biblioteca. Sebbene

Dettagli

Ci becchiamo su Facebook: social network ed educazione, si può fare? Elena Pacetti Università di Bologna elena.pacetti@unibo.it

Ci becchiamo su Facebook: social network ed educazione, si può fare? Elena Pacetti Università di Bologna elena.pacetti@unibo.it Ci becchiamo su Facebook: social network ed educazione, si può fare? Elena Pacetti Università di Bologna elena.pacetti@unibo.it Ciascuno di noi ha oggi a disposizione uno spazio potenzialmente illimitato

Dettagli

Misurare il successo Guida alla valutazione dei service desk per le medie imprese:

Misurare il successo Guida alla valutazione dei service desk per le medie imprese: WHITE PAPER SULLE BEST PRACTICE Misurare il successo Guida alla valutazione dei service desk per le medie imprese: Come scegliere la soluzione ottimale per il service desk e migliorare il ROI Sommario

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Modalità didattiche e materiale Lezioni in aula e in laboratorio utilizzando il software open source Weka

Dettagli

Lezione 10. La classificazione dell Intelligenza Artificiale

Lezione 10. La classificazione dell Intelligenza Artificiale Lezione 10 Intelligenza Artificiale Cosa è l Intelligenza Artificiale Elaborazione del linguaggio naturale La visione artificiale L apprendimento nelle macchine La classificazione dell Intelligenza Artificiale

Dettagli

Influenza e uso dei social network per il messaggio politico. alessandro scartezzini

Influenza e uso dei social network per il messaggio politico. alessandro scartezzini Influenza e uso dei social network per il messaggio politico alessandro scartezzini CHI SONO http://www.linkedin.com/pub/alessandro-scartezzini/0/393/721 alessandro@webperformance.it - Dal 2010 fondatore

Dettagli

Come si cerca personale con LavoroTurismo.it

Come si cerca personale con LavoroTurismo.it Come si cerca personale con LavoroTurismo.it LavoroTurismo le offre un servizio qualificato e professionale che: 1. riduce al minimo il tempo necessario per la ricerca del personale; 2. evita telefonate

Dettagli

Unified Modeling Language

Unified Modeling Language Unified Modeling Language Luciano Baresi Luciano Baresi 1 OMT Booch UML Sono simili in molti aspetti: Prescrivono un approccio passo-passo Consentono il passaggio dall analisi al progetto in modo omogeneo

Dettagli

Internet of Things, Big Data e Intelligenza Artificiale.

Internet of Things, Big Data e Intelligenza Artificiale. Oracle Ticino Day Lugano 26 Marzo 2015 Internet of Things, Big Data e Intelligenza Artificiale. Prof. Luca Maria Gambardella direttore IDSIA, istituto USI-SUPSI, Manno Le nuove sfide La società globale

Dettagli

Mada B2b (business to business) è l applicativo per siti on-line di distributori, gestisce la pre-vendita e la vendita con i rivenditori.

Mada B2b (business to business) è l applicativo per siti on-line di distributori, gestisce la pre-vendita e la vendita con i rivenditori. Mada B2b (business to business) è l applicativo per siti on-line di distributori, gestisce la pre-vendita e la vendita con i rivenditori. L applicazione WEB avrà un area riservata ai soli clienti, che

Dettagli

2014 Vidierre. Media Analysis

2014 Vidierre. Media Analysis Media Analysis 1 1. The world is our media source Sviluppiamo tecnologie e soluzioni olistiche di monitoraggio media in grado di esaminare il più ampio spettro delle fonti aperte, web, tv, stampa e radio.

Dettagli

Knowledge Management

Knowledge Management [ ] IL K-BLOG Cosa è il KM Il Knowledge Management (Gestione della Conoscenza) indica la creazione, la raccolta e la classificazione delle informazioni, provenienti da varie fonti, che vengono distribuite

Dettagli

Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di laurea specialistica in INFORMATICA

Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di laurea specialistica in INFORMATICA Università degli Studi di Perugia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di laurea specialistica in INFORMATICA Basi di Dati Avanzate e Tecniche di Data Mining Prof. G. Cecconi, Prof.

Dettagli

CLUB 2.0. L offerta digitale di AMR Sport per far crescere il business dei circoli sportivi

CLUB 2.0. L offerta digitale di AMR Sport per far crescere il business dei circoli sportivi CLUB 2.0 L offerta digitale di AMR Sport per far crescere il business dei circoli sportivi IL MONDO DIGITALE OGGI I trend del mondo digitale I numeri e i fatti dei social network e dell email marketing

Dettagli

Il manuale di Google Adwords

Il manuale di Google Adwords Stefano Calicchio Il manuale di Google Adwords La guida definitiva al più immediato ed efficace programma Pay Per Click del mondo www.marketingeditoriale.com 1 Tutti i diritti riservati. Ogni violazione

Dettagli

SOCIAL NETWORK MANUALE OPERATIVO

SOCIAL NETWORK MANUALE OPERATIVO SOCIAL NETWORK MANUALE OPERATIVO 1 INTRODUZIONE I social media sono diventati uno strumento essenziale di comunicazione e marketing e vengono utilizzati da utenti di ogni fascia di età: dai teenager agli

Dettagli

Bank of America Il Mobile Banking

Bank of America Il Mobile Banking Bank of America Il Mobile Banking Questa breve sintesi è solo un supporto alla comprensione del caso e non ne sostitusce la lettura. L analisi del caso avverrà venerdì 11 settembre pomeriggio (le domande

Dettagli

Descrizione... 3 Comprensione del Processo Produttivo... 3. Definizione del Problema... 4. Selezione delle Caratteristiche... 5. Box Plot...

Descrizione... 3 Comprensione del Processo Produttivo... 3. Definizione del Problema... 4. Selezione delle Caratteristiche... 5. Box Plot... Pagina 2 Descrizione... 3 Comprensione del Processo Produttivo... 3 Definizione del Problema... 4 Selezione delle Caratteristiche... 5 Box Plot... 6 Scatterplot... 6 Box Plot... 7 Scatterplot... 7 Alberi

Dettagli

Grazie, grazie, grazie, la Vostra donazione è per noi molto importante, ci infatti di guardare avanti con l orgoglio di una scuola che cambia!

Grazie, grazie, grazie, la Vostra donazione è per noi molto importante, ci infatti di guardare avanti con l orgoglio di una scuola che cambia! Spett. le Fondazione De Mari desideriamo ringraziarvi per il finanziamento che abbiamo ricevuto; il Vostro contributo ha dato un importante aiuto alla nostra scuola consentendole di andare avanti e di

Dettagli

I N D I C E RIASSUNTO...6 INTRODUZIONE...7. Motivazione e Obiettivi generali del CASE MANAGEMENT...11

I N D I C E RIASSUNTO...6 INTRODUZIONE...7. Motivazione e Obiettivi generali del CASE MANAGEMENT...11 I N D I C E RIASSUNTO...6 INTRODUZIONE...7 Motivazione e Obiettivi generali del CASE MANAGEMENT...11 CAPITOLO 1 - Elementi di un Contesto Ideale per la gestione del CM 1.1 Linee guida clinico/operative

Dettagli

TRIESTE CITTÀ DELLA CONOSCENZA PIAZZA UNITÀ D ITALIA Da venerdì 26 a domenica 28 settembre GAZEBO UNIVERSITÀ DI TRIESTE!

TRIESTE CITTÀ DELLA CONOSCENZA PIAZZA UNITÀ D ITALIA Da venerdì 26 a domenica 28 settembre GAZEBO UNIVERSITÀ DI TRIESTE! TRIESTE CITTÀ DELLA CONOSCENZA PIAZZA UNITÀ D ITALIA Da venerdì 26 a domenica 28 settembre GAZEBO UNIVERSITÀ DI TRIESTE Orari di apertura: Venerdì 26 settembre, ore 9.00-22.00 Sabato 27 settembre, ore

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Le Reti Sociali. Prof. Claudio Saita

Le Reti Sociali. Prof. Claudio Saita Le Reti Sociali Prof. Claudio Saita 1 La Scienza delle Reti La Teoria delle Reti si è sviluppata negli ultimi anni e si caratterizza per tre punti fondamentali: Focalizza le proprietà delle reti nel mondo

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli