Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione
|
|
- Emilia Gioia
- 2 anni fa
- Visualizzazioni
Transcript
1 Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2
2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining, disponibili per dati categoriali, ed ampliate per il caso specifico di dati testuali, gli strumenti principali sono: Analisi descrittiva del corpus. Riduzione spaziale della dimensionalità dei dati. Analisi di classificazione. B-ASC Biccocca Applied Statistics Center 2
3 Obiettivi dell analisi Estrazione di contenuti semantici rilevanti Tecnica legata soprattutto al marketing. In particolari applicazioni vengono analizzati i messaggi scaricati da comunità virtuali al fine di ottenere informazioni sull opinione dei clienti Ricerca di entità qualificate per l estrazione di informazioni Formulazione di risposte ad interrogazioni specifiche. Tecnica sottostante i risponditori automatici utilizzati nella prima fase dai customerservice center. Nella maggior parte dei casi vengono utilizzate tecniche di riduzione spaziale. B-ASC Biccocca Applied Statistics Center 3
4 L analisi descrittiva preliminare Ogni analisi statistica inizia con la descrizionedei dati a disposizione. Nel caso specifico dei dati testuali, gli strumenti richiesti sono strettamente legati alla tipologia del dato, quindi richiedono un analisi statisticolinguistica che tenga in considerazione: Tecniche di normalizzazione del testo (stemming e refining). Struttura linguistica(tipologia del testo). Struttura informativa(contenuto). 4
5 L analisi descrittiva preliminare Prima di utilizzare gli indici e le analisi statistiche per commentare e soprattutto confrontare i risultati, è necessario controllare che le operazioni di normalizzazione del testo siano state uniformi su tutti i corpora in analisi: ES.: utilizzare le stesse liste di stop worde gli stessi algoritmi di stemming; Gli strumenti statistici di seguito proposti si applicano ai dati puliti. 5
6 L analisi descrittiva preliminare: Alcuni indicatori N Parole N termini(concetti, unità lessicali) (lo stesso termine si può ripetere più volte, più parole uguali). Occorrenze= numero di ripetizioni dello stesso termine (frequenza) nel corpus. Indici sintetici della qualità dei testi: Tasso di copertura del testo. Indici di ricchezza lessicale. Strumenti statistici Distribuzione dei termini di maggiore importanza per l analisi all interno del corpus. Matrice termini per documenti. 6
7 Tasso di copertura del testo Tasso di copertura del testo: rapporto tra il numero di parole rimaste in seguito alle operazioni di refining ed il numero totale di parole presenti nel testo originale. Fornisce una prima indicazione sulla quantità di informazioni davvero utili contenute nel testo. Alcuni valori sono più legati di altri a determinate tipologie di testo: - Il testo tecnico è solitamente più stringato. - Il testo letterario è più articolato. Confronti fra generi e all interno dello stesso genere.
8 L analisi descrittiva preliminare: Indici di ricchezza lessicale Il vocabolariodi un testo è determinato dai termini usati in un testo, indipendentemente dalla loro frequenza. Un primo indicatore sintetico è #vocabolario, ovvero il numero di termini (non di parole) usati nel testo. Type/tokenratio= #vocabolario/n di parole presenti. Maggiore è il numero di termini diversi in rapporto al totale delle parole presenti, più è ricco il testo. (N.B. stemming) Guiraudindex= n harpax/#vocabolario. Harpax= numero di termini con frequenza assoluta pari a 1 Molti termini singolari indicano maggiore ricchezza di linguaggio. 8
9 L analisi descrittiva preliminare: Indici di ricchezza lessicale (esempio) Un singolo documento, descrittivo dell azienda, ricavato dalla comunicazione ufficiale del sito internet: Fondata nel 1876, Henkeldetiene posizioni di leadership sul mercato mondiale sia nel segmento dedicato ai consumatori sia in quello rivolto alle industrie, con marchi di fama internazionale come Persil, Schwarzkopf e Loctite. Henkel, la cui sede centrale si trova a Düsseldorf, in Germania, impiega circa persone nel mondo ed è una delle multinazionali tedesche più presenti sui mercati mondiali. Nel mondo ogni giorno le persone ripongono fiducia nei marchi e nelle tecnologie Henkel. 9
10 L analisi descrittiva preliminare: Indici di ricchezza lessicale (esempio) Testo dopo il refining(normalizzazione): Fondare Henkel detenere posizione leadership mercato mondo segmento dedicare consumatore rivolgere industria marchio fama internazionale Persil Schwarzkopf LoctiteHenkel sede centrale trovarsi Düsseldorf Germania impiegare persona mondo multinazionale tedesco presente mercato mondo mondogiorno persona riporre fiducia marchio tecnologia Henkel 10
11 L analisi descrittiva preliminare: Indici di ricchezza lessicale (esempio) Numero parole nel documento originale= 75 Numero di parole nel documento normalizzato = 40 Tasso di copertura del testo: 40/75= 0.53 #vocabolario: numero di termini nel testo = 32 Type/token ratio:#vocab/n parole = 32/40=0.8 #Harpax: numero di termini singoli = 27 Guiraud index: #harpax/#vocabolario=27/32=0.84 Termini più frequenti:. mondo Henkel marchio mercato persona
12 Distribuzione di frequenza dei termini a confronto con i lessici di frequenza Comparazione della distribuzione dei termini caratteristici della ricerca e confronto con i lessici di frequenza, che forniscono la distribuzione degli stessi termini all interno del linguaggio comune. Lessico parlato diverso da quello scritto. Particolarità del linguaggio scritto sul web. Linguaggio gergale. 12
13 L analisi descrittiva preliminare: matrice termini x documenti La matrice termini x documenti (come la sua trasposta documenti x termini) fornisce la distribuzione di frequenza di ciascun termine all interno dei vari documenti e vice versa. Questa matrice non ha solo caratteristiche descrittive ma funge da base per la maggior parte delle analisi statistiche più complesse. Fornisce informazioni sulle parole più frequenti e su quelle meno frequenti, che sono caratteri del testo specifico. 13
14 L analisi descrittiva preliminare: matrice termini x documenti mondo marchio mercato persona centrale ecc Azienda A Azienda B Azienda C ecc 14
15 L associazione tra concetti Come nel caso di variabili categoriali, anche per i termini presenti in un testo è possibile calcolare le associazioni fra coppie, verificando quali concetti si presentano più spesso in contemporanea. Dall analisi dell associazione è possibile trarre indicazioni riguardanti eventuali dimensioni latenti, presenti quando lo stesso concetto si manifesta con forme lessicali differenti. 15
16 La riduzione spaziale dei dati Previa la rilevazione di consistenti livelli di associazione fra coppie di concetti, è possibile costruire spazi fattoriali ridotti (proprio come l analisi fattoriale classica) che consentano di raggruppare insiemi di parole, le quali, accostate presentino un pensiero di senso compiuto. Tramite l analisi delle corrispondenze è possibile generare uno spazio in cui i gruppi di termini più prossimi sono portatori di informazioni rilevanti, non autoevidenti nella vasta mole di dati iniziali. 16
17 La riduzione spaziale dei dati La riduzione spaziale dei dati, chiamata anche SVD (SingularValue Decomposition), serve per quantificare l informazione contenuta nella matrice termini X documenti, la quale determina uno spazio multidimensionale enorme. La scomposizione in valori singolari aiuta a ridurre la dimensionalitàdei dati individuando le componenti semantiche latenti ( temi principali nei documenti originali). Ciascun documento ha una determinata posizione rispetto a questi nuovi assi che ne misura l attinenza al concetto ad essi sotteso. 17
18 La classificazione Ai dati testuali è possibile applicare le più diffuse tecniche statistiche di classificazione automatica allo scopo di : Individuare gruppi omogenei di termini all interno del corpus. Evidenziare caratteristiche che si discostano dal comportamento generale e che richiedono un trattamento diverso. 18
19 La classificazione Diversi metodi di classificazione: Metodi di apprendimento supervisionato Alberi decisionali Reti Neurali Metodi di apprendimento non supervisionato Clustering gerarchico Clustering non gerarchico 19
20 La classificazione I metodi di apprendimento supervisionatosono fortemente legati al concetto di text categorization: assegnazione automatica di testi scritti ad una o più categorie note in partenza: Single-label: Ogni testo viene assegnato ad una sola categoria Multi-label: Ogni documento può essere assegnato a zero o più categorie, che possono sovrapporsi parzialmente. Obiettivo di un classificatore automatico è quello di generalizzare le osservazioni fatte su un insieme di campioni di training, allo scopo di assegnare alla giusta categoria nuovi testi. 20
21 La classificazione I metodi di apprendimento non supervisionato, in generale consentono di conseguire i seguenti risultati: Ricerca tipologica e di classi omogenee Ricerca di gruppi di testi tra loro omogenei ma aventi caratteristiche distintive rispetto al resto del corpus. Generazione di ipotesi di ricerca Non necessitano di modelli a priori. Costruzione di sistemi di classificazione automatica Classificatore per le nuove unità. 21
22 Analisi testuale Prospettive: Sfruttare l enorme quantità di informazioni nascoste nei messaggi codificati in linguaggio naturale altrimenti trascurate. Limiti: L AI non è ancora sufficientemente sviluppata per consentire una ricodificaautomatica in linguaggio macchina che non necessiti della supervisione umana. 22
23 Principali software a disposizione per Software free Weka/KEA R/tm Software proprietario TalTac2 T-LAB Spad/data mining SPSS /Clementine SAS text miner l analisi testuale 23
24 Principali software a disposizione per l analisi testuale: WEKA/KEA Weka: Leader nell ambito del software open source per il data mining e per il text mining in particolare. Sviluppato in Java nell ambito dell università di Waikato in Nuova Zelanda. Nato in ambito di ricerca, si sta diffondendo nel mondo economico. Include tooldi pre-processing, metodi di valutazione, algoritmi di apprendimento ed un ambiente per confrontarne i risultati, nonché un interfaccia grafica. 24
25 Principali software a disposizione per l analisi testuale: WEKA/KEA Weka/KEA: Il modulo KEA è specifico dell analisi testuale. KEA fornisce un algoritmo per l estrazione di parole chiave e frasi cardine da documenti testuali utile per indicizzazioni (libere o controllate) tramite dizionario. Integra tutti i più comuni strumenti di analisi statistica testuale.!!!importante: dispone di una vasta raccolta di vocabolari utili per lo stemming(tra cui l italiano). 25
26 Principali software a disposizione per l analisi testuale: R/tm R: È un ambiente di sviluppo specifico per l analisi statistica. Rappresenta lo standard del software statistico open source per il mondo accademico perché è sempre all avanguardia. Lo sviluppo di interfacce grafiche userfriendlyne amplia l utilizzo fuori dall università. Non fornisce garanzie dal punto di vista legale sulla qualità del risultato, peraltro supervisionato costantemente dagli sviluppatori (per lo più accademici di professione). 26
27 Principali software a disposizione per R: l analisi testuale: R/tm Dispone di una ampia serie di moduli specifici che si adattano alle maggiori esigenze statistiche. Il pacchetto per l analisi testuale tmfornisce gli strumenti per la normalizzazionedei testi, che in seguito possono essere trattati con i classici strumenti statistici compresi nei moduli specifici. Per l analisi semantica e lo stemmingutilizza gli stessi strumenti implementati in WEKA. 27
28 Principali software a disposizione per l analisi testuale TalTac2: Software proprietario per l'analisi automatica del testo nella duplice logica di Text Analysis (TA) e di Text Mining(TM). Ha origine dai risultati di ricerche svolte presso le Università degli Studi di Salerno e di Roma "La Sapienza" nel corso degli anni novanta, coordinate da Sergio Bolascoed è frutto della collaborazione di ricercatori e colleghi di varie università italiane e francesi. Utilizza risorse sia di tipo statistico, sia di tipo linguistico, altamente integrate fra loro e personalizzabili dall'utente, e consente a due livelli, lessicale e testuale, da un lato l'analisi del testo (text analysis), dall'altro il recupero e l'estrazione d'informazione, secondo i principi del data mininge del text mining. N.B.: Specifico per ambienti Windows. 28
29 Principali software a disposizione per l analisi testuale T-LAB: Software statistico, utilizzato anche nell ambito, ma indirizzato soprattutto al settore privato. Nato nell ambito in territorio italiano, dispone di una discreta varietà di dizionari e, come TalTac2, è indirizzato specificatamente all analisi testuale. Il software utilizza processi automatici semiautomatici che consentono di evidenziare rapidamente pattern di parole, temi e variabili. N.B.: Specifico per ambienti Windows. 29
30 Principali software a disposizione per l analisi testuale SPAD/data mining: SPAD è un software della società francese Coherisdestinato all analisi dei statistica dati con indirizzo prevalentemente predittivo. Si è sviluppato in ambito accademico ma, grazie allo sviluppo di un interfaccia grafica fortemente intuitiva, ha assunto un indirizzo preminentemente aziendale. Oggi la fase di sviluppo è principalmente a livello proprietario. Il modulo di data mining offre di tecniche di analisi testuale N.B.: Specifico per ambienti Windows. 30
31 Principali software a disposizione per l analisi testuale SPSS/ Clementine SPSS è un software statistico oggi di proprietà dell IBM, diffusissimo soprattutto in ambito sociologico, dispone di un set di toolstatistici abbastanza completo e di un interfaccia grafica molto semplice che ne hanno consentito un grandissima diffusione. Offre un modulo di data mining, Clementine, che integra l analisi testuale. N.B.: Oltre che da Windows è supportato anche da Mac OS. 31
32 Principali software a disposizione per l analisi testuale SAS/ text miner Complesso di prodotti software integrati (sviluppati dal SAS Institute) ad indirizzo prevalenti di supporto alle decisioni. Permette un ampio utilizzo di strumenti di programmazione: meno user friendly ma più flessibile. Rappresenta il leader di mercato nel data mininge, oltre ad avere toolspecifici per l analisi testuale nel pacchetto text minir, oggi offre un pacchetto supplementare completo di texmining, completo degli strumenti più aggiornati e di un ampia gamma di dizionari. N.B.: non è supportato da Mac Os. 32
33 Bibliografia Data Mining Techniques, III ed.; LinoffG.S., Berry M.J.A.; (2011) Wiley Capitolo 21: Text mining
Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali
Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio
MASTER UNIVERSITARIO
MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato
MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016
MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento
Indagini statistiche attraverso i social networks
Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo
Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo 2014. Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved.
T-LAB 9.1 Marzo 2014 Quick Introduction Strumenti per l Analisi dei Testi Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved. Website: http://www.tlab.it/ E-mail: info@tlab.it T-LAB is a registered
Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF
Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Maria Grazia Pepe - Elisabetta Viti (Biblioteca nazionale centrale di Firenze) 6. Incontro ISKO Italia Firenze 20 maggio 2013 SOMMARIO
PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD
Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da
DATA MINING E DATA WAREHOUSE
Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com DATA MINING 1/2 Il Data
aided content analysis)
T-Lab Stefano Nobile L analisi del contenuto computerizzata (computer aided content analysis) I software in commercio per l analisi l del contenuto computerassistita possono essere distinti in due grandi
SISTEMI INFORMATIVI AZIENDALI
SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei
SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE
SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello
Sistemi Informativi Aziendali. Sistemi Informativi Aziendali
DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,
Analisi statistica di dati testuali: il software SPAD
Analisi statistica di dati testuali: il software SPAD Prof.ssa D. Fioredistella Iezzi Università di Roma Tor Vergata stella.iezzi@uniroma2.it SPAD Procedure testuali in SPAD MOTS: Creazione di un vocabolario
Indicizzazione terza parte e modello booleano
Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione
Data mining e rischi aziendali
Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento
Installazione di IBM SPSS Modeler 14.2 Client (licenza di rete)
Installazione di IBM SPSS Modeler 14.2 Client (licenza di rete) Le seguenti istruzioni sono relative all installazione di IBM SPSS Modeler Client versione 14.2 con licenza di rete. Questo documento è stato
Laurea Magistrale in Linguistica Teorica, Applicata e delle Lingue Moderne. Tirocini già attivati e docenti di riferimento
Laurea Magistrale in Linguistica Teorica, Applicata e delle Lingue Moderne Tirocini già attivati e docenti di riferimento Ciascuno dei tirocini proposti è valevole ai fini del riconoscimento dei 6 CFU
Il DataMining. Susi Dulli dulli@math.unipd.it
Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno
2012 Extreme srl riproduzione riservata
Web & Social Media: il BIG DATA* Le aziende devono gestire il BIG DATA perché è attraverso di esso che sviluppano relazioni con i clienti, riscontrano e gestiscono la customer satisfaction, studiano e
La guida CRM per eliminare le incertezze: prendete il controllo del vostro business
2 La guida CRM per eliminare le incertezze: prendete il controllo del vostro business (2 - migliorate la vostra credibilità: i 5 passi per dimostrare l efficacia del Marketing) Pagina 1 di 9 SOMMARIO PREMESSA...
Corso Android Corso Online Programmatore Android
Corso Android Corso Online Programmatore Android Accademia Domani Via Pietro Blaserna, 101-00146 ROMA (RM) info@accademiadomani.it Programma Generale del Corso Modulo Uno - Programmazione J2ee 1) Programmazione
ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet
ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government
A ZIENDE O RGANIZZAZIONI S TUDI P ROFESSIONALI. Lo strumento. di Business Intelligence alla portata di tutti
A ZIENDE O RGANIZZAZIONI S TUDI P ROFESSIONALI Lo strumento di Business Intelligence alla portata di tutti Descrizione Generale Trasforma i tuoi dati in una fonte di successo!!! INFOBUSINESS si propone
RICERCA DELL INFORMAZIONE
RICERCA DELL INFORMAZIONE DOCUMENTO documento (risorsa informativa) = supporto + contenuto analogico o digitale locale o remoto (accessibile in rete) testuale, grafico, multimediale DOCUMENTO risorsa continuativa
Facoltà di Psicologia - Corso FSE gennaio febbraio 2010. Marco Vicentini info@marcovicentini.it
Facoltà di Psicologia - Corso FSE gennaio febbraio 2010 Marco Vicentini info@marcovicentini.it Statistica e Psicologia Quali statistiche per la psicologia? Quali programmi per la statistica? Codifica e
Corso di Informatica
Corso di Informatica Modulo T2 1 Sistema software 1 Prerequisiti Utilizzo elementare di un computer Significato elementare di programma e dati Sistema operativo 2 1 Introduzione In questa Unità studiamo
Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it
Università Ca Foscari di Venezia Linguistica Informatica Mod. 1 Anno Accademico 2010-2011 Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it Schema Input Text Teoria informazione Espressioni Regolari
L utilizzo dei Big Data in Istat: stato attuale e prospettive
L utilizzo dei Big Data in Istat: stato attuale e prospettive Giulio Barcaroli FORUM PA 28 maggio 2015 Outline Illustrazione delle attività portate avanti dall Istat, riguardanti: la prosecuzione di sperimentazioni
Elio Cutino. Business Analytics and Optimization Dai Dati alle Decisioni. Milano,13 ottobre 2010
Elio Cutino Business Analytics and Optimization Dai Dati alle Decisioni Milano,13 ottobre 2010 Immaginate di poter analizzare le relazioni e i contatti dei vostri clienti per prevenire defezioni e abbandoni
MONIWEB Analisi dell immagine in Web 2.0
MONIWEB Analisi dell immagine in Web 2.0 Eikon Strategic Consulting. Nessuna parte di questo documento puo essere usato o riprodotto senza permesso scritto INDICE Cos è il Web 2.0? Web 2.0 e la sua influenza
Linguaggi e Paradigmi di Programmazione
Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una
Il questionario. Laboratorio del corso Tecniche quantitative di ricerca sociale. IV lezione. Modulo: Rilevazione dei dati
Il questionario Laboratorio del corso Tecniche quantitative di ricerca sociale Modulo: Rilevazione dei dati IV lezione Simona Ballabio Federico Denti Le prime fasi del processo di ricerca 1 2 Teoria Ipotesi
Lezione 8. Data Mining
Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi
Uno standard per il processo KDD
Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo
IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web
IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è il più grande contenitore di info del mondo? 2. Perché non è sempre facile reperire informazione utile
ANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis
Sistemi informativi aziendali
Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software
INFORMATICA. Obiettivi Biennio Economico in termini di competenze:
INFORMATICA Obiettivi Biennio Economico in termini di competenze: 1. individuare le strategie appropriate per la soluzione di problemi. 2. utilizzare e produrre testi multimediali. 3. analizzare dati ed
Analisi statistica di dati testuali
Analisi statistica di dati testuali Prof.ssa D. Fioredistella Iezzi Università di Roma Tor Vergata stella.iezzi@uniroma2.it Studi quantitativi sulla lingua Le tecniche di analisi testuale consentono di
DIPLOMA DI STATISTICA
Università di Roma La Sapienza DIPLOMA DI STATISTICA PROGETTO CAMPUS Guida all uso dello Spad-T Applicazione Texte Luca Giuliano Alessandro Stabellini Anno 2000 DOS Sigla della locuz. ingl. Disk Operating
Kirey Re.Search 2.0. Piattaforma di ricerca Open Source
Kirey Re.Search 2.0 Piattaforma di ricerca Open Source Le esigenze Quando si parla di motori di ricerca si tende a pensare istintivamente solo a quelli utilizzati per effettuare ricerche in Internet, come
Crisi e cambiamento nella realtà artigiana
Confartigianato Asolo e Montebelluna Progetto di ricerca Crisi e cambiamento nella realtà artigiana Treviso, Settembre 2011 Indice 1. Premessa 2 2. (D2) Nel mondo si parla di crisi e di cambiamento, che
Corso Android Corso Online Sviluppo su Cellulari con Android
Corso Android Corso Online Sviluppo su Cellulari con Android Accademia Futuro info@accademiafuturo.it Programma Generale del Corso di Sviluppo su Cellulari con Android Programma Base Modulo Uno - Programmazione
Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni
Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello
Vodafone Device Manager. La soluzione Vodafone per gestire Smartphone e Tablet aziendali in modo semplice e sicuro
La soluzione Vodafone per gestire Smartphone e Tablet aziendali in modo semplice e sicuro In un mondo in cui sempre più dipendenti usano smartphone e tablet per accedere ai dati aziendali, è fondamentale
PROCESSO DI INDICIZZAZIONE SEMANTICA
PROCESSO DI INDICIZZAZIONE SEMANTICA INDIVIDUAZIONE DEI TEMI/CONCETTI SELEZIONE DEI TEMI/CONCETTI ESPRESSIONE DEI CONCETTI NEL LINGUAGGIO DI INDICIZZAZIONE TIPI DI INDICIZZAZIONE SOMMARIZZAZIONE INDICIZZAZIONE
In particolare ITCube garantisce:
InfoTecna ITCube Il merchandising, ossia la gestione dello stato dei prodotti all interno dei punti vendita della grande distribuzione, è una delle componenti fondamentali del Trade Marketing e per sua
! Approvato AD Data 01/06/2013
1 Dipartimento di: Lettere Linguistico: latino 1. COMPETENZE DISCIPLINARI 2. ARTICOLAZIONE DELLE COMPETENZE DISCIPLINARI Anno scolastico: 2014-2015 X Primo biennio Secondo biennio Quinto anno Competenze
Database. Si ringrazia Marco Bertini per le slides
Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida
Introduzione alla Business Intelligence
SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE
SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale I sondaggi 23/1/2006
SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale I sondaggi 23/1/2006 Scopo della ricerca Riuscire a determinare le caratteristiche di un fenomeno attraverso un campionamento di alcuni
2.1 Introduzione ai linguaggi di marcatura
Fondamenti di Informatica Sistemi di Elaborazione delle Informazioni Informatica Applicata 2.1 Introduzione ai linguaggi di marcatura Antonella Poggi Anno Accademico 2012-2013 DIPARTIMENTO DI SCIENZE DOCUMENTARIE
CICLO DI SEMINARI AVANZATI SUI METODI E LE TECNICHE DELLA RICERCA QUALITATIVA PROGRAMMI DEI SEMINARI
Il Master di Secondo Livello in QR-M&S RICERCA QUALITATIVA PER IL MARKETING E IL SOCIALE Quarta Edizione - A.A. 2012-2013 propone un CICLO DI SEMINARI AVANZATI SUI METODI E LE TECNICHE DELLA RICERCA QUALITATIVA
La gestione del documento
Operatore giuridico d impresa Informatica Giuridica A.A 2002/2003 II Semestre La gestione del documento prof. Monica Palmirani Il documento A differenza del dato il documento è solitamente un oggetto non
SISTEMI INFORMATIVI AZIENDALI
SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità
Pianificazione Controllo Analisi Reporting. Progetti Srl - PCPro 1
Pianificazione Controllo Analisi Reporting 1 Controllo di Gestione La situazione dei mercati impone alle aziende la necessità di operare in modo più efficiente e tempestivo. L informazione sullo stato
CORSO DI ITALIANO CLASSE PRIMA
CORSO DI ITALIANO CLASSE PRIMA UdA n.1 - LEGGERE, COMPRENDERE E INTERPRETARE TESTI 1. Comprendere e analizzare narrativi, descrittivi, espositivi e poetici 2. Riconoscere e classificare diversi tipi di
Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale
Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione
IL PORTALE A SUPPORTO DELLA DIDATTICA E DELLA GESTIONE
IL PORTALE A SUPPORTO DELLA DIDATTICA E DELLA GESTIONE Di Antonella Della Rovere (luglio 2003) L ambiente accademico sta attraversando un momento di profonda trasformazione: la riforma dei corsi di studio
Indice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE
VII INDICE SOMMARIO Prefazione... xv CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE 1. Analisi dei dati e data mining... 1 2. La matrice dei dati «unità pervariabili»... 6 3. Idatiricavatidaun
Biblioteche, centri di documentazione e musei digitali per la ricerca e la formazione superiore
Biblioteche, centri di documentazione e musei digitali per la ricerca e la formazione superiore Jacopo Di Cocco Direttore CIB, coordinatore CASA, CNC-SBN, GSB-CRUI, OTS-GARR 24-26 giugno 2002 Bologna:
PROGRAMMAZIONE SECONDO BIENNIO LINGUA e C IVILTA INGLESE
PROGRAMMAZIONE SECONDO BIENNIO LINGUA e C IVILTA INGLESE OBIETTIVI DI APPRENDIMENTO LINGUA Lo studente dovrà acquisire competenze linguistico-comunicative corrispondenti al Livello B2 del Quadro Comune
Moda.PDM. Scheda tecnica
Scheda tecnica Modasystem è una sofware house, leader nel settore, nata e strutturata per realizzare e proporre software applicativo per industrie di abbigliamento e calzature. Il personale di Modasystem
Conoscere Dittaweb per:
IL GESTIONALE DI OGGI E DEL FUTURO Conoscere Dittaweb per: migliorare la gestione della tua azienda ottimizzare le risorse risparmiare denaro vivere meglio il proprio tempo IL MERCATO TRA OGGI E DOMANI
OPEN SOURCE. Concetti chiave e implicazioni per le scelte aziendali (fornitori e utenti)
OPEN SOURCE Concetti chiave e implicazioni per le scelte aziendali (fornitori e utenti) OBIETTIVI Cosa sono i sw open source? Cosa li distingue dai sofware non open? Quali implicazioni per: I professionisti
INFORMATICA LE470 Editoria multimediale - Ideazione e progettazione
INFORMATICA LE470 Editoria multimediale - Ideazione e progettazione Facoltà di Lettere e Filosofia anno accademico 2008/2009 secondo semestre Editoria multimediale - Introduzione Editoria multimediale
Programmi. Algoritmi scritti in un linguaggio di programmazione
Programmi Algoritmi scritti in un linguaggio di programmazione Sistema operativo:programma supervisore che coordina tutte le operazioni del calcolatore Programmi applicativi esistenti Sistemi di videoscrittura
WOSM (World Open Source Monitoring): Il migliore sistema al mondo di media intelligence
1 WOSM (World Open Source Monitoring): Il migliore sistema al mondo di media intelligence WOSM è un sistema di media monitoring unico al mondo. Restituisce percorsi di lettura dei dati trasversali, fruibili,
Installazione di IBM SPSS Modeler 14.2 Client (utente singolo)
Installazione di IBM SPSS Modeler 14.2 Client (utente singolo) Le seguenti istruzioni sono relative all installazione di IBM SPSS Modeler Client versione 14.2 con licenza per utente singolo. Una licenza
Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati
Indirizzo Informatico e Comunicazione Indicazioni nazionali per Piani di Studi Personalizzati Indirizzo Informatico e Comunicazione Discipline con attività di laboratorio 3 4 5 Fisica 132 Gestione di progetto
Competenze Abilità Conoscenze Tempi
DIPARTIMENTO DI INGLESE PRIMO BIENNIO Primo anno COMPETENZE ASSE DEI LINGUAGGI Utilizza gli strumenti espressivi per gestire l interazione comunicativa per i principali scopi di uso quotidiano. - comprende
Lezione 1. Introduzione e Modellazione Concettuale
Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and
Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco
Introduzione al Datamining Francesco Passantino francesco@iteam5net wwwiteam5net/francesco Cos è il datamining Processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire
Corso di laurea specialistica in Economia e Gestione delle Reti
Corsi di laurea specialistica sede di Venezia Guida della Facoltà di Economia a.a. 2004-0 Corso di laurea specialistica in Economia e Gestione delle Reti Classe di appartenenza: Classe delle lauree specialistiche
Investing f or Growth
Investing for Growth Open Business Solution Software integrato e modulare per la gestione aziendale, OB One permette di soddisfare in maniera semplice ed intuitiva tutte le esigenze contabili, amministrative
Corso Programmazione Java Android. Programma
Corso Programmazione Java Android Programma 1.1 Obiettivo e modalità di fruizione L obiettivo del corso è di fornire le conoscenze tecniche e metodologiche per svolgere la professione di Programmatore
Data Mining a.a. 2010-2011
Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00
InfoTecna ITCube Web
InfoTecna ITCubeWeb ITCubeWeb è un software avanzato per la consultazione tramite interfaccia Web di dati analitici organizzati in forma multidimensionale. L analisi multidimensionale è il sistema più
IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web
IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web GLI INTERROGATIVI 1. Perché Internet è diventato il più grande contenitore di informazioni del mondo? 2. Perché non è sempre facile reperire
Soluzioni ZANASI di codifica e marcatura per il settore Vinicolo
Soluzioni ZANASI di codifica e marcatura per il settore Vinicolo RIDUZIONE DEI COSTI DI GESTIONE ALTE PRESTAZIONI E FACILITA DI INTEGRAZIONE TECNOLOGIA AVANZATA E AGGIORNABILE TECNOLOGIA APERTA: SEMPLICITA
Analisi informatizzata delle aziende italiane
Analisi informatizzata delle aziende italiane Bureau van Dijk BvD rappresenta uno dei leader mondiali nella distribuzione dell informazione economico-finanziaria; grazie alla sua presenza internazionale
Internet: Software Open Source e Sistemi operativi. conoscerlo al meglio per usarlo meglio. 2011 Gabriele Riva - Arci Barzanò
Internet: conoscerlo al meglio per usarlo meglio Software Open Source e Sistemi operativi Indice Cos'è un Software Open Source Perchè utilizzare Software Open Source Sistemi operativi Licenze software
Giovani e lavoro: dall Università al mondo. I giovani nelle aziende senza confini
Giovani e lavoro: dall Università al mondo. I giovani nelle aziende senza confini Giovani e mondo del lavoro: le ricerche ISTUD Dopo la laurea. Rapporto sul lavoro giovanile ad alta qualificazione (2002)
Studio Grafico Ramaglia. Graphic Designer
Index Profilo Agenzia Grafica Internet Perchè affidarsi a noi Profilo Dal 2012 lo studio RAMAGLIA si occupa di comunicazione, grafica pubblicitaria, web design e marketing. I nostri servizi si rivolgono
Come l aspetto ludico possa essere utile all apprendimento: il software didattico Sorpasso!
1 Erika Firpo Come l aspetto ludico possa essere utile all apprendimento: il software didattico Sorpasso! INTRODUZIONE Sempre più spesso i bambini e i ragazzi passano parte del loro tempo a giocare coi
Di testi ed immagini
Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori
SEO: le fondamenta del marketing digitale
SEO: le fondamenta del marketing digitale e-book a cura di Andrea Roversi, Note introduttive Alleghiamo in questo e-book alcuni principi guida legati al SEO (Search Engine Optimization). Lo sviluppo accurato
Cosa è un foglio elettronico
Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti
Il Business Performance Management & QlikView
Il Business Performance Management & QlikView 1 I SISTEMI DI SUPPORTO ALLE DECISIONI O DI BUSINESS INTELLIGENCE sono oggi considerati componenti di sistemi più ampi conosciuti come: CPM - CORPORATE PERFORMANCE
Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione.
XIII Expert panel emissioni da trasporto su strada Roma, 4 ottobre 27 Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione. C. Lavecchia*;
La tecnologia cloud computing a supporto della gestione delle risorse umane
La tecnologia cloud computing a supporto della gestione delle risorse umane L importanza delle risorse umane per il successo delle strategie aziendali Il mondo delle imprese in questi ultimi anni sta rivolgendo
la tua presenza e il tuo BUSINESS ON-LINE
LINEA58 è una soluzione nata per gestire la tua presenza e il tuo BUSINESS ON-LINE Gestione totale dei contenuti Aggiornamento del sito in tempo reale Autonomia completa Estrema semplicità d'uso Sito multilingua
CORPORATE PRESENTATION
CORPORATE PRESENTATION Widevalue Srl Via G. Dezza 45 20144 Milano Tel. +39 02.49632285 Fax. +39 02.49633449 Widevalue è una società di formazione. per lo sviluppo delle competenze e del business aziendale.
Internet of Things, Big Data e Intelligenza Artificiale.
Oracle Ticino Day Lugano 26 Marzo 2015 Internet of Things, Big Data e Intelligenza Artificiale. Prof. Luca Maria Gambardella direttore IDSIA, istituto USI-SUPSI, Manno Le nuove sfide La società globale
La ricerca estensiva Perché?
RICERCA ESTENSIVA La ricerca estensiva Perché? Per misurare e validare in termini estensivi la percezione e decodifica da parte dei soggetti destinatari; ma anche per segmentarli in modo appropriato Per
DATABASE RELAZIONALI
1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.
Shopping online: un italiano su cinque si affida al mobile
OSSERVATORIO 7PIXEL Shopping online: un italiano su cinque si affida al mobile - Nel 2012 il traffico da dispositivi mobile è cresciuto di oltre 4 volte rispetto al 2011 - L utente mobile è più attivo
L [ERP] PER IL MERCATO DEL [WINE & BEVERAGE] WINE BEVERAGE
L [ERP] PER IL MERCATO DEL [ & ] ERP per il settore Wine&Beverage Enterprise Resource Planning Wine&Beverage for Sap Business One è un ERP, appositamente parametrizzato per il commercio del vino, alcolici,
Ingegneria Gestionale della logistica e produzione Prof. A. Palomba - Elementi di Informatica (DF-M)
2009-2010 Ingegneria Gestionale della logistica e produzione Prof. A. Palomba - Elementi di Informatica (DF-M) 13 File e cartelle File system Software di utilità Il S.O. e le periferiche Il S.O. e la memoria
Risorse. 1 Forum utili agli utenti principianti
Cap22AppB.fm Page 1 Tuesday, April 12, 2005 9:01 AM B Risorse Poiché Linux deve molto la sua diffusione e il suo sviluppo alla Rete, non deve sorprendere che su Internet sia disponibile una quantità enorme