La sfida dei Big Data
|
|
- Gianmaria Vitali
- 5 anni fa
- Visualizzazioni
Transcript
1 copyright - Paolo Garza - Tutti i diritti riservati La sfida dei Big Data Laboratorio #1 Data mining: Preprocessing, Itemset frequenti e Regole di associazione Obiettivo generale Imparare a creare semplici processi di data mining in RapidMiner in cui si usano gli operatori base per il caricamento e la trasformazione dei dati (caricamento e preprocessing) e risolvere problemi reali, principalmente esplorativi, tramite l uso di itemset frequenti e regole di associazione. Estrazione di itemset e regole di associazione dai market-basket data Abbiamo a disposizione le informazioni sugli acquisti effettuati da alcuni clienti di un supermercato online che permette di effettuare la spesa online e farsi recapitare a casa la merce acquistata. Le informazioni sugli acquisti effettuati dai clienti sono memorizzate in un file CSV (in un contesto reale le informazioni sugli acquisti dei vari clienti sarebbero memorizzate in un DBMS relazionale e non in un file csv, ma per semplicità supponiamo che qualcuno abbia già effettuato un operazione di trasformazione che ha creato il file CSV che vi viene fornito eseguendo un opportuna interrogazione SQL sulla base di dati relazionale contenente gli acquisti dei clienti). Il file CSV da utilizzare si chiama marketbasket.csv e si trova sotto la cartella AR. Ogni riga del file CSV rappresenta il carrello della spesa di un cliente (ossia l insieme di prodotti presenti sullo scontrino del cliente) mentre le colonne sono associate ai vari prodotti presenti nel supermercato. In ogni riga la cella relativa ad un prodotto assume il valore true o false in funzione del fatto che in quel carrello della spesa ci sia oppure no il prodotto a cui è associata la colonna. I clienti sono anonimi e quindi non ci sono informazioni sul cliente che ha effettuato l acquisto. Aprire il file marketbasket.csv per capire meglio com è strutturata l informazione. Primo obiettivo Analisi esplorativa delle vendite al supermercato o su un sito di ecommence Il primo obiettivo dell analisi dei dati a nostra disposizione consiste nell identificare le combinazioni di prodotti frequentemente venduti insieme per poter poi fare delle valutazioni sui prodotti più venduti ma soprattutto su come i vari prodotti interagiscono tra di loro per pianificare in seguito delle campagne di marketing/promozioni mirate. Passi per risolvere il problema con RapidMiner:
2 1. Visualizzare il contenuto della base di dati(file CSV) tramite un semplice processo di RapidMiner che legge i dati e li visualizza a video o Usare l operatore Read CSV per leggere il dataset. Si consiglia di usare il wizard Import configuration wizard per caricare in modo corretto i dati. o Connettere l output dell operatore Read CSV all uscita res del processo o Eseguire il processo e analizzare il risultato (Result view). In particolare analizzare i contenuti delle cartelle Data view e Meta Data View. La seconda è utile per capire lo schema dei dati e la useremo frequentemente dopo le operazioni di trasformazione per verificare che i dati siano conformi a quelli attesi 2. Estrarre gli itemset frequenti dai dati a disposizione per capire quali sono i prodotti più venduti e quali prodotti sono frequentemente venduti insieme. Per realizzare questa operazione realizzare un processo che: o Legge i dati dal file CSV o Specifica tramite l operatore Remap Binominals quale valore degli attributi binomiali rappresenta il positive value (nel nostro caso il valore true) e quale il negative value (nel nostro caso il valore false). Questa operazione è indispensabile altrimenti l algoritmo di estrazione decide in modo casuale qual è il valore positivo portando a dei risultati errati. o Applicare l operatore FP-Growth per l estrazione degli itemset frequenti Disabilitare l opzione find min number of itemsets Impostare il supporto minimo (parametro min support) al valore 0.01 (= 1%) o Eseguire il processo e analizzare il risultato Qual è il prodotto più venduto? Quali sono gli insiemi di prodotti venduti frequentemente insieme? Con quali altri prodotti si vende frequentemente il prodotto Eggs? Cosa succede se uso un supporto minimo troppo alto (ad esempio 0.1 = 10%) o troppo basso? Come usereste l informazione estratta? Per quale tipo di servizio/operazione? Secondo obiettivo Top-K products e Frequently bought together Il secondo obiettivo dell analisi dei dati a nostra disposizione consiste nello sfruttare i dati sulle vendite a nostra disposizione per dare delle indicazioni/suggerimenti agli utenti del sito. In particolare i proprietari del sito online vogliono realizzare due applicazioni per rispondere alle seguenti esigenze: 1. Nell homepage del sito devono essere visualizzati i nomi dei 10 prodotti più venduti (i top-10 products ) 2. Nel momento in cui un utente si trova sulla pagina di un prodotto si vuole visualizzare nella stessa pagina l insieme di prodotti che sono frequentemente venduti insieme al prodotto che l utente sta guardando/comprando ( frequently bought together o frequently shipped together stile Amazon). L elenco di prodotti da visualizzare è pari a 3, uno dei quali è il prodotto della pagina su cui si trova al momento l utente. Se ad esempio l utente si trova sulla pagina relativa al prodotto Eggs il sistema deve suggerirgli/mostrargli l informazione il prodotto Eggs è frequentemente acquistato insieme ai prodotti Milk e Cola. Attenzione che questa informazione significa che ci sono tanti carrelli della spesa in cui tutti e tre i prodotti sono contemporaneamente presenti.
3 Come risolvereste il problema usando tecniche che conoscevate già prima del corso e con tecniche invece apprese durante questo corso? Passi per risolvere i due problemi con RapidMiner: Per identificare i top-10 prodotti possiamo estrarre gli itemset frequenti di lunghezza 1 e poi selezionare i 10 più frequenti o Usare lo stesso processo utilizzato prima ma impostare la lunghezza massima degli itemset estratti a 1 (impostare il parametro max items dell operatore FP-growth a 1) o Usare l operatore Item sets to Data per generare una versione tabellare degli itemset estratti o Ordinare i dati in base alla frequenza degli itemset estratti in base alla loro frequenza Usare l operatore Sort e effettuare l ordinamento in base all attributo Frequency (attributo generato dell operatore precedente) o Selezionare solo le prime 10 righe Usare l operatore Filter Example Range che permette di selezionare i record in base alla loro posizione (nel nostro caso i primi dieci record) Per identificare i prodotti frequentemente comprati insieme ad un altro prodotto (seconda parte del problema) come possiamo procedere? o La soluzione è analoga a prima ma in questo caso vogliamo itemset lunghi 3, contenenti uno specifico item (il prodotto che stiamo guardando/comprando), e poi selezioniamo il top-1 itemset L operatore di estrazione degli itemset permette di specificare che si devono estrarre solo gli itemset che contengon un item specifico tramite il parametro must contain Realizzare il processo supponendo che l utente stia guardando il prodotto Cola Il procedimento realizzato può essere utilizzato anche in contesti in cui gli oggetti non sono dei prodotti standard ma qualcosa di diverso (ad esempio le notizie lette online dagli utenti di una testata giornalistica). Terzo obiettivo Analisi esplorativa delle vendite al fine di identificare prodotti trainanti Il terzo obiettivo dell esercitazione consiste nel cercare di capire quali sono i reali legami tra i prodotti e quali sono, ad esempio i prodotti trainanti, ossia quei prodotti che se acquistati comportano frequentemente anche l acquisto di altri prodotti. Ad esempio, se voglio incentivare le vendite di pane bianco quali altri prodotti mi conviene promuovere/far acquistare ai clienti? Possiamo basarci sui soli itemset frequenti per risolvere questo problema? Le regole di associazione possono darci delle informazioni più precise? Proviamo ad usare le regole di associazione. Le regole ci permettono si estrarre implicazioni tra oggetti e di stimare la probabilità condizionata che dati certi prodotti nel carrello della spesa (antecedente della regola) ve ne siano altri (conseguente della regola).
4 Passi per risolvere il problema con RapidMiner: Per estrarre le regole di associazione frequenti utilizzare il processo usato per l estrazione degli itemset frequenti e poi in cascata l operatore Create Association Rules o Tra i parametri Create Association Rules di impostare criterion a confidence e min confidence a 0.7 (=70%) Analizzare il risultato (regole estratte) e cercare di capire, ad esempio, la vendita di quale prodotto dovrebbe permetterci di aumentare anche le vendite di pane bianco (White Bread) Dalle regole si evince che chi compra Potato Chips e White Wine nel 100% dei casi compra anche il prodotto Eggs. Valgono anche le implicazioni opposte? Ad esempio chi compra Eggs e Potato Chips compra sempre anche White Wine? Le regole di associazione sono utili/inutili per il problema dei frequently bought together che prima abbiamo affrontato usando gli itemset frequenti? Estrazione di itemset e regole di associazione da dati testuali (news, pagine HTML, ) Abbiamo a disposizione delle news scaricare da internet. In particolare abbiamo delle collezioni di news scaricate dopo aver interrogato google news. Per ogni interrogazione effettuata sono state scaricate le prime 10 notizie (pagine contenenti notizie) restituite da google news. Sono disponibili le collezioni di news relative a 3 interrogazioni: Milan Sorrentino Obama Le notizie scaricate sono salvate nelle sottocartelle di AR\News. Ogni sottocartella contiene le 10 notizie (10 file) associate ad una delle interrogazioni eseguite. Vogliamo capire come gli itemset e le regole di associazione possano essere utilizzate per analizzare i contenuti delle notizie scaricate e risolvere problemi tipo topic detection o brand sentiment. Obiettivo Analisi esplorativa delle notizie su uno specifico argomento o entità Il primo obiettivo dell analisi dei dati a nostra disposizione consiste nell identificare i topic di discussione per uno specifico argomento o entità. Ad esempio, vogliamo capire cosa si dice del Milan. Per questo motivo abbiamo scaricato 10 notizie relative al Milan e vogliamo capire di cosa parlano senza leggerle una per volta (per questa semplice prova abbiamo solo 10 news ma in un caso reale ne avremmo molte di più e quindi la lettura singola di ogni news sarebbe infattibile o comunque troppo onerosa come operazione). Come possiamo risolvere il problema? Gli itemset frequenti o regole di associazione possono rispondere al nostro problema e se sì come? Quale delle due tecniche utilizzereste?
5 Per poter analizzare dei dati testuali tramite RapidMiner è necessario installare l estensione Text Mining Extension che offre funzionalità apposite per l analisi dei testi. Gli algoritmi di analisi (non solo quelli che vediamo noi) richiedono come input una rappresentazione sottoforma di tabella dei dati, anche dei documenti. Per questo motivo dobbiamo immaginare i documenti come insiemi di parole e usare una rappresentazione simile a quella usata prima per rappresentare i prodotti. In questo caso ogni singolo documento è un insieme di parole. Trasformazione di dati testuali tramite l uso di RapidMiner e estrazione degli itemset frequenti Utilizzare l operatore Process Documents from Files per leggere da file collezioni di documenti. Ogni file è visto come un singolo documento. o Specificare quali sono le cartelle che contengono i documenti da analizzare o Impostare il parametro vector creation al valore Term Occurrences. Ciò trasforma ogni documento in un vettore di parole e associa ad ogni parola il numero di volte che tale parola si presenta nel documento analizzato o Cliccare due volte sull operatore Process Documents from Files, che è in realtà un operatore complesso, e specificare quali tipi di trasformazioni applicare sui singoli documenti Usare l operatore Tokenize per dividere il testo in un insieme di parole Usare Transform Cases per rendere tutte le parole minuscole (per evitare che due parole identiche siano considerate diverse solo a causa del fatto che alcune lettere sono minuscole e altre maiuscole) Applicare un algoritmo di stemming per ridurre le parole alla loro radice morfologica utilizzando l operatore Stemming operator (opzionale). Fare attenzione a selezionare la lingua giusta. Nel nostro caso le news sono in italiano Applicare un algoritmo per l eliminazione delle stopword per eliminare parole inutili tipo le congiunzioni. Usare l operatore Filter Stopwords (Dictionary) e specificare come file contenente le stopword il file AR\News\stopwordsItalian.txt (Attenzione. Impostare il tipo di encoding a UTF-8 per una corretta interpretazione del contenuto del file delle stopword). Analizzare l uscita dell operatore Process Documents from Files. Come vedrete la tabella generata contiene un record per ogni documento e ogni parola è un attributo di tipo numerico che indica il numero di volte in cui ogni parola si presenta nei vari documenti. Per rendere tale informazione utilizzabile per l estrazione degli itemset frequenti dobbiamo applicare l operatore Numerical to Binominal. Esso genera il valore true per quelle celle in cui c è un valore maggiore di 0 e false per le altre. Estrarre gli itemset frequenti usando, come fatto prima, l operatore FP-Growth o Quali sono gli argomenti più trattati nelle news che state analizzando? Provare ad estrarre le regole di associazione (imporre come lunghezza massima per gli itemset il valore 4). Ci forniscono delle informazioni in più rispetto agli itemset? Sono utili in questo caso? Quando un utente effettua una ricerca su google news (ad esempio scrive Milan nell interrogazione) oltre all elenco di 10 notizie vogliamo visualizzare anche, con una sola frase (insieme di parole), l argomento più trattato in tali notizie. Provare a risolvere il problema utilizzando il processo appena realizzato e parti di processi visti in precedenza.
6 Svolgere tale operazione prima per la collezione usata fino a ora (quella sul Milan) e poi la collezione relativa a Sorrentino e alla fine quella associata ad Obama. La soluzione proposta funziona bene in tutti e tre i casi? Se in alcuni casi i risultati non sono quelli attesi qual è il motivo? Estrazione di itemset e regole di associazione da dati strutturati Il dataset denominato Users (AR\Users.xls) raccoglie dati anagrafici e lavorativi relativi a circa 1000 persone contattate da un azienda per proporgli l iscrizione ad un loro servizio. Per tali utenti è noto se, dopo essere stati contattati, si sono iscritti al servizio proposto oppure no (valore del campo Response). La campagna di promozione del servizio continua e il personale della compagnia deve decidere chi, tra un elenco di circa persone non ancora contattare, potrebbe essere interessato al servizio. A tale fine si vogliono analizzare le informazioni presenti in Users per identificare il profilo delle persone che rispondono solitamente in modo positivo alla campagna. Obiettivo Caratterizzazione utenti Partendo dai dati disponibili si vuole capire quali tipologie di persone potrebbero rispondere positivamente alla campagna. Per risolvere il problema utilizziamo gli itemset o le regole di associazione? Ci interessano particolari tipologie di itemset/regole? Per poter analizzare dei dati a nostra disposizione tramite RapidMiner è necessario prima trasformare gli attributi non binomiali in binomiali. Trasformazione dei dati non binomiali Per ciò che riguarda gli attributi di tipo nominale (ad esempio la città di residenza, il titolo di studio) dobbiamo utilizzare l operatore Nominal to Binominal che crea una variabile binomiale per ogni valore presente nel dominio dell attributo nominale di partenza Per ciò che riguarda gli attributi numerici dobbiamo prima applicare un algoritmo di discretizzazione e poi nuovamente l operatore Nominal to Binominal per trasformare la versione discretizzata dei dati numerici in tante variabili binomali. o Per discretizzare i dati esistono più soluzioni. Nel nostro caso usiamo l approccio equi-width che in RapidMiner è implementato dall operatore Discretize by Binning. Impostare il parametro number of bins a 10. Ciò comporta la discretizzazione del dominio di ogni attributo numerico in 10 intervalli. Applicare un analisi esplorativa per identificare le caratteristiche delle persone che rispondono positivamente alla campagna. Implementare un processo per risolvere il problema in RapidMiner applicando gli itemset frequenti o le regole di associazione sui dati delle persone dopo la fase di trasformazione dei dati dal formato originale al formato in cui tutti gli attributi sono binomiali. Si consiglia di fare estrazione usando un supporto minimo pari al 5%. Decidere invece autonomamente che confidenza minima imporre per la fase di estrazione delle regole di associazione. Quali utenti conviene contattare per aumentare la possibilità di risposte positive? Quali conviene non contattare?
Business Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 6 (Prima parte) Dati strutturati Il dataset denominato UsersSmall (UsersSmall.xls) è disponibile sul sito del corso (http://dbdmg.polito.it/wordpress/teaching/business-intelligence/).
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 4 L obiettivo dell esercitazione è: - utilizzare il software Rapid Miner per preparare i dati relativi ad una campagna promozionale
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 5 1. Caratterizzazione di playlist del sistema Spotify Abbiamo a disposizione le playlist di un sottoinsieme di utenti del sistema Spotify.
DettagliLa sfida dei Big Data
copyright - Paolo Garza - Tutti i diritti riservati La sfida dei Big Data Laboratorio #3 Data mining: Algoritmi di clustering Obiettivo Applicare algoritmi di data mining per effettuare il clustering di
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio n. 6 L obiettivo dell esercitazione è il seguente: - Applicare algoritmi di data mining per la classificazione al fine di analizzare dati
DettagliBusiness Intelligence
Business Intelligence Esercitazione di laboratorio N. 5 Gli obiettivi dell esercitazione sono: - applicare i principali algoritmi di clustering disponibili in RapidMiner per segmentare gli utenti della
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Gli obiettivi dell esercitazione sono: Esercitazione di laboratorio N. 5 - applicare i principali algoritmi di clustering disponibili in RapidMiner per segmentare gli
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 4 L obiettivo dell esercitazione è: - utilizzare il software Rapid Miner per effettuare i preprocessing di dati strutturati (relativi
DettagliBusiness Intelligence per i Big Data
Business Intelligence per i Big Data Esercitazione di laboratorio N. 6 Gli obiettivi dell esercitazione sono: - applicare i principali algoritmi di clustering disponibili in RapidMiner per segmentare gli
DettagliINTRODUZIONE AI DBMS. Inoltre i fogli elettronici. Mentre sono poco adatti per operazioni di. Prof. Alberto Postiglione
Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : Introduzione alla Gestione dei Dati Prof. Alberto Postiglione
DettagliINTRODUZIONE AI DBMS
Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : Introduzione alla Gestione dei Dati Prof. Alberto Postiglione
DettagliBibliografia. INFORMATICA GENERALE Prof. Alberto Postiglione. Scienze della Comunicazione Università di Salerno. Definizione di DB e di DBMS
INFORMATICA GENERALE DBMS: Introduzione alla gestione dei dati Bibliografia 4 ott 2011 Dia 2 Curtin, Foley, Sen, Morin Vecchie edizioni: 8.4, 8.5, 8.6, 8.7, 8.8 Edizione dalla IV in poi: 6.5, 21.1, 19.4,
DettagliLibrerie digitali. Uso di XML per memorizzare i metadati. Descrizione generale. XML per memorizzare i metadati. Motivi dell uso di XML
Librerie digitali Uso di XML per memorizzare i metadati Descrizione generale Ad ogni dato associo un file XML che descrive il contenuto del dato stesso Memorizzo su file system sia il dato sia il file
DettagliSistemi per la gestione delle basi di dati
Sistemi per la gestione delle basi di dati Esercitazione #5 Data mining Obiettivo Applicare algoritmi di data mining per la classificazione al fine di analizzare dati reali mediante l utilizzo dell applicazione
DettagliCorso di Access. Prerequisiti. Modulo L2A (Access) 1.2 Strumenti di Access. Utilizzo elementare del computer Concetti fondamentali di basi di dati
Corso di Access Modulo L2A (Access) 1.2 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione In questa Unità si introduce Access 2007, un applicazione
DettagliSQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project
Database and data mining group, SQL Server 2005 Integration Services SQL Server 2005: ETL - 1 Database and data mining group, Integration Services Project Permette di gestire tutti i processi di ETL Basato
DettagliAccess 2007 Colonna di ricerca
Pagina 1 di 7 Lezioni on line -> Gestire i dati Access 2007 Colonna di ricerca Quando si riempiono i campi dei record che formano una tabella, può essere utile e comodo poter scegliere, in un elenco dei
DettagliAnalisi dei Dati. Lezione 9 - Preprocessing dei dati
Analisi dei Dati Lezione 9 - Preprocessing dei dati Motivazioni I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi:
DettagliLecture 14. Association Rules
Lecture 14 Association Rules Giuseppe Manco Readings: Chapter 6, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Association Rule Mining Dato un insieme di transazioni, trovare le regole che
DettagliRegole associative con Weka
Regole associative con Weka Soluzioni degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Apriori parametri e output In questa fase utilizzeremo il data set CensusTrainining.arff
DettagliRegole associative con Weka Testo degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Regole associative con Weka Testo degli esercizi Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Apriori parametri e output In questa fase utilizzeremo il data set CensusTrainining.arff
DettagliMODULO 5 - USO DELLE BASI DI DATI 2 FINALITÁ
PATENTE EUROPEA DEL COMPUTER 5.0 MODULO 5 Database (Microsoft Access 2007) Parte 3 A cura di Mimmo Corrado Gennaio 2012 MODULO 5 - USO DELLE BASI DI DATI 2 FINALITÁ Il Modulo 5, richiede che il candidato
DettagliMicrosoft Access. Nozioni di base. Contatti: Dott.ssa Silvia Bonfanti
Microsoft Access Nozioni di base Contatti: Dott.ssa Silvia Bonfanti silvia.bonfanti@unibg.it Introduzione In questa lezione vedremo lo strumento Microsoft Access ed impareremo come realizzare con esso
DettagliPRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE
PRINCIPI DI INFORMATICA CORSO DI LAUREA IN SCIENZE BIOLOGICHE Gennaro Cordasco e Rosario De Chiara {cordasco,dechiara}@dia.unisa.it Dipartimento di Informatica ed Applicazioni R.M. Capocelli Laboratorio
DettagliInsert > Object > Chart
Grafici Calc mette a disposizione un Wizard per creare diagrammi o grafici dai dati del foglio di calcolo (Insert > Object > Chart oppure icona in standard toolbar) Dopo che il grafico è stato creato come
DettagliINFORMATICA GENERALE Prof. Alberto Postiglione Scienze della Comunicazione Università degli Studi di Salerno GESTIONE DEI DATI
INFORMATICA GENERALE Prof. Alberto Postiglione Scienze della Comunicazione Università degli Studi di Salerno : INTRODUZIONE ALLA : INTRODUZIONE ALLA GESTIONE DEI DATI DBMS: Introduzione alla gestione dei
DettagliData Import pulizia dati e Probabilità. Renato Mainetti
Data Import pulizia dati e Probabilità Renato Mainetti Importare dati in Matlab: Abbiamo visto come sia possibile generare array e matrici di dati. Per ora abbiamo sempre inserito i dati manualmente o
DettagliData Import e Probabilità. Renato Mainetti
Data Import e Probabilità Renato Mainetti Importare dati in Matlab: Abbiamo visto come sia possibile generare array e matrici di dati. Per ora abbiamo sempre inserito i dati manualmente o utilizzando metodi
DettagliCorso di Access Modulo L2 A (Access) I tipi di query
Corso di Access Modulo L2 A (Access) 2.3.2 I tipi di query 1 Prerequisiti Concetto di database relazionale Utilizzo elementare del computer Concetti fondamentali di basi di dati Interrogazione di un DB
DettagliACCESS. Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati.
ACCESS Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati. Database Relazionale: tipo di database attualmente più diffuso grazie alla
DettagliLibrerie digitali. Strumenti di ricerca. Ricerca di informazioni nelle Digital library
Librerie digitali Strumenti di ricerca Ricerca di informazioni nelle Digital library Data un interrogazione da parte di un utente gli strumenti di ricerca permetto di identificare i dati che soddisfano
Dettagli2.3.2 I tipi di query MODULO L2
Dare una breve descrizione dei termini introdotti: (A) CONOSCENZA TERMINOLOGICA Query di selezione Query di comando Query di creazione tabella Query di aggiornamento Query di eliminazione Query di accodamento
DettagliDefinizione di file. Directory e file File binari e file di testo
I/O Avanzato e File Definizione di file Directory e file File binari e file di testo 5 Definizione di file Directory e file Tutti i sistemi operativi permettono di organizzare le informazioni su hard disk
DettagliAnalisi di un dataset di perizie assicurative. Esercitazione Data Mining
Analisi di un dataset di perizie assicurative Esercitazione Data Mining Ricapitoliamo L obiettivo dell analisi che si intende condurre è l estrapolazione di un modello per il riconoscimento automatico
DettagliEstendere Rialto. Esercitazione Data Mining 5 Novembre
Estendere Rialto Esercitazione Data Mining 5 Novembre Obiettivi Mostrare come sia possibile sviluppare i propri moduli per estendere il tool Estendere Rialto Rialto si configura come un tool di Data Mining
DettagliListView. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni
ListView Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni La ListView è un controllo complesso e di grande impatto visivo. È lo stesso tipo di lista usato dall'explorer di windows per visualizzare
DettagliInformatica per le discipline umanistiche 2 lezione 11
Informatica per le discipline umanistiche 2 lezione 11 Come si fa a costruire una base di dati? Dipende. Le persone che si iscrivono in università forniscono dati che popolano il database dellʼuniversità
Dettagli13 Le funzioni di ricerca e riferimento
13 Le funzioni di ricerca e riferimento Come si evince dal titolo della presente lezione queste funzioni permettono di cercare un valore in una tabella di riferimento e riportarlo in un altra posizione
DettagliRegole di associazione
M B G Regole di associazione ATA MINING: REGOLE I ASSOCIAZIONE - 1 Regole di associazione Ricerca di correlazioni in una collezione di dati strumento efficace per analizzare i dati senza conoscenza a priori
DettagliData warehouse in Oracle
Data warehouse in Oracle Viste materializzate e estensioni al linguaggio SQL per l analisi dei dati presenti nei data warehouse Viste materializzate Paolo Garza 1 Viste materializzate Viste materializzate
DettagliUn grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro;
EXCEL Modulo 3 I Grafici Grafici Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro; Quando si crea un grafico ogni
DettagliRegole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27 Introduzione Le regole associative si collocano tra i metodi di apprendimento non supervisionato e sono volte
DettagliIl proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei suoi 5 negozi, riportato nella seguente tabella
Primo esempio (es. 2.1) Il proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei suoi 5 negozi, riportato nella seguente tabella Negozio Reddito Negozio 1 21.500,00 Negozio 2
Dettagli2.5 Sottomaschere e Report avanzati MODULO L2
Dare una breve descrizione dei termini introdotti: (A) CONOSCENZA TERMINOLOGICA Maschera principale Rottura di codice Livelli di gruppo (B) CONOSCENZA E COMPETENZA Rispondere alle seguenti domande producendo
Dettagli10 I grafici: creazione e personalizzazione
10 I grafici: creazione e personalizzazione In Excel quando lavoriamo con una tabella che contiene dei valori numerici, possiamo visualizzare i dati sotto forma di grafici. L unica difficoltà consiste
DettagliCome creare un nuovo Prodotto per ebay con Var.
imaio.com imaio v. 3.0 Come creare un nuovo Prodotto per ebay con Var. In questa guida verra illustrato come creare un nuovo prodotto sul sistema imaio III per essere poi pubblicato sul Negozio ebay con
DettagliSQL e linguaggi di programmazione. Cursori. Cursori. L interazione con l ambiente SQL può avvenire in 3 modi:
SQL e linguaggi di programmazione L interazione con l ambiente SQL può avvenire in 3 modi: in modo interattivo col server attraverso interfacce o linguaggi ad hoc legati a particolari DBMS attraverso i
DettagliExcel 3. Master Universitario di II livello in MANAGER NELLE AMMINISTRAZIONI PUBBLICHE A.A Prof.ssa Bice Cavallo
Excel 3 Master Universitario di II livello in MANAGER NELLE AMMINISTRAZIONI PUBBLICHE A.A. 2013-2014 Prof.ssa Bice Cavallo Ordinamento dei dati: ordinamento di un elenco l Excel è in grado di ordinare
DettagliGrafici e Pagina web
Grafici e Pagina web Grafici Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro. Quando si crea un grafico ogni riga
DettagliMICROSOFT ACCESS IL MODELLO E/R
MICROSOFT ACCESS IL MODELLO E/R LE ENTITA Le entità di un database sono le singole tabelle che comporranno la struttura del nostro database. Le tabelle sono formate da attributi (o campi) che ne definiscono
DettagliCorso di Microsoft. Access. Marco P. Locatelli.
Corso di Microsoft Access Marco P. Locatelli locatelli@disco.unimib.it Esempio Lo schema Entità Relazione rappresenta parte di un modello relativo ad una palestra, con informazioni sugli istruttori, sulle
DettagliData warehouse in Oracle
Data warehouse in Oracle Viste materializzate ed estensioni al linguaggio SQL per l analisi dei dati presenti nei data warehouse Estensioni al linguaggio SQL per l analisi dei dati presenti nei data warehouse
DettagliViste materializzate in Oracle e SQL esteso. Sistemi di gestione di basi di dati. Tania Cerquitelli e Paolo Garza 1
Data warehouse in Oracle Estensioni al linguaggio SQL per l analisi dei dati presenti nei data warehouse Viste materializzate ed estensioni al linguaggio SQL per l analisi dei dati presenti nei data warehouse
DettagliViste materializzate in Oracle e SQL esteso. Sistemi di gestione di basi di dati. Tania Cerquitelli e Paolo Garza 1. Data warehouse in Oracle
Data warehouse in Oracle Estensioni al linguaggio SQL per l analisi dei dati Viste materializzate Estensioni al linguaggio SQL per l analisi dei dati Tania Cerquitelli Funzioni OLAP disponibili Finestre
DettagliMODULO 5 ACCESS Basi di dati
MODULO 5 ACCESS Basi di dati MODULO 5 ACCESS Basi di dati Lezione 3 www.mondopcnet.com ARGOMENTI Lezione 3 Relazioni tra tabelle Perché creare le relazioni Tipi di relazioni Come creare le relazioni Integrità
DettagliC.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.
AMBIENTE STATISTICO SOFTWARE PER L ANALISI STATISTICA DI DATI PROVENIENTI DAL MONITORAGGIO AMBIENTALE Release 4.0 20/03/2018 Manuale d uso Ambiente Statistico è un software sviluppato nell ambito del Progetto
DettagliData Science e Tecnologie per le Basi di Dati
Data Science e Tecnologie per le Basi di Dati Esercitazione di laboratorio n. 1 Data warehouse: SQL esteso e viste materializzate in Oracle La finalità di questa esercitazione consiste nella realizzazione
DettagliPre-elaborazione dei dati (Data pre-processing)
Pre-elaborazione dei dati (Data pre-processing) I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi: contengono
DettagliRegole associative. Il problema della scoperta di regole associative può essere espresso come segue Sia I = {i 1
Regole associative Regole associative Le regole associative descrivono correlazioni di eventi e possono essere viste come regole probabilistiche. Due eventi sono correlati quando sono frequentemente osservati
Dettagli<Nome Tabella>.<attributo>
Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : SQL (2) Tabelle mult., variabili, aggreg, group Prof. Alberto
DettagliSQL QUERY: Le interrogazioni del database
Appunti della lezione di Database del 20 ottobre 2016 (mattina) Studenti: D Amuri Giuseppe, De Luca Federico Professore: Mario Bochicchio SQL QUERY: Le interrogazioni del database Per effettuare un interrogazione
DettagliEsercitazione 2 SAT. 11 Novembre Denizione del problema SAT
Esercitazione 2 SAT Corso di Fondamenti di Informatica II BIAR2 (Ing. Informatica e Automatica) e BSIR2 (Ing. dei Sistemi) A.A. 2010/2011 11 Novembre 2010 Sommario Scopo della esercitazione è quello di
DettagliIndovina la lettera...
Indovina la lettera... La lezione di oggi consiste nel preparare un programma che chiede all'utente di indovinare quale sia il carattere generato dal programma stesso in modo casuale. Il numero totale
DettagliMANUALE PER LA GESTIONE DELL APPLICAZIONE FLUSSI FLUSSO APS (gestione dati Accessi al Pronto Soccorso) Versione 1.1 Aggiornata al 18.5.
MANUALE PER LA GESTIONE DELL APPLICAZIONE FLUSSI FLUSSO APS (gestione dati Accessi al Pronto Soccorso) Versione 1.1 Aggiornata al 18.5.2009 Questo documento sintetizza le funzionalità connesse con la gestione
DettagliMicrosoft Access (parte 5) Query. Query. Query. Query. Creare una query
Microsoft Access (parte 5) Anno accademico: 2008-2009 Per estrarre informazioni da un database si utilizzano delle query : procedure di interrogazione Si può creare più query per ogni tabella Occorre avere
Dettagli1. Calcolo dell indice di condizionamento di una matrice
1 Esercizi sul condizionamento con matlab laboratorio di Calcolo Scientifico per Geofisici Prof. A. Murli a.a. 2006/07 1. Calcolo dell indice di condizionamento di una matrice Determinare una function
DettagliOpen Refine. Per la manipolazione dei dati, Open Refine usa il linguaggio GREL (General Refine Expression Language) 1.
Open Refine Open Refine è un applicazione Web per la pulizia, la trasformazione e l arricchimento di dataset. Può essere scaricato al seguente indirizzo: http://openrefine.org. Nella sezione download,
DettagliTutorial: come scrivere query SPARQL semplici
Tutorial: come scrivere query SPARQL semplici In questo tutorial vedremo come costruire una nuova query SPARQL a partire dalla documentazione fornita in questa sezione. Acronimi della guida in linea e
DettagliUn applicazione di Text Mining
Un applicazione di Text Mining Knowledge Discovery in Text (KDT) Problema Un azienda erogatrice di servizi intende analizzare il testo delle telefonate in arrivo al proprio numero verde al fine di migliorare
DettagliRegole associative. Regole associative. Regole associative. Regole associative
Le regole associative descrivono correlazioni di eventi e possono essere viste come regole probabilistiche. Due eventi sono correlati quando sono frequentemente osservati insieme. Esempio: database di
DettagliFogli Elettronici. Idoneità Informatica Prof. Mauro Gaspari
Fogli Elettronici Idoneità Informatica Prof. Mauro Gaspari Cosa è un foglio elettronico. Strumento per raccogliere dati organizzati in tabelle e farci delle operazioni: Le celle contengono numeri o altri
DettagliONLINEINVENTORY IL TUO INVENTARIO CONTROLLATO SWITALIA. 7 aprile 2017 Autore: Francesco Lombardi
ONLINEINVENTORY IL TUO INVENTARIO CONTROLLATO SWITALIA 7 aprile 2017 Autore: Francesco Lombardi ONLINEINVENTORY IL TUO INVENTARIO CONTROLLATO DESCRIZIONE ONLINEINVENTORY è una soluzione che permette di
DettagliGestione della configurazione Input/Output PLC Cosa c'è di nuovo?
Gestione della configurazione Input/Output PLC Cosa c'è di nuovo? Indice I. Avviare il Configuration Manager... 3 II. Nuova interfaccia dell'utente... 3 III. Importazione di nuovi formati di configurazione...
DettagliSAI EIM. ERP Implementation Methodology. SAP Business One 8.81 NOVEMBRE 2011 VILLA FULVIA
SAI EIM ERP Implementation Methodology SAP Business One 8.81 VILLA FULVIA Guida utilizzo dell add-on del Payment Engine per la generazione dei file banca con modalità di addebito diretto tramite bonifico
DettagliRealizzare una tabella per Statistics explorer
Promozione e diffusione della cultura statistica La statistica e le nuove tecnologie a supporto della didattica Realizzare una tabella per Statistics explorer Dai dati di I.Stat verso rappresentazioni
DettagliViste materializzate in Oracle e SQL esteso. Sistemi di gestione di basi di dati. Tania Cerquitelli e Paolo Garza 1.
Tabella d esempio Data warehouse in Oracle Schema tabella VENDITE(Città, Data, Importo) Viste materializzate ed estensioni al linguaggio SQL per l analisi dei dati presenti nei data warehouse Estensioni
DettagliElementi di programmazione
Elementi di programmazione L E Z I O N I P E R I C O R S I D I I N F O R M A T I C A D E L L I C E O S C I E N T I F I C O O P Z I O N E S C I E N Z E A P P L I C A T E P R O F. D O M E N I C O L O R U
DettagliFiltri. Microsoft Access. Filtri. Filtri
Filtri Microsoft Access Filtri, query Un filtro è una funzione che provoca la visualizzazione dei soli record contenenti dati che rispondono a un certo requisito Per applicare un filtro a una tabella è
DettagliFogli di Calcolo. Corso di Informatica. Fogli di Calcolo. Fogli di Calcolo. Corso di Laurea in Conservazione e Restauro dei Beni Culturali
Corso di Laurea in Conservazione e Restauro dei Beni Culturali Corso di Informatica Gianluca Torta Dipartimento di Informatica Tel: 011 670 6782 Mail: torta@di.unito.it Fogli di Calcolo il termine spreadsheet
DettagliCaratteri e stringhe
Caratteri e stringhe Dati testuali Tipi di dato testuali Caratteri Stringhe 5 Dati testuali Tipi di dato testuali I programmi visti finora erano in grado di elaborare esclusivamente informazioni numeriche
DettagliVerifica 3 aprile Soluzioni
Università di Pisa A.A. 2007-2008 Data Mining - Corso di Laurea Specialistica in Informatica per l economia e l Azienda Verifica 3 aprile 2008 - Soluzioni Esercizio 1 - Sequential Patterns (8 punti) Si
DettagliL ANALISI DEI DATI. EuroConsulting S.r.l. Consulenza di Direzione e Organizzazione Aziendale
L ANALISI DEI DATI L analisi di un fenomeno su più dimensioni. Negli anni 80 e 90 lo sviluppo dei modelli di database relazionali e di applicazioni specifiche per la loro gestione, insieme all aumento
DettagliMADEsmart - Motore Analisi Demografica ed Epidemiologica MODULO
MADEsmart - Motore Analisi Demografica ed Epidemiologica MODULO Modulo n. 2 - Impostazione guidata di una query semplice In questo modulo si illustrano i passi da compiere per impostare correttamente una
DettagliIngegneria della Conoscenza e Sistemi Esperti Lezione 2: Apprendimento non supervisionato
Ingegneria della Conoscenza e Sistemi Esperti Lezione 2: Apprendimento non supervisionato Dipartimento di Elettronica e Informazione Politecnico di Milano Apprendimento non supervisionato Dati un insieme
DettagliEsercizio 1: listino prezzi
Esercizio 1: listino prezzi Si progetti una applicazione che gestisce gli articoli in vendita presso un rivenditore mediante un listino. Il listino contiene tutti gli articoli in vendita e consente di
Dettagli4. I moduli in Access 2000/2003
LIBRERIA WEB 4. I moduli in Access 2000/2003 Il modulo è uno degli oggetti del database di Access e rappresenta un insieme di dichiarazioni e routine scritte con il linguaggio Visual Basic, memorizzate
DettagliStringhe. Walter Didimo
Stringhe Walter Didimo La classe String L uso di stringhe (sequenze di caratteri alfanumerici) nei programmi è molto frequente Per tale motivo, l API di Java offre una classe con molti metodi utili per
DettagliAlgoritmi, Strutture Dati e Programmi. UD 1.d: Dati e Tipi di Dato
Algoritmi, Strutture Dati e Programmi : Dati e Tipi di Dato Prof. Alberto Postiglione AA 2007-2008 Università degli Studi di Salerno Dati: Variabili e Costanti Un algoritmo (e il programma che ne è rappresentazione)
DettagliCorso di Access. Prerequisiti. Modulo L2 A (Access) Le query
Corso di Access Modulo L2 A (Access) 2.3.1 Le query 1 Prerequisiti Concetto di database relazionale Utilizzo elementare del computer Concetti fondamentali di basi di dati Interrogazione di un DB 2 1 Introduzione
DettagliCome ordinare facilmente i dati in un foglio di calcolo Excel definendo chiavi e parametri.
Come ordinare facilmente i dati in un foglio di calcolo Excel definendo chiavi e parametri. Visionare i dati senza alcun criterio, richiede molta concentrazione. Ecco allora che ordinare gli elenchi può
DettagliData warehouse in Oracle
Data warehouse in Oracle Estensioni al linguaggio SQL per l analisi dei dati Viste materializzate Tania Cerquitelli Estensioni al linguaggio SQL per l analisi dei dati Funzioni OLAP disponibili Finestre
DettagliTelerilevamento. Esercitazione 5. Classificazione non supervisionata. Apriamo l immagine multi spettrale relativa alla zona di Feltre che si trova in:
Telerilevamento Esercitazione 5 Classificazione non supervisionata Lo scopo di questa esercitazione è quella di effettuare una classificazione non supervisionata di un immagine SPOT5 acquisita sull area
DettagliFile binari e file di testo
I file File binari e file di testo distinzione tra file binari file di testo si possono usare funzioni diverse per la gestione di tipi di file diversi Programmazione Gestione dei file 2 File binari e file
DettagliStabilità per i sistemi dinamici a tempo discreto
Parte 3, 1 Stabilità per i sistemi dinamici a tempo discreto Parte 3, 2 Stabilità: Le definizioni delle proprietà di stabilità per i sistemi dinamici a tempo discreto sono analoghe a quelle viste per i
DettagliEsercizi
Esercizi Si implementi una funzione che riceve in input una matrice NxM di float. Definito picco un numero circondato in tutte le posizioni intorno solo da numeri strettamente inferiori alla sua metà,
DettagliDichiarazione FGas: Istruzioni per eseguire il caricamento massivo delle dichiarazioni
Dichiarazione FGas: Istruzioni per eseguire il caricamento massivo delle dichiarazioni La funzione di caricamento massivo è stata predisposta per agevolare la compilazione e la trasmissione dei dati ai
DettagliLa videoscrittura è decisamente più efficace della macchina da scrivere perché: -Consente la correzione immediata del documento senza lasciare tracce
1 La videoscrittura è decisamente più efficace della macchina da scrivere perché: -Consente la correzione immediata del documento senza lasciare tracce o rovinare il foglio -Consente di modificare il documento
DettagliCdS Scienze e tecnologie della comunicazione Fondamenti di Informatica. Dott. Riccardo ZESE
CdS Scienze e tecnologie della comunicazione Fondamenti di Informatica Dott. Riccardo ZESE Outline 1. Metodi base per la collaborazione e condivisione 2. Google Docs 1. Google Documents 2. Google Sheets
DettagliUn grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro;
EXCEL Modulo 3 Grafici Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro; Quando si crea un grafico ogni riga o ogni
DettagliMicrosoft Access. Microsoft Access. Maurizio Rebaudengo, Paolo Garza 1. Microsoft Access. Creazione base di dati. Apertura di una base dati
Microsoft Access Programma applicativo del pacchetto Microsoft Office per la gestione delle basi di dati. Microsoft Access 2 Creazione base di dati Apertura di una base dati Una nuova base dati si crea
Dettagli