Pre-elaborazione dei dati (Data pre-processing)

Documenti analoghi
Analisi dei Dati. Lezione 9 - Preprocessing dei dati

Statistica descrittiva: analisi di regressione

Statistica descrittiva

Maschere e Query. C. Marrocco. Università degli Studi di Cassino

I Componenti del processo decisionale 7

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

MS Access Un DBMS relazionale per Windows?

ACCESS. Database: archivio elettronico, dotato di un programma di interfaccia che facilita la registrazione e la ricerca dei dati.

Statistica descrittiva: misure di associazione

Corso di Access Modulo L2 A (Access) I tipi di query

ANALISI DEI DATI PER IL MARKETING 2017

Le basi di dati. Definizione 1. Lezione 2. Bisogna garantire. Definizione 2 DBMS. Differenza

Ordinamento dati La funzione Ordina disponibile nel menù consente di ordinare la matrice dati in base alla variabile scelta

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Microsoft Access. Nozioni di base. Contatti: Dott.ssa Silvia Bonfanti

PIL Percorsi di Inserimento Lavorativo

Relazioni e tabelle. Introduzione alle Basi di Dati Relazionali. Relazioni uno a uno. Esempio

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

Databases. Architettura di un DBMS: Struttura ad indice per i files, B + -Trees

( ) ( ) ( e la probabilità che si verifichi un evento compreso tra c e b a < c < b sarà data da:

INTRODUZIONE AL 2 TEST IN ITINERE. a.a

FILE E INDICI Architettura DBMS

Corso sul linguaggio SQL

Computazione per l interazione naturale: Modelli dinamici

Università degli studi della Tuscia. Principi di Statistica dr. Luca Secondi A.A. 2014/2015. Esercitazione di riepilogo Variabili casuali

Esercizi di SQL Matteo Magnani, Danilo Montesi Università di Bologna. Esercizi di SQL

9In questa sezione. Ordinare e filtrare i dati. Dopo aver aggiunto dati ai fogli di lavoro, potresti voler

Strutture fisiche e strutture di accesso ai dati

Imparare a utilizzare le formule e le funzioni

Università di Cassino Facoltà di Ingegneria Modulo di Alfabetizzazione Informatica. Base Dati. Progettazione di un DB

Caratteristiche dei linguaggi per Database

INTRODUZIONE AL LIVELLO FISICO: FILE, PAGINE, RECORD E INDICI

SQL: Structured Query Language. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

Imputazione dati mancanti

RELAZIONI E BASI DI DATI

V. Moriggia Modelli di Base Dati. Modelli di Base Dati. a.a. 2001/

Operatori aggregati. Operatori aggregati. Interrogazioni con raggruppamento. Interrogazioni con raggruppamento

ANALISI DEI DATI PER IL MARKETING Marco Riani

1 PROCESSI STOCASTICI... 11

Esercitazione n 2. Costruzione di grafici

Parte 6 Esercitazione sull accesso ai file

Structured Query Language

Controllo Statistico della Qualità (alcune note) A cura della Prof.ssa Paola Vicard e della Prof.ssa Flaminia Musella

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione I

Facoltà di Economia Università degli Studi di Cassino a.a. 2013/14

E possibile ordinare le righe del risultato di una interrogazione attraverso la clausola order by, a chiusura di una interrogazione.

Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione

Corso di Informatica. Software di produttività personale e database. Ing Pasquale Rota

2.5 Sottomaschere e Report avanzati MODULO L2

SQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project

Excel avanzato.

Il giorno 18 febbraio 2013 verrà effettuato un esame finale (test) di verifica

Metodi statistici per le ricerche di mercato

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Basi di dati e Relazioni

Basi di dati DBMS Es:

Capitolo 3 - Popolazione e famiglie

Revisione dell EDP contabile A.A

WEKA Data Mining System

Statistica Inferenziale

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Sistemi di Elaborazione delle Informazioni

Manuale per la valutazione del rischio chimico in Alfagest Web

:33 Pagina V. Indice. Introduzione

BASE DI DATI. collezione di dati, utilizzati per rappresentare le. (accezione specifica) collezione di dati gestita da un DBMS. (accezione generica)

1. Sono state eseguite 250 misure di temperatura che hanno rivelato i seguenti valori stimati di media e di deviazione standard per il campione

Interrogazioni di tipo insiemistico. Select. Interrogazioni di tipo insiemistico. Interrogazioni nidificate

viii Indice generale

Analisi univariata Analisi bivariata Analisi multivariata

Indicizzazione di feature locali. Annalisa Franco

Tipo Livello e Corso di Studio Anno di corso Semestre e modulo Numero di crediti 3 Propedeuticità Docente Cognome Nome

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Esercitazione n 3. Ancora grafici

MS Access: Tutorial Tabelle, Relazioni

Basi di dati. Concetti introduttivi

Classificazione con Weka Testi degli esercizi. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Model o relazionale 1

Cenni di apprendimento in Reti Bayesiane

Statistica di base per l analisi socio-economica

Il Modello Relazionale e le operazioni

Mattia Fazzi: 02/04/2019

Computazione per l interazione naturale: macchine che apprendono

Indice Prefazione Funzionalit `a e architettura dei DBMS La gestione della memoria permanente e del buffer Organizzazioni seriale e sequenziale

PROGRAMMAZIONE ANNO SCOLASTICO 2018/2019

lezione 13 AA Paolo Brunori

INTRODUZIONE ALLE BASI DATI RELAZIONALI

Metodi statistici per le ricerche di mercato

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

PROCEDURA MAPPATURA SINISTRI

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Esercitazione # 3. Trovate la probabilita che in 5 lanci di un dado non truccato il 3 si presenti

Strumenti per l Analisi l. ed il Preprocessing dei dati. Francesco Folino. Introduzione

Computazione per l interazione naturale: macchine che apprendono

SQL. Università degli Studi di Salerno. Corso di Laurea in Scienze della Comunicazione Informatica generale (matr. Dispari) Docente: Angela Peduto

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Analysis Service. Dutto Riccardo IPSI - tel Dutto Riccardo - SQL Server 2008.

Access 2007 Colonna di ricerca

BASE DI DATI. (accezione specifica) collezione di dati gestita da un DBMS. Università degli Studi di Cassino

Transcript:

Pre-elaborazione dei dati (Data pre-processing) I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi: contengono errori e/o outliers inconsistenti: contengono codici o nomi diversi per gli stessi dati Senza dati di qualita` non c e` analisi di qualita` decisioni di qualita` debbono essere basate su dati di qualita` il data warehouse richiede una integrazione consistente di dati di qualita`

Una misura multi-dimensionale della qualita` dei dati accuratezza completezza consistenza tempestivita` credibilita` a valore aggiunto interpretabilita` accessibilita`

Attivita` principali nel data pre-processing pulizia dei dati (data cleaning) aggiunta di valori mancanti, aggiustamento dei dati rumorosi, identificazione e eliminazione degli outliers, soluzione delle inconsistenze Integrazione dei dati integrazione di database, cubi e files Trasformazione dei dati normalizzazione e aggregazione Riduzione dei dati riduzione del volume dei dati mantenendo la qualita` dell analisi Discretizzazione dei dati

Pulizia dei dati (data cleaning) attivita` di data cleaning: aggiunta dei dati mancanti identificazione degli outliers e riduzione dei dati rumorosi correzione dei dati inconsistenti

Dati mancanti I dati non sono sempre disponibili molte tuple non hanno valori registrati per alcuni attributi, p.e. il reddito dei clienti nei dati delle vendite La mancanza dei dati puo` essere dovuta a: malfunzionamento dei sistemi di acquisizione cancellazione dovuta a inconsistenza con dati gia` registrati dati non inseriti per incomprensione certi dati possono non essere considerati importanti al momento dell inserimento mancanza di registrazione dei cambiamenti nei dati Ci puo` essere necessita` di inferire i dati mancanti

Trattamento dei dati mancanti ingnorare la tupla; aggiungere il valore mancante manualmente usare globalmente una costante per i valori mancanti: p.e. non disponibile usare il valor medio dell attributo usare il valore piu` probabile dopo aver applicato una tecnica di inferenza (Bayesiana o albero di decisione) Uisare la correlazione con altri attributi se possibile

Esercitazione Usando i dati del file Catalogs.XLS sostituire il dato NA in history con un valore accettabile. Suggerimento: studiare separatamente le distribuzioni dei bassospendenti, medio-spendenti, alto-spendenti; eliminare gli outliers; calcolare le medie; classificare le history in base alle medie ottenute e ai dati di spesa dell anno in corso.

Dati rumorosi Rumore: errore o varianza random sui valori di una variabile Valori scorretti di un attributo possono essere dovuti a: strumenti difettosi di raccolta dati problemi di immissione dei dati problemi di trasmissione dei dati limitazioni tecnologiche inconsistenze nelle convenzioni di rappresentazione Ulteriori problemi che richiedono pulizia dei dati record duplicati dati incompleti dati inconsistenti

Trattamento dei dati rumorosi Binning (partizionamento): si ordinano i dati e si partizionano in bins (gruppi) di uguale dimensione) si riducono le differenze (smoothing) all interno dei bins o per valori medi, o per valori mediani, o per i valori min e max, ecc. Clustering con algoritmi di clustering si individuano e rimuovono gli outliers Combinazione di ispezione automatica e manuale determinare automaticamente i valori sospetti e farli controllare da un esperto Analisi di regressione determina gli outliers e consente di avvicinarli alla curva (fitting sulla curva)

Esempi di binning supponiamo di avere la seguente lista di prezzi: 4,8,9,15,21,21,24,25,26,28,29,34 Partizionamento in bins di uguale dimensione: Bin 1: 4,8,9,15 Bin 2: 21,21,24,25 Bin 3: 26,28,29,34 Smoothing usando la media: Bin 1: 9,9,9,9 Bin 2: 23,23,23,23 Bin 3: 29,29,29,29 Smoothing usando gli estremi dell intervallo Bin 1: 4,4,4,15 Bin 2: 21,21,25,25 Bin 3: 26,26,26,34

Esempio di scoperta di outliers Usando il file EXPENSES: Trovare gli outliers di Salary rispetto ad una distribuzione normale Trovare gli outliers di Dining rispetto a Salary mediante analisi di regressione.

Esempio di data cleaning in Excel Il file CLEANSING.XLS contiene i dati di 1500 clienti di una compagnia verificare che i Social Security Numbers siano tutti diversi verificare se le date di nascita contengono valori improbabili (possibili valori sconosciuti!!) verificare se i valori del campo eta` (age) contengono valori improbabili (problema anno 2000 ) verificare il campo region (possibili errori di digitazione!!) verificare il campo CredCardUser (possibile errore di formattazione) Verificare i campi Income e Purchases per missing values e outliers

Esercitazione Il file P04_03 contiene i dati di 500 abitazioni in un quartiere medio: Dimensione della famiglia Posizione dell abitazione nel quartiere Abitazione in affitto o di proprieta` Reddito lordo del residente col reddito piu` alto Reddito lordo del secondo residente col reddito piu` alto (se esiste) Affitto o mutuo mensile Spesa media mensile in acqua, gas ecc. Indebitamento totale (incluso il mutuo) Effettuare la pulizia dei dati

Filtraggio (interrogazione) di tabelle Excel: uso di AutoFilter Esempio: il file CATALOGS.XLS contiene i dati per i clienti di una compagnia di vendita per corrispondenza mediante l uso di AutoFilter ottenere le seguenti informazioni: selezionare i clienti con esattamente 2 figli selezionare i clienti maschi con esattamente 2 figli selezionare clienti con salario compreso tra 40.000 e 80.000 (custom query) copiare i risultati di una query per effettuare statistiche Nota bene (per quelli che sanno di database): autofilter consente di effettuare operazioni di selection e projection su una singola tabella relazionale.

Esercitazione Il file P04_01 contiene dati che rappresentano 30 risposte a un questionario sulle politiche ambientali del governo. Usando Autofilter: 1. Identificare tutte le risposte di donne, di mezza eta`, con 2 figli. Qual e` il loro salario medio? 2. Identificare tutte le risposte di anziani in forte disaccordo con le politiche governative. Qual e` il loro salario medio? 3. Identificare tutte le risposte in forte accordo con le politiche governative. Qual e` la percentuale di giovani tra questi ultimi?