Analisi dei Dati. Lezione 9 - Preprocessing dei dati

Documenti analoghi
Pre-elaborazione dei dati (Data pre-processing)

Fogli Elettronici. Idoneità Informatica Prof. Mauro Gaspari

I fogli elettronici. Informatica Fogli elettronici 1

Databases. Architettura di un DBMS: Struttura ad indice per i files, B + -Trees

Ordinamento dati La funzione Ordina disponibile nel menù consente di ordinare la matrice dati in base alla variabile scelta

Esercitazione n 2. Costruzione di grafici

Foglio Elettronico Lezione 1

Corso di Informatica. Software di produttività personale e database. Ing Pasquale Rota

Operazioni preliminari: creare una cartella in Documenti

Excel.

Esercitazione n 3. Ancora grafici

Fogli Elettronici: MS Excel

Esercitazione n 1. Introduzione ad Excel

Statistica descrittiva

Formule e funzioni. Manuale d uso

Excel di Microsoft o Calc di OpenOffice sono programmi per la gestione dei fogli di calcolo

Excel come foglio di calcolo. Altri Grafici con Excel Istogrammi, grafici a torta

13 Le funzioni di ricerca e riferimento

EXCEL software Excel .xlxs, La cella intestazione della colonna intestazione di righe l indirizzo della cella testo numeri formule

Excel Base- Lezione 3. Barbara Pocobelli Estav Nord Ovest. Il comando Trova

Agent and Object Technology Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Fondamenti di Informatica.

Cenni sull utilizzo dei fogli elettronici

Esempi di funzioni di Excel

Foglio di calcolo. Concetti base. Impostazioni di base. Microsoft Excel

Microsoft Excel Nozioni di base

CdS Scienze e tecnologie della comunicazione Fondamenti di Informatica. Dott. Riccardo ZESE

FORMULE: Operatori matematici

Microsoft Excel. Nozioni Avanzate

Strutture fisiche e strutture di accesso ai dati

FOGLIO ELETTRONICO. Microsoft Office EXCEL. LibreOffice CALC CALC. E' un software che assegna come estensione ai propri file (foglio elettronico).ods.

Il proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei suoi 5 negozi, riportato nella seguente tabella

I fogli elettronici. Capitolo 12 Fluency Conoscere e usare l informatica

Microsoft Excel Nozioni avanzate

Menù principale di Calc

Laboratorio Informatica

Cosa sono i Fogli Elettronici?

Fondamenti di informatica. Fogli di calcolo

EUROPEAN COMPUTER DRIVING LICENCE SYLLABUS VERSIONE 5.0

SQL. Università degli Studi di Salerno. Corso di Laurea in Scienze della Comunicazione Informatica generale (matr. Dispari) Docente: Angela Peduto

MODULO REGISTRO LINEE GUIDA E PRINCIPALI CARATTERISTICHE DEL MODULO REGISTRO

nome di un menu per visualizzarlo e poi selezionate facendo clic sul comando che vi interessa.

Università di Cassino Facoltà di Ingegneria Modulo di Alfabetizzazione Informatica. Base Dati. Progettazione di un DB

TRADUZIONE STATE AND TRANSITION DIAGRAM UML E CORRETTEZZA DEI PROGRAMMI IN TLA+

Manuale Excel Utilizzo delle formule aritmetiche

SQL: le funzioni di aggregazione

Esercitazione n 2 Costruzione di grafici

FOGLIO DI CALCOLO. Funzionalità -- > Effettuare calcoli ripetitivi in automatico e visualizzare i risultati in forma grafica

MICROSOFT EXCEL FORMULE E FUNZIONI

Informatica (Sistemi di elaborazione delle informazioni)

Telescopio per raggi cosmici Analisi dei dati raccolti

Corso sul linguaggio SQL

Imparare a utilizzare le formule e le funzioni

Corso di Access Modulo L2 A (Access) I tipi di query

Excel: guida alle operazioni di base per la risoluzione dell esercizio 13

Excel Parte I. Davide Sardina Università degli studi di Enna Kore Corso di Laurea in Servizio Sociale

Maschere e Query. C. Marrocco. Università degli Studi di Cassino

Lab.1 - Excel. Prof. De Michele e Farina

Corso di Microsoft. Access. Marco P. Locatelli.

FILE E INDICI Architettura DBMS

Come ordinare facilmente i dati in un foglio di calcolo Excel definendo chiavi e parametri.

I Fogli Elettronici (Microsoft Excel)

Laboratorio Informatico di Base. Formule e funzioni

DEFINIZIONI SMART E RELATIVE ESERCITAZIONI

Select From Where...

Microsoft Excel II parte Import di dati & Funzioni predefinite

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Access. P a r t e t e r z a

EXCEL: FORMATTAZIONE E FORMULE

Ricerca obiettivo. Pag. 1

Cultura Tecnologica di Progetto

Il giorno 18 febbraio 2013 verrà effettuato un esame finale (test) di verifica

9In questa sezione. Ordinare e filtrare i dati. Dopo aver aggiunto dati ai fogli di lavoro, potresti voler

2.3.2 I tipi di query MODULO L2

Excel 1. Informatica per le applicazioni economiche A.A. 2011/2012. Prof.ssa Bice Cavallo

Microsoft Excel. Nozioni di base

usare le funzioni aritmetiche e logiche di base come. Volgiamo costruire un foglio elettronico in cui registriamo i voti presi

Informatica 3. Informatica 3. LEZIONE 23: Indicizzazione. Lezione 23 - Modulo 1. Indicizzazione. Introduzione. Indicizzazione:

GARA SECONDARIA PRIMO GRADO - INDIVIDUALE

02/12/2012 LABORATORIO DI INFORMATICA. Formule e Funzioni. Utilizzare una funzione

Aprire il programma Microsoft Office Excel 2003 GUIDA UTILIZZO EXCEL. Aprire il file Palestra.xls

Fogli Elettronici. Informatica CL Fisioterapista Prof. Mauro Gaspari

Corso MS Excel. Programma didattico. IT Solutions Lab

Appunti di Excel per risolvere alcuni problemi di matematica (I parte) a.a

1. per i residenti, numero componenti, superficie e tariffa 2. per i non residenti, superficie e tariffa 3. per le ditte, superficie e tariffa

In questa lezione Alberi binari di ricerca

Laboratorio di Python

SQL. Università degli Studi di Salerno. Corso di Laurea in Scienze della Comunicazione Informatica generale (matr. Dispari) Docente: Angela Peduto

ANALISI DEI DATI con EXCEL

Dipartimento Regionale Pubblica Istruzione Servizio XIII Diritto allo studio

Microsoft Access. Nozioni di base. Contatti: Dott.ssa Silvia Bonfanti

Corso base di Microsoft Excel

Informatica. Tecnico Superiore per la grafica, la multicanalità, gli strumenti e i sistemi di Comunicazione PROVA DI SELEZIONE

PROGRAMMAZIONE MATEMATICA classe seconda economico/turistico:

Foglio elettronico. Gabriella Trucco

Excel parte 03. Sommario. Riferimenti SIMBOLICI Funzioni LOGICHE Funzioni STATISTICHE Funzioni MATEMATICHE. Excel parte 03 1.

ABILITÀ. COMPETENZE L'alunno: ( B-H ) L'alunno sa: associare alla quantità il numero ( simbolo e nome ) i numeri ordinali

Come lo chiamiamo?..

:33 Pagina V. Indice. Introduzione

Tipi di dato, variabili, istruzioni

Transcript:

Analisi dei Dati Lezione 9 - Preprocessing dei dati

Motivazioni I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi: contengono errori e/o outliers inconsistenti: contengono codici o nomi diversi per gli stessi dati Senza dati di qualità non c è analisi di qualità decisioni di qualita` debbono essere basate su dati di qualità il data warehouse richiede una integrazione consistente di dati di qualità

Attività principali di pre-processing pulizia dei dati (data cleaning) aggiunta di valori mancanti, aggiustamento dei dati rumorosi, identificazione e eliminazione degli outliers, soluzione delle inconsistenze Integrazione dei dati integrazione di database, cubi e files Trasformazione dei dati normalizzazione e aggregazione Riduzione dei dati riduzione del volume dei dati mantenendo la qualità dell analisi Discretizzazione dei dati

Pulizia dei dati (data cleaning) aggiunta dei dati mancanti identificazione degli outliers e riduzione dei dati rumorosi correzione dei dati inconsistenti

Dati mancanti I dati non sono sempre disponibili molte tuple non hanno valori registrati per alcuni attributi, p.e. il reddito dei clienti nei dati delle vendite La mancanza dei dati puo` essere dovuta a: malfunzionamento dei sistemi di acquisizione cancellazione dovuta a inconsistenza con dati già registrati dati non inseriti per incomprensione certi dati possono non essere considerati importanti al momento dell inserimento mancanza di registrazione dei cambiamenti nei dati Ci può essere necessità di inferire i dati mancanti

Trattamento dei dati mancanti ingnorare la tupla; aggiungere il valore mancante manualmente usare globalmente una costante per i valori mancanti: p.e. non disponibile usare il valor medio dell attributo usare il valore più probabile dopo aver applicato una tecnica di inferenza (Bayesiana o albero di decisione)

Dati con rumore Rumore: errore o varianza random sui valori di una variabile Valori scorretti di un attributo possono essere dovuti a: strumenti difettosi di raccolta dati problemi di immissione dei dati problemi di trasmissione dei dati limitazioni tecnologiche inconsistenze nelle convenzioni di rappresentazione Ulteriori problemi che richiedono pulizia dei dati record duplicati dati incompleti dati inconsistenti

Trattamento del rumore dei dati Binning (partizionamento): si ordinano i dati e si partizionano in bins (gruppi) di uguale dimensione) si riducono le differenze (smoothing) all interno dei bins o per valori medi, o per valori mediani, o per i valori min e max, ecc. Clustering con algoritmi di clustering si individuano e rimouvono gli outliers Combinazione di ispezione automatica e manuale determinare automaticamente i valori sospetti e farli controllare da un esperto Analisi di regressione determina gli outliers e consente di avvicinarli alla curva (fitting sulla curva)

Esempio di Binning supponiamo di avere la seguente lista di prezzi: 4,8,9,15,21,21,24,25,26,28,29,34 Partizionamento in bins di uguale dimensione: Bin 1: 4,8,9,15 Bin 2: 21,21,24,25 Bin 3: 26,28,29,34 Smoothing usando la media: Bin 1: 9,9,9,9 Bin 2: 23,23,23,23 Bin 3: 29,29,29,29 Smoothing usando gli estremi dell intervallo Bin 1: 4,4,4,15 Bin 2: 21,21,25,25 Bin 3: 26,26,26,34

Funzione SE (o IF) Specifica un test logico da eseguire e ritorna uno dei valori in base al risultato del test Sintassi: SE(Test; ThenValue; ElseValue) Test è un valore o un'espressione qualsiasi che può dare come risultato VERO o FALSO. ThenValue (facoltativo) è il valore restituito se il test logico è VERO. ElseValue (facoltativo) è il valore restituito se il test logico è FALSO.

Esercitazione (1) Usando il file HOMEDATA Modificare i valori dei prezzi delle case in base a tre valori di soglia scelti in modo tale che ogni intervallo abbia la stessa ampiezza Le etichette da utilizzare per i tre intervalli sono: price_low price_medium price_high

Esercitazione (2) Ordinare i valori di Price, determinare il minimo (54000) e il massimo (215000) valore e suddividere il range totale (161000) in tre parti (53666) I valori soglia per i tre intervalli sono dunque: 107666 161333 215000

Esercitazione (3) Aggiungiamo una colonna a destra e mettiamo come titolo, ad esempio, Price label I valori di questa nuova colonna saranno le tre label stabilite per i tre intervalli Confrontiamo ogni valore di Price con le tre soglie e, utilizzando la funzione SE (IF) inseriamo il valore opportuno

Esercitazione (4) I valori da confrontare sono tre, seguiremo il seguente algoritmo SE valore < I soglia ALLORA Price_low ALTRIMENTI SE valore < II soglia ALLORA Price_medium ALTRIMENTI Price_high Utilizzeremo due funzioni SE annidate Per comodità inseriamo le tre soglie sul foglio nelle celle A122:A124 SE(A2<=$A$122;"Price_low"; SE(A2<=$A$123;"Price_medi um";"price_high"))

Esercitazione (5) Estendiamo la formula a tutte le celle della colonna Price Label Nota:1 il riferimento alle celle delle soglie è effettuato utilizzando il simbolo $ nelle coordinate (es. $A$122); in caso contrario, durante l estensione della formula il riferimento sarebbe modificato in maniera progressiva: A123, A124, A125, ecc. Nota2: dato che avevamo ordinato i valori in senso crescente, le label risultanti sono anche esse ordinate. Sfruttiamo questa osservazione per commentare una strategia diversa di labeling

Esercitazione (1) Usando il file HOMEDATA Modificare i valori dei prezzi delle case in base a tre valori di soglia scelti in modo tale che ogni intervallo abbia la stessa ampiezza Le etichette da utilizzare per i tre intervalli sono: price_low price_medium price_high

Esercitazione (2) Come prima: Ordinare i valori di Price, determinare il minimo (54000) e il massimo (215000) valore e suddividere il range totale (161000) in tre parti (53666) I valori soglia per i tre intervalli sono dunque: 107666 161333 215000

Esercitazione (3) Aggiungere la colonna Price Label Nella prima cella inserire la stringa Price_low Scorriamo i valori della colonna Price fino a trovare un valore che supera la prima soglia (107666) In corrispondenza di questo valore (il primo valore dell intervallo successivo), inseriamo la stringa Price_medium nella colonna di destra

Esercitazione (4) Cerchiamo la riga corrispondente alla seconda soglia (161333) Inseriamo la label Price_high in corrispondenza Partendo dalla prima cella in alto, estendiamo il contenuto della cella (l angolo in basso a destra della cella) verso il basso, fino a trovare la prima label in corrispondeza del cambio di classe

Esercitazione (5) Ripetiamo l estensione del contenuto anche per gli altri due intervalli Per l ultimo intervallo arriviamo fino all ultima riga