Preprocessamento dei Dati

Похожие документы
Indici di dispersione

Introduzione all analisi dei segnali digitali.

Immagini binarie. Binarizzazione di immagini a livelli di grigio

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Il Campionameto dei segnali e la loro rappresentazione. 1 e prende il nome frequenza di

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

L idea alla base del PID èdi avere un architettura standard per il controllo di processo

STATISTICA IX lezione

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Uno standard per il processo KDD

VALORE DELLE MERCI SEQUESTRATE

ARCHITETTURA DI RETE FOLEGNANI ANDREA

SCRUTINIO ON LINE 2 PERIODO

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

11. Evoluzione del Software

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Strutture. Strutture e Unioni. Definizione di strutture (2) Definizione di strutture (1)

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 40: Filtro di Kalman - introduzione. Struttura ricorsiva della soluzione.

Gestione Turni. Introduzione

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Il concetto di valore medio in generale

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

La trasformata Zeta. Marco Marcon

Funzioni in C. Violetta Lonati

Regressione non lineare con un modello neurale feedforward

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Regressione Mario Guarracino Data Mining a.a. 2010/2011

LE CARTE DI CONTROLLO (4)

REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

Elementi di Psicometria con Laboratorio di SPSS 1

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Concetto di potenza statistica

12. Evoluzione del Software

Indagine sismica. MASW - Multichannel Analysis of Surface Waves

Relazioni tra variabili

SISTEMI DI ACQUISIZIONE

Configurazione della ricerca desktop di Nepomuk. Sebastian Trüg Anne-Marie Mahfouf Traduzione della documentazione in italiano: Federico Zenith

Nella prima parte del corso l attenzione è venuta appuntandosi sui problemi inerenti la valutazione di investimenti aziendali e di strumenti

Analisi di Protocolli

Analisi dei margini: componenti e rischi

Elaborazione di segnali biologici

Excel avanzato. I nomi. Gli indirizzi e le formule possono essere sostituiti da nomi. Si creano tramite Inserisci Nome Definisci

LEZIONE n. 5 (a cura di Antonio Di Marco)

MODULO 5 ACCESS Basi di dati. Lezione 4

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

METODOLOGIA DI PREVISIONE DELLA DOMANDA ELETTRICA E DELLA

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Modelli di Programmazione Lineare e Programmazione Lineare Intera

Classificazione dei Sensori. (raccolta di lucidi)

Tecniche di Simulazione: Introduzione. N. Del Buono:

Corso di Matematica per la Chimica

Analisi dei segnali nel dominio della frequenza

(a cura di Francesca Godioli)

La visualizzazione del progetto contribuisce ad un miglioramento complessivo dell efficienza del project management


Mon Ami 3000 Cespiti Gestione cespiti e calcolo degli ammortamenti

Web Intelligence. Argomenti 10/5/2010.

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Analysis of temperature time series from thermal IR continuous monitoring network (TIIMNet) at Campi Flegrei Caldera in the period

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Strumenti di indagine per la valutazione psicologica

Rendering air show e verifica della sincronizzazione

IL RISPARMIO ENERGETICO E GLI AZIONAMENTI A VELOCITA VARIABILE L utilizzo dell inverter negli impianti frigoriferi.

Controllo di velocità angolare di un motore in CC

Statistica descrittiva

Dimensione di uno Spazio vettoriale

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

METODI per effettuare previsioni con analisi di tipo WHAT-IF

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

SPECIFICHE DI PROGETTO DI SISTEMI DI CONTROLLO

Sistemi Informativi Territoriali. Map Algebra

Corso di Fondamenti di Segnali e Trasmissione - Appello del 07 Settembre 2005

Automazione Industriale (scheduling+mms) scheduling+mms.

Esperimentazioni di Fisica II. Esercitazione 3 Misure di resistività

PRODUZIONE DI LENTI A CONTATTO

Analisi di scenario File Nr. 10

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

Procedure di ripristino del sistema.

CORSO DI MISURE ANALISI DEI SEGNALI NEL DOMINIO DEL TEMPO

MANUTENZIONI & RIPARAZIONI

2 - Modifica Annulla Selezione finestra. S.C.S. - survey CAD system FIGURA 2.1

La distribuzione Normale. La distribuzione Normale

Gestione dei segnali analogici nei sistemi di automazione industriale con PLC.

Introduzione al Campionamento e

Correttezza. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 10. A. Miola Novembre 2007

S i s t e m a d i v a l u t a z i o n e d e l l e p r e s t a z i o n i d e i d i p e n d e n t i

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Sistema di filtrazione abbinato ad una pompa del vuoto. Sistema semplice per la filtrazione

Транскрипт:

Preprocessamento dei Dati Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza (es. stagionali) Disturbi ad alta frequenza, al di là delle frequenze di interesse del sistema dinamico Outliers, dati mancanti Il primo passo di tale fase consiste sempre nell ispezione visiva dei dati

Pre-processamento dei Dati I processi fisici evolvono dinamicamente attorno a punti di equilibrio. La presenza nei dati di caratteristiche statiche o lentamente variabili può occultare le caratteristiche dinamiche, inficiando l efficienza degli algoritmi di identificazione Le operazioni più comuni effettuate sui dati sono: Sottrazione del valore medio dal set di dati; Scaling (normalizzazione)(tutti i dati sono riportati alla stessa varianza) Detrending (sottrazione del miglior fit lineare sui dati) Filtraggio Normalizzazione

Preprocessamento dei Dati Istruzione Matlab detrend: >u1=detrend(u) rimuove il miglior fit lineare dalla sequenza di dati >u1=detrend(u, constant ) rimuove il valor medio dal vettore u >u1=detrend(u, linear,bp) rimuove un trend lineare a tratti in cui gli indici della spezzata sono contenuti nel vettore BP

Preprocessamento dei Dati >detrend(y, constant ) 8 6 4 Valor Medio Dati Sperimentali 2 0-2 Dati dopo la Sottrazione del Valor Medio -4 0 100 200 300 400 500 600 700 800 900 1000

Preprocessamento dei Dati >detrend(y) 8 7 6 5 4 3 Trend Dati Sperimentali 2 1 Dati dopo il Detrending 0-1 -2 0 100 200 300 400 500 600 700 800 900 1000

Preprocessamento dei Dati >detrend(y, linear,[100:100:size(y)]) 8 7 6 5 4 3 Trend PWL Dati Sperimentali 2 Dati dopo il detrend PWL 1 0-1 -2 0 100 200 300 400 500 600 700 800 900 1000

Pre-processamento dei Dati Disturbi ad Alta Frequenza Gli strumenti di misura spesso introducono rumore ad alta frequenza Tale rumore viene di solito filtrato tramite filtri passa basso La banda del filtro è scelta solitamente attraverso l analisi dello spettro del segnale (modulo della trasformata di Fourier) >plot(abs(fft(detrend(y))))

Preprocessamento dei Dati Outliers, Dati mancanti Gli strumenti di acquisizione dei dati possono non essere perfetti. Può capitare che singoli campioni o parti di dati sperimentali siano affetti da errori dovuti a tali cause. Gli effetti sul set di dati sono in genere: Picchi Discontinuità Saturazioni Valori costanti Gli outliers vengono in genere trattati eliminando le porzioni di dati affette o stimando i valori mancanti (per continuità)

Eliminazione di outliers

Normalizzazione Le variabili d ingresso e di uscita considerate in un processo di acquisizione dati sono, in genere, grandezze fisiche di diverso tipo. Esse presentano valori numerici spesso assai diversi che non possono essere forniti direttamente ad un sistema poiché si rischierebbe di penalizzare quelle grandezze che, a causa del loro range di variazione, assumono dei valori numerici più piccoli delle altre. La fase di normalizzazione, altrimenti detta di scaling, riveste un importanza rilevante in fase di pre-processing dei dati. E necessaria affinché importanti variabili di processo con piccole ampiezze non vengano considerate meno significative di variabili con ampiezza maggiore.

Min-max normalization ' mina ν = ν max min A A ( new_ maxa new_ mina) + new_ mina Dove: ν = valore da normalizzare; ν = valore normalizzato; min A = valore minimo della variabile A; max A = valore massimo della variabile A; new_min A = valore minimo del nuovo range che si vuole definire; new_max A = valore massimo del nuovo range che si vuole definire.

Z-score normalization ' ν ν mean = A σ A Dove: ν = valore da normalizzare; ν = valore normalizzato; mean A = valore medio della variabile A; σ A = deviazione standard della variabile A.

Robust normalization La robust scaling prevede, per una sequenza di dati {x i }, di sostituire, nella formula della Z-score, la media con la mediana e la deviazione standard con la MAD (median absolute deviation) così definita: S MAD = 1.4826 median i {Ix i -x median I}, Dove x median è la mediana di x La relazione diventa quindi: ν ' median = ν SMAD A

Modified normalization Questo metodo prevede che, per una variabile con n osservazioni, si determinino le n/2 osservazioni più vicine al valore della mediana. La mediana e la deviazione standard di questo sottoset di dati saranno successivamente utilizzate per autoscalare l intera sequenza n di dati. Una modifica a tale criterio è apportata dalla Consistent Modified Scaling che suggerisce di trovare un fattore di correzione alla procedura in modo da stimare quanto più accuratamente possibile la deviazione standard e la media del sottoset di dati utilizzato per normalizzare l intera sequenza di dati.

Min-Max Normalization 550 500 450 MIN-MAX NORMALIZATION Variabile non normalizzata Nm3 / h 400 350 300 250 0 1000 2000 3000 4000 5000 6000 1 Variabile normalizzata Andamento di una variabile prima e dopo la normalizzazione Nm3 / h 0.5 0 0 1000 2000 3000 4000 5000 6000 Esempio di codice Matlab

Robust Normalization ROBUST NORMALIZATION 550 500 Variabile non normalizzata Nm3 / h Nm3 / h 450 400 350 300 250 0 1000 2000 3000 4000 5000 6000 3 2 1 0-1 -2 Variabile normalizzata -3 0 1000 2000 3000 4000 5000 6000 Andamento di una variabile normalizzata Esempio di codice Matlab

Suddivisione dei dati L insieme dei dati viene diviso in due parti: Dati per l identificazione Dati per la validazione del modello entrambi gli insiemi devono essere rappresentativi della intera dinamica del processo i dati per l identificazione non devono contenere ridondanze, cioè trend ripetuti in modo prevalente rispetto agli altri per i modelli OE e ARMAX i dati dovrebbero essere contigui temporalmente (altrimenti si generano transitori errati) in ogni caso per tutti i modelli i tratti di dati discontinui possono essere uniti solo dopo avere creato i vettori di ingresso con i ritardi corretti il numero di dati per l identificazione deve essere scelto in funzione del numero di parametri liberi del modello