4. Matrici e Minimi Quadrati

Похожие документы

Dimensione di uno Spazio vettoriale

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

APPLICAZIONI LINEARI

Corso di Matematica per la Chimica

Parte 2. Determinante e matrice inversa

Corso di Calcolo Numerico

1. Distribuzioni campionarie

Inferenza statistica. Statistica medica 1

( x) ( x) 0. Equazioni irrazionali

Ottimizazione vincolata

Capitolo 12 La regressione lineare semplice

Spazi lineari - PARTE II - Felice Iavernaro. Dipartimento di Matematica Università di Bari. 9 e 16 Marzo 2007

Ottimizzazione Multi Obiettivo

La distribuzione Normale. La distribuzione Normale

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Matematica generale CTF

La trasformata Zeta. Marco Marcon

Esercizi su lineare indipendenza e generatori

FUNZIONI / ESERCIZI SVOLTI

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Approssimazione polinomiale di funzioni e dati

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Parte 6. Applicazioni lineari

Rette e curve, piani e superfici

Amministrazione, finanza e marketing - Turismo Ministero dell Istruzione, dell Università e della Ricerca PROGRAMMAZIONE DISCIPLINARE PER U. di A.

9 Metodi diretti per la risoluzione di sistemi lineari: fattorizzazione P A = LU

Esponenziali elogaritmi

Corso di Analisi Numerica - AN1. Parte 2: metodi diretti per sistemi lineari. Roberto Ferretti

APPLICAZIONI LINEARI

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Indici di dispersione

RICHIAMI SULLE MATRICI. Una matrice di m righe e n colonne è rappresentata come

RETTE, PIANI, SFERE, CIRCONFERENZE

Documentazione esterna al software matematico sviluppato con MatLab

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

General Linear Model. Esercizio

1 Applicazioni Lineari tra Spazi Vettoriali

Docente: Anna Valeria Germinario. Università di Bari. A.V.Germinario (Università di Bari) Analisi Matematica ITPS 1 / 22

Analisi di dati di frequenza

RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007

MODELLO DI REGRESSIONE PER DATI DI PANEL

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

INTRODUZIONE ALLA ANALISI DEI DATI SPERIMENTALI

Parte 3. Rango e teorema di Rouché-Capelli

Rango: Rouchè-Capelli, dimensione e basi di spazi vettoriali.

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre Prof. L.

Regressione Mario Guarracino Data Mining a.a. 2010/2011

La variabile casuale Binomiale

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

Matematica generale CTF

MINIMI QUADRATI. REGRESSIONE LINEARE

LEZIONE 31. B i : R n R. R m,n, x = (x 1,..., x n ). Allora sappiamo che è definita. j=1. a i,j x j.

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

E naturale chiedersi alcune cose sulla media campionaria x n

LE FIBRE DI UNA APPLICAZIONE LINEARE

Lezione 9: Cambio di base

STATISTICA IX lezione

Il concetto di valore medio in generale

Introduzione al MATLAB c Parte 2

EQUAZIONI DIFFERENZIALI. 1. Trovare tutte le soluzioni delle equazioni differenziali: (a) x = x 2 log t (d) x = e t x log x (e) y = y2 5y+6

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Esempi di funzione. Scheda Tre

4. Operazioni elementari per righe e colonne

Determinante e inversa di una matrice

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

Relazioni statistiche: regressione e correlazione

LE FUNZIONI A DUE VARIABILI

LA CORRELAZIONE LINEARE

Interpolazione ed approssimazione di funzioni

Diagonalizzazione di matrici e applicazioni lineari

Regressione non lineare con un modello neurale feedforward

Tecniche di analisi multivariata

Chiusura lineare. N.B. A può essere indifferentemente un insieme, finito o no, o un sistema. Es.1. Es.2

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

FUNZIONE REALE DI UNA VARIABILE

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Algebra Lineare e Geometria

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

.y 6. .y 4. .y 5. .y 2.y 3 B C C B. B f A B f -1

Compito di SISTEMI E MODELLI. 19 Febbraio 2015

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

ESERCIZI APPLICAZIONI LINEARI

Sia data la rete di fig. 1 costituita da tre resistori,,, e da due generatori indipendenti ideali di corrente ed. Fig. 1

Universita degli Studi di Roma Tor Vergata Facolta di Ingegneria Elettronica

Il Campionameto dei segnali e la loro rappresentazione. 1 e prende il nome frequenza di

Università degli Studi di Roma Tor Vergata. Corso di Laurea in Ingegneria Meccanica

Applicazioni lineari

Транскрипт:

& C. Di Natale: Matrici e sistemi di equazioni di lineari Formulazione matriciale del metodo dei minimi quadrati Regressione polinomiale Regressione non lineare Cross-validazione e overfitting Regressione lineare multipla (MLR) 1 Sistemi Lineari e Matrici Un sistema lineare è un insieme di n equazioni lineari in n incognite È noto che le incognite possono essere determinate con semplicità utilizzando il formalismo matriciale a x + b y = k a c x + d y = g c b x = k A x = k x = A -1 k d y g Il sistema quindi ammette soluzione, cioè è invertibile, se la matrice A ammetta la sua inversa quindi se det(a)0 Quindi se tutte le equazioni sono linearmente indipendenti una rispetto all altra 2 1

& C. Di Natale: Formalismo matriciale x x y = a x + b [ y y ] = [ a b] Y K X 1 1 = esempio: n=2 senza errori di misura 1 n i i 1 n 1xn 1x2 2xn Y = K X K = Y X 1 1x2 1x2 2x2 1x2 1x2 2x2 X -1 è detta matrice inversa di X 1 X 2x2 = a b c d Inversamente proporzionale al determinante Se due righe o colonne sono proporzionali o combinazione lineare delle altre il determinante della matrice è 0 e la matrice inversa diverge! Problema della co-linearità nella soluzione dei problemi lineari. 1 = d detx b detx c det X a det X 3 In presenza di errori di misura x y i = a x i + b + e i [ y 1 y n ]= [ a b 1 x n ] + e 1 e n 1 1 Y 1xn = K 1x2 X 2xn + E 1xn In presenza di errori di misura ci sono n righe indipendenti con n>2 La soluzione minimi quadrati, in cui cioè la norma del vettore E 1xn si ottiene, formalmente come nel caso precedente scambiando l operazione di inversione con quella di pseudo-inversione o inversa generalizzata (teorema di Gauss- Markov) esempio : n = 2 con errori di misura + Y 1xn = K 1x2 X 2xn + E 1xn ; min E 1xn K 1x2 = Y 1xn X nx 2 [ ] 4 2

& C. Di Natale: Matrice Pseudo-inversa a.k.a. inversa generalizzata o inversa di Moore Definita attraverso le relazioni di Moore: Calcolo pratico: X X + X = X X X + X + X X + = X + Esiste se det X T X0. Pinv(x) in Matlab PseudoInverse[x] in Mathematica ( ) * = X X + ( X + X) * = X + X X + = ( X T X) 1 X T 5 Regressione Polinomiale Una relazione funzionale polinomiale può essere scritta in forma matriciale. Il problema ai minimi quadrati si può risolvere applicando il teorema di Gauss-Markov Polinomio di grado n; n+1 parametri; m>n+1 misure sperimentali y = a 0 + a 1 x + a 2 x 2 + + a n x n 1 1 x [ y 1 y m ]= [ a 0 a 1 a n ] 1 x m n n x 1 x m + [ e 1 e m ] Y 1xm = K 1xn+1 X N +1xm + E 1xm min E 1xm + K 1xn+1 = Y 1xm X mxn+1 6 3

& C. Di Natale: Regressione non-lineare Se la funzione f(x) non permette l applicazione della regressione matriciale il problema ai minimi quadrati ammette una soluzione numerica. y = f( x;k 1,,k m )+ e Algoritmi iterativi che generalizzano la soluzione al problema f(x)=0. Metodo di Newton o della tangente Metodo iterativo che procede, da un punto iniziale, verso la soluzione Sensibile al punto di partenza, false convergenze verso punti di minimo. a xi+1 x xi f(xi) x=f(xi)/tan(a) = f(xi)/f'(xi) x i +1 = x i f ( x i) ( ) df dx x i 7 Generalizzazione alla soluzione di sistema di equazioni non lineari Algoritmo di Newton-Rhapson y 1 = f( x 1,k 1,,k n ) y n = f( x n,k 1,,k n ) k i +1 = k i J 1 ( k i ) fk ( i ) y dove J ij = f i k j ( ) La soluzione passa attraverso l inversione dello Jacobiano (J ij ) 8 4

& C. Di Natale: Minimi quadrati non-lineari Algoritmo di Ben-Israel y 1 = f( x 1,k 1,,k n )+ e 1 y m = f( x n,k 1,,k n )+ e m k i +1 = k i J + ( k i ) fk ( i ) y dove J ij = f i k j ( ) Versione ottimizzata: algoritmo di Levenberg-Marquardt 9 Modello lineare o non-lineare? Il problema della validazione Quale è la migliore funzione che descrive i dati sperimentali? Quella che consente di predirre con errore minimo le variabili che non sono state usate per costruire il modello. L operazione che consente di stimare questo errore si chiama crossvalidation. Esempio: consideriamo i seguenti dati in cui si ha: y=f(x)+e Quale è la migliore funzione che descrive la relazione tra y e x? y x 10 5

& C. Di Natale: lineare Esempi di soluzione Moderatamente non lineare Altamente non lineare 11 Il metodo del test L insieme dei dati viene diviso in due Il modello viene determinato su un sottoinsieme dei dati (insieme di calibrazione training set) L errore viene valutato sull altro sottoinsieme (insieme di test test set) La stima dell errore di predizione dell insieme di test è significativa della capacità di generalizzazione del modello. Cioè della sua applicabilità a dati non utilizzati per la calibrazione. Quindi all utilizzo del modello nel mondo reale per stimare grandezze incognite. 12 6

& C. Di Natale: Applicazione del metodo del test I dati segnati in rosso sono il test set. Il modello è calcolato sui restanti dati (punti blù). L errore sui dati di test è valutato come RMSECV RMSECV=2.4 RMSECV=0.9 RMSECV=2.2 13 Discussione Il metodo migliore è quello moderatamente non lineare (quadratico) Il metodo lineare ha un errore grande sia in calibrazione che in test Il metodo fortemente non lineare ha un errore di calibrazione nullo ma un errore di test elevato. Tale modello è troppo specializzato nel descrivere i dati di calibrazione e non è in grado di generalizzare cioè di trattare adeguatamente i dati non usati per la calibrazione. Tale effetto si chiama overfitting ed è tipico nel caso di modelli fortemente non lineari. Inciso: dati n punti questi sono fittati perfettamente da un polinomio di ordine n 14 7

& C. Di Natale: Considerazioni sul metodo del test-set Il metodo è molto semplice ma richiede insiemi di dati numerosi. La selezione degli insiemi non è semplice in generale va fatta in maniera casuale ma bisogna evitare di sbilanciare i due insiemi È bene controllare che i due insiemi abbiano la stessa varianza e la stessa media Se i due insiemi sono disgiunti si possono verificare fenomeni di overfitting apparente Inciso: a parte casi semplici, in genere i modelli falliscono nelle estensioni analitiche cioè nella predizione di misure fuori del range considerato per la calibrazione. 15 Leave-One-Out cross-validation Nel caso di insiemi numerosi di dati il metodo del test set si può utilizzare senza problemi, ma quando il numero di dati diventa esiguo è necessario ricorrere ad altre strategie per la scelta della funzione e per la stima dell errore. Il metodo più utilizzato in tal senso è il leave-one-out Letteralmente lasciane uno fuori Il metodo consiste nel ridurre a 1 il contenuto dell insieme di test, e nel valutare l errore di predizione rispetto al dato eliminato. Eliminando consecutivamente tutti i dati e facendo la media degli errori ottenuti si ottiene una stima robusta dell errore di predizione del modello funzionale. Passo i-esimo: Escludere il dato i Calcolare la regressione sugli n-1 dati Valutare l errore di predizione rispetto al dato i-esimo Immagazzinare il valore in i L errore finale di predizione è la 16 media degli i 8

& C. Di Natale: LOO modello lineare RMSECV=2.12 17 LOO modello moderatamente non lineare (quadratico) RMSECV=0.96 18 9

& C. Di Natale: LOO modello altamente non lineare RMSECV=3.33 19 Confronto test - LOO LOO fornisce una stima migliore dell errore di predizione rispetto al test set la cui stima dell errore è inattendibile. LOO sfrutta al massimo l intero set di dati. Ovviamente LOO è il metodo del test set con insieme di validazione di ampiezza minima. Per insiemi di grandi dimensioni LOO è dispendioso dal punti di vista del calcolo. Può essere ammorbidito considerando più insiemi di k dati. 20 10

& C. Di Natale: Sistemi Lineari e matrici di dati In un sistema lineare, ogni equazione definisce una funzione di più variabili. Nella scienza analitica i sistemi lineari consentono di estrarre informazioni da metodi di misura non specifici, cioè nei quali il risultato della misura non è funzione solo di una grandezza ma di più grandezze caratterizzanti un campione. Quando però si considerano dati sperimentali bisogna tenere conto di tre fattori: Errori di misura Dipendenza da più grandezze rispetto a quelle considerate Limiti della relazione lineare Tutto ciò fa si che ad esempio la risposta di una misura (y) rispetto a due variabili (x 1, x 2 ) si possa scrivere come: y = k 1 x 1 + k 2 x 2 + e Il termine e contiene i tre fattori sopra elencati 21 Sistemi lineari e matrici di dati Dato un metodo di misura come il precedente per la misura delle grandezze x 1 e x 2 è necessario almeno disporre di un altro metodo di misura ma con coefficienti differenti y 1 = k 1 x 1 + k 2 x 2 + e 1 y 2 = w 1 x 1 + w 2 x 2 + e 2 Si noti che in assenza dei termini e il sistema sarebbe deterministico, e due equazioni sarebbero il massimo necessario per ricavare due variabili Nel senso che ogni altra equazione sarebbe necessariamente combinazione lineare delle prime due La presenza dei termini e fa si che il problema della determinazione di x 1 e x 2 sia un problema statistico simile al problema della regressione e quindi risolvibile con il metodo dei minimi quadrati In particolare, si possono avere più equazioni che termini incognite anzi maggiore è il numero di equazioni minore è l errore di stima 22 11

& C. Di Natale: Osservabili selettivi e non selettivi Le quantità osservabili possono essere, rispetto alle variabili da misurare, selettivi o non selettivi Selettivi: L osservabile dipende in maniera dominante da una variabile Non selettivi: l osservabile dipende da più variabili Gli osservabili non selettivi sono gli oggetti della analisi multivariata coefficiente Osservabile specifico coefficiente Osservabile Non selettivo variabili variabili z k j C j z = k i C i i 23 Osservabili non selettivi Esempio: Spettri ottici L assorbimento ad una data frequenza dipende dalla concentrazione di più specie Gas cromatogrammi L intensità di una riga può risultare dalla concentrazione di più composti con tempi di eluizione simili Sensori chimici La risposta di una sensore è data dalla combinazione di più sostanze a seconda della loro concentrazione e della loro affinità con il sensore stesso. 24 12

& C. Di Natale: Parametri importanti dei metodi analitici: la sensibilità e la risoluzione Dato un metodo analitico, si definisce sensibilità il rapporto tra la variazione del risultato del metodo e la corrispondente variazione della variabile misurata. Tale quantità corrisponde alla seguente derivata: La risoluzione indica la quantità minima misurabile della variabile considerata, essa è generata dall errore di misura ed è definita da: R = X = Y S S = Y X Y Y S X0 = Y X X0 Y X X0 = Y 0 S X0 25 X 0 X X 0 X Spazio delle variabili e spazio degli osservabili: caso di osservabili selettivi Y 1 = ax 1 + bx 2 Spazio delle variabili Y 2 = cx 1 + dx 2 X 2 Se I due osservabili sono i X 1 Osservabile 2 K = a c b d = 1 0 0 1 Osservabile 1 Correlazione=1-det(K)=0 26 13

& C. Di Natale: Spazio delle variabili e spazio degli osservabili: caso di osservabili non selettivi Correlazione parziale osservabile 2 0<C<1 K = a b c d a, b, c, d 0 Osservabile 1 X 2 X 1 Correlazione totale C=1 K = a b c d a d b c = 0 27 Multiple Linear Regression Dati n osservabili ognuno dipendente da m variabili e caratterizzato da errore di misura nel senso esteso del termine, le m variabili possono essere statisticamente stimate utilizzando il metodo dei minimi quadrati. Ovviamente dovranno essere rispettate le 4 condizioni del metodo dei minimi quadrati: 1 2 3 4 L errore su y è molto maggiore dell errore su x Y è distribuita normalmente Gli eventi osservati sono indipendenti Le misure hanno varianza uguale 28 14

& C. Di Natale: Multiple Linear Regression q k q q k n Y = X * B + E n n k = n osservabili n =n misure q= n variabili misurabili Y=XB+E 29 Multiple Linear Regression Come nel caso dei minimi quadrati monovariati, si identificano due fasi: Calibrazione: misurando gli osservabili Y relativi a variabili note X si determina la matrice B Utilizzo: conoscendo la matrice B si ricavano le migliori stime per le quantità X dalle misure degli osservabili Y Calibrazione: Noti X e Y la migliore stima per B è data dal teorema di Gauss-Markov: B MLR = X + Y Se X è di rango massimo si può calcolare la pseudoinversa come: ( ) 1 X T Y B MLR = X T X Significa imporre che ogni osservabile sia indipendente dagli altri 30 15

& C. Di Natale: Significato della MLR La soluzione del teorema di Gauss-Markov è detta anche estimatore BLUE (best linear unbiased estimator) cioè è lo stimatore di varianza minima In pratica B MLR massimizza la correlazione tra X e Y Geometricamente la soluzione trovata corrisponde ad una proiezione ortogonale di Y in un sottospazio di X. Y MLR = X B MLR = X X T X ( ) 1 X T Y = Y è una matrice di proiezione ortogonale in un sottospazio di X e Y Y LS 31 Utilizzo pratico In pratica conviene imporre la dipendenza lineare tra le grandezze da misurare e gli osservabili ipotizzando un errore distribuito normalmente X = Y B + e La soluzione minimi quadrati è quindi data da: X MLR = Y B MLR E la matrice B MLR viene stimata dalla seguente: B MLR = Y + X 32 16

& C. Di Natale: Stimatori della prestazione della regressione PRESS- Predicted Sum of Squares PRESS = ( y LS i y i ) 2 RMSEC - Root Mean Square error of calibration i RMSEC = PRESS N RMSECV - Root Mean Square Error of Cross-Validation Per un modello che include k campioni non inclusi nel modello stesso RMSECV k = PRESS k N 33 Limitazioni della MLR La Pseudoinversa può essere risolta agevolmente nel caso in cui il rango di X sia massimo e quindi gli osservabili siano indipendenti Questa condizione non è sempre vera: In una riga spettrale, tutte le frequenze della riga sono verosimilmente formate dalle stesse variabili con coefficienti pressochè simili Nel caso in cui il rango non sia massimo siamo nella condizione di avere osservabili fortemente correlati, questo dà luogo a grossi errori nel calcolo della pseudoinversa che portano ad errori di stima delle variabili non accettabili se la correlazione è troppo elevata. In questi casi bisogna trovare un metodo che riduca la correlazione tra gli osservabili. Bisogna in pratica trovare delle nuove variabili dipendenti (funzione degli osservabili) che non siano soggette alla eccessiva correlazione. 34 17

& C. Di Natale: Esempio misura di clorofilla ed antociani in una popolazione di pesche con spettroscopia Vis-NIR Spettri (Y) Clorofilla e Antociani (X) 1.8 0.025 1.6 1.4 0.02 1.2 1 0.8 ANTOCIANI 0.015 0.01 0.6 0.4 0.005 0.2 0 0 50 100 150 0 1 1.5 2 2.5 3 3.5 4 4.5 CLOROFILLA 35 Definizione di MLR Dati suddivisi in due insiemi: calibrazione e validazione Ipotesi: le grandezze X sono calcolabili come combinazione lineare dei valori spettrali Y più un errore che distribuito normalmente. X = Y B + e La stima LS di X è quindi: X MLR = Y B MLR E la matrice B MLR è data da: B MLR = Y + X 36 18

& C. Di Natale: Risultati Coefficienti matrice B 100 50 Clorofilla 0-50 -100 0 50 100 150 0.4 0.2 Antociani 0-0.2-0.4-0.6 0 50 100 150 37 risultati Confronto Y LS ed Y Scatter plot: ascissa: valore vero; ordinata: valore stimato 4.5 calibrazione 8 validazione 4 6 clorofilla 3.5 3 2.5 4 2 2 2 2.5 3 3.5 4 4.5 0 0 2 4 6 8 0.025 0.04 antociani 0.02 0.015 0.01 0.005 0.03 0.02 0.01 0 0 0.005 0.01 0.015 0.02 0.025 0 0 0.01 0.02 0.03 0.04 38 19