Approssiazione secondo il criterio dei inii quadrati (caso discreto Dati punti distinti (punti di osservazioni x1, x2,..., x [a, b] e valori (osservazioni y1, y2,..., y si vuole deterinare il odello ateatico che eglio approssia tale insiee di dati sperientali f(a1, a2,..., an, x = y ove a1, a2,..., an sono i paraetri da deterinare. Si vuole deterinare a1, a2,..., an, in odo che la distanza tra f(a1, a2,..., an, x e i dati osservati sia inia possibile. Occorre poi verificare la bontà del odello adottato. Se si considera il sistea di equazioni nelle incognite a1, a2,..., an, si ottiene il sistea sovradeterinato > n f(a1, a2,..., an, x1 y1 = ɛ1 f(a1, a2,..., an, x2 y2 = ɛ2... f(a1, a2,..., an, x y = ɛ
ove ɛi è il disturbo (ruore che sporca i dati. Si tratta di deterinare a1, a2,..., an in odo che ɛi i = 1,..., siano più piccoli possibili. Sia n; se si considera il principio dei inii quadrati, si deterinano a1, a2,..., an in odo che il vettore ɛ = (ɛ1,..., ɛ T sia inio possibile in nora euclidea, ossia in odo che sia inia la funzione Q(a1, a2,..., an detta soa dei quadrati dei residui: Q(a1, a2,..., an = = ɛ 2 i = (f(a1, a2,..., an, xi yi 2 wi(f(a1, a2,..., an, xi yi 2 wiɛ 2 i = wi 0 sono nueri scelti coe pesi delle osservazioni.
Una possibile scelta dei pesi è wi = 1/e 2 i ove ei è una stia approssiata dell errore sul dato i-esio. Si fa l ipotesi che xi non siano affetti da errore. In questo caso i residui ɛi isurano la distanza verticale tra (xi, yi e (xi, f(xi, a1,..., an. Se gli xi sono affetti da errore, risulta più appropriato isurare la distanza euclidea (distanza ortogonale tra i dati e il odello: il problea è noto coe total least squares INSERIRE GRAFICI LEAST SQUARES e TOTAL SQUARES
Condizione necessaria perchè α = (a 1,..., a n renda inia Q(a 1,..., an è che il gradiente di Q(α1,..., αn sia nullo per α = α, (se f ha derivate parziali rispetto a 1,..., a n, ossia, Q = 0 ak α=α ossia wi(f(xi, a1, a2,..., an yi f(x i, a1, a2,..., an = 0 ak Si ottiene un sistea di n equazioni (in generale non lineari nelle incognite a 1,..., a n, detto SISTEMA DELLE EQUAZIONI NORMALI. Se f(x è cobinazione lineare di n funzioni eleentari ϕ1(x,..., ϕn(x (che si assue siano continue e derivabili, con derivata continua in [a, b], ossia siano sufficienteente regolari, allora f(x = a1ϕ1(x +... + anϕn(x (peres.ϕi(x = x i 1 Il problea di approssiazione è lineare. Si tratta di trovare a1,..., an tali che la funzione
Q(a1,..., an sia inia: Q(a1,..., an = wi( j=1 ajϕj(xi yi 2 = D(Aα y 2 2 = α T A T D 2 Aα 2y T D 2 Aα + y T D 2 y = (D(Aα y T (D(Aα y ove A = (aij è una atrice di righe e n colonne della atrice di regressione lineare A = ϕ1(x1 ϕ2(x1 ϕn(x1 ϕ1(x2 ϕ2(x2 ϕn(x2... ϕ1(x ϕ2(x ϕn(x ; y = y1 y R ; α = a1 an R n D = diag( wi i = 1,...,
La funzione α T A T D 2 Aα 2α T D 2 yα + y T D 2 y è una fora quadratica. Il problea si riforula coe trovare la soluzione di inα R n DAα Dy 2 2 = in α R n Ãα ỹ Deriviao il sistea di equazioni norali ( ak wi( j=1 ϕj(xiaj yi 2 = 0 wi( j=1 ϕj(xiaj yiϕk(xi = 0 aj j=1 wiϕj(xiϕk(xi = wiyiϕk(xi k = 1,..., n a 1 w i ϕ 1 (x i ϕ 1 (x i + a 2 w i ϕ 2 (x i ϕ 1 (x i... + an w i ϕn(x i ϕ 1 (x i = w i y i ϕ 1 (x i. a 1 w i ϕ 1 (x i ϕn(x i + a 2 w i ϕ 2 (x i ϕn(x i... + an w i ϕn(x i ϕn(x i = w i y i ϕn(x i ove la atrice del sistea B R n n ha coponenti bjk = w iϕj(xiϕk(xi e terine noto dj = w iϕj(xiyi.
Si può osservare che B = A T D 2 A e d = A T D 2 y. Pertanto il sistea delle equazioni norali è A T D 2 Aα = A T D 2 y à T Ãα = ÃT ỹ o se D = I, A T Aα = A T y. Il sistea di equazioni norali è un sistea di n equazioni in n incognite, con B seidefinita positiva (fora quadratica seidefinita positiva. Se α è punto di inio, ossia soluzione di inα R n Ãα ỹ 2 2 = in α R nq(a 1,..., an (1 allora α è soluzione di à T Ãα = ÃT ỹ (2. Viceversa si può ostrare che se α è soluzione del sistea di equazioni norali, allora è punto di inio, ossia è soluzione di (1.
Infatti, se α è soluzione di (2, Q(α Q(α = α T A T D 2 Aα 2y T D 2 Aα + y T D 2 y α T A T D 2 Aα + 2y T D 2 Aα y T D 2 y = α T A T D 2 Aα α T A T D 2 Aα + 2y T D 2 y(α α = α T A T D 2 Aα α T A T D 2 Aα + 2α T A T D 2 Aα 2α T A T D 2 Aα = (α α T A T D 2 A(α α 0 Per cui Q(α Q(α. α è punto di inio. Se A T D 2 A è definita positiva allora α è punto di inio proprio (Q(α > Q(α per α α. Pertanto i due problei (1 e (2 sono equivalenti. La soluzione del problea di iglior approssiazione lineare secondo il criterio dei inii quadrati si trova studiando le soluzioni del sistea A T D 2 Aα = A T D 2 y. Se i1, i2,..., ik sono indici di colonne di A linearente indipendenti, si sceglie tra le n k
soluzioni α tale che Aα = ŷ, quella per cui aj = 0 se j il, l = 1,..., k. ŷ = ai 1 Ai 1 + ai 2 Ai 2 +... + ai k Ai k per una opportuna scelta di i1,..., ik; ossia si sceglie α di nora euclidea inia.
Si foralizzano le considerazioni fatte nel seguente teorea: Teorea. Sia A R n, y R. Detto X = {α R n tali che sono soluzioni di inα R n Aα y 2 2 } allora α X α è soluzione di A T Aα = A T y. (3 Inoltre 1. il sistea (3 aette sepre soluzione. 2. Se α1 e α2 sono soluzioni di (3 è Aα1 = Aα2. 3. A ha rango n la soluzione di (3 è unica. 4. A T r = 0, (r = y Aα 5. Esiste una soluzione di (3 di nora euclidea inia ed è l unico eleento di X tale che appartiene al (nucleo di (A T A X è non vuoto chiuso e connesso.
Diostrazione. Se α X, allora deve essere che il gradiente di Aα y 2 2 sia nullo in α, ossia α è soluzione del sistea (3 (esprie la condizione che α è punto stazionario. Se viceversa α è soluzione di (3, allora è Aα y 2 2 Aα y 2 2. Dunque α X. 1. Sia y = y1 + y2 con y1 S(A, y2 = S(A, R = S(A S(A Esiste α R tale che Aα = y1 e A T y2 = 0 A T y = A T y1 + A T y2 = A T Aα = α è soluzione di (3. 2. Se α1 e α2 sono soluzione di (3 è Aα1 = Aα2 = y1. Se così non fosse, ossia Aα1 = ỹ1 con ỹ1 y1 allora A T Aα1 = A T y = A T ỹ1 = 0 = A T (ỹ1 y1 A T Aα2 = A T y = A T y1 ỹ1 y1 S(A S(A = ỹ1 y1 = 0 = ỹ1 = y1 ASSURDO. 3. A ha rango n A T A è sietrica definita positiva il sistea A T Aα = A T y ha una e una sola soluzione α = (A T A 1 A T y
Ogni soluzione di A T Aα = A T y è data da α + α con α soluzione di (3 e α nucleo di A T A. Allora X = {α tale che α = α + α, α nucleo di A T A} = X varietà lineare affine parallela al nucleoa T A; dunque X è chiuso e convesso. 4. A T r = A T (Aα y = A T (y1 (y1 + y2 = 0 5. Se (3 ha una unica soluzione essa è di nora inia e poiché nucleoa T A = {0}, segue che α (nucleo(a T A. Se X ha più soluzioni, si consideri α X e B = {α R n : α 2 α 2} Allora se α X e α B segue α 2 > α 2. Per cui l eleento di nora euclidea inia in X se esiste va cercato in X B. Ma X e B sono due insiee chiusi e non vuoti; pertanto X B è chiuso, non vuoto e liitato. Poiché 2 è funzione uniforeente continua, in X B assue inio. Ossia esiste α tale che α 2 = inα X α 2 Sia α = α + α con α (nucleoa T A e α nucleo(a T A A T A α = A T y = A T Aα Deve essere α = 0 poiché altrienti esisterebbe α soluzione di (3 con nora euclidea inore
della nora di α. Il che è assurdo!!= α (nucleoa T A.
IPOTESI: errori distribuiti noralente e indipendenti (edia 0 varianza σ 2 RESIDUI DISTRIBUITI CASUALMENTE RESIDUI CON ALTA VARIABILITA CON ORDINE DI GRANDEZZA AGGLOMERATI DI DATI UNIFORME SENZA AGGLOMERATI DI DATI MODELLO ACCETTABILE MODELLO NON ACCETTABILE INSERIRE GRAFICI DEVIAZIONE STANDARD: indice di dispersione dei residui attorno alla edia σres = ( (y i f(xi, a1,..., an 2 1/2 n con a1,..., an soluzione ottiale. RESIDUI SCALATI ɛsiga = y f(x, a 1,..., an σres Se il 95 degli eleenti di ɛσ [ 2, 2] il odello è accettabile.
Modello con terine costante R 2 = 1 (y i f(xi, a1,..., an 2 (y i y 2 y ove y = i è la edia delle osservazioni. Vale che 0 R 2 1. Se R 2 = 1, il odello segue l andaento dei dati. Se R 2 = 0, il odello è eno significativo della edia aritetica.
Interpretazioni geoetrica inα R n Aα y 2 2 A R n y R Sia S(A il sottospazio di R generato dalle colonne della atrice A. Se y S(A, allora si tratta di trovare le coordinate di y rispetto all insiee di generatori rappresentato dalle colonne della atrice A (il problea diventa di interpolazione, poiché in Aα y 2 2 = 0. Se y / S(A, si tratta di deterinare ŷ S(A tale che y ŷ 2 2 proiezione ortogonale di y su S(A ed è univocaente deterinato. è inio. Tale ŷ è la INSERIRE GRAFICO PROIEZIONE ORTOGONALE di y SU S(A r = y ŷ è un vettore ortogonale a S(A, ossia r a tutte le colonne di A, A T r = 0. Ogni altro y S(A è tale che y y 2 = y ŷ + ŷ y 2 2 = (y ŷ + ŷ y T (y ŷ + ŷ y = (y ŷ T (y ŷ + (ŷ y (ŷ y + 2 (ŷ y T }{{} } {{ } =r S(A,se ŷ y (y ŷ = y ŷ 2 2 + ŷ y 2 2 > y ŷ 2 2
Poiché A T r = 0, A T y = A T ŷ ŷ S(A = α t.c.ŷ = Aα = A T y = A T Aα e α è la soluzione del problea. Se le colonne di A sono linearente indipendenti allora α è unica. Se le colonne di A sono linearente dipendenti e rango(a = k, esistono n k α tale che Aα = ŷ.
Si può diostrare che la soluzione del problea dei inii quadrati è data da α = Cy (ove α è soluzione di nora inia. La atrice C si dice pseudoinversa di Moore Penrose di A. Inversa generalizzata. Sia A R n. Si dice inversa generalizzata di A una atrice A g R n, tale che: AA g A = A Essa non è unica. Esepio. A = Allora, per ogni a b, con b qualunque, si ha A g = ( a 0 0 0 ( a 1 b 0 0 Talvolta si richiede anche che A g AA g = A g. Anche questa proprietà non garantisce l unicità della inversa. L inversa generalizzata diventa unica se si richiede anche che AA g e A g A siano
sietriche. In tal caso l inversa generalizzata si chiaa pseudoinversa di Moore Penrose di A e si indica con A +. Essa è unica e soddisfa le equazioni di Moore Penrose: AA + A = A A + AA + = A + AA + sietrica A + A sietrica Se allora A = A + = Se A R n n non singolare, A 1 = A +. ( a 0 0 0 ( a 1 0 0 0. Se A R n si ha: rango(a = n A + = (A T A 1 A T rango(a = A + = A T (AA T 1 Viceversa, rango(a = n A + = (A T A 1 A T
rango(a = A + = (AA T 1 se A e B sono di rango assio (AB + = B + A +.
OSSERVAZIONE.L approssiazione lineare secondo il criterio dei inii quadrati ha una e una ϕj(x1 sola soluzione A è di rango pieno i vettori... sono linearente indipendenti. ϕj(x In tal caso la soluzione vale α = (A T A 1 A T y = A + y. Questo accade se ϕ1,..., ϕn sono funzioni linearente indipendenti sui punti distinti x1,..., x. Se ϕj(x = x j 1, ossia nel caso di approssiazione polinoiale, 1 x... x n 1 sono sepre linearente indipendenti su n punti counque scelti in [a, b] purché distinti. L approssiazione lineare polinoiale ha sepre una e una sola soluzione. Se = n, la soluzione è il polinoio di interpolazione di grado n 1 relativo a x1,..., xn. L approssiazione lineare secondo il criterio dei inii quadrati allora ha una sola soluzione counque siano scelti i punti x1,..., x purchè distinti in [a, b] se le funzioni ϕ1,..., ϕn forano un sistea di Chebyshev. Ciò è vero nel caso dei polinoi. Se n, la soluzione è il polinoio di grado n 1 con coefficienti che sono soluzione di A T D 2 Aα = A T D 2 y
o anche Bα = d ove o anche A T D 2 A = w i w ixi... w ix n 1 i w ixi w ix 2 i... w ix n i............ w ix n 1 i w ix n i... w ix 2n+2 i bjk = A T D 2 y = Infatti la atrice di regressione lineare è w iyi w ixiyi... w ix n 1 i yi wix j+k 2 i dj = wix j 1 i yi A = 1 x1... x n 1 1 1 x2... x n 1 2............ 1 x... x n 1
Esepio. n = 1. f(x = a1. A = 1 1... 1 A T D 2 A = wi A T D 2 y = wiyi a1 = w iyi w i n = 2. f(x = a1 + a2x. Questo è il caso che perette di costruire la retta di regressione. A = 1 x2 1 x1...... 1 x ( A T D 2 A = w i w ixi w ixi w ix 2 i A T D 2 y = ( w iyi w ixiyi Se D 2 = I, allora A T A = a1 = ( x i x i x2 i x 2 i y i xi x iyi A T y = x 2 i ( xi 2 a2 = ( y i x iyi x iyi xi y i x 2 i (. xi 2
Risoluzione di A T Aα = A T y con rango(a = n Poichè A T A è sietrica definita positiva, un odo naturale per risolvere il sistea delle equazioni norali è quello di usare la fattorizzazione di Cholesky: calcolo di B = A T A e d = A T y; fattorizzazione di B = LL T ; risoluzione dei sistei Lz = d e L T α = z. Il costo è di n 2 /2 + n 3 /6 + n 2 prodotti e altrettante soe. Tuttavia la soluzione calcolata ha un errore α tale che: ( α 2 K2(A A T A 2 α 2 1 K2(A AT A 2 A T A T A 2 A 2 + AT y 2 A T y 2 ove AT A 2 e AT y 2 è l errore sui coefficienti iniziali del problea. Vale che A T A 2 A T y 2 K2(A T A = λ ax(a T A λin(a T A = K 2(A 2
Se A è a colonne quasi linearente indipendenti, K2(A è grande e K2(A T A essendo il suo quadrato è un grosso aplificatore degli errori sui dati, che sono affetti da errore in quanto provengono da calcoli precedenti. Se poi A è al condizionata, il calcolo di A T A può portare a grossi inconvenienti: A = 1 1 ɛ 0 0 ɛ A T A = ( 1 + ɛ 2 1 1 1 + ɛ 2 ( 1 1 1 1 che è singolare se ɛ 2 è inore della precisione di acchina.
Variante del sistea delle equazioni norali ( I A A T 0 ( r α = ( y 0 r + Aα = y, A t r = 0 Il sistea è equivalente a A T Aα = A T y. Si tratta di un sistea indefinito sparso. Si può risolvere il sistea con un etodo iterativo se A è sparsa oppure con un etodo diretto. In tal caso si può controllare il processo di pivoting introducendo un fattore di scala β nei residui: ( βi A A T 0 r beta α = ( y 0
Un etodo più stabile per il calcolo della soluzione di A T Aα = A T y è basato sulla decoposizione QR della atrice A ediante trasforazioni eleentari ortogonali (di Givens o di Householder: A = Q ( R 0 con R atrice triangolare di ordine n e Q ortogonale di ordine. Ricordiao che si deve risolvere inα Aα y 2 2 Poichè le trasforazioni ortogonali non alterano la nora euclidea, segue che ( ( Aα y 2 2 = QT A Q T y 2 R 2 = α ỹ1 0 ove si è posto Q T y = ( ỹ1 ỹ2 ( n n. Allora ỹ2 2 2 Aα y 2 2 = Rα ỹ 1 2 2 + ỹ 2 2 2 ỹ 2 2 2 ove il segno di uguaglianza vale se e solo se Rα = ỹ1, per cui si ottiene il valore inio possibile per ỹ2 2 2. Allora deve essere α = R 1 ỹ1. La soa dei quadrati dei residui vale
n i=n+1 (ỹ(i 2 2 e il residuo r = Aα y è tale che Q T (Aα y 2 2 = ( 0 ỹ2 2 2 Qt r = ( 0 ỹ2 e pertanto r = Q ( 0 In tal caso il nuero di condizione del problea vale K2(R = ỹ2. λax(r T R λin(r T R Poichè segue che R T R = (R T, 0 K2(R = ( R 0 = A T Q T QA = A T A λax(a T A λin(a T A = K 2(A.