I minimi quadrati e loro applicazione alla compensazione geodetica Ludovico Biagi Politecnico di Milano, DIIAR ludovico.biagi@polimi.it
Premesse definizione euristica di distribuzione, formalizzazione della curva gaussiana La stima la stima ai minimi quadrati per un problema lineare un esempio La verifica la verifica di ipotesi in generale i test sul modello e sulla singola osservazione accuratezza e affidabilità delle stime Semplificando ancora esempi.
Due premesse necessarie: una di due Misure ripetute della medesima grandezza, eseguite al limite della precisione possibile con il metodo e gli strumenti utilizzati, forniscono sempre risultati diversi per la presenza degli errori casuali; tali errori, non noti, non possono essere eliminati. Come si può stimare il valore vero di una grandezza se non si conoscono gli errori in ciascuna osservazione? Si associa alle misure una modellizzazione statistica e matematica: l osservazione (misura) è la somma di due componenti: il valore teorico/vero della grandezza y (osservabile) e l errore di misura incognito.
la seconda di due Errori casuali, a media nulla, di entità variabile da misura a misura, dipendente dalle precisioni strumentale e di lettura. Concetti collegati: sia precisione sia accuratezza Errori sistematici o di modello, sistematismi strumentali oppure errata modellizzazione delle osservazioni o delle relazioni fra osservazioni e incognite Concetto collegato: accuratezza.
Esempio di distribuzione degli esiti di 10 osservazioni La popolazione è troppo piccola per distinguere una chiara distribuzione.
Esempio di distribuzione per popolazione numerosa
Precisione e accuratezza (1/4)
Precisione e accuratezza (/4) Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa
Precisione e accuratezza (3/4) Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa Popolazione non accurata ma precisa
Precisione e accuratezza (4/4) Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa Popolazione non accurata ma precisa Popolazione non accurata e non precisa
Dalla popolazione alla frequenza N : popolazione totale n : x popolazione che assume valori nell'intervallo [ x, x ] nx f x N frequenza di realizzazione dell'intervallo [ x, x ] per 0 la frequenza così definita euristicamente tende al concetto matematico di distribuzione di probabilità
Dalla frequenza alla probabilità: la curva gaussiana Misure di precisione di una grandezza, con valore teorico e deviazione standard, si distribuiscono in accordo alla distribuzione di densità di probabilità Gaussiana f( x,, ) 1 e ( x )
Gaussiana con 1 Gaussiana con
P( x x x ) è la probabilità di ottenere una misura che cada m M nell intervallo [ x, x ]; P( xm x xm) f( ) d x x M m m M
Caso R m Siano date m osservabili; possiamo estendere il modello e scrivere in modo compatto, utilizzando la notazione vettoriale: 0 y y con 1 ;... O O O O m y y y y 1 ;... m y y y y 1... m ε
f ( y ) 1 O m/ m/ ( ) (det C yy ) e 1 ( ) T 1 yo y Cyy ( yo y ) C yy è la matrice di covarianza delle osservazioni. C yy.................. 1 1 1m 1... m m1 m m in diagonale le varianze delle singole osservazioni, fuori diagonale le covarianze fra coppie di osservazioni; la matrice è simmetrica e definita positiva, quindi invertibile.
Note In forma compatta si indica yo ~ N y, C yy Quando la media è nulla, le varianze unitarie, le correlazioni nulle yo ~ N 0, I Z è detta normale standardizzata
I Minimi Quadrati Formalizzazione del problema e degli obiettivi Siano date m osservazioni y o y1 o yo... ym o per ogni osservazione i-esima valga y y i i i o, E i 0; 0 i
Si ha y y, Ey 0 o y y: vettore delle osservabili, incognite; y o: vettore delle osservazioni, note; εvettore degli errori di osservazione, incogniti. Sia noto il modello stocastico delle osservazioni, ovvero la loro matrice di covarianza: C C Q yy 0 0 è la varianza a priori, Q è la matrice dei cofattori:
Sia x un vettore contenente n parametri incogniti: x x1 x... xn con n m Sia noto il modello deterministico del problema, ovvero la relazione funzionale fra x e y y fx ( )
Il sistema in x sarebbe risolvibile dalle osservabili y: x f 1 ( y ) Però il sistema non è invertibile utilizzando direttamente le osservazioni, perché queste sono affette da errori incogniti; infatti si ha yo y fx ( ) fx ( ) ovvero x f 1 ( y ) o
Si pone il problema di trovare un metodo che, sfruttando le informazioni disponibili, permetta la miglior stima possibile (in senso statistico) dei parametri incogniti ( ˆx) e delle osservabili (ŷ).
Si cerca inoltre un metodo che permetta di stimare la precisione di stima delle incognite; infine sono necessari strumenti per valutare la presenza di errori nel modello adottato. Il metodo adottato nella prassi geodetica (compensazione di reti) è quello dei Minimi Quadrati. Il metodo si presta a problemi lineari, ovvero nella forma y y o y Ax b, 0, N[ 0C, ], C C Q yy 0
La linearizzazione di un problema non lineare Non esiste una formulazione dei MQ applicabile al problema generale in forma non lineare y fx ( ) ove f( x ) f1( x1, x,..., xn ) f ( x, x,..., x ) 1... f ( x, x,..., x ) m 1 n n
Per risolvere il problema generale è prima necessario linearizzarlo Si suppone di conoscere valori approssimati per i parametri incogniti: 1 1 1 x x,..., x : x x,..., x x n n T è allora possibile linearizzare la relazione y f( x ) mediante uno sviluppo di Taylor arrestato al primo ordine nell intorno di x n ;
f f y f ( x) ( x) ( x x )... ( x) ( x x ) 1 1 1 1 1 1 x1 xn f f y f ( x) ( x) ( x x )... ( x) ( x x ) 1 1 x1 xn y f f ( x) f ( x) ( x x )... ( x) ( x x ) m m m m 1 1 n n x1 xn n n n n ovvero y fx ( ) Jx ( )( xx ) o anche
η ove Aξ η yf( x) : 1 y1 f1( x),..., m ym fm( x ) ξ xx: 1 x1x1,..., n xn x n fi dim Am n; Aij ( x ) x Si ottiene dunque il problema lineare j η ηε E O O η η Aξ
Mediante MQ si risolve il problema lineare rispetto al vettore dei parametri incogniti ξ; si calcolano i parametri finali mediante la xˆ x ˆ yˆ y ˆ Nota il metodo da adottarsi per ricavare i valori approssimati dipende da caso a caso
Gli effetti della linearizzazione A causa delle approssimazioni introdotte dalla linearizzazione le prime stime xˆ 1, y ˆ 1 non possono essere considerate definitive. In particolare gli ˆx 1 divengono nuovi valori approssimati x 1 : il processo iterativo termina quando due stime successive differiscono in modo non significativo, ovvero quando xˆ n x n
Un esempio di linearizzazione Sia P un punto di posizione incognita in R 3 : P P P X P Y Z siano invece P 1, P, P 3 e P 4 quattro punti di posizione nota: 1 1 1 1 Z Y X P X P Y Z 4 4 4 4 X P Y Z
Da P sono state misurate le distanze ai quattro punti, ottenendo i 1 3 4 valori ; ; ; ; si indichi con ρ O il vettore delle PO PO PO PO osservazioni di distanza. E noto un valore approssimato della posizione di P P X Y Z P P P si vuole stimare la posizione di P.
Procedimento La generica equazione di osservazione da P a P i è ( X X ) ( Y Y ) ( Z Z ) i i i i P P P P i i i PO P la relazione che lega le distanze (osservate a meno degli errori) alle incognite (la posizione di P) è non lineare; il sistema è ridondante: 4 osservazioni per 3 incognite; è possibile risolverlo mediante MQ ma deve prima essere linearizzato.
Linearizzazione della generica distanza da P a P i : ( X X ) ( Y Y ) ( Z Z ) i i i i P P P P i i i ( X P X ) ( Y P Y ) ( Z P Z ) i ( X P X ) ( XP X P) ( X X ) ( Y Y ) ( Z Z ) i i i P P P i ( Y P Y ) ( YP Y P) ( X X ) ( Y Y ) ( Z Z ) i i i P P P i ( Z P Z ) ( X X ) ( Y Y ) ( Z Z ) i i i P P P ( Z P Z P )
e i i i P P P ove ( X X ) ( Y Y ) ( Z Z ) i i i i P P P P (distanza calcolata nei valori approssimati) i X P X i 1 i e P Y i P Y P i Z P Z (versore approssimato da P i a P)
XP X P ξ YP Y P ZP Z P (correzioni da apportare alle coordinate approssimate) Il problema assume dunque la forma 1 1 1 1 1 P O P ex ey ez X PO P ex ey ez 3 3 3 3 3 Y P O P ex ey e Z 4 4 4 4 4 Z P P ex ey ez O
Ovvero η ρ ρ ρρ ε O η O ηε Aξ ora risolvibile mediante MQ.
Minimi quadrati: principio e stimatori Si cercano ˆx e ŷ consistenti, con ŷ a minima distanza da y o; ovvero ˆx e ŷ tali che yˆ Axˆb T 1 ( yo y) Q ( yo y ) min Nel seguito vengono riportate senza dimostrazione le stime fornite dai MQ.
Dalle equazioni di condizione si ricava il cosiddetto sistema normale T 1 ˆ ( o ) Nx A Q y b, ove N T 1 A Q A è detta matrice normale Si hanno due casi: A è di rango pieno, ovvero le sue colonne sono linearmente indipendenti: Ax 0 x 0 il problema non presenta deficienza di rango.
A non è di rango pieno, ovvero alcune sue colonne sono linearmente dipendenti dalle altre: Ax 0 per qualche x 0 in questo caso il problema presenta deficienza di rango. Le reti geodetiche, semplicemente poste, presentano deficienza di rango: si osservano differenze di posizione, si vogliono stimare posizioni.
Semplificazione del formalismo Sia y' yb, y' 0 y 0 b si ha C' yy C yy y' Ax, y' Ax 0 ovvero identico contenuto del modello generale ma semplificazione formale, che ovviamente adottiamo
Esempio di applicazione geodetica dei MQ Siano A, B e C tre punti di livellazione Siano stati misurati i dislivelli da A a B ( DH ), ABo da B a C ( DH ) BCo e da C a A ( DH ). CAo
Vale la H H DH H H DH B A AB A C CA H H DH C B BC Quindi il modello deterministico del problema è: DH H H ABO B A AB DH H H CAO A C CA DH H H BC C B BC O
In forma matriciale yo y y Ax ove 1 1 0 H A A 0 1 1, x H B 1 0 1 H C
Modello stocastico Nel presente esempio si considerano le misure di uguale precisione (che indichiamo con ) e scorrelate: C yy 0 0 0 0 0 0 ovvero C yy I
Il problema della deficienza di rango Se A non è di rango pieno non lo è neppure N ed è impossibile invertire il sistema normale. Definiamo il nucleo di A come: N ( A) x Ax 0. 0 0
Ad una stima ottimale delle osservabili y corrispondono infinite soluzioni per i parametri incogniti Evidentemente se un certo ˆx è soluzione di anche xˆ x 0 lo è; infatti Axˆ y, Ax ( ˆ x) Axˆ Ax yˆ 0y ˆ 0 0 in sostanza le osservazioni non contengono abbastanza informazione per stimare tutti i parametri desiderati; tale caratteristica non dipende dalla ridondanza ma dal disegno del problema.
Ad esempio si consideri l anello di livellazione iniziale e si supponga di voler stimare tutte le quote dalle misure di dislivello: yo y y Ax DH AB 1 1 0 O HA DH BC 0 1 1 H O B ε DHCA 1 0 1 H O C è facile verificare che A non è di rango pieno e che, in particolare, 1 N( A ) 1 H, HR 1
Pensando al problema dal punto di vista fisico, è evidente che i valori delle osservabili di dislivello del triangolo non vengono modificati aggiungendo un valore H comune alle 3 quote supposte incognite: DH AB H B H A ( H B H ) ( H A H ) DH BC HC H B ( HC H ) ( H B H ) DH H H ( H H ) ( H H ) CA A C A C ovvero le quote dei punti (parametri incogniti), presentano 1 grado di libertà, rispetto ai dislivelli (osservabili); la situazione non cambia aggiungendo una o più osservazioni di dislivello (a titolo di esercizio lo si verifichi aggiungendo ad esempio DH ). AC
La rimozione della deficienza di rango Per rimuovere la deficienza di rango si deve innanzitutto identificare preventivamente quali siano i parametri non stimabili del problema: ad esempio in una rete di livellazione, con sole osservazioni di dislivelli, sono stimabili le quote di tutti i punti della rete meno uno.
Per la soluzione sono possibili due approcci alternativi. 1. Si vincolano i parametri non stimabili del problema: ciò equivale a fissare un Sistema di Riferimento in cui verranno fornite le soluzioni per i restanti parametri realmente stimabili. Nel problema della rete di livellazione questo equivale ad attribuire la quota zero ad uno dei punti della rete stessa. Tale approccio è quello seguito, appunto, nella definizione dei Sistemi di Riferimento, globali o nazionali.
. Si riformula il problema aggiungendo nuove osservazioni sui parametri non stimabili; ad esempio, nella rete di livellazione, misurando direttamente la quota di uno o più punti ed inserendo le relative equazioni di osservazione nel sistema. Tipicamente, nell ambito delle reti geodetiche, tali osservazioni aggiuntive, dette anche pseudoosservazioni, non sono (non possono essere) ottenute direttamente, ma derivano da fonti esterne, che abbiano risolto a monte il problema di definire un Sistema di Riferimento.
Soluzione del problema Siano risolti i problemi di deficienza di rango: si hanno le seguenti stime. Stima dei parametri incogniti: ˆ 1 T 1 x N A Q y o; stima delle osservabili e degli scarti: yˆ Axˆ PAy 0 εˆ yˆ yˆ ( IP ) y P y o A 0 A 0
La ridondanza e le stime di covarianza Ridondanza: differenza fra numero di osservazioni e numero di parametri incogniti, detta anche numero di gradi di libertà: R m n stima del 0 : ˆ 0 ˆ ˆ T 1 ε Q ε m n
stima della matrice di covarianza dei parametri: C N ; 1 xx ˆˆ ˆ 0 stima della matrice di covarianza delle osservabili: T C ˆ AN A ; 1 yy ˆˆ 0 stima della matrice di covarianza degli scarti T C ˆ ( QAN A ) 1 εε ˆˆ 0
Gli errori di modello Possono essere su tutto il modello ma tipicamente sono su singole osservazioni: comportano stime errate dei parametri incogniti. Esistono algoritmi per: verificare a posteriori la correttezza globale dei modelli adottati (test del modello globale); identificare eventuali errori di modello su singole osservazioni (identificazione degli outlier e data snooping); identificare l affidabilità dei risultati di una compensazione.
La verifica statistica di ipotesi E' un operazione che consente di stabilire se, statisticamente, ovvero con una certa probabilità di errore, valga una certa ipotesi H. 0 Si costruisce una statistica campionaria che, sotto l ipotesi H 0, debba seguire una distribuzione nota; che viceversa, qualora H 0 sia sbagliata, vada ad assumere valori grandi, ovvero non accettabili statisticamente; si confronta quindi la statistica campionaria con i valori limite ammessi dalla sua distribuzione teorica.
La verifica di ipotesi per i dati e le reti geodetiche Nell elaborazione dei dati grezzi (ad esempio le osservazioni GPS) e nella compensazione di reti geodetiche tipicamente vi sono outlier dovuti: 1. all approssimata conoscenza del modello stocastico delle osservazioni (vengono ipotizzate più accurate e meno correlate di quanto non siano in realtà);. alla presenza di isolati e grossolani errori di modello deterministico (termini di disturbo di entità significativa e non modellizzabili multipath per il GPS, errori grossolani di stazionamento, ).
Prima si verifica la correttezza del modello globale, poi si individuano eventuali outlier, infine si corregge il modello stocastico.
La verifica in generale H : y Ax, x 0 Ha : y A A x R{ A A } R{ A}, dim R { A A } mb Si possono costruire le seguenti grandezze T 1 T 1 T 1 λ AQ ( IAAA ( ) AQ ) y 0 T 1 T 1 T 1 Qλλ A Q ( IA( A A) A Q ) A T T 1 λ Qλ, b xq x 0
Sotto H 0 λ λ b E 1, F b,, 0b 0b b sotto H a λ E F b λ b 1,,, b 0b b 0b
Esecuzione del test Scelgo la significatività del test; fisso F lim tale che λ P F H 0b lim 0 Se λ 0 b F lim rigetto H 0 La significatività del test è la probabilità di sbagliare rigettando H0.
Visione speculare λ P F lim H a 1 0b, significatività del test, rischio di sbagliare rigettando H 0 ;, potenza, rischio di sbagliare accettando H 0. La potenza di un test è funzione dell errore che vorrei evidenziare nel test!
Il test del o test globale sul modello Ipotesi fondamentale H y Ax. 0 : Ipotesi alternativa x Ha : y A A x m R { A A } R con Se H 0 è vera T 1 ε Q ε ( mn) λ ~ ( mn) ( mn) mn 0 0
Statistica di test: ˆ 0 ( mn) sp 0 sia il livello di significatività del test; sia lim mn( ) il valore teorico tale che P(0 ) 1 mn lim se se H 0 viene accettata; sp lim H 0 viene rigettata: sono presenti errori di modello. sp lim
Esempio Sia stata effettuata una compensazione di 10 osservazioni in incognite; a fronte di un 0 1cm dichiarato a priori si sia ottenuto un ˆ.375cm. 0 Sia fissato 5% : 1 95% 0.95; dai dati precedenti si ricava ( m n) 8; il (0.05) 15.5 lim 8 ˆ.375 sp ( mn) 8 19 15.5 1 0 0
Il test non è superato: quindi vi è, a un livello di probabilità del 95%, un errore di modello. Se si fosse fissato 1%, si sarebbe ottenuto (0.01) 0.1 lim 8 sp ovvero vi sono errori di modello a livello di significatività 5%, ma non a livello di significatività 1%.
Il test locale sulla singola osservazione Serve per identificare errori di modello deterministico su una singola osservazione y : i O Ipotesi fondamentale H0 : y Ax. Ipotesi alternativa: x H a : y A ei, i 0 e i... 1 0... 0 T ovvero un singolo errore su una singola osservazione.
Sotto H 0 λ 0 b ~ (1) λ 0 b zsp ~ N [0,1] Z Se si adotta la semplificazione di Q diagonale la precedente diviene semplicemente ˆ i zsp ~ Z i (test sui residui normalizzati)
Se H 0 è vera: zsp ~ N[0,1] si confronta z sp con i valori limite della normale standardizzata; Quindi, definito z lim il valore teorico tale che P(0 z z ) 1 lim, lim P( z z ) se z zlim H0 viene accettata; se z zlim H 0 viene rigettata.
Affidabilità dei test Q ii i Sotto H a zsp ~ N [,1] 0 Per effettuare il test ho fissato un valore z lim : dato i, ovvero l errore che vorrei evidenziare, è numericamente possibile calcolare z lim Q N ii i [,1] 1 0 ovvero la potenza del test rispetto all errore i.
Si decide il valore di : si determina z lim si decide il valore : si trova i z lim Q ii i tale che N [,1] 1. (calcolo numerico complesso) 0
Quale è il massimo errore nascosto, ovvero non rilevabile con potenza, nell osservazione i-esima? Qii i f (, ) quindi f(, ) f(, ) i 0 0 0 T 1 1 T 1 Q ii eq i ( I AN AQ ) ei Nuovamente con la semplificazione Q diagonale y (, ) i i f T 1 T e ( I AN A ) e i i
Si ricorda che 1 T ( ) I AN A P A definiamo la ridondanza locale dell osservazione i-esima T 1 T e ( IAN A ) e P r i i A ii i si hanno due casi limite r 0: ; r 1: min i i i i Affidabilità interna dell osservazione i-esima: massimo errore nascosto i. Peggior affidabilità interna: max i i
Affidabilità esterna Dato un errore nascosto i nell osservazione i-esima, come influisce sulla stima dei parametri incogniti? δxˆ( ) N A Q e 1 T 1 i i i Si hanno due casi limite r T 0: P 1: e R ( A) N ( A ) i Aii i i tutto l errore si scarica nelle stime delle incognite. r T 1: P 0: e N ( A ) R ( A) i Aii i i l errore non si scarica nelle stime delle incognite.
Affidabilità interna dell osservazione i-esima: massimo errore nascosto i. Peggior affidabilità interna: max i i Affidabilità esterna del parametro x j: xˆ max( xˆ ( )) j j i i Peggior affidabilità esterna: xˆ max( xˆ ) j j
In effetti la non robustezza dei MQ rende complicata l identificazione degli outlier poiché un outlier modifica anche gli scarti delle altre osservazioni; inoltre la presenza di un outlier può influire sulla stima del ˆ 0, che quindi risulta non attendibile. E tipicamente adottato un procedimento iterativo (data snooping). Innanzitutto si verifica l esistenza di osservazioni isolate cui corrispondano scarti inaccettabili rispetto all accuratezza strumentale. Se ve ne sono, vengono eliminate una per una, partendo dalla più grande, ricompensando ogni volta i dati e verificando la convergenza del test sul modello globale.
Se la precedente analisi non evidenzia casi di evidenti outlier si costruiscono i residui (pseudo) normalizzati ˆi ˆi oppure Q ee ii 0 Q ee ii Anziché confrontare i residui normalizzati con un valore limite, si effettua un confronto relativo fra residui (pseudo) normalizzati; se ve ne è uno significativamente più grande degli altri, si elimina l osservazione corrispondente, ricompensando i dati. Si procede iterativamente; verificando la convergenza del test sul modello globale.
Si devono poi controllare le osservazioni eliminate (calcolando i loro scarti) per eliminarle definitivamente o reintrodurle. Qualora il test sul modello globale non venga superato ma non vi siano sospetti outlier (ovvero una situazione con scarti normalizzati omogenei) vi è tipicamente un problema di sottostima generale degli elementi della matrice di covarianza delle osservazioni (sovrastima delle precisioni).
Accuratezza dei parametri stimati Sono stati eseguiti il test globale sul modello e il data snooping con esiti positivi. Si considera ora la stima dei parametri, ˆx e della relativa matrice di 1 covarianza C N. xx ˆˆ ˆ 0 Ci si chiede quale sia la regione di confidenza per il valore vero dei parametri incogniti, ovvero la regione dello spazio n-dimensionale alla quale il vettore x appartiene con livello di probabilità assegnata.
La regione di confidenza per il vettore dei parametri incogniti ad un certo livello di probabilità 1- è data dalla T ( xxˆ) C ( xx ˆ) F ( ) 1 xx ˆˆ n,( mn) ove F ( ) n,( m n) è il valore della distribuzione di Fisher a n,( m n) gradi di libertà, corrispondente alla probabilità 1 ; in genere si scelgono i valori 0.01, 0.05, 0.10, ovvero ( 1 : 0.99, 0.95, 0.90.
Per analizzare la regione di confidenza di ξ: si estrae dal vettore ˆx il sottovettore ˆξ corrispondente ai parametri ξ di interesse; quindi si estrae dalla matrice di covarianza totale C xx ˆˆ la matrice di covarianza del vettore ˆξ, C ˆˆ; sia x1 1 1... 1n x 1... n x, C xx ˆˆ............... xn n1 n... n se ad esempio xi ξ x si ha j C i ij ˆˆ ji j
la regione di confidenza con probabilità 1 per il vettore ξ è data dalla ˆ T ( ξξ) ( C ) ( ξξ ˆ) F ( ) 1 ξξ ˆˆ r,( mn) Ad esempio, nel caso di una compensazione di rete geodetica, tipicamente si vuole conoscere per ogni punto la regione tridimensionale di confidenza delle coordinate [ XP, YP, Z P] del punto stesso. La regione di confidenza in questo caso è data da un ellissoide centrato in [ Xˆ, ˆ, ˆ P YP Z P], i cui parametri (semiassi e relative direzioni) dipendono dalla matrice di covarianza delle stime delle coordinate del punto.
Ellissoide di confidenza in tre dimensioni
Ludovico Biagi Politecnico di Milano, DIIAR ludovico.biagi@polimi.it materiale didattico in varia forma sotto http://geomatica.como.polimi.it