I minimi quadrati e loro applicazione alla compensazione geodetica. Ludovico Biagi Politecnico di Milano, DIIAR

Documenti analoghi
Minimi quadrati: introduzione alla compensazione

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Il metodo delle osservazioni indirette

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Statistica Applicata all edilizia: il modello di regressione

Appunti su Indipendenza Lineare di Vettori

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Note sulla probabilità

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Una nota sulle sessioni con più ricevitori

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Distribuzione Normale

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Corso di Geometria BIAR, BSIR Esercizi 2: soluzioni

Ulteriori Conoscenze di Informatica e Statistica

MISURE ANALITICHE MISURE ANALITICHE. η = x - θ. θ (valore vero) x (misura) ERRORE TOTALE. η 1 > 0

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Errori di misura Teoria

RETI TOPOGRAFICHE. 1. Premessa

SISTEMI LINEARI MATRICI E SISTEMI 1

Metodo dei minimi quadrati e matrice pseudoinversa

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Distribuzioni campionarie

Analisi della varianza

Il teorema di Rouché-Capelli

Schema lezione 5 Intervalli di confidenza

Inversa. Inversa. Elisabetta Colombo

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Distribuzioni e inferenza statistica

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Statistica Inferenziale

APPLICAZIONI LINEARI

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

L indagine campionaria Lezione 3

Corso C Geomatica. Teoria degli errori. Massimiliano Cannata

Risoluzione di problemi ingegneristici con Excel

STATISTICA ESERCITAZIONE

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Esercitazione 6 - Soluzione

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con

Teoria e tecniche dei test

Incertezza di misura concetti di base. Roberto Olmi IFAC-CNR

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

VALIDAZIONE DEL MODELLO

Incertezza di Misura: Concetti di Base

Applicazioni lineari e diagonalizzazione. Esercizi svolti

Distribuzione Gaussiana - Facciamo un riassunto -

Statistica. Alfonso Iodice D Enza

Esercitazione ENS su processi casuali (13 e 14 Maggio 2008)

Teorema del limite centrale TCL

Esercitazione del

Approssimazione normale alla distribuzione binomiale

Corso di Matematica e Statistica 3 Algebra delle matrici. Una tabella rettangolare: la matrice. Una tabella rettangolare: la matrice

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Vettori e matrici. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Teorema di Thevenin generalizzato

Statistica. Alfonso Iodice D Enza

SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Il campionamento e l inferenza. Il campionamento e l inferenza

Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite

Sistemi lineari - Parte Seconda - Esercizi

Test di ipotesi su due campioni

ISTOGRAMMI E DISTRIBUZIONI:

Quale delle seguenti rappresentazioni del numero reale è in virgola mobile normalizzata?

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Capitolo 6. Variabili casuali continue. 6.1 La densità di probabilità

Metodi computazionali per i Minimi Quadrati

( ) TEORIA DELLE MATRICI. A. Scimone a.s pag 1

Esercizi svolti. risolvere, se possibile, l equazione xa + B = O, essendo x un incognita reale

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.

Elementi di base su modello binomiale e modello normale

Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III)

L ALGORITMO DEL SIMPLESSO REVISIONATO

Test d Ipotesi Introduzione

Intervalli di confidenza

Sapienza Università di Roma Corso di laurea in Ingegneria Energetica Geometria A.A ESERCIZI DA CONSEGNARE prof.

Calcolo delle Probabilità 2

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

Universita degli Studi di Ancona - Facolta di Ingegneria Laurea in Ing. Elettronica (VO) Ing. Informatica e Automatica - Ing. delle Telecomunicazioni

Il metodo dei minimi quadrati. Molto spesso due grandezze fisiche x e y, misurabili direttamente, sono legate tra loro da una legge del tipo:

Variabili aleatorie. Variabili aleatorie e variabili statistiche

La distribuzione delle frequenze. T 10 (s)

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

SISTEMI LINEARI. x 2y 2z = 0. Svolgimento. Procediamo con operazioni elementari di riga sulla matrice del primo sistema: R 2 R 2 3R

Analisi della varianza: I contrasti e il metodo di Bonferroni

STIME SECONDO IL METODO DI ARGELANDER

Indagine sulle forze di lavoro nel Comune di Firenze. Nota metodologica

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

La matrice delle correlazioni è la seguente:

LE MISURE. attendibilità = x i - X

Generazione di Numeri Casuali- Parte 2

Capitolo 2. La teoria normativa della politica economica

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Premessa: la dipendenza in media

Transcript:

I minimi quadrati e loro applicazione alla compensazione geodetica Ludovico Biagi Politecnico di Milano, DIIAR ludovico.biagi@polimi.it

Premesse definizione euristica di distribuzione, formalizzazione della curva gaussiana La stima la stima ai minimi quadrati per un problema lineare un esempio La verifica la verifica di ipotesi in generale i test sul modello e sulla singola osservazione accuratezza e affidabilità delle stime Semplificando ancora esempi.

Due premesse necessarie: una di due Misure ripetute della medesima grandezza, eseguite al limite della precisione possibile con il metodo e gli strumenti utilizzati, forniscono sempre risultati diversi per la presenza degli errori casuali; tali errori, non noti, non possono essere eliminati. Come si può stimare il valore vero di una grandezza se non si conoscono gli errori in ciascuna osservazione? Si associa alle misure una modellizzazione statistica e matematica: l osservazione (misura) è la somma di due componenti: il valore teorico/vero della grandezza y (osservabile) e l errore di misura incognito.

la seconda di due Errori casuali, a media nulla, di entità variabile da misura a misura, dipendente dalle precisioni strumentale e di lettura. Concetti collegati: sia precisione sia accuratezza Errori sistematici o di modello, sistematismi strumentali oppure errata modellizzazione delle osservazioni o delle relazioni fra osservazioni e incognite Concetto collegato: accuratezza.

Esempio di distribuzione degli esiti di 10 osservazioni La popolazione è troppo piccola per distinguere una chiara distribuzione.

Esempio di distribuzione per popolazione numerosa

Precisione e accuratezza (1/4)

Precisione e accuratezza (/4) Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa

Precisione e accuratezza (3/4) Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa Popolazione non accurata ma precisa

Precisione e accuratezza (4/4) Popolazione accurata e precisa Popolazione abbastanza accurata ma non precisa Popolazione non accurata ma precisa Popolazione non accurata e non precisa

Dalla popolazione alla frequenza N : popolazione totale n : x popolazione che assume valori nell'intervallo [ x, x ] nx f x N frequenza di realizzazione dell'intervallo [ x, x ] per 0 la frequenza così definita euristicamente tende al concetto matematico di distribuzione di probabilità

Dalla frequenza alla probabilità: la curva gaussiana Misure di precisione di una grandezza, con valore teorico e deviazione standard, si distribuiscono in accordo alla distribuzione di densità di probabilità Gaussiana f( x,, ) 1 e ( x )

Gaussiana con 1 Gaussiana con

P( x x x ) è la probabilità di ottenere una misura che cada m M nell intervallo [ x, x ]; P( xm x xm) f( ) d x x M m m M

Caso R m Siano date m osservabili; possiamo estendere il modello e scrivere in modo compatto, utilizzando la notazione vettoriale: 0 y y con 1 ;... O O O O m y y y y 1 ;... m y y y y 1... m ε

f ( y ) 1 O m/ m/ ( ) (det C yy ) e 1 ( ) T 1 yo y Cyy ( yo y ) C yy è la matrice di covarianza delle osservazioni. C yy.................. 1 1 1m 1... m m1 m m in diagonale le varianze delle singole osservazioni, fuori diagonale le covarianze fra coppie di osservazioni; la matrice è simmetrica e definita positiva, quindi invertibile.

Note In forma compatta si indica yo ~ N y, C yy Quando la media è nulla, le varianze unitarie, le correlazioni nulle yo ~ N 0, I Z è detta normale standardizzata

I Minimi Quadrati Formalizzazione del problema e degli obiettivi Siano date m osservazioni y o y1 o yo... ym o per ogni osservazione i-esima valga y y i i i o, E i 0; 0 i

Si ha y y, Ey 0 o y y: vettore delle osservabili, incognite; y o: vettore delle osservazioni, note; εvettore degli errori di osservazione, incogniti. Sia noto il modello stocastico delle osservazioni, ovvero la loro matrice di covarianza: C C Q yy 0 0 è la varianza a priori, Q è la matrice dei cofattori:

Sia x un vettore contenente n parametri incogniti: x x1 x... xn con n m Sia noto il modello deterministico del problema, ovvero la relazione funzionale fra x e y y fx ( )

Il sistema in x sarebbe risolvibile dalle osservabili y: x f 1 ( y ) Però il sistema non è invertibile utilizzando direttamente le osservazioni, perché queste sono affette da errori incogniti; infatti si ha yo y fx ( ) fx ( ) ovvero x f 1 ( y ) o

Si pone il problema di trovare un metodo che, sfruttando le informazioni disponibili, permetta la miglior stima possibile (in senso statistico) dei parametri incogniti ( ˆx) e delle osservabili (ŷ).

Si cerca inoltre un metodo che permetta di stimare la precisione di stima delle incognite; infine sono necessari strumenti per valutare la presenza di errori nel modello adottato. Il metodo adottato nella prassi geodetica (compensazione di reti) è quello dei Minimi Quadrati. Il metodo si presta a problemi lineari, ovvero nella forma y y o y Ax b, 0, N[ 0C, ], C C Q yy 0

La linearizzazione di un problema non lineare Non esiste una formulazione dei MQ applicabile al problema generale in forma non lineare y fx ( ) ove f( x ) f1( x1, x,..., xn ) f ( x, x,..., x ) 1... f ( x, x,..., x ) m 1 n n

Per risolvere il problema generale è prima necessario linearizzarlo Si suppone di conoscere valori approssimati per i parametri incogniti: 1 1 1 x x,..., x : x x,..., x x n n T è allora possibile linearizzare la relazione y f( x ) mediante uno sviluppo di Taylor arrestato al primo ordine nell intorno di x n ;

f f y f ( x) ( x) ( x x )... ( x) ( x x ) 1 1 1 1 1 1 x1 xn f f y f ( x) ( x) ( x x )... ( x) ( x x ) 1 1 x1 xn y f f ( x) f ( x) ( x x )... ( x) ( x x ) m m m m 1 1 n n x1 xn n n n n ovvero y fx ( ) Jx ( )( xx ) o anche

η ove Aξ η yf( x) : 1 y1 f1( x),..., m ym fm( x ) ξ xx: 1 x1x1,..., n xn x n fi dim Am n; Aij ( x ) x Si ottiene dunque il problema lineare j η ηε E O O η η Aξ

Mediante MQ si risolve il problema lineare rispetto al vettore dei parametri incogniti ξ; si calcolano i parametri finali mediante la xˆ x ˆ yˆ y ˆ Nota il metodo da adottarsi per ricavare i valori approssimati dipende da caso a caso

Gli effetti della linearizzazione A causa delle approssimazioni introdotte dalla linearizzazione le prime stime xˆ 1, y ˆ 1 non possono essere considerate definitive. In particolare gli ˆx 1 divengono nuovi valori approssimati x 1 : il processo iterativo termina quando due stime successive differiscono in modo non significativo, ovvero quando xˆ n x n

Un esempio di linearizzazione Sia P un punto di posizione incognita in R 3 : P P P X P Y Z siano invece P 1, P, P 3 e P 4 quattro punti di posizione nota: 1 1 1 1 Z Y X P X P Y Z 4 4 4 4 X P Y Z

Da P sono state misurate le distanze ai quattro punti, ottenendo i 1 3 4 valori ; ; ; ; si indichi con ρ O il vettore delle PO PO PO PO osservazioni di distanza. E noto un valore approssimato della posizione di P P X Y Z P P P si vuole stimare la posizione di P.

Procedimento La generica equazione di osservazione da P a P i è ( X X ) ( Y Y ) ( Z Z ) i i i i P P P P i i i PO P la relazione che lega le distanze (osservate a meno degli errori) alle incognite (la posizione di P) è non lineare; il sistema è ridondante: 4 osservazioni per 3 incognite; è possibile risolverlo mediante MQ ma deve prima essere linearizzato.

Linearizzazione della generica distanza da P a P i : ( X X ) ( Y Y ) ( Z Z ) i i i i P P P P i i i ( X P X ) ( Y P Y ) ( Z P Z ) i ( X P X ) ( XP X P) ( X X ) ( Y Y ) ( Z Z ) i i i P P P i ( Y P Y ) ( YP Y P) ( X X ) ( Y Y ) ( Z Z ) i i i P P P i ( Z P Z ) ( X X ) ( Y Y ) ( Z Z ) i i i P P P ( Z P Z P )

e i i i P P P ove ( X X ) ( Y Y ) ( Z Z ) i i i i P P P P (distanza calcolata nei valori approssimati) i X P X i 1 i e P Y i P Y P i Z P Z (versore approssimato da P i a P)

XP X P ξ YP Y P ZP Z P (correzioni da apportare alle coordinate approssimate) Il problema assume dunque la forma 1 1 1 1 1 P O P ex ey ez X PO P ex ey ez 3 3 3 3 3 Y P O P ex ey e Z 4 4 4 4 4 Z P P ex ey ez O

Ovvero η ρ ρ ρρ ε O η O ηε Aξ ora risolvibile mediante MQ.

Minimi quadrati: principio e stimatori Si cercano ˆx e ŷ consistenti, con ŷ a minima distanza da y o; ovvero ˆx e ŷ tali che yˆ Axˆb T 1 ( yo y) Q ( yo y ) min Nel seguito vengono riportate senza dimostrazione le stime fornite dai MQ.

Dalle equazioni di condizione si ricava il cosiddetto sistema normale T 1 ˆ ( o ) Nx A Q y b, ove N T 1 A Q A è detta matrice normale Si hanno due casi: A è di rango pieno, ovvero le sue colonne sono linearmente indipendenti: Ax 0 x 0 il problema non presenta deficienza di rango.

A non è di rango pieno, ovvero alcune sue colonne sono linearmente dipendenti dalle altre: Ax 0 per qualche x 0 in questo caso il problema presenta deficienza di rango. Le reti geodetiche, semplicemente poste, presentano deficienza di rango: si osservano differenze di posizione, si vogliono stimare posizioni.

Semplificazione del formalismo Sia y' yb, y' 0 y 0 b si ha C' yy C yy y' Ax, y' Ax 0 ovvero identico contenuto del modello generale ma semplificazione formale, che ovviamente adottiamo

Esempio di applicazione geodetica dei MQ Siano A, B e C tre punti di livellazione Siano stati misurati i dislivelli da A a B ( DH ), ABo da B a C ( DH ) BCo e da C a A ( DH ). CAo

Vale la H H DH H H DH B A AB A C CA H H DH C B BC Quindi il modello deterministico del problema è: DH H H ABO B A AB DH H H CAO A C CA DH H H BC C B BC O

In forma matriciale yo y y Ax ove 1 1 0 H A A 0 1 1, x H B 1 0 1 H C

Modello stocastico Nel presente esempio si considerano le misure di uguale precisione (che indichiamo con ) e scorrelate: C yy 0 0 0 0 0 0 ovvero C yy I

Il problema della deficienza di rango Se A non è di rango pieno non lo è neppure N ed è impossibile invertire il sistema normale. Definiamo il nucleo di A come: N ( A) x Ax 0. 0 0

Ad una stima ottimale delle osservabili y corrispondono infinite soluzioni per i parametri incogniti Evidentemente se un certo ˆx è soluzione di anche xˆ x 0 lo è; infatti Axˆ y, Ax ( ˆ x) Axˆ Ax yˆ 0y ˆ 0 0 in sostanza le osservazioni non contengono abbastanza informazione per stimare tutti i parametri desiderati; tale caratteristica non dipende dalla ridondanza ma dal disegno del problema.

Ad esempio si consideri l anello di livellazione iniziale e si supponga di voler stimare tutte le quote dalle misure di dislivello: yo y y Ax DH AB 1 1 0 O HA DH BC 0 1 1 H O B ε DHCA 1 0 1 H O C è facile verificare che A non è di rango pieno e che, in particolare, 1 N( A ) 1 H, HR 1

Pensando al problema dal punto di vista fisico, è evidente che i valori delle osservabili di dislivello del triangolo non vengono modificati aggiungendo un valore H comune alle 3 quote supposte incognite: DH AB H B H A ( H B H ) ( H A H ) DH BC HC H B ( HC H ) ( H B H ) DH H H ( H H ) ( H H ) CA A C A C ovvero le quote dei punti (parametri incogniti), presentano 1 grado di libertà, rispetto ai dislivelli (osservabili); la situazione non cambia aggiungendo una o più osservazioni di dislivello (a titolo di esercizio lo si verifichi aggiungendo ad esempio DH ). AC

La rimozione della deficienza di rango Per rimuovere la deficienza di rango si deve innanzitutto identificare preventivamente quali siano i parametri non stimabili del problema: ad esempio in una rete di livellazione, con sole osservazioni di dislivelli, sono stimabili le quote di tutti i punti della rete meno uno.

Per la soluzione sono possibili due approcci alternativi. 1. Si vincolano i parametri non stimabili del problema: ciò equivale a fissare un Sistema di Riferimento in cui verranno fornite le soluzioni per i restanti parametri realmente stimabili. Nel problema della rete di livellazione questo equivale ad attribuire la quota zero ad uno dei punti della rete stessa. Tale approccio è quello seguito, appunto, nella definizione dei Sistemi di Riferimento, globali o nazionali.

. Si riformula il problema aggiungendo nuove osservazioni sui parametri non stimabili; ad esempio, nella rete di livellazione, misurando direttamente la quota di uno o più punti ed inserendo le relative equazioni di osservazione nel sistema. Tipicamente, nell ambito delle reti geodetiche, tali osservazioni aggiuntive, dette anche pseudoosservazioni, non sono (non possono essere) ottenute direttamente, ma derivano da fonti esterne, che abbiano risolto a monte il problema di definire un Sistema di Riferimento.

Soluzione del problema Siano risolti i problemi di deficienza di rango: si hanno le seguenti stime. Stima dei parametri incogniti: ˆ 1 T 1 x N A Q y o; stima delle osservabili e degli scarti: yˆ Axˆ PAy 0 εˆ yˆ yˆ ( IP ) y P y o A 0 A 0

La ridondanza e le stime di covarianza Ridondanza: differenza fra numero di osservazioni e numero di parametri incogniti, detta anche numero di gradi di libertà: R m n stima del 0 : ˆ 0 ˆ ˆ T 1 ε Q ε m n

stima della matrice di covarianza dei parametri: C N ; 1 xx ˆˆ ˆ 0 stima della matrice di covarianza delle osservabili: T C ˆ AN A ; 1 yy ˆˆ 0 stima della matrice di covarianza degli scarti T C ˆ ( QAN A ) 1 εε ˆˆ 0

Gli errori di modello Possono essere su tutto il modello ma tipicamente sono su singole osservazioni: comportano stime errate dei parametri incogniti. Esistono algoritmi per: verificare a posteriori la correttezza globale dei modelli adottati (test del modello globale); identificare eventuali errori di modello su singole osservazioni (identificazione degli outlier e data snooping); identificare l affidabilità dei risultati di una compensazione.

La verifica statistica di ipotesi E' un operazione che consente di stabilire se, statisticamente, ovvero con una certa probabilità di errore, valga una certa ipotesi H. 0 Si costruisce una statistica campionaria che, sotto l ipotesi H 0, debba seguire una distribuzione nota; che viceversa, qualora H 0 sia sbagliata, vada ad assumere valori grandi, ovvero non accettabili statisticamente; si confronta quindi la statistica campionaria con i valori limite ammessi dalla sua distribuzione teorica.

La verifica di ipotesi per i dati e le reti geodetiche Nell elaborazione dei dati grezzi (ad esempio le osservazioni GPS) e nella compensazione di reti geodetiche tipicamente vi sono outlier dovuti: 1. all approssimata conoscenza del modello stocastico delle osservazioni (vengono ipotizzate più accurate e meno correlate di quanto non siano in realtà);. alla presenza di isolati e grossolani errori di modello deterministico (termini di disturbo di entità significativa e non modellizzabili multipath per il GPS, errori grossolani di stazionamento, ).

Prima si verifica la correttezza del modello globale, poi si individuano eventuali outlier, infine si corregge il modello stocastico.

La verifica in generale H : y Ax, x 0 Ha : y A A x R{ A A } R{ A}, dim R { A A } mb Si possono costruire le seguenti grandezze T 1 T 1 T 1 λ AQ ( IAAA ( ) AQ ) y 0 T 1 T 1 T 1 Qλλ A Q ( IA( A A) A Q ) A T T 1 λ Qλ, b xq x 0

Sotto H 0 λ λ b E 1, F b,, 0b 0b b sotto H a λ E F b λ b 1,,, b 0b b 0b

Esecuzione del test Scelgo la significatività del test; fisso F lim tale che λ P F H 0b lim 0 Se λ 0 b F lim rigetto H 0 La significatività del test è la probabilità di sbagliare rigettando H0.

Visione speculare λ P F lim H a 1 0b, significatività del test, rischio di sbagliare rigettando H 0 ;, potenza, rischio di sbagliare accettando H 0. La potenza di un test è funzione dell errore che vorrei evidenziare nel test!

Il test del o test globale sul modello Ipotesi fondamentale H y Ax. 0 : Ipotesi alternativa x Ha : y A A x m R { A A } R con Se H 0 è vera T 1 ε Q ε ( mn) λ ~ ( mn) ( mn) mn 0 0

Statistica di test: ˆ 0 ( mn) sp 0 sia il livello di significatività del test; sia lim mn( ) il valore teorico tale che P(0 ) 1 mn lim se se H 0 viene accettata; sp lim H 0 viene rigettata: sono presenti errori di modello. sp lim

Esempio Sia stata effettuata una compensazione di 10 osservazioni in incognite; a fronte di un 0 1cm dichiarato a priori si sia ottenuto un ˆ.375cm. 0 Sia fissato 5% : 1 95% 0.95; dai dati precedenti si ricava ( m n) 8; il (0.05) 15.5 lim 8 ˆ.375 sp ( mn) 8 19 15.5 1 0 0

Il test non è superato: quindi vi è, a un livello di probabilità del 95%, un errore di modello. Se si fosse fissato 1%, si sarebbe ottenuto (0.01) 0.1 lim 8 sp ovvero vi sono errori di modello a livello di significatività 5%, ma non a livello di significatività 1%.

Il test locale sulla singola osservazione Serve per identificare errori di modello deterministico su una singola osservazione y : i O Ipotesi fondamentale H0 : y Ax. Ipotesi alternativa: x H a : y A ei, i 0 e i... 1 0... 0 T ovvero un singolo errore su una singola osservazione.

Sotto H 0 λ 0 b ~ (1) λ 0 b zsp ~ N [0,1] Z Se si adotta la semplificazione di Q diagonale la precedente diviene semplicemente ˆ i zsp ~ Z i (test sui residui normalizzati)

Se H 0 è vera: zsp ~ N[0,1] si confronta z sp con i valori limite della normale standardizzata; Quindi, definito z lim il valore teorico tale che P(0 z z ) 1 lim, lim P( z z ) se z zlim H0 viene accettata; se z zlim H 0 viene rigettata.

Affidabilità dei test Q ii i Sotto H a zsp ~ N [,1] 0 Per effettuare il test ho fissato un valore z lim : dato i, ovvero l errore che vorrei evidenziare, è numericamente possibile calcolare z lim Q N ii i [,1] 1 0 ovvero la potenza del test rispetto all errore i.

Si decide il valore di : si determina z lim si decide il valore : si trova i z lim Q ii i tale che N [,1] 1. (calcolo numerico complesso) 0

Quale è il massimo errore nascosto, ovvero non rilevabile con potenza, nell osservazione i-esima? Qii i f (, ) quindi f(, ) f(, ) i 0 0 0 T 1 1 T 1 Q ii eq i ( I AN AQ ) ei Nuovamente con la semplificazione Q diagonale y (, ) i i f T 1 T e ( I AN A ) e i i

Si ricorda che 1 T ( ) I AN A P A definiamo la ridondanza locale dell osservazione i-esima T 1 T e ( IAN A ) e P r i i A ii i si hanno due casi limite r 0: ; r 1: min i i i i Affidabilità interna dell osservazione i-esima: massimo errore nascosto i. Peggior affidabilità interna: max i i

Affidabilità esterna Dato un errore nascosto i nell osservazione i-esima, come influisce sulla stima dei parametri incogniti? δxˆ( ) N A Q e 1 T 1 i i i Si hanno due casi limite r T 0: P 1: e R ( A) N ( A ) i Aii i i tutto l errore si scarica nelle stime delle incognite. r T 1: P 0: e N ( A ) R ( A) i Aii i i l errore non si scarica nelle stime delle incognite.

Affidabilità interna dell osservazione i-esima: massimo errore nascosto i. Peggior affidabilità interna: max i i Affidabilità esterna del parametro x j: xˆ max( xˆ ( )) j j i i Peggior affidabilità esterna: xˆ max( xˆ ) j j

In effetti la non robustezza dei MQ rende complicata l identificazione degli outlier poiché un outlier modifica anche gli scarti delle altre osservazioni; inoltre la presenza di un outlier può influire sulla stima del ˆ 0, che quindi risulta non attendibile. E tipicamente adottato un procedimento iterativo (data snooping). Innanzitutto si verifica l esistenza di osservazioni isolate cui corrispondano scarti inaccettabili rispetto all accuratezza strumentale. Se ve ne sono, vengono eliminate una per una, partendo dalla più grande, ricompensando ogni volta i dati e verificando la convergenza del test sul modello globale.

Se la precedente analisi non evidenzia casi di evidenti outlier si costruiscono i residui (pseudo) normalizzati ˆi ˆi oppure Q ee ii 0 Q ee ii Anziché confrontare i residui normalizzati con un valore limite, si effettua un confronto relativo fra residui (pseudo) normalizzati; se ve ne è uno significativamente più grande degli altri, si elimina l osservazione corrispondente, ricompensando i dati. Si procede iterativamente; verificando la convergenza del test sul modello globale.

Si devono poi controllare le osservazioni eliminate (calcolando i loro scarti) per eliminarle definitivamente o reintrodurle. Qualora il test sul modello globale non venga superato ma non vi siano sospetti outlier (ovvero una situazione con scarti normalizzati omogenei) vi è tipicamente un problema di sottostima generale degli elementi della matrice di covarianza delle osservazioni (sovrastima delle precisioni).

Accuratezza dei parametri stimati Sono stati eseguiti il test globale sul modello e il data snooping con esiti positivi. Si considera ora la stima dei parametri, ˆx e della relativa matrice di 1 covarianza C N. xx ˆˆ ˆ 0 Ci si chiede quale sia la regione di confidenza per il valore vero dei parametri incogniti, ovvero la regione dello spazio n-dimensionale alla quale il vettore x appartiene con livello di probabilità assegnata.

La regione di confidenza per il vettore dei parametri incogniti ad un certo livello di probabilità 1- è data dalla T ( xxˆ) C ( xx ˆ) F ( ) 1 xx ˆˆ n,( mn) ove F ( ) n,( m n) è il valore della distribuzione di Fisher a n,( m n) gradi di libertà, corrispondente alla probabilità 1 ; in genere si scelgono i valori 0.01, 0.05, 0.10, ovvero ( 1 : 0.99, 0.95, 0.90.

Per analizzare la regione di confidenza di ξ: si estrae dal vettore ˆx il sottovettore ˆξ corrispondente ai parametri ξ di interesse; quindi si estrae dalla matrice di covarianza totale C xx ˆˆ la matrice di covarianza del vettore ˆξ, C ˆˆ; sia x1 1 1... 1n x 1... n x, C xx ˆˆ............... xn n1 n... n se ad esempio xi ξ x si ha j C i ij ˆˆ ji j

la regione di confidenza con probabilità 1 per il vettore ξ è data dalla ˆ T ( ξξ) ( C ) ( ξξ ˆ) F ( ) 1 ξξ ˆˆ r,( mn) Ad esempio, nel caso di una compensazione di rete geodetica, tipicamente si vuole conoscere per ogni punto la regione tridimensionale di confidenza delle coordinate [ XP, YP, Z P] del punto stesso. La regione di confidenza in questo caso è data da un ellissoide centrato in [ Xˆ, ˆ, ˆ P YP Z P], i cui parametri (semiassi e relative direzioni) dipendono dalla matrice di covarianza delle stime delle coordinate del punto.

Ellissoide di confidenza in tre dimensioni

Ludovico Biagi Politecnico di Milano, DIIAR ludovico.biagi@polimi.it materiale didattico in varia forma sotto http://geomatica.como.polimi.it