La regressione. 1 Definizioni e relazioni fondamentali. 1.1 Correlazione e regressione

Documenti analoghi
Esercitazioni di statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Quadro riassuntivo di geometria analitica

INDICAZIONI PER LA RICERCA DEGLI ASINTOTI VERTICALI

LA CIRCONFERENZA La circonferenza è il luogo geometrico dei punti equidistanti da un punto C, detto centro.

SISTEMI LINEARI MATRICI E SISTEMI 1

Metodi per la risoluzione di sistemi lineari

Il Teorema di Kakutani

EQUAZIONI DI PRIMO GRADO

EQUAZIONI CON VALORE ASSOLUTO DISEQUAZIONI CON VALORE ASSOLUTO

La relazione tra altezza di precipitazione e durata Per area piccola importa sopra tutto la dipendenza dalla durata.

Generazione di Numeri Casuali- Parte 2

Esercizi sulle affinità - aprile 2009

Derivate delle funzioni di una variabile.

Il test (o i test) del Chi-quadrato ( 2 )

Esercitazioni di Statistica

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

valore di a: verso l alto (ordinate crescenti) se a>0, verso il basso (ordinate decrescenti) se a<0;

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Capitolo 11 Test chi-quadro

Prontuario degli argomenti di Algebra

Problemi di scelta ESEMPI

1 IL LINGUAGGIO MATEMATICO

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

BILANCIO DEI VINCOLI ED ANALISI CINEMATICA

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Concetti principale della lezione precedente

Il metodo delle proporzioni crescenti

Applicazioni lineari e diagonalizzazione. Esercizi svolti

SISTEMI LINEARI. x 2y 2z = 0. Svolgimento. Procediamo con operazioni elementari di riga sulla matrice del primo sistema: R 2 R 2 3R

p k q n k = p n (k) = n 12 = 1 = ,1208. q = 1 2 e si ha: p 12 (8) =

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing

Variabili aleatorie Parte I

UNIVERSITA DEGLI STUDI DI PADOVA DIPARTIMENTO DI INGEGNERIA IDRAULICA, MARITTIMA E GEOTECNICA

SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi

Somma di numeri floating point. Algoritmi di moltiplicazione e divisione per numeri interi

1. La funzione f(x) deve avere uno zero in corrispondenza di x=3

differiticerti.notebook November 25, 2010 nov nov nov Problemi con effetti differiti

Definizione Dati due insiemi A e B, contenuti nel campo reale R, si definisce funzione reale di variabile reale una legge f : A

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

Lezione 4. Sommario. L artimetica binaria: I numeri relativi e frazionari. I numeri relativi I numeri frazionari

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

2. Variabilità mediante il confronto di valori caratteristici della

Analisi della varianza

Riconoscere e formalizzare le dipendenze funzionali

Risoluzione di problemi ingegneristici con Excel

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Calibrazione di modelli matematici

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

GEOMETRIA ANALITICA. (*) ax+by+c=0 con a,b,c numeri reali che è detta equazione generale della retta.

Interpolazione Statistica

Sistemi di equazioni lineari

MISURA DELLA DISTANZA FOCALE DI UNA LENTE CONVERGENTE

Cosa vuol dire misurare l'area di una figura piana a contorno curvilineo?

Il metodo della regressione

Esercizi sulla conversione tra unità di misura

CAPITOLO V. DATABASE: Il modello relazionale

Sistemi di equazioni lineari

4) 8 g di idrogeno reagiscono esattamente con 64 g di ossigeno secondo la seguente reazione:

Statistica Inferenziale

Elementi di matematica finanziaria

METODI DI CONVERSIONE FRA MISURE

Corso di Laurea in Matematica per l Informatica e la Comunicazione Scientifica

Equazioni di I e II grado

L indagine statistica

Esercitazioni di statistica

Come utilizzare i riferimenti assoluti e relativi in Microsoft Excel

PowerDIP Software gestione presenze del personale aziendale. - Guida all inserimento e gestione dei turni di lavoro -

OFFERTA DI LAVORO. p * C = M + w * L

TRIGONOMETRIA E COORDINATE

RIDUZIONE DELLE DISTANZE

Soluzione dei sistemi lineari con metodo grafico classe 2H

GRAFICI DI PROBABILITÀ Prof. Antonio Lanzotti

ANALISI MULTIVARIATA

Il Metodo Scientifico

-RISULTATI DEL MONITORAGGIO DEL SERVIZIO DI CALL CENTER- Dott. Giovanni Goisis

GRIGLIA DI CORREZIONE 2013 Matematica Classe I Scuola secondaria di primo grado FASCICOLO 1

Esame di FONDAMENTI DI AUTOMATICA (9 crediti) SOLUZIONE

1.5 DIVISIONE TRA DUE POLINOMI

Pro memoria per la ripartizione delle spese

Le frazioni algebriche

CONICHE. Esercizi Esercizio 1. Nel piano con riferimento cartesiano ortogonale Oxy sia data la conica C di equazione

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

0.1 Esercizi calcolo combinatorio

1) D0MINIO. Determinare il dominio della funzione f (x) = ln ( x 3 4x 2 3x). Deve essere x 3 4x 2 3x > 0. Ovviamente x 0.

Si dice parabola il luogo geometrico dei punti del piano, equidistanti da un punto fisso, detto fuoco, e da una retta fissa, detta direttrice.

Calcolo di una Regressione lineare semplice con Excel

La codifica. dell informazione

Esercizi svolti sui sistemi lineari

Occupazione e disoccupazione

La Prova Invalsi per la scuola secondaria di 2 grado

Evoluzione del clima in Veneto nell ultimo cinquantennio

EQUAZIONI E DISEQUAZIONI GONIOMETRICHE

UNIVERSITÀ DEGLI STUDI DI TRIESTE

UNIVERSITÀ di ROMA TOR VERGATA

ESERCIZI DEL CORSO DI INFORMATICA

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

ARROTONDANDO FIGURE CON TRIANGOLI EQUILATERI

Transcript:

1 Definizioni e relazioni fondamentali 1.1 Correlazione e regressione Molto spesso le grandezze idrologiche che si possono rappresentare come variabili casuali risultano legate tra loro da relazioni, non funzionali, ma comunque più o meno evidenti. Tra gli afflussi meteorici annui, o tra i deflussi annui, relativi a due bacini idrografici posti l'uno accanto all'altro, per esempio, deve sussistere una qualche sorta di legame statistico, perché molto verosimilmente, data la vicinanza, gli anni più piovosi (o meno piovosi) per un bacino lo sono anche per l'altro, essendo molto estese le aree interessate dai fenomeni atmosferici che determinano il regime pluviometrico. A maggior ragione, un legame deve sussistere tra gli afflussi meteorici annui e i deflussi annui di uno stesso bacino, dato che i deflussi sono causati proprio dagli afflussi meteorici. E gli esempi si possono moltiplicare. Altre grandezze idrologiche rappresentabili come variabili casuali, ma tra loro legate, sono la portata media giornaliera di un certo giorno dell'anno e quella osservata il giorno precedente, il massimo annuale della portata al colmo osservato in una data sezione di un corso d'acqua e quello osservato in una stazione posta a monte, e così via. Caratteristica comune a tutti gli esempi considerati è che il legame tra le due variabili casuali si può esprimere dicendo che la distribuzione di probabilità di una delle due variabili dipende dal particolare valore assunto dall'altra, e che il legame stesso si può quindi rappresentare per mezzo di distribuzioni condizionate. Per semplicità si è fin qui preso in considerazione soltanto il caso di variabili idrologiche tra loro legate a due a due. E` chiaro però che il legame può interessare anche più di due variabili, come accade, per esempio, nel caso dei totali annui di pioggia osservati in più stazioni meteorologiche tra loro abbastanza vicine. Per descrivere i legami esistenti tra due o più variabili casuali si adopera la loro distribuzione congiunta. Lo studio dell'interdipendenza delle variabili casuali considerate si può svolgere in due modi, il primo più generale del secondo. Consideriamo, per semplicità, il caso in cui le variabili casuali sono soltanto due. Innanzi tutto è possibile che si sia interessati a descrivere il legame statistico tra le due variabili considerandole in modo assolutamente paritetico, senza fare distinzioni particolari e senza assegnare una qualche precedenza logica a nessuna delle due. Consideriamo, per esempio, il caso dell'afflusso meteorico relativo a due bacini idrografici tra loro vicini. Il legame tra le due variabili dipende dall'esistenza di una causa comune (l'andamento del tempo sulla regione in cui i due bacini si trovano) e non c'è, in generale, una particolare ragione per seguire un particolare ordine logico nel prenderle in 1

considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo si indica comunemente come studio della correlazione tra le due variabili. Il problema del legame statistico tra due variabili si può però presentare anche in un modo un po' diverso. Consideriamo, per esempio, l'afflusso meteorico annuo e il deflusso annuo relativi a uno stesso bacino idrografico. Anche in questo caso è prevedibile l'esistenza di una relazione tra i valori corrispondenti delle due variabili, e a maggior ragione che in quello considerato nell'esempio precedente, perché si può addirittura ipotizzare a priori l'esistenza di un rapporto di causalità. Tra l'afflusso meteorico e il deflusso non è però possibile stabilire un vero e proprio legame funzionale, perché per uno stesso valore dell'afflusso meteorico si osservano, in anni diversi, valori diversi del deflusso, così che la corrispondenza tra i valori assunti dalle due variabili risulta irregolare e, almeno entro certi limiti, casuale. Sicuramente comunque esiste una sorta di precedenza logica di una delle due variabili rispetto all'altra, che rispecchia il legame fisico di causa ed effetto: ha senso parlare di dipendenza del deflusso dall'afflusso, ma non di dipendenza dell'afflusso dal deflusso. Lo studio della dipendenza statistica di una variabile da un'altra prende il nome di studio della regressione della variabile dipendente (il deflusso) sulla variabile indipendente (l'afflusso). Lo studio della dipendenza statistica di una variabile dall'altra si può fare, nell'ambito di una distribuzione congiunta, ricavando dalla funzione di probabilità della distribuzione congiunta la funzione di probabilità condizionata della variabile dipendente. A proposito della regressione vale la pena di fare alcune osservazioni. In primo luogo, non è necessario che tra la variabile dipendente e quella indipendente esista una qualche forma di legame causale, come nel caso dell'afflusso meteorico e del deflusso. Se le due variabili sono costituite, per esempio, dai totali annui di precipitazione osservati in due stazioni meteorologiche vicine, si può ancora essere particolarmente interessati a considerare la dipendenza di una variabile dall'altra (per esempio perché si vuole stimare l'altezza di precipitazione, incognita, della prima stazione a partire da quella, nota, della seconda), sebbene il legame tra le due non sia propriamente causale, ma costituito dalla dipendenza di entrambe le variabili da una causa comune (la situazione meteorologica, che interessa in generale una regione abbastanza ampia). In secondo luogo, all'interno dello studio della correlazione tra due variabili casuali si possono prendere in considerazione due diverse regressioni: quella della prima variabile sulla seconda e quella della seconda sulla prima. (Naturalmente, non è detto che entrambe rivestano lo stesso interesse, o addirittura che siano entrambe significative nel contesto del problema considerato.) In terzo luogo, infine, osserviamo - ed è questa un'osservazione particolarmente importante - che per lo studio della regressione non è necessario che entrambe le variabili siano casuali. Negli esempi considerati fin qui entrambe le variabili lo sono, ma non è sempre necessariamente così. Tutte le volte che il valore della variabile indipendente può essere liberamente scelto dall'osservatore (come accade negli esperimenti di laboratorio), 2

la casualità rimane confinata al legame tra le due variabili, senza toccare la variabile indipendente, che non ha nulla di casuale. La casualità si può attribuire allora alla sola variabile dipendente, considerandola come una variabile casuale la cui distribuzione di probabilità risulta condizionata dal valore assunto da quella indipendente. Il non doversi necessariamente considerare casuale la variabile indipendente è una caratteristica fondamentale della regressione. Naturalmente i concetti di correlazione e di regressione si estendono immediatamente a più di due variabili. Lo studio della dipendenza statistica di una variabile dipendente da più variabili indipendenti prende il nome di analisi della regressione multipla. 1.2 La regressione e l'errore di regressione Consideriamo un sistema di due variabili casuali x 1 e x 2. Indichiamo con µ(x 1 x 2 ) la media della variabile x 1 condizionata alla variabile x 2, che è espressa dalla relazione + (1) µ(x 1 x 2 ) = x1 p(x 1 x 2 )dx 1. - La media condizionata µ(x 1 x 2 ) è una funzione della variabile x 2, perché a ogni valore della x 2 corrisponde un particolare valore - in generale diverso - di µ(x 1 x 2 ). La curva che rappresenta su un piano cartesiano la funzione rappresentata dalla (1) si chiama curva di regressione della variabile dipendente x 1 sulla variabile indipendente x 2. Osserviamo che, essendo casuale la variabile x 2, anche la media µ(x 1 x 2 ) lo è, in quanto funzione di una variabile casuale. Poiché per ogni valore della x 2 risulta determinato il corrispondente valore della media condizionata µ(x 1 x 2 ), si può associare a ogni coppia di valori x 1 e x 2 quello della nuova variabile (2) z = x 1 - µ(x 1 x 2 ), differenza algebrica tra la variabile casuale x 1 e la sua media condizionata µ(x 1 x 2 ), che prende il nome di errore di regressione. A rigore, l'espressione (2) si dovrebbe scrivere nella forma (2a) z x 2 = x 1 x 2 - µ(x 1 x 2 ), perché sia la distribuzione della variabile dipendente x 1 sia quella dell'errore di regressione z sono in effetti delle distribuzioni condizionate. Per non appesantire in modo 3

x 1 z= x 1 -µ(x 1 x 2 ) µ(x 1 x 2 ) x 2 Fig. 1 Curva di regressione della variabile x 1 sulla variabile x 2 x 1 x 2 Fig. 2 Esempio di campione estratto dalla distribuzione congiunta di due variabili, con distribuzione dell'errore di regressione debolmente variabile nel campo in cui ricadono le osservazioni 4

eccessivo le notazioni, però, qui e nel seguito, conformemente all'uso comune, si adotterà la forma adoperata nell'espressione (2). Sul piano cartesiano (x 2, x 1 ) la variabile z rappresenta la distanza, misurata parallelamente all'asse delle ordinate, tra il punto di coordinate x 2, x 1 e la curva di regressione della x 1 sulla x 2 (fig. 1). Quanto minore è la variabilità della z, cioè quanto più improbabili sono le coppie di valori rappresentate da punti lontani dalla curva di regressione, tanto più stretto è il legame tra la x 1 e la x 2. Quando il legame tra la x 1 e la x 2 diventa funzionale, cioè a ogni valore della x 2 corrisponde un solo valore della x 1, la z assume il valore costante zero. Il discorso si estende immediatamente alla regressione di una variabile dipendente x 1 su più variabili indipendenti x 2, x 3,..., x p. Alla media µ(x 1 x 2 ) della variabile x 1 condizionata al valore assunto dalla variabile x 2 si sostituisce infatti la media µ(x 1 x 2, x 3,..., x p ) della variabile x 1 condizionata ai valori assunti dalle variabili x 2, x 3,..., x p e l'errore di regressione risulta uguale alla differenza (3) z = x 1 - µ(x 1 x 2, x 3,..., x p ). In questo caso naturalmente non si può più parlare di curva di regressione, perché la media condizionata della x 1 non è più funzione di una sola variabile, ma solo di funzione di regressione (che, incidentalmente, rappresenta una superficie quando le variabili indipendenti sono due). L'errore z è una variabile casuale, la cui distribuzione di probabilità (condizionata) dipende, in generale, dai valori assunti dalle variabili indipendenti x 2, x 3,..., x p. E` anche possibile, però, che la distribuzione condizionata di z non dipenda dal valore assunto dalle variabili indipendenti. L'errore z si dice allora omoscedastico (o omoschedastico). In caso contrario si dice eteroscedastico (o eteroschedastico). (Può valere la pena osservare che, mentre nel caso di errore eteroscedastico la notazione z x 2, x 3,..., x p sarebbe, a rigore, più corretta di quella qui adoperata, nel caso di errore omoscedastico la semplice notazione z risulta del tutto corretta, perché la distribuzione condizionata di z coincide sempre con quella marginale.) Il caso di maggiore interesse pratico, perché dà luogo a un'algebra abbastanza semplice, è senz'altro quello di errore omoscedastico. Per la verità nelle applicazioni idrologiche l'errore di regressione è, a rigore, il più delle volte eteroscedastico. Si pensi, per esempio, alla regressione del deflusso annuo in una data sezione di un fiume sul deflusso in una sezione a monte di quella. Il deflusso nella sezione di valle non è esattamente determinato da quello nella sezione di monte, perché la differenza tra i due, che ovviamente corrisponde all'apporto degli affluenti e delle sorgenti del tratto intermedio, ha il carattere di una variabile casuale. E naturalmente è da attendersi che la variabilità dell'apporto degli affluenti e delle sorgenti sia maggiore in un anno piovoso che non in un anno asciutto, perché in un anno asciutto tutti i deflussi 5

assumono valori minori, che quindi necessariamente variano in un campo più ristretto. (In altre parole: se le differenze che si possono osservare tra i deflussi di anni piovosi sono uguali in termini relativi a quelle che si possono osservare tra i deflussi di anni asciutti - e grosso modo ci si può attendere che debba essere così - in termini assoluti debbono essere maggiori negli anni piovosi che non in quelli asciutti.) La differenza di variabilità è però in pratica abbastanza limitata, perché sono limitate le differenze tra anni piovosi e anni asciutti. Si può quindi ragionevolmente assumere che l'errore di regressione sia omoscedastico, anche se in realtà non lo è. Il caso di errore omoscedastico con distribuzione dell'errore di regressione poco variabile nel campo di valori della variabile indipendente che riveste interesse pratico (v. fig. 2) è molto comune nelle applicazioni idrologiche. Dalla formula di definizione dell'errore z discende immediatamente che la sua media condizionata (ai valori assunti dalle variabili indipendenti) è sempre nulla, essendo per definizione l'errore uguale alla differenza tra la variabile dipendente (condizionata) e la sua media (condizionata). Il concetto di regressione è stato introdotto qui con riferimento a un sistema di variabili che sono tutte casuali. In realtà, come è già stato fatto rilevare, non è necessario assumere che le variabili indipendenti siano casuali. Per introdurre il concetto di regressione basta infatti assumere che la x 1 sia una variabile casuale la cui distribuzione varia al variare dei valori assunti dalle variabili x 2, x 3,..., x p, indipendentemente dal fatto che anch'esse siano casuali oppure no. In effetti in molte applicazioni pratiche (per esempio in molti esperimenti) i valori delle variabili indipendenti sono fissati dall'osservatore, nel modo ritenuto più opportuno. 1.3 L'indice di regressione Quando le variabili indipendenti x 2, x 3,..., x p sono variabili casuali, anche la media condizionata µ(x 1 x 2, x 3,..., x p ) deve essere una variabile casuale, in quanto funzione di variabili casuali. Per chiarire meglio il concetto, si può pensare di estrarre dalla distribuzione congiunta delle variabili x 2, x 3,..., x p un campione di N osservazioni (dove quindi ogni osservazione è composta da p elementi), e di far corrispondere a ogni valore osservato della variabile dipendente x 1 il valore della media condizionata µ(x 1 x 2, x 3,..., x p ) individuato dai corrispondenti valori osservati delle p - 1 variabili indipendenti x 2, x 3,..., x p (fig. 3). In questo modo si costruisce un campione di dimensione N che, al tendere di N a infinito, viene a coincidere con la distribuzione congiunta delle due variabili casuali x 1 e µ(x 1 x 2, x 3,..., x p ). In un grafico in cui il valore osservato della variabile dipendente x 1 e quello della media condizionata µ(x 1 x 2, x 3,..., x p ) corrispondente ai valori osservati delle variabili indipendenti sono riportati, rispettivamente, sull'asse delle ascisse e su quello delle 6

y = 5.085LOG(x) + 1.081 x 1 x 1 µ(x 1 x 2 ) x 2 Fig. 3 Curva di regressione della x 1 sulla x 2 µ(x 1 x 2 ) x 1 Fig. 4 Confronto tra i valori osservati di x 1 e i corrispondenti valori della media condizionata µ(x 1 x 2 ) 7

ordinate, i punti che rappresentano un certo insieme di osservazioni risultano disposti intorno a una retta con coefficiente angolare uguale a uno (fig. 4). Naturalmente, i punti si addensano tanto più intorno alla retta, quanto più stretto è il legame tra la variabile dipendente e quelle indipendenti. La strettezza del legame tra le due variabili x 1 e µ(x 1 x 2, x 3,..., x p ), che come si è appena visto è di tipo lineare, è misurata dal coefficiente di correlazione lineare tra le due variabili (sempre positivo), che prende il nome di indice di regressione. L'indice di regressione, che indichiamo con η, risulta legato alla varianza σ 2 (z) dell'errore di regressione (omoscedastico oppure eteroscedastico) e alla varianza σ 2 (x 1 ) della variabile dipendente dalla relazione (4) η 2 = 1 - σ 2 (z) σ. 2 (x 1 ) L'indice di regressione costituisce una misura del legame tra la variabile dipendente da una parte e l'insieme delle variabili indipendenti dall'altra. Se la variabile dipendente non è legata a quelle indipendenti da alcun legame deterministico - vale a dire se la distribuzione della variabile dipendente non è in alcun modo condizionata dai valori assunti da quelle indipendenti - la varianza dell'errore di regressione risulta uguale a quella della variabile dipendente e l'indice di regressione risulta uguale a zero (naturalmente in questo caso appare del tutto superfluo fare uso della nozione di regressione). Se, al contrario, la variabile dipendente è funzione di quelle indipendenti (e quindi il legame è puramente deterministico), la varianza dell'errore di regressione risulta nulla e l'indice di regressione risulta uguale a uno. Se infine - ed è questo il caso che interessa nelle applicazioni - il legame tra la variabile dipendente e quelle indipendenti è solo in parte deterministico (vale a dire, se la variabile dipendente risulta distribuita, al variare dei valori assunti dalle variabili indipendenti, secondo una distribuzione che dipende dai valori assunti da queste variabili), la varianza dell'errore di regressione risulta minore di quella della variabile dipendente e l'indice di regressione (sempre positivo, perché la media condizionata di x 1 mediamente cresce con x 1 ) risulta minore di uno. La differenza tra la varianza delle variabile dipendente (che prende il nome di varianza totale) e quella dell'errore di regressione rappresenta quella parte della varianza totale che è spiegata dall'esistenza del legame deterministico (perché il legame deterministico fa sì che, a parità di errore di regressione, al cambiamento dei valori osservati delle variabili indipendenti corrisponda in generale un cambiamento del valore osservato della variabile dipendente) e prende quindi il nome di varianza spiegata. La varianza dell'errore di regressione invece rappresenta quella parte della varianza totale che non è spiegata dalla regressione, e prende il nome di varianza residua. L'indice di regressione η si può definire anche quando le variabili indipendenti x 2, x 3,..., x p non sono casuali. Si pone però un problema. Quando la media µ(x 1 x 2, x 3,..., x p ) è una variabile casuale (perché lo sono le variabili indipendenti x 2, x 3,..., x p ), la varianza σ 2 (x 1 ) della distribuzione marginale della 8

variabile dipendente si può identificare con la media pesata delle varianze della variabile x 1 condizionate ai diversi valori possibili dell'altra variabile µ(x 1 x 2, x 3,..., x p ), calcolata assumendo come pesi le corrispondenti probabilità di µ(x 1 x 2, x 3,..., x p ). [L'identificazione è immediata se µ(x 1 x 2, x 3,..., x p ) è una variabile discreta.] Quando le variabili indipendenti non sono casuali, la definizione di σ 2 (x 1 ) implica l'assegnazione di un peso a ciascun valore di µ(x 1 x 2, x 3,..., x p ), e quindi a ciascun insieme di valori delle variabili indipendenti x 2, x 3,..., x p. La soluzione più semplice è di attribuire un peso uguale a ciascun insieme. 1.4 La regressione lineare e la regressione lineare multipla Un tipo di regressione particolarmente importante nelle applicazioni è la regressione lineare. Nella regressione lineare la media condizionata della variabile dipendente x 1 è una funzione lineare delle variabili indipendenti x 2, x 3,..., x p. Quando la variabile indipendente è una sola, la media condizionata è rappresentata dalla funzione lineare (5) µ(x 1 x 2 ) = β 1 + β 2 x 2 e di conseguenza la curva di regressione è rappresentata da una retta (v. fig. 3). Quando le variabili indipendenti sono più di una la funzione di regressione è costituita dall'espressione lineare (6) µ(x 1 x 2, x 3,..., x p ) = β 1 + β 2 x 2 + β 3 x 3 +... + β p x p e la regressione prende il nome di regressione lineare multipla. La funzione di regressione è ovviamente individuata dai parametri β 1, β 2,..., β p dell'espressione lineare che fornisce la media µ(x 1 x 2, x 3,..., x p ) della variabile dipendente x 1 condizionata ai valori assunti dalle variabili indipendenti. Il parametro β 1 è il termine noto, β 2, β 3,..., β p sono i coefficienti della regressione lineare. La regressione lineare multipla (di cui la regressione con una sola variabile indipendente costituisce ovviamente un caso particolare) è il tipo di regressione multipla di gran lunga più usato nelle applicazioni. Alla regressione lineare multipla è facile ricondursi, attraverso opportune trasformazioni delle variabili, in molti casi in cui la regressione considerata è di tipo diverso. Un'espressione monomia, per esempio, si trasforma in un'espressione lineare sostituendo alle variabili originarie i loro logaritmi; un'espressione quadratica si trasforma in un'espressione lineare sostituendo al quadrato della variabile indipendente una nuova variabile; e così via. 9

Benché, come si è già più volte avuto modo di dire, le variabili indipendenti di una regressione non debbano necessariamente essere delle variabili casuali, consideriamo qui la regressione lineare multipla della variabile dipendente x 1 sulle variabili indipendenti x 2, x 3,..., x p, facendo l'ipotesi che le variabili indipendenti siano variabili casuali e che l'errore di regressione sia omoscedastico. Per rendere la descrizione più semplice e chiara adottiamo l'ordinaria notazione matriciale, modificando un poco i simboli rispetto a quelli usati sin qui. Introduciamo dunque, indicando per una maggiore semplicità di notazione la media µ(x i ) della variabile x i con il simbolo µ i e la covarianza σ(x i, x j ) delle variabili x i e x j con il simbolo σ ij, il vettore (7) x = x 1 x 2 x p delle p variabili casuali, il vettore (8) m = µ 1 µ 2 µ p delle medie e la matrice (9) S = σ 11 σ 12 σ 1p σ 21 σ 22 σ 2p σ p1 σ p2 σ pp delle covarianze (la cui diagonale principale è costituita dalle varianze, che coincidono con le covarianze di ogni variabile con se stessa). Osserviamo incidentalmente che gli elementi del vettore x si possono sempre assumere disposti, come si è fatto qui, in modo che la variabile dipendente sia la prima delle p variabili. 10

La definizione della funzione di regressione (lineare) e della varianza dell'errore di regressione z si basa su una partizione preliminare del vettore x delle variabili casuali, del vettore m delle medie e della matrice S delle covarianze della distribuzione originaria delle p variabili. Il vettore x si suddivide nello scalare x 1, che coincide con la variabile dipendente, e nel vettore x 2, i cui elementi coincidono con le variabili indipendenti. Alla partizione in due del vettore x corrispondono una partizione in due del vettore m e una partizione in quattro della matrice S. Gli scalari, i vettori e le matrici prodotti dalle partizioni sono i seguenti: (10) x 1, x 2 = (11) µ 1, m 2 = x 2 x 3...... x p µ 2 µ 3...... µ p (12) σ 11, S 12 = [ σ 12 σ 13 σ 1p ], S 21 = σ 21 σ 31 σ p1, S 22 =,, σ 22 σ 23 σ 2p σ 32 σ 33 σ 3p σ p2 σ p3 σ pp. Indichiamo ora con x 1.2 la variabile x 1 condizionata al fatto che siano stati assegnati i valori delle variabili che costituiscono il vettore x 2 e con µ 1.2 e σ 11.2 la media e la varianza di x 1.2. Si può dimostrare che la media condizionata µ 1.2 e la varianza condizionata σ 11.2 sono fornite dalle relazioni (13) µ 1.2 = µ 1 + S 12 S 22-1 (x 2 - m 2 ), (14) σ 11.2 = σ 11 - S 12 S 22-1S 21. 11

Osserviamo che il prodotto matriciale S 12 S 22-1 è un vettore riga. Indicando con b il corrispondente vettore colonna (trasposto del vettore riga) (15) b = β 2 β 3...... β p (ai cui elementi si assegnano qui indici uguali a quelli dei corrispondenti elementi del vettore differenza x 2 - m 2, per cui il vettore riga b T si moltiplica) risulta (16) µ 1.2 = µ 1 + b T (x 2 - m 2 ) = µ 1 - b T m 2 + b T x 2 = β 1 + b T x 2. Ricordiamo ora che, per definizione, la variabile dipendente condizionata ai valori delle variabili indipendenti, che indichiamo qui con x 1.2, è legata all'errore di regressione dall'espressione (17) x 1.2 = µ 1.2 + z, dove µ 1.2 è, per un insieme assegnato di valori di x 2, x 3,..., x p, una costante. E` quindi immediato riconoscere che la varianza condizionata σ 11.2, che appunto esprime la variabilità di x 1 sotto la condizione che i valori delle variabili del vettore x 2 siano tenuti fissi, coincide con la varianza dell'errore di regressione z. L'espressione (14) mostra che la varianza condizionata σ 11.2 non dipende dagli specifici valori assunti dalle variabili indipendenti. Dal momento che σ 11.2 coincide con σ 2 (z), è necessario che sia così, perché l'errore z è per ipotesi omoscedastico. Ricordando l'espressione del vettore b, si può anche riscrivere la (14) nella forma (18) σ 11.2 = σ 11 - b T S T 12 (dove, ricordiamo, S T 12 è un vettore colonna). Dunque la varianza condizionata della variabile dipendente x 1 - che come si è appena visto coincide con la varianza dell'errore di regressione σ 2 (z) - è uguale alla varianza incondizionata di x 1, diminuita di un termine che è la media pesata delle covarianze della variabile dipendente e di ciascuna di quelle indipendenti, calcolata assumendo come pesi i valori dei rispettivi coefficienti di regressione β 2, β 3,..., β p. Nelle applicazioni è comune assumere che la distribuzione dell'errore z sia normale. La conoscenza della media (sempre nulla) e della varianza di z è allora sufficiente per individuarne completamente la distribuzione. 12

1.5 Il coefficiente di correlazione lineare multipla Assumiamo che la regressione della variabile x 1 sulle p - 1 variabili x 2, x 3,..., x p sia lineare, che cioè la media condizionata µ 1.2 della variabile dipendente sia legata ai valori assegnati alle variabili indipendenti dalla relazione lineare (19) µ 1.2 = β 1 + β 2 x 2 + β 3 x 3 +... + β p x p, e che la distribuzione dell'errore di regressione sia omoscedastica. Indicando, al solito, con b T il vettore (20) b T = [ ] β 2 β 3...... β p e con S 12 il vettore (21) S 12 = [ σ 12 σ 13...... σ 1p ], la varianza dell'errore di regressione σ 2 (z) risulta fornita dall'espressione già vista (22) σ 2 (z) = σ 11 - b T S T 12. L'indice di regressione η - che è definito dalla relazione (23) η 2 = 1 - σ2 (z) σ 11 e coincide, come si è visto nel par. 1.3, con il coefficiente di correlazione lineare tra la variabile dipendente x 1.2 e la sua media condizionata µ 1.2 - prende in questo caso il nome di coefficiente di correlazione lineare multipla e comunemente si indica con il simbolo R. Utilizzando l'espressione (22) della varianza σ 2 (z) si ottiene (24) R 2 = bt S T 12 σ 11. Come si verifica immediatamente, la varianza σ 2 (z) si annulla (e quindi l'errore di regressione risulta sempre nullo) solo se R (che è sempre positivo) è uguale a uno, cioè solo se la variabile x 1 coincide sempre con la propria media condizionata µ 1.2 (in altre parole solo se x 1 è funzione lineare delle variabili x 2, x 3,..., x p ). Il coefficiente di correlazione lineare multipla si può definire, per mezzo della (24), anche quando la regressione non è lineare. In questo caso però l'indice di regressione, fornito dalla (23), e il coefficiente di regressione lineare multipla, fornito dalla (24), risultano diversi tra loro - e tanto più diversi, quanto maggiore è lo scostamento della funzione di regressione dalla linearità. 13

2 Stima dei parametri 2.1 Stima del termine noto e dei coefficienti di una regressione lineare Lo studio della regressione lineare multipla, rappresentata dalla relazione (25) µ 1.2 = β 1 + β 2 x 2 + β 3 x 3 +... +β p x p, comporta innanzi tutto la stima dei parametri β 1, β 2,..., β p. Il metodo di stima più largamente diffuso, adottabile indipendentemente dal fatto che le variabili indipendenti siano o non siano delle variabili casuali, è il metodo dei minimi quadrati, che in effetti è praticamente il solo utilizzato per la regressione lineare multipla. Omettendo del tutto la dimostrazione, ci limitiamo qui a riportare i risultati. Adottare il metodo dei minimi quadrati significa imporre che, indicando al solito con x ik il valore osservato della i-esima variabile che corrisponde alla k-esima osservazione del campione, le stime b 1, b 2,..., b p dei coefficienti β 1, β 2,..., β p siano tali da rendere minima la somma dei quadrati degli scarti (26) z k = x 1k - (b 1 + b 2 x 2k + b 3 x 3k +... + b p x pk ). Vale forse la pena di osservare che lo scarto z qui considerato è la differenza - calcolabile per ogni osservazione, a partire dall'intero campione di osservazioni disponibile - tra il valore osservato della variabile dipendente e il valore stimato della sua media condizionata, mentre l'errore di regressione considerato in precedenza è la differenza tra il valore osservato della variabile dipendente e il valore - vero, e in linea di principio non ricavabile dalla conoscenza di un campione, perché relativo all'intera popolazione - della sua media condizionata. Occorre dunque minimizzare la somma dei quadrati degli scarti rappresentati dall'espressione (26). Per risolvere il problema introduciamo il vettore (27) X 1 = [ x 11 x 12...... x 1N ] dei valori osservati della variabile dipendente. Introduciamo inoltre la matrice (28) X 2 = 1 1...... 1 x 21 x 22...... x 2N.............................. x p1 x p2...... x pn 14

che contiene i valori osservati delle variabili indipendenti (con l'aggiunta di una riga iniziale di elementi tutti uguali a uno) e il vettore (29) b = b 1 b 2...... b p delle stime dei coefficienti di regressione lineare. Minimizzando la somma dei quadrati degli scarti si ottiene il sistema di p equazioni lineari (30) X 2 X T 2 b = X 2 XT 1, che si può riscrivere, ponendo (31) C = X 2 X T 2, (32) B = X 2 X T 1, nella forma (33) C b = B. E` utile esplicitare nei singoli elementi costitutivi la matrice C dei coefficienti e il vettore B dei termini noti. Ponendo (34) Σx i = x ik, N k=1 (35) Σx i x j = x ik x jk, N k=1 la matrice C dei coefficienti e il vettore B dei termini noti risultano composti di somme e di somme di prodotti: (36) C = N Σx 2...... Σx p Σx 2 Σx 2 x 2...... Σx 2 x p.............................. Σx p Σx p x 2...... Σx p x p, 15

(37) B = Σx 1 Σx 2 x 1...... Σx p x 1. Vale la pena di fare un'osservazione. Come si è visto nel par. 1.4, il termine noto β 1 e i coefficienti di regressione β 2, β 3,..., β p di una regressione lineare con errore omoscedastico sono legati alle medie e alle covarianze delle variabili indipendenti dalle relazioni (38) β 1 = µ 1 - S 12 S 22-1m 2, (39) b T = S 12 S 22-1. Attraverso le relazioni (38) e (39) si può dunque ricondurre la stima dei parametri β 1, β 2,..., β p a una stima di medie e covarianze. E` interessante osservare che le stime di β 1, β 2,..., β p ottenute risolvendo il sistema (40) C b = B coincidono con quelle che si ricavano dalle equazioni lineari (38) e (39), assumendo come stime della media µ i e della covarianza σ ij la media m(x i ) e la covarianza s(x i, x j ) (non corretta contro la distorsione) del campione. Vale infine la pena di sottolineare che la matrice C e la matrice S 22, che in entrambi i casi stanno alla base del calcolo dei coefficienti di regressione, non hanno le stesse dimensioni: C è una matrice quadrata di dimensione p, mentre S 22 è una matrice quadrata di dimensione p - 1. La riga (la prima) e la colonna (la prima) in più della matrice C da una parte forniscono l'equazione in più necessaria per ricavare il coefficiente b 1 (che con l'altro metodo si ricava con un'equazione a parte) e dall'altra servono a tener conto del fatto che nella matrice C e nel vettore B compaiono delle somme di prodotti, mentre nella matrice S 22 e nel vettore S 12 compaiono delle covarianze. Le stime b 1, b 2,..., b p del termine noto e dei coefficienti di regressione lineare si possono ricavare sempre, anche quando la media condizionata della variabile dipendente non è rappresentata da una funzione lineare delle p - 1 variabili x 2, x 3,..., x p. In questo caso le stime b 1, b 2,..., b p non sono le stime dei parametri dell'espressione della media condizionata: sono le stime dei parametri della relazione lineare assunta ad approssimare la relazione vera, che non è lineare e non si conosce. 16

2.2 Stima della varianza dell'errore di regressione lineare Consideriamo ancora una regressione lineare multipla con errore omoscedastico. La somma dei quadrati degli scarti (41) z k = x 1k - (b 1 + b 2 x 2k + b 3 x 3k +... + b p x pk ) è fornita dall'espressione matriciale (42) S = (X 1 - b T X 2 )(X 1 - b T X 2 ) T che, tenendo conto della (30), si trasforma nell'espressione matriciale (42a) S = X 1 X T 1 - bt X 2 X T 1. Adottando le notazioni già viste, la (42) si riscrive nella forma (43) S = x 1 x 1 - (b 1 x 1 + b 2 x 1 x 2 +... + b p x 1 x p ). Una stima indistorta della varianza dell'errore di regressione σ 2 (z) è fornita dal rapporto (44) s 2 (z) = S N - p. 2.3 Incertezza nella stima del termine noto e dei coefficienti di regressione lineare Molto spesso i valori osservati delle variabili indipendenti non sono casuali, come si è già avuto modo di dire, ma sono fissati dall'osservatore o comunque non scelti a caso. Invece quelli della variabile dipendente presentano sempre una componente casuale, che è la caratteristica fondamentale della regressione. Consideriamo, come si è fatto fin qui, il caso di regressione lineare con errore omoscedastico, e assumiamo che le stime dei parametri si ottengano con il metodo dei minimi quadrati. Le stime b 1, b 2,..., b p del termine noto β 1 e dei coefficienti β 2,..., β p ottenute per lo stesso insieme di valori osservati di x 2, x 3,..., x p variano generalmente da un campione all'altro (perché varia x 1 ), anche se i valori assunti dalle variabili indipendenti restano gli stessi per tutti i campioni, e sono dunque delle variabili casuali, che hanno una propria distribuzione congiunta. (Incidentalmente osserviamo che, se la distribuzione dell'errore z è normale, sono normali anche le distribuzioni delle stime b 1, b 2,..., b p.) 17

Di una stima importano la distorsione e la variabilità. La variabilità di una stima è particolarmente importante, perché è una misura dell'incertezza da cui è gravata, e quindi della sua affidabilità. Per misurare la variabilità della stima b i è naturale fare ricorso al suo scarto quadratico medio σ(b i ). Il confronto tra la media della stima µ(b i ) e lo scarto quadratico medio σ(b i ) deve senza dubbio fornire delle indicazioni utili - anche se non esatte - sulla significatività dell'introduzione della variabile x i (oppure del termine noto) nella regressione. Supponiamo, per esempio, che il coefficiente di regressione β i sia stimato con tale incertezza che lo scarto quadratico medio della stima σ(b i ) risulti uguale o addirittura superiore al suo valor medio µ(b i ) - e supponiamo anche, benché non sia essenziale, che la distribuzione della stima b i sia normale, con media µ(b i ) uguale al valore vero del coefficiente β i. Appare senz'altro evidente che non avrebbe alcun senso, in questo caso, introdurre nella regressione la variabile x i, perché con probabilità troppo grande per poter essere accettata la stima b i non risulterebbe nemmeno di segno concorde con il valore vero β i. Nell'ipotesi di regressione lineare ed errore omoscedastico la distribuzione della generica stima b i ricavata con il metodo dei minimi quadrati per un certo insieme di valori delle variabili indipendenti ha media uguale a β i, e quindi la stima è indistorta. Quanto alla variabilità, si può dimostrare che la matrice delle covarianze delle stime b 1, b 2,..., b p del termine noto β 1 e dei coefficienti di regressione β 2,..., β p ricavate per un certo insieme di valori delle variabili indipendenti è data, sotto la sola condizione che la distribuzione dell'errore di regressione z sia omoscedastica (quindi anche se la regressione non è lineare), dall'espressione (45) V(b) = (X 2 X T 2 )-1 σ 2 (z) = C -1 σ 2 (z). Gli elementi della matrice V(b) che presentano il maggiore interesse sono quelli della diagonale principale, che coincidono con le varianze delle stime b. La varianza della stima b i di un generico parametro β i dipende dunque sia dalla varianza dell'errore di regressione σ 2 (z) sia - attraverso la matrice C -1 - dalla dimensione N del campione adoperato per la stima e dai valori assunti in questo dalle variabili indipendenti. Particolarmente diffuso nelle applicazioni è il caso in cui la variabile indipendente è una sola. Indicando, al solito, con x 1 la variabile dipendente e con x 2 la variabile indipendente, la (45) fornisce per le stime delle varianze del termine noto e del coefficiente di regressione della variabile indipendente le espressioni (45a) V(b 1 ) = 1 N 1 + m2 (x 2 ) s σ 2 (x 2 ) 2 (z), (45b) V(b 2 ) = 1 Ns 2 (x 2 ) σ2 (z), 18

nelle quali N è la dimensione del campione ed m(x 2 ), s 2 (x 2 ) sono la media e la varianza (distorta, perché calcolata dividendo la somma dei quadrati degli scostamenti dalla media per la dimensione N del campione) delle osservazioni che costituiscono il campione della variabile indipendente. Vale la pena di sottolineare che nelle espressioni (45a) e (45b) le grandezze m(x 2 ) ed s 2 (x 2 ) sono da considerarsi semplicemente delle funzioni dei valori osservati della variabile x 2, e non delle stime dei parametri della sua distribuzione, perché x 2 non è necessariamente una variabile casuale. Nelle applicazioni il valore della varianza σ 2 (z) è sconosciuto. E` quindi necessario sostituire nell'espressione (45) a σ 2 (z) la sua stima, fornita dalla formula (44), che dipende anch'essa dal campione, e risulta tanto più variabile, e quindi incerta, quanto maggiori sono le varianze delle stime b 1, b 2,..., b p. Vale la pena di fare un'osservazione. Il sistema lineare (40) si può risolvere anche se in realtà la media condizionata della variabile dipendente non è legata alle variabili indipendenti da una relazione lineare. Le varianze delle stime che costituiscono il vettore b così ottenute sono ancora fornite dalla (45). Il risultato espresso dalla (45) presenta però il maggiore interesse quando la media condizionata della variabile dipendente è effettivamente rappresentata da una funzione lineare delle p - 1 variabili x 2, x 3,..., x p. In questo caso b 1, b 2,..., b p sono stime indistorte del termine noto β 1 e dei coefficienti β 2,..., β p, e lo scarto quadratico medio della stima b i è direttamente legato all'errore che si può commettere nell'individuare l'espressione delle medie condizionate. Quando la distribuzione dell'errore z è normale anche le distribuzioni delle stime b 1, b 2,..., b p sono normali. 2.4 Stima del coefficiente di correlazione lineare multipla Come si è visto nel par. 1.5, il coefficiente di correlazione lineare multipla si può esprimere con la formula -1S T 12 (46) R 2 = bt S T 12= S 12 S 22. σ 11 σ 11 Una stima del coefficiente di correlazione lineare multipla R, che indichiamo con R^, si ottiene dalla (46) assumendo come stime delle varianze e delle covarianze (dalle quali dipendono anche gli elementi del vettore b dei coefficienti di regressione) le varianze e le covarianze del campione (non corrette contro la distorsione). Sempre nel par. 1.5 si è visto che il coefficiente di correlazione lineare multipla si può anche esprimere con la formula (47) R 2 = 1 - σ2 (z) σ 11. 19

Assumendo come stime di σ 2 (z) e di σ 11 quelle non corrette contro la distorsione, e quindi in particolare assumendo come stima di σ 2 (z) l'espressione (48) σ 2 (z) = Σx 1 x 1 - (b 1 Σx 1 + b 2 Σx 1 x 2 +... + b p Σx 1 x p ) N si ottiene ovviamente dalla formula (47) la stessa stima R^ fornita dalla formula (46). Se invece si adoperano le stime di σ 2 (z) e di σ 11 corrette contro la distorsione si ottiene un valore di R^ minore di quello ottenuto nell'altro modo, perché la stima del rapporto σ 2 (z)/σ 11 risulta moltiplicata per il rapporto (N - 1)/(N - p), che è sempre maggiore di uno., 2.5 La regressione nella distribuzione multinormale Quando la distribuzione congiunta della variabile dipendente x 1 e delle variabili indipendenti x 2, x 3,..., x p è multinormale, la regressione è lineare e quindi rappresentata dalla solita espressione (49) µ 1.2 = β 1 + β 2 x 2 + β 3 x 3 +... +β p x p, e la distribuzione dell'errore è omoscedastica. Il termine noto β 1 e i coefficienti β 2, β 3,..., β p risultano dunque espressi dalle stesse formule già viste, valide in generale per una regressione lineare multipla con errore omoscedastico. Per la stima dei parametri si può dunque fare ricorso ai metodi che si adoperano per la regressione lineare multipla. In particolare si può fare ricorso al metodo dei minimi quadrati, oppure - che è lo stesso, come si è visto - si possono sostituire nelle espressioni del termine noto β 1 e dei coefficienti β 2, β 3,..., β p le medie e le covarianze del campione (non corrette contro la distorsione). Vale infine la pena di osservare che quando la distribuzione congiunta delle variabili casuali x 2, x 3,..., x p è multinormale le medie e le covarianze (distorte) del campione coincidono con le stime delle medie e delle covarianze ricavate con il metodo della massima verosimiglianza. 3 Controllo delle ipotesi Anche nell'analisi della regressione si incontra il problema del controllo delle ipotesi. Le ipotesi possono riguardare il valore del coefficiente di regressione di una singola variabile indipendente, oppure la correlazione tra una singola variabile indipendente e quella dipendente, oppure ancora la correlazione tra la variabile dipendente e l'intero insieme delle variabili indipendenti. 20

3.1 Il test della F parziale Quando lo scarto z di una regressione lineare è distribuito normalmente, anche le stime del termine noto e dei coefficienti di regressione lineare, che compongono il vettore b, sono distribuite normalmente, con varianze uguali agli elementi della diagonale principale della matrice (50) V(b) = (X 2 X T 2 )-1 σ 2 (z) = C -1 σ 2 (z). Come stima della varianza σ 2 (z), che nelle applicazioni di solito è a priori incognita, si assume, come si è visto, l'espressione (51) s 2 (z) = S N - p = Σx 1x 1 - (b 1 Σx 1 + b 2 Σx 1 x 2 +... + b p Σx 1 x p ), N - p nella quale i simboli hanno il significato già visto quando si è illustrato il problema della stima dei coefficienti di regressione lineare con il metodo dei minimi quadrati. Come stima s 2 (b i ) della varianza di b i (a sua volta stima del termine noto o del coefficiente di regressione lineare β i della variabile indipendente x i ) si assume dunque l'i-esimo termine della diagonale principale della matrice (52) (X 2 X T 2 )-1 s 2 (z) = C -1 s 2 (z). Ora, nell'ipotesi che l'errore di regressione z sia distribuito normalmente, la grandezza (53) F = (b i - β i) 2 s 2 (b i ) risulta distribuita come una F di Fisher con uno ed N - p gradi di libertà (la quale coincide con un t 2 con N - p gradi di libertà). Questo permette di istituire un test per provare l'ipotesi che il valore del coefficiente di regressione della variabile indipendente x i, per il quale il campione disponibile fornisce la stima b i, sia uguale a un valore β i assegnato. Indicando con F c il valore della F di Fisher con probabilità di superamento uguale al livello di significatività α prescelto, si definisce come intervallo di accettazione quello per cui il valore di F ricavato dal campione soddisfà alla disuguaglianza (54) F F c. Un'applicazione particolare di questo test si ha nel controllo dell'ipotesi di correlazione nulla tra la variabile dipendente x 1 e una qualunque variabile indipendente x i. Anche quando si sa a priori che l'ipotesi di linearità della regressione è corretta, come 21

avviene per esempio quando la distribuzione congiunta è multinormale, rimane infatti il problema di decidere, per ciascuna variabile indipendente, se il valore del corrispondente coefficiente di regressione ricavato dal campione è significativamente diverso da zero oppure no, vale a dire di decidere se la variabile considerata si debba includere nella regressione oppure no. (In pratica la stima b i risulta sempre diversa da zero, anche quando il valore vero β i è nullo, perché l'informazione contenuta nel campione è limitata.) Per provare l'ipotesi che il coefficiente di regressione β i di un'assegnata variabile x i sia nullo (e che quindi la media condizionata della variabile dipendente x 1 non sia in alcun modo influenzata dal valore assunto dalla xi) si può adoperare questo test. Se il valore vero β i è nullo, la grandezza F risulta definita dal rapporto b i 2 (55) F = s 2 (b i ). Indicando con F c il valore della F di Fisher con probabilità di superamento uguale al livello di significatività α prescelto, si può dunque definire come intervallo di accettazione dell'ipotesi di correlazione nulla quello per cui il valore di F (criterio del test) ricavato dal campione soddisfà alla disuguaglianza (56) F F c. Nelle applicazioni pratiche non si dà comunemente il caso di dover confrontare con la stima b i ricavata dal campione un valore del coefficiente di regressione β i assegnato a priori. Comunemente invece interessa controllare l'attendibilità dell'ipotesi (composta) che il valore del coefficiente di regressione sia diverso da zero. Come ipotesi alternativa dell'ipotesi di correlazione non nulla si assume naturalmente quella di correlazione nulla. Ora, la distribuzione del criterio F nel caso in cui l'ipotesi che il valore del coefficiente di regressione sia diverso da zero sia vera non è nota. Un test dell'ipotesi di correlazione non nulla si può comunque istituire, definendo come intervallo di accettazione quello per cui il valore del rapporto b i 2 (57) F = s 2 (b i ) ricavato dal campione supera un valore assegnato F c. La probabilità di superamento che corrisponde a F c nella distribuzione della F di Fisher rappresenta allora la probabilità di accettare l'ipotesi di correlazione non nulla quando è falsa (livello di rischio del test, solitamente indicato con il simbolo β). Il rischio di commettere un errore includendo nella regressione una variabile indipendente x i è dunque misurato dalla probabilità di superamento (nella distribuzione della F di Fisher) del valore del corrispondente rapporto F ricavato dal campione. E` forse opportuno sottolineare che il livello di rischio β è una misura del rischio che si corre per il solo fatto di accettare l'ipotesi che il coefficiente di regressione β i della 22

variabile indipendente considerata sia diverso da zero, non una misura del rischio che si corre accettando la particolare stima b i del coefficiente di regressione ricavata dal campione. 3.2 Il test della F di Fisher per l'ipotesi di correlazione multipla nulla in una distribuzione multinormale Consideriamo un insieme di p variabili casuali x 1, x 2,..., x p, con distribuzione congiunta multinormale, e indichiamo con R^ la stima (ottenuta dalle formule di definizione, senza correggere varianza e covarianza contro la distorsione, come indicato nel par. 2.4), del coefficiente di correlazione multipla che caratterizza la regressione di x 1 sulle altre variabili. Nell'ipotesi che il coefficiente di correlazione lineare sia uguale a zero la grandezza ^ (58) F = R 2 1 - R^ 2 N - p p - 1 è distribuita come una F di Fisher con p - 1 ed N - p gradi di libertà. Tenendo conto di questo si può istituire un test per provare l'ipotesi che il coefficiente di correlazione lineare sia nullo. Poiché il valore della grandezza F (che costituisce il criterio del test) cresce al crescere del valore di R^ calcolato, come regione di rigetto dell'ipotesi di coefficiente di correlazione nullo si sceglie quella definita dalla disuguaglianza (59) F > F c, dove F c è il valore della F di Fisher con probabilità di non superamento uguale al complemento a uno del livello di significatività α prescelto. Può essere utile ricordare che, ponendo (60) Σx i = N x ik k=1 (61) Σx i x j = x ik x jk (62) B = N k=1 Σx 1 Σx 2 x 1...... Σx p x 1 23

e tenendo conto della (47) e della (48) la grandezza F risulta fornita dall'espressione (63) F = bt B - [(Σx 1 ) 2 /N] Σx 1 2 - b T B N - p p - 1. Analogamente a quanto avviene per il test della F parziale, l'ipotesi a cui si è più comunemente interessati è quella che il coefficiente di correlazione lineare multipla sia diverso da zero. In questo caso si assume come regione di accettazione il campo dei valori di F maggiori di F c. La probabilità di superamento che corrisponde a F c nella distribuzione della F di Fisher rappresenta allora la probabilità β di accettare l'ipotesi di correlazione non nulla quando è falsa (livello di rischio del test). Il rischio di commettere un errore ammettendo che il coefficiente di regressione lineare multipla R sia diverso da zero, cioè ammettendo che sia diverso da zero il coefficiente di regressione di almeno una delle variabili indipendenti considerate, è dunque misurato dalla probabilità di superamento (nella distribuzione della F di Fisher) del valore del corrispondente rapporto F ricavato dal campione. Anche in questo caso, come in quello del test della F parziale, è opportuno sottolineare che il livello di rischio β è una misura del rischio che si corre per il solo fatto di accettare l'ipotesi che almeno uno dei coefficienti di regressione delle variabili indipendenti considerate sia diverso da zero, non una misura del rischio che si corre accettando le stime b dei coefficienti di regressione ricavate dal campione. 3.3 Confronto tra valori osservati e valori stimati per mezzo della regressione Nella maggior parte delle applicazioni pratiche lo studio della regressione è finalizzato a individuare una sorta di dipendenza "media" della variabile dipendente da quelle indipendenti, che si assume in qualche modo disturbata dalla presenza dell'errore di regressione. In altre parole, si utilizza la regressione per individuare un legame deterministico, che risulta tanto più stretto, e quindi tanto più attendibile, quanto minore è mediamente l'errore di regressione, e quindi quanto più vicini alle rispettive medie condizionate sono i valori della variabile dipendente. Un modo molto semplice di controllare l'attendibilità del legame individuato attraverso l'analisi della regressione è di confrontare i valori osservati della variabile dipendente con quelli "attesi", o "stimati", che coincidono con le medie condizionate e sono quindi forniti dalla funzione di regressione. Il confronto si può effettuare facendo ricorso all'indice di regressione (par. 1.3), che come si è visto è uguale a uno quando la dipendenza è esclusivamente deterministica, e minore di uno quando è in parte deterministica e in parte casuale. Ma si può anche effettuare in modo visivo e immediato, riportando in un diagramma cartesiano i punti che hanno come ascisse i valori osservati 24